MySQL索引大解析

1、理解索引本质

索引是一个存储每行数据的磁盘地址的数据结构：提高查询和更新数据库表的速度
全表扫描 and 走索引检索
这个数据结构里面放的健值对（一般key就是咱们添加索引的字段，值就是对应的磁盘地址）

索引类型：

normal：普通的索引，没啥特殊要求
unique：唯一索引，字段的值不能重复
特殊的唯一索引：primary key主键，而且不能为null
full text：文本类型的字段，匹配某个字段like，可以创建全文索引，char，varchar，text
这时候不需要用like了，却而代之：match（content） against（‘关键字’ in natural language mode）
索引到底用哪种数据结构存储呢？BTREE HASH

2、掌握索引底层数据结构

查找：二分查找：每次就把范围缩小了一半
有序数组：查询比较会比较快=<> 更新数据就慢
单链表：更新很快频繁修改的数据查找效率也不够高

BST：Binary Search Tree 二叉查找树二叉树
左子树节点<父节点 —右子树节点>父节点
能实现比较快的插入修改同时支持快速的查询，投影到水平轴就是一个左到右依次变大的线性：查找效率跟树的深度有关：时间复杂度最坏会变成O（n），此时变成一个线性的单链表

然后为了改善这个不足：平衡二叉树（左右子树的深度差不能大于1）
AVL Tree/Balance Binary Search Tree
树上每个点存储：键值数据磁盘地址子节点引用

思考：
这个数据结构是放在磁盘上，会很大不会放到内存
I/O操作，innodb当中最小单位page一页就是16k（16384byte），所以这样浪费大量空间
每个节点如果存储这么少的内容的话，浪费大量空间，访问一次节点，一次磁盘io

1、一个节点上存储更多数据
2、二叉变成多叉，degree路数度：这样树的深度越来越小，从高瘦变成矮胖
多路平衡查找树Balance Tree B树

1、节点（磁盘块）拥有的子树数量称为度degree
每个节点存储的健值对（索引对应行个数）1行就是一个健值对，健值对是N-1的话
度就是N：这个节点下面有的子树个数
2、如何实现一个节点存储多个数据，还保持平衡？
Max Degree=3: 节点的数据数量大于2时候就会开始分裂，合并
建议不要去更新主键索引!

B+树加强版的BTree
节点拥有的子树数量（度degree）等于节点的存储数据量（索引关键字个数）

思考：
在叶子上存储数据！假设一条记录1KB，一个叶子节点存储16条数据，关键字数量16，于是度也是16；
bigint 8byte + 子节点引用指针6byte一个单元14byte
16384/14=1170，1170117016=2千万条数据，树深度3、只需三次IO
另外：相邻叶子节点增加了一个指针，如果是范围查询呢？
避免每次回到父节点重新遍历查询！只需要沿着指针进行查询！
和B树的对比:
1、B树能解决问题的，B+都能解决
2、扫库，扫表能力更强
只需遍历叶子节点，不要遍历整个树节点
3、磁盘读写能力更强
只需3次IO，访问更多关键字
4、排序能力更强
叶子节点有指向下一个相邻叶子节点的指针，范围查询，形成有序链表
5、效率更稳定
IO次数固定3次，数据只放叶子节点，不管查询啥样数据

索引方式： Hash 和 B Tree
hash：O（1），索引字段值得到hashcode，无序的；所以不支持范围插叙，只能根据对应的key获取value
对应字段有重复值，或者产生了hash碰撞，降低查询效率！
innodb里面都是基于B树的索引方式数据结构，准确是用的B+树

3、索引在不同存储引擎的实现方式

常用的存储引擎，myisam和innodb
在数据库安装的根目录下会有跟数据库名对应的文件名，打开文件会发现

3.1 对于myisam有三个文件：

(1) 表名.frm: 存放表结构的，每个表每个存储引擎都会有的
(2) 表名.MYD：D:Data 数据
(3) 表名.MYI：I: Index 索引（主键索引辅助索引）都是在叶子节点上找到对应Data的磁盘地址然后去.MYD文件里面取数据。

3.2 对于InnoDB只有一个文件表名.ibd

（1）主键索引：索引和数据放在一起（数据即索引索引即数据？）主键索引只有一个，父节点存放的键值和子节点引用；数据就放在叶子结点上
聚集索引：在叶子节点上，如果索引的键值顺序（逻辑顺序）跟叶子节点上存储数据的顺序一致。
（2）普通索引（辅助索引）：在叶子节点上存储的是（存储辅助索引键值和主键值）。需要遍历两颗B+树
（3）问题主键索引上才有数据，如果这个表没有指定主键索引只有普通索引怎么办甚至没有索引咋办（数据放哪儿）？
1.primary key = 聚集索引
2.unique key not null ：在没有1的情况下，找到一个不包含空值的唯一索引作为聚集索引
3.啥也没有的话：在InnoDB当中隐藏的为每行数据实现了ROWID作为它的聚集索引
一张表不可能没有聚集索引（InnoDB）

4、索引的创建和使用

问题：是不是把表的所有字段都建立索引那样查询变得很快了？

(1) 列的离散度

离散度公式：count(distinct(column_name)):count(*)<=1 去重以后的行数除以总行数
离散度小意思就是重复度高！查询的时候需要扫描的行数就越多！这时候数据库优化器会放弃使用索引（约等于全表扫描）！有一个阈值。

(2) 联合索引最左匹配

再多个字段上同时建立联合索引！并且字段是有顺序的（按照建立的顺序来匹配不会跳过最左的字段直接匹配查询后面的字段）
alter table user add index comidx_name_phone (name, phone);
(A)explain select * from user where name=’tingting’ and phone=’12345678910’;
可以用到联合索引
(B)explain select * from user where phone=’12345678910’ and name=’tingting’ ;
由于优化器optimizer,会对我们的SQL语句进行优化，会变成跟A等价
( C)explain select * from user where name=’tingting’;
当然可以用到name刚好最左
(D)explain select * from user where phone=’12345678910’;
不能用到联合索引
怎么创建联合索引？
根据业务常用的查询字段
例如idx(a,b,c): 实际上就是建立了 idx(a) and idx(a,b) and idx(a,b,c)三个索引
所以查询条件：b, c,bc,ac这些都不会用到联合索引！

(3) 覆盖索引

什么是回表？
多扫描一颗B+树的过程就叫做回表：会带来额外的性能的消耗
什么是覆盖索引？
在建立了主键以外的辅助索引的时候，刚好这个辅助索引的字段也是我们查询需要的字段，这个时候就不需要去主键的B+树的叶子结点上去数据了，此时就叫覆盖索引！
例如：alter table user add index comidx_name_phone (name, phone);
select name, phone from user where name=’tingting’ and phone=’12345678910’;
select name, phone from user where name=’tingting’;
select name, phone from user where phone=’12345678910’;这是一个特例
在explain之后出现Using index就代表使覆盖索引了
所以这也是一个不要使用select * ，要查询那个就写出来

(4) 创建索引：

在用于where order by join的（on）字段上创建索引
合理创建索引的个数不是越多越好
列的离散度比较高适合建立索引，低的优化器会放弃建立索引
频繁更新的字段不要作为索引或者主键（最好跟业务无关的id建立主键）
建立联合索引，而不是修改单列索引
过长的字段怎么建立索引？建议建立前缀索引（截取一个长度），有一个存储空间和区分度（离散度），把握前缀长度和离散度的关系：
代码用例：
– 计算出完整字符串的选择性(图4)
SELECT COUNT(DISTINCT city)/COUNT(*) FROM city_demo;
– 计算各个前缀的选择性(图5)，然后找出选择性与图4相近的
SELECT
COUNT(DISTINCT LEFT(CITY,3)/COUNT( * )) PREF3,
COUNT(DISTINCT LEFT(CITY,4)/COUNT( * )) PREF4,
COUNT(DISTINCT LEFT(CITY,5)/COUNT( * )) PREF5,
COUNT(DISTINCT LEFT(CITY,6)/COUNT( * )) PREF6,
COUNT(DISTINCT LEFT(CITY,7)/COUNT( * )) PREF7,
FROM city_demo;
—建立前缀索引
ALTER TABLE city_demo ADD INDEX idx_city (city(7)) USING BTREE ;
– 或者这个也行
ALTER TABLE city_demo ADD KEY idx_city (city(7))
– 又或者直接用Navicat可视化操作也行
为什么不建议使用无序的字段（UUID,hashCode, idCard）作为主键索引？这些字段无法排序，存储的时候是乱序的，

5、什么时候用不到索引

1.索引上使用函数（replace/substr/concat/sum count avg）,表达式
不要再索引的字段上做任何逻辑计算
2.字符串不加引号
字符类型的字段你不加单引号会出现隐式的转换而用不到索引
3.like条件前面加上%
字符的比较肯定是从左往右开始匹配的，前面加上%肯定没法比较；
索引下推？Index Condition Pushing Down 特殊情况当存储引擎可以用到！
4.负向查询能用到索引吗？<> != not in
实际上不是这样的！不一定的有时候能用到

这些都是基本的规则到底能不能用到是由optimizer优化器决定的,判断标准
Cost Based Optimizer (CBO)：IO CPU的成本，这样跟很多因素有关
Rule Base Optimizer (RBO): 基于规则的优化器老版本的Oracle

附录1：
Oracle采坑笔记：不能使用now（），数据库名要用双引号括起来，结尾不能使用分号，SQL语句格式一定要正确最好手敲，主键递增另外建立
什么字段标识符无效，都用双引号括起来！
触发器; 另外注意into:new.这里，“：”前后都不要有空格。
详细连接
一定要注意空格不要空格尽量不要有也不要换行！
CREATE sequence police_test_seq increment by 1 start with 1 cache 20;

CREATE or REPLACE TRIGGER police_test_trigger
BEFORE INSERT on “police_test” for each row
BEGIN
select police_test_seq.nextval into:new.“id” from dual;
end;

附录2：
Java8stream学习笔记
默认情况下有序集合迭代器 Stream.sorted生成的流都是有序流，有序流在处理完成之后会回复到原有的顺序，但是unordered()方法可以解除有序流的顺序限制，更好的发挥并行处理的性能优势，例如distinct将保存任意一个唯一元素而不是靠前的一个，limit将保存任意N个元素而不是前N个。

生成流的方法：
a. Collection接口的stream()或parallelStream()方法
b. 静态的Stream.of(),Stream.empty()方法
c. Arrays.stream(array,from,to)
d. 等等
流的使用
list.stream() Arrays.stream() Stream.of(“str”, “str1”, “str2”)
try(Stream lines=Files.lines(Paths.get(“filePath”), Charset.defaultCharset())){}catch(IOException e){}
筛选filter
filter函数接收一个Lambda作为参数筛选出返回的布尔类型是true的类型的元素
例如：List result=list.stream().filter(Person::isStudent).collect(toList);
去重distinct
去掉重复的元素
截取limit
list.stream().limit(3).collect(toList);截取前三个元素也可以是随机的（unordered()）
跳过skip
用法同limit
映射map
list.stream().map(Person::getName) 对流中的每一个元素执行一个函数，也就是执行map里面的Lambda表达式，最后将结果放入一个新的流当中。

本文地址：https://blog.csdn.net/blackxc/article/details/107151361