索引失效案例

MySQL中提高性能的一个最有效的方式是对数据表设计合理的索引。索引提供了高效访问数据的方法,并且加快查询的速度,因此索引对查询的速度有着至关重要的影响。

  • 使用索引可以快速地定位表中的某条记录,从而提高数据库查询的速度,提高数据库的性能。
  • 如果查询时没有使用索引,查询语句就会扫描表中的所有记录。在数据量大的情况下,这样查询的速度会很慢。

大多数情况下都(默认)采用B+树来构建索引。只是空间列类型的索引使用R-树,并且MEMORY表还支持hast索引
其实,用不用索引,最终都是优化器说了算。优化器是基于cost开销
(CostBaseOptimizer),它不是基于规则(Rule-BasedOptimizer),也不是基于语义。另外,SQL语句是否使用索引,跟数据库版本、数据量、数据选择度都有关系。

全值匹配我最爱

系统中经常出现的SQL语句如下:

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30;

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30 and classId=4;

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30 and classId=4 AND name = 'abcd';

建立索引前执行:

1
SELECT SQL_NO_CACHE * FROM student WHERE age=30 and classId=4 AND name = 'abcd'

建立索引

1
2
3
CREATE INDEX idx_age ON student(age);
CREATE INDEX idx_age_classid ON student(age, classId);
CREATE INDEX idx_age_classid_name ON student(age, classId, name);

建立索引后执行:

1
SELECT SQL_NO_CACHE * FROM student WHERE age=30 and classId=4 AND name = 'abcd'

最佳左前缀法则

在MysQL建立联合索引时会遵守最佳左前缀匹配原则,即最左优先,在检索数据时从联合索引的最左边开始匹配。

如果索引了多列,要遵循最左前缀法则(查询从索引的最左前列开始并且不跳过索引中的列)

栗子1:虽然可以正常使用,但只有部分被使用到

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.`name` = 'abcd';

栗子2:完全没有使用索引

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.`classId` = 1 AND student.`name` = 'abcd';

栗子3:

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE  student.classId=4 AND student.age=30  AND student.`name` = 'abcd';

结论

MysQL可以为多个字段创建索引,一个索引可以包括16个字段。对于多列索引,过滤条件要使用索引必须按照索引建立时的顺序,依次满足,一旦跳过某个字段,索引后面的字段都无法被使用。如果查询条件中没行使用这些字段中第1个字段时,多列(或联合)索引不会被使用。

Alibaba《Java开发手册》 :索引文件具有 B-Tree 的最左前缀匹配特性,如果左边的值未确定,那么无法使用此索引。

主键插入顺序

对于一个使用InnoDB存储引擎的表来说,在没有显式的创建索引时,表中的数据实际上都是存储在聚簇索引的叶子节点的。而记录又是存储在数据页中的,数据页和记录又是按照记录主键值从小到大的顺序进行排列

如果插入的记录的主键值是依次增大的话,那每插满一个数据页就换到下一个数据页继续插,而如果插入的主键值忽大忽小的话,就比较麻烦了,假设某个数据页存储的记录已经满了,它存储的主键值在1~100之间

可这个数据页已经满了,再插进来则需要把当前页面分裂成两个页面,把本页中的一些记录移动到新创建的这个页中。

页面分裂和记录移位意味着性能损耗,如果想尽量避免这样的性能损耗,最好让插入的记录的主键值依次递增。所以让主键具有AUTO_INCREMENT,让存储引擎自己为表生成主键,而不是手动插入

计算、函数导致索引失效

栗子1:

索引优化生效

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE 'abc%';

索引优化失效

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) = 'abc'

type为“ALL”,表示没有使用到索引

栗子2:

索引优化生效

1
EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno = 900000;

索引优化失效

1
EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno+1 = 900001;

类型转换导致索引失效

未使用索引

name=123发生类型转换,索引失效

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name=123;

使用索引

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name='123'; 

范围条件右边的列索引失效

范围条件右边列索引是否失效与SELECT语句的字段顺序无关,而是与创建索引的字段顺序有关

应用开发中范围查询,例如:金额查询,日期查询往往都是范围查询。应将查询条件放置where语句最后。创建的联合索引中务必把范围涉及到的字段写在最后

age,classid,name

1
CREATE INDEX idx_age_classid_name ON student(age,classid,name);
1
2
EXPLAIN SELECT SQL_NO_CACHE * FROM student
WHERE student.age=30 AND student.classId>20 AND student.name = 'abc' ;

1
2
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.name =
'abc' AND student.classId>20 ;

age,name,classid

1
CREATE INDEX idx_age_name_classid ON student(age,name,classid);

1
2
EXPLAIN SELECT SQL_NO_CACHE * FROM student
WHERE student.age=30 AND student.classId>20 AND student.name = 'abc' ;

不等于(!= 或者<>)索引失效

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name <> 'abc';

is null可以使用索引,is not null无法使用索引

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NULL;

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NOT NULL;

最好在设计数据表的时候就将字段设置为NOT NULL约束,比如你可以将INT类型的字段,默认值设置为0。将字符类型的默认值设置为空字符串('')
同理,在查询中使用not like也无法使用索引,导致全表扫描。

like以通配符%开头索引失效

在使用LIKE关键字进行查询的查询语句中,如果匹配字符串的第一个字符为%,索引就不会起作用。只有%不在第一个位置,索引才会起作用。

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE name LIKE '%ab';

1
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE 'ab%';

OR 前后存在非索引的列,索引失效

1
2
3
CREATE INDEX idx_age ON student(age);
-- 此时classid未添加索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 10 OR classid = 100;

1
2
3
-- 给classid添加索引
CREATE INDEX idx_cid ON student(classid);
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 10 OR classid = 100;

数据库和表的字符集统一使用utf8mb4

统一使用utf8mb4( 5.5.3版本以上支持)兼容性更好,统一字符集可以避免由于字符集转换产生的乱码。不同的字符集进行比较前需要进行转换会造成索引失效。

小练习

练习

假设,index(a,b,c)

建议

  • 对于单列索引,尽量选择针对当前query过滤性更好的索引
  • 在选择组合索引时,当前query中过滤性最好的字段在索引字段顺序中,位置越靠前越好
  • 在选择组合索引时,尽量选择能够包含当前query中的where子句中更多字段的索引
  • 在选择组合索引时,如果某个字段可能出现范围查询时,尽量把这个字段放在索引次序的最后面

关联查询优化

准备两个表。插入20条数据,然后进行分析

采用左外连接

type 有All

1
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

添加索引优化

1
2
3
-- 【被驱动表】,可以避免全表扫描
ALTER TABLE book ADD INDEX Y (card);
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

可以看到第二行的 type 变为了 ref,rows 也变成了优化比较明显。这是由左连接特性决定的。LEFT JOIN 条件用于确定如何从右表搜索行,左边一定都有,所以 右边是我们的关键点,一定需要建立索引 。

1
2
3
-- 【驱动表】,无法避免全表扫描
ALTER TABLE `type` ADD INDEX X (card);
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

删除索引

1
2
DROP INDEX Y ON book;
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` LEFT JOIN book ON type.card = book.card;

采用内连接

删除上述索引,采用内连接

1
2
3
4
DROP INDEX X ON `type`;
DROP INDEX Y ON book;

EXPLAIN SELECT SQL_NO_CACHE * FROM TYPE INNER JOIN book ON type.card=book.card;

添加索引优化

1
2
ALTER TABLE book ADD INDEX Y ( card);
EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.card=book.card;

1
2
ALTER TABLE type ADD INDEX X (card);
EXPLAIN SELECT SQL_NO_CACHE * FROM type INNER JOIN book ON type.card=book.card;

对于内连接,查询优化器可以决定谁作为驱动表,谁作为被驱动表

删除索引

1
2
DROP INDEX Y ON `book`;
EXPLAIN SELECT SQL_NO_CACHE * FROM `type` INNER JOIN book ON type.card=book.card;

  • 对于内连接,如果表的连接条件中只能有一个字段有索引,则有索引的字段所在表会被作为被驱动表出现

  • 对于内连接,两个表连接条件都存在索引情况下,会选择小表作为驱动表

join语句原理

join方式连接多个表,本质就是各个表之间数据的循环匹配。MySQL 5.5版本之前,MySQL只支持一种表间关联方式,就是嵌套循环(Nested Loop Join)。如果关联表的数据量很大,则join关联的执行时间会非常长。在MySQL 5.5以后的版本中,MySQL通过引入BNLJ算法来优化嵌套执行。

驱动表和被驱动表

驱动表是主表,被驱动表是从表、非驱动表

对于内连接, A表不一定是驱动表,优化器会根据查询语句进行优化,决定先查哪张表,先查询的表就作为驱动表

1
SELECT * FROM A JOIN B ON ...

对于外连接,也不一定

1
2
3
SELECT * FROM A LEFT JOIN B ON ...
-- 或
SELECT * FROM B RIGHT JOIN A ON ...

Simple Nested Loop Join (简单嵌套循环连接)

从表A中取出一条数据1,遍历表B,将匹配到的数据放到result..以此类推,驱动表A中的每一条记录与被驱动表B的记录进行判断:

Index Nested Loop Join (索引嵌套循环连接)

Index Nested-Loop Join主要是为了减少内层表数据的匹配次数,所以要求被驱动表上必须有索引才行。通过外层表匹配条件直接与内层表索引进行匹配,避免和内层表的每条记录去进行比较,这样极大的减少对内层表的匹配次数。

驱动表中的每条记录通过被驱动表的索引进行访问,因为索引查询的成本是比较固定的,故mysql优化器都倾向于使用记录数少的表作为驱动表(外表)

如果被驱动表加索引,效率是非常高的,但如果索引不是主键索引,所以还得进行一次回表查询。相比,被驱动表的索引是主键索引,效率会更高。

BlockNested Loop Join (块嵌套循环连接)

不再是逐条获取驱动表的数据,而是一块一块的获取,引入join buffer缓冲区,将驱动表join相关的部分数据列(大小受join buffer的限制)缓存到join buffer中,然后全表扫描被驱动表,被驱动表的每一条记录一次性和join buffer中的所有驱动表记录进行匹配(内存中操作),将简单嵌套循环中的多次比较合并成一次,降低被驱动表的访问频率。

参数 说明
block_nested_loop 通过show variables like '%optimizer_switch%'查看该参数状态,默认是开启的
join_buffer_size 驱动表能否一次性加载完,取决于join buffer能否存储所有的数据,默认情况该参数为256k

小结

  1. 整体效率:INLJ>BNLJ> SNLG
  2. 永远用小结果集驱动大结果集(本质是减少外层循环数据量),衡量情况是表行数*每行大小
  3. 为被驱动表匹配的条件增加索引(减少内层表的循环匹配次数)
  4. 增加join buffer size大小(一次缓存数据越多,内层表的扫描次数越少)
  5. 减少驱动表不必要的字段按查询(字段越少,join buffer 缓存的数据越多)
  • 保证被驱动表的JOIN字段已经创建了索引
  • 需要JOIN 的字段,数据类型保持绝对一致
  • LEFT JOIN 时,选择小表作为驱动表, 大表作为被驱动表 。减少外层循环的次数
  • INNER JOIN 时,MySQL会自动将 小结果集的表选为驱动表 。选择相信MySQL优化策略
  • 能够直接多表关联的尽量直接关联,不用子查询。(减少查询的趟数)
  • 不建议使用子查询,建议将子查询SQL拆开结合程序多次查询,或使用 JOIN 来代替子查询
  • 衍生表建不了索引

子查询优化

子查询效率不高

  • 执行子查询时,MySQL需要为内层查询语句的查询结果建立一个临时表,然后外层查询语句从临时表中查询记录。查询完毕后,再撤销这些临时表。这样会消耗过多的CPU和IO资源,产生大量的慢查询
  • 子查询的结果集存储的临时表,不论是内存临时表还是磁盘临时表都不会存在索引,所以查询性能会受到一定的影响
  • 对于返回结果集比较大的子查询,其对查询性能的影响也就越大

在MysQL中,可以使用连接(JOIN)查询来替代子查询。连接查询不需要建立临时表,其速度比子查询要快,如果查询中使用索引的话,性能就会更好。

尽量不要使用NOT IN或者NOT EXISTS,用LEFT JOIN xxx ON xx WHERE xx IS NULL替代

排序优化

在 WHERE 条件字段上加索引,但是为什么在 ORDER BY 字段上还要加索引呢?

在MysQL中,支持两种排序方式,分别是 FileSort和Index排序。

  • Index排序中,索引可以保证数据的有序性,不需要再进行排序,效率更高
  • FileSort排序则一般在内存中进行排序,占用CPU较多。如果待排结果较大,会产生临时文件IO到磁盘进行排序的情况,效率较低

优化建议

  • SQL 中,可以在 WHERE 子句和 ORDER BY 子句中使用索引,目的是在 WHERE 子句中 避免全表扫 描 ,在 ORDER BY 子句 避免使用 FileSort 排序 。当然,某些情况下全表扫描,或者 FileSort 排 序不一定比索引慢。但总的来说,我们还是要避免,以提高查询效率
  • 尽量使用 Index 完成 ORDER BY 排序。如果 WHERE 和 ORDER BY 后面是相同的列就使用单索引列; 如果不同就使用联合索引
  • 无法使用 Index 时,需要对 FileSort 方式进行调优
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
INDEX a_b_c(a,b,c)


order by 能使用索引最左前缀
- ORDER BY a
- ORDER BY a,b
- ORDER BY a,b,c
- ORDER BY a DESC,b DESC,c DESC

如果WHERE使用索引的最左前缀定义为常量,则order by 能使用索引
- WHERE a = const ORDER BY b,c
- WHERE a = const AND b = const ORDER BY c
- WHERE a = const ORDER BY b,c
- WHERE a = const AND b > const ORDER BY b,c

不能使用索引进行排序
- ORDER BY a ASC,b DESC,c DESC /* 排序不一致 */
- WHERE g = const ORDER BY b,c /*丢失a索引*/
- WHERE a = const ORDER BY c /*丢失b索引*/
- WHERE a = const ORDER BY a,d /*d不是索引的一部分*/
- WHERE a in (...) ORDER BY b,c /*对于排序来说,多个相等条件也是范围查询*/

filesort算法:双路排序和单路排序

排序的字段若不再索引列上,则filesort有两种算法:双路排序多路排序

双路排序(慢)

  • 两次扫描磁盘,最终得到数据, 读取行指针和 order by列 ,对他们进行排序,然后扫描已经排序好的列表,按照列表中的值重新从列表中读取 对应的数据输出
  • 从磁盘取排序字段,在buffer进行排序,再从磁盘取其他字段

单路排序(快)

从磁盘读取查询需要的 所有列 ,按照order by列在buffer对它们进行排序,然后扫描排序后的列表进行输出, 它的效率更快。并且把随机IO变成了顺序IO,由于它把每一行都保存在内存中, 它会使用更多的空间

存在问题

  • sort_buffer中,单路比多路要多占用很多空间,因为单路是把所有字段都取出,所以有可能取出的数据的总大小超出sort_buffer的容量,导致每次只能取sort_buffer容量大小的数据,进行排序〈创建tmp文件,多路合并)Ⅰ排完再取sort_buffer容量大小,再排……从而多次I/O
  • 单路本来想省一次IO操作,反而导致了大量的IO操作

优化策略

  1. 尝试提高sort_buffer_size

  2. 尝试提高 max_length_for_sort_data

  3. Order By时不要SELECT *,最好SELECT query column

    • 当Query的字段大小总和小于max_length_for_sort_data,而且排序字段不是TEXT|BLOB类型时,会用改进后的算法—单路排序,否则用老算法—多路排序。

    • 两种算法的数据都有可能超出sort_buffer_size的容量,超出之后,会创建tmp文件进行合并排序,导致多次IO

GROUP BY优化

  • group by 使用索引的原则几乎跟order by一致 ,group by 即使没有过滤条件用到索引,也可以直接使用索引
  • group by 先排序再分组,遵照索引建的最佳左前缀法则
  • 当无法使用索引列,增大·max_length_for_sort_data·和 `sort_buffer_size·参数的设置
  • where效率高于having,能写在where限定的条件就不要写在having中
  • 减少使用order by,和业务沟通能不排序就不排序,或将排序放到程序端去做
  • 包含了order by、group by、distinct这些查询的语句,where条件过滤出来的结果集请保持在1000行 以内,否则SQL会很慢

优化分页查询

一般分页查询时,通过创建覆盖索引能够比较好地提高性能。一个常见又非常头疼的问题就是limit 20000000,10,此时需要MysQL排序前2000010记录,仅仅返回2000000 - 2000010的记录,其他记录丢弃,查询排序的代价非常大。

1
EXPLAIN SELECT * FROM student LIMIT 20000000,10;

优化思路1:

在索引上完成排序分页操作,最后根据主键关联回原表查询所需要的其他列内容

1
2
EXPLAIN SELECT * FROM student t,(SELECT id FROM student ORDER BY id LIMIT 2000000,10) a 
WHERE t.id = a.id;

优化思路2:

该方案适用于主键自增的表,可以把Limit 查询转换成某个位置的查询

1
EXPLAIN SELECT * FROM student WHERE id > 2000000 LIMIT 10;

优先考虑覆盖索引

一个索引包含了满足查询结果的数据就叫做覆盖索引。 简单说就是, 索引列+主键 包含 SELECT 到 FROM之间查询的列

  • 避免Innodb表进行索引的二次查询(回表)

    Innodb是以聚集索引的顺序来存储的,对于Innodb来说,二级索引在叶子节点中所保存的是行的主键信息,如果是用二级索引查询数据,在查找到相应的键值后,需通过主键进行二次查询才能获取我们真实所需要的数据。

    在覆盖索引中,二级索引的键值中可以获取所要的数据,避免了对主键的二次查询,减少了IO操作,提升了查询效率。

  • 可以把随机IO变成顺序IO加快查询效率

    由于覆盖索引是按键值的顺序存储的,对于IO密集型的范围查找来说,对比随机从磁盘读取每一行的数据IO要少的多,因此利用覆盖索引在访问时也可以把磁盘的随机读取的IO转变成索引查找的顺序IO

前缀索引

MySQL是支持前缀索引的。如果创建索引的语句不指定前缀长度,那么索引就会包含整个字符串。

1
ALTER TABLE teacher ADD INDEX index1(email);

如果使用的是index1(即email整个字符串的索引结构),执行顺序是这样的:

  1. 从index1索引树找到满足索引值是’zhangssxyz@xxx.com’的这条记录,取得ID2的值
  2. 到主键上查到主键值是ID2的行,判断email的值是正确的,将这行记录加入结果集
  3. 取index1索引树上刚刚查到的位置的下一条记录,发现已经不满足email=’zhangssxyz@xxx.com’的 条件了,循环结束。

    这个过程中,只需要回主键索引取一次数据,所以系统认为只扫描了一行

1
ALTER TABLE teacher ADD INDEX index2(email(6));

如果使用的是index2(即email(6)索引结构),执行顺序是这样的:

  1. 从index2索引树找到满足索引值是’zhangs’的记录,找到的第一个是ID1
  2. 到主键上查到主键值是ID1的行,判断出email的值不是’zhangssxyz@xxx.com’,这行记录丢弃
  3. 取index2上刚刚查到的位置的下一条记录,发现仍然是’zhangs’,取出ID2,再到ID索引上取整行然 后判断,这次值对了,将这行记录加入结果集
  4. 重复上一步,直到在idxe2上取到的值不是’zhangs’时,循环结束

    使用前缀索引,定义好长度,就可以做到既节省空间,又不用额外增加太多的查询成本

索引下推

Index Condition Pushdown是MySQL 5.6中新特性,是一种在存储引擎层使用索引过滤数据的一种优化方式:

  • 如果没有ICP,存储引擎会遍历索引以定位基表中的行,并将它们返回给MySQL服务器,由MySQL服务器评估WHERE后面的条件是否保留行。
  • 启用ICP后,如果部分WHERE条件可以仅使用索引中的列进行筛选,则MySQL服务器会把这部分WHERE条件放到存储引擎筛选。然后,存储引擎通过使用索引条目来筛选数据,并且只有在满足这一条件时才从表中读取行。
    • ICP可以减少存储引擎必须访问基表的次数和MySQL服务器必须访问存储引擎的次数
    • ICP的加速效果取决于在存储引擎内通过ICP筛选掉的数据的比例。

使用前后扫描过程

在不使用ICP索引扫描的过程

  • storage层:只将满足index key条件的索引记录对应的整行记录取出,返回给server层

  • server 层:对返回的数据,使用后面的where条件过滤,直至返回最后一行

使用ICP扫描的过程:

  • storage层:首先将index key条件满足的索引记录区间确定,然后在索引上使用index filter进行过滤。将满足的index filter条件的索引记录才去回表取出整行记录返回server层。不满足index filter条件的索引记录丢弃,不回 表、也不会返回server层

  • server 层:对返回的数据,使用table filter条件做最后的过滤

使用前后成本差别

  • 使用前,存储层多返回了需要被index filter过滤掉的整行记录
  • 使用ICP后,直接就去掉了不满足index filter条件的记录,省去回表和传递到server层的成本
  • ICP的加速效果取决于在存储引擎内通过 ICP筛选掉的数据的比例

ICP 开启与关闭

  • 默认情况下启用索引条件下推。可以通过设置系统变量optimizer_switch控制ndex_condition_pushdown

    1
    2
    3
    4
    5
    -- 打开索引下推
    SET optimizer_switch = 'index_condition_pushdown=off' ;

    -- 关闭索引下推
    SET optimizer_switch = 'index_condition_pushdown=on';
  • 当使用索引条件下推时,EXPLAIN语句输出结果中Extra列内容显示为Using index condition

ICP 使用条件

  • 如果表访问的类型为range、ref、eq_ref和ref_or_null可以使用ICP
  • ICP可以用于InnoDB和MyISAM表,包括分区表InnoDB和MyISAM表
  • 对于InnoDB表,ICP仅用于二级索引。ICP的目标是减少全行读取次数,从而减少I/o操作
  • 当SQL使用覆盖索引时,不支持ICP。因为这种情况下使用ICP不会减少I/O
  • 相关子查询的条件不能使用ICP

普通索引和唯一索引

change buffer

当需要更新一个数据页时,如果数据页在内存中就直接更新,如果数据页没在内存中, 在不影响数据一致性的前提下, InnoDB会将这些更新操作缓存在change buffer中 ,就不需要从磁盘中读入这个数据页

在下次查询需要访问数据页时,将数据页读入内存,然后执行change buffer中与这个页有关的操作。通过这种方式就能保证这个数据逻辑的正确性

change buffer中的操作应用到原数据页,得到最新结果的过程称为merge。除访问这个数据页会触 发merge外,系统有后台线程会定期 merge。在 数据库正常关闭的过程中,也会执行merge 操作。

如果能够将更新操作先记录在change buffer, 减少读磁盘 ,语句的执行速度会得到明显的提升。 数据读入内存是占用 buffer pool 的,这种方式还能够避免占用内存 ,提高内存利用率。

实际上只有普通索引可以使用,唯一索引的更新就不能使用change buffer

change buffer 使用场景

  • 普通索引和唯一索引其实在查询能力上是没差别的,主要考虑的是对更新性能的影响,建议尽量选择普通索引
  • 普通索引 和 change buffer 的配合使用,对于 数据量大 的表的更新优化还是很明显的

  • 如果所有的更新后面都马上 伴随着对这个记录的查询 ,那么应该关闭change buffer。而在其他情况下,change buffer都能提升更新性能

  • 由于唯一索引用不上change buffer的优化机制,如果 业务可以接受 ,从性能角度出发建议优先考虑非唯一索引

如果”业务可能无法确保”的情况下

  • 业务正确性优先 。 前提是“业务代码已经保证不会写入重复数据”的情况下,讨论性能 问题。如果业务不能保证,或者业务就是要求数据库来做约束,那么没得选,必须创建唯一索引
  • 在一些“ 归档库 ”的场景可以考虑使用唯一索引。比如,线上数据只需要保留半年, 然后历史数据保存在归档库。这时归档数据已经是确保没有唯一键冲突了。要提高归档效率, 可以考虑把表里面的唯一索引改成普通索引。

其它查询优化策略

EXISTS 和 IN 的区分

不知道哪种情况下应该使用 EXISTS,哪种情况应该用 IN。选择的标准是看能否使用表的索引吗?

索引是个前提,其实选择与否还是要看表的大小。你可以将选择的标准理解为小表驱动大表。在这种方式下效率是最高的。

1
2
3
SELECT * FROM A WHERE cc IN (SELECT cc FROM B)

SELECT * FROM A WHERE EXISTS(SELECT cc FROM B WHERE B.cc = A.cc)

当A小于B时,用EXISTS。EXISTS的实现逻辑类似

1
2
3
for i in A
for j in B
if j.cc == i.cc then ...

当B小于A时,用IN。IN的实现逻辑类似

1
2
3
for i in B 
for j in A
if j.cc = i.cc then ...

哪个表小就用哪个表来驱动,A表小就用EXISTS,B表小就用IN

COUNT(*)与COUNT(具体字段)效率

MySQL 中统计数据表的行数,可以使用三种方式,使用这三者之间的查询效率是怎样的?

  • SELECT COUNT(*)
  • SELECT COUNT(1)
  • SELECT COUNT(具体字段)

前提:如果要统计的是某个字段的非空数据行数,则另当别论,毕竟比较执行效率的前提是结果一样才可以。

  • COUNT(*)COUNT(1)都是对所有结果进行COUNT,COUNT(*)COUNT(1)本质上并没有区别。如果有WHERE子句,则是对所有符合筛选条件的数据行进行统计;如果没有WHERE子句,则是对数据表的数据行数进行统计

  • 如果是MyISAM存储引擎,统计数据表的行数只需 $O(1)$ 的复杂度,这是因为每张MylSAM的数据表都有一个meta信息存储了row_count值,而一致性则由表级锁来保证。

    如果是InnoDB存储引擎,它支持事务,采用行级锁和MVCC机制,无法像MylSAM一样维护一个row_count变量,需要采用扫描全表,复杂度 $O(N)$,进行循环+计数的方式来完成统计。

  • 在InnoDB引擎中,如果采用COUNT(具体字段)来统计数据行数,要尽量采用二级索引。因为主键采用的索引是聚簇索引,聚簇索引包含的信息多,明显会大于二级索引(非聚簇索引)。对于COUNT(*)COUNT(1)来说,它们不需要查找具体的行,只是统计行数,系统会自动采用占用空间更小的二级索引来进行统计

    如果有多个二级索引,会使用key_len小的二级索引进行扫描。当没有二级索引的时才会采用主键索引来进行统计。

关于SELECT(*)

在表查询中,建议明确字段,不要使用*作为查询的字段列表,推荐使用SELECT <字段列表>查询

  • MySQL 在解析的过程中,会通过 查询数据字典 将*按序转换成所有列名,这会大大的耗费资源间
  • 无法使用覆盖索引

LIMIT 1 对优化的影响

针对的是会扫描全表的 SQL 语句,如果你可以确定结果集只有一条,那么加上LIMIT 1时,当找 到一条结果的时候就不会继续扫描了,这样会加快查询速度。

如果数据表已经对字段建立了唯一索引,那么可以通过索引进行查询,不会全表扫描的话,就不需要加 上LIMIT 1

使用 COMMIT

只要有可能,在程序中尽量多使用 COMMIT,这样程序的性能得到提高

COMMIT 所释放的资源:

  • 回滚段上用于恢复数据的信息
  • 被程序语句获得的锁
  • redo / undo log buffer中的空间
  • 管理上述 3 种资源中的内部花费

主键如何设计的

自增ID的问题

  • 可靠性不高:存在自增ID回溯的问题,最新版本的MySQL 8.0才修复
  • 安全性不高:对外暴露的接口可以非常容易猜测对应的信息。
  • 性能差:自增ID的性能较差,需要在数据库服务器端生成
  • 交互多:业务还需要额外执行一次类似last_insert_id()的函数才能知道刚才插入的自增值,这需要多一次的 网络交互。在海量并发的系统中,多1条SQL,就多一次性能上的开销
  • 局部唯一性:最重要的一点,自增ID是局部唯一,只在当前数据库实例中唯一,而不是全局唯一和在任意服务器间都是唯一的

业务字段做主键

建议尽量不要用跟业务有关的字段做主键。无法预测 在项目的整个生命周期中,哪个业务字段会因为项目的业务需求而有重复,或者重用之类的情况出现。

推荐的主键设计 UUID

非核心业务 :对应表的主键自增ID,如告警、日志、监控等信息

核心业务 :主键设计至少应该是全局唯一且是单调递增。全局唯一保证在各系统之间都是唯一的,单调 递增是希望插入时不影响数据库性能

UUID的特点

  • 全局唯一: 时钟序列是为了避免时钟被回拨导致产生时间重复的可能性。MAC地址用于全局唯一。
  • 占用36字节: UUID根据字符串进行存储,设计时还带有无用”-“字符串
  • 数据无序: 将时间低位放在最前面,而这部分的数据是一直在变化的,并且是无序

UUID = 时间+UUID版本(16字节)- 时钟序列(4字节) - MAC地址(12字节)

改造UUID

  • 若将时间高低位互换,则时间就是单调递增的。MySQL 8.0可以更换时间低位和 时间高位的存储方式,UUID就是有序的
  • 可以通过MySQL8.0提供的uuid_to_bin函数实现上述功能
1
2
SET @uuid = UUID();
SELECT @uuid,uuid_to_bin(@uuid),uuid_to_bin(@uuid,TRUE);