今天看了一篇关于MySQL的文章,其中一个问题是:有时明明创建了索引,但是执行的时候并没有通过索引呢?下面分析是和SQL优化器相关:
查询优化器 一条SQL语句的查询,可以有不同的执行方案,至于最终选择哪种方案,需要通过优化器进行选择,选择执行成本最低的方案。 在一条单表查询语句真正执行之前,MySQL的查询优化器会找出执行该语句所有可能使用的方案,对比之后找出成本最低的方案。这个成本最低的方案就是所谓的执行计划。 优化过程大致如下: 1、根据搜索条件,找出所有可能使用的索引; 2、计算全表扫描的代价; 3、计算使用不同索引执行查询的代价; 4、对比各种执行方案的代价,找出成本最低的那一个。

看到这里我一脸茫然,难道有时全表扫描要比走索引更高效么?看了这篇文章才解开了心中的疑惑,以下内容出自这篇文章。


伟大的Oracle SQL优化器可以判断出在某些情况下,使用全表扫描比使用索引扫描能更快的得到数据结果。
有没有想过,她是怎么做到的呢?
背后的原理是什么呢?

举一个非常好理解的场景(scenario:通过索引读取表中20%的数据)解释一下这个有趣的概念:

假设一张表含有10万行数据——–100000行
我们要读取其中20%(2万)行数据—-20000行
表中每行数据大小80字节———-80bytes
数据库中的数据块大小8K———-8000bytes

所以有以下结果:
每个数据块包含100行数据———100行(数据库大小 / 每行数据大小)
这张表一共有1000个数据块——–1000块(总记录行数 / 每个数据块包含的数据行数)

上面列出了一系列浅显易懂的数据,我们挖掘一下这些数据后面的故事:

通过索引读取20000行数据 = 约20000个table access by rowid = 需要处理20000个块来执行这个查询
但是,请大家注意:整个表只有1000个块!
所以:如果按照索引读取全部的数据的20%相当于将整张表平均读取了20次!!So,这种情况下直接读取整张表的效率会更高。很幸运,Oracle也是这么想的:)

— The End —


关于全表扫描和索引扫描的区别,详情参考这篇文章:全表扫描和索引扫描的区别
1).对于全表扫描
为实现全表扫描,Oracle读取表中所有的行,并检查每一行是否满足语句的WHERE限制条件一个多块读操作可以使一次I/O能读取多块数据块(db_block_multiblock_read_count参数设定),而不是只读取一个数据块,这极大的减少了I/O总次数,提高了系统的吞吐量,所以利用多块读的方法可以十分高效地实现全表扫描,而且只有在全表扫描的情况下才能使用多块读操作。在这种访问模式下,每个数据块只被读一次。

使用FTS的前提条件:在较大的表上不建议使用全表扫描,除非取出数据的比较多,超过总量的5% — 10%,或你想使用并行查询功能时。

2).索引扫描(Index Scan或index lookup)
我们先通过index查找到数据对应的rowid值(对于非唯一索引可能返回多个rowid值),然后根据rowid直接从表中得到具体的数据,这种查找方式称为索引扫描或索引查找(index lookup)。一个rowid唯一的表示一行数据,该行对应的数据块是通过一次i/o得到的,在此情况下该次i/o只会读取一个数据库块。

在索引中,除了存储每个索引的值外,索引还存储具有此值的行对应的ROWID值。索引扫描可以由2步组成:(1) 扫描索引得到对应的rowid值。 (2) 通过找到的rowid从表中读出具体的数据。每步都是单独的一次I/O,但是对于索引,由于经常使用,绝大多数都已经CACHE到内存中,所以第1步的I/O经常是逻辑I/O,即数据可以从内存中得到。但是对于第2步来说,如果表比较大,则其数据不可能全在内存中,所以其I/O很有可能是物理I/O,这是一个机械操作,相对逻辑I/O来说,是极其费时间的。所以如果多大表进行索引扫描,取出的数据如果大于总量的5% — 10%,使用索引扫描会效率下降很多。

发表评论

电子邮件地址不会被公开。 必填项已用*标注