【转】索引概念、分类-白红宇

【转】索引概念、分类

阅读量：5878 次

发布时间：2019-06-19

本文共 4231 字，大约阅读时间需要 14 分钟。

一、索引的概念

索引就是加快检索表中数据的方法。数据库的索引类似于书籍的索引。在书籍中，索引允许用户不必翻阅完整个书就能迅速地找到所需要的信息。在数据库中，索引也允许数据库程序迅速地找到表中的数据，而不必扫描整个数据库。

二、索引的特点

1.索引可以加快数据库的检索速度

2.索引降低了数据库插入、修改、删除等维护任务的速度

3.索引创建在表上，不能创建在视图上

4.索引既可以直接创建，也可以间接创建

5.可以在优化隐藏中，使用索引

6.使用查询处理器执行SQL语句，在一个表上，一次只能使用一个索引

7.其他

三、索引的优点

1.创建唯一性索引，保证数据库表中每一行数据的唯一性

2.大大加快数据的检索速度，这也是创建索引的最主要的原因

3.加速表和表之间的连接，特别是在实现数据的参考完整性方面特别有意义。

4.在使用分组和排序子句进行数据检索时，同样可以显著减少查询中分组和排序的时间。

5.通过使用索引，可以在查询的过程中使用优化隐藏器，提高系统的性能。

四、索引的缺点

1.创建索引和维护索引要耗费时间，这种时间随着数据量的增加而增加

2.索引需要占物理空间，除了数据表占数据空间之外，每一个索引还要占一定的物理空间，如果要建立聚簇索引，那么需要的空间就会更大

3.当对表中的数据进行增加、删除和修改的时候，索引也要动态的维护，降低了数据的维护速度

五、索引分类

1.直接创建索引和间接创建索引

直接创建索引： CREATE INDEX mycolumn_index ON mytable (myclumn)

间接创建索引：定义主键约束或者唯一性键约束，可以间接创建索引

2.普通索引和唯一性索引

普通索引：

CREATE INDEX mycolumn_index ON mytable (myclumn)

唯一性索引：保证在索引列中的全部数据是唯一的，对聚簇索引和非聚簇索引都可以使用

CREATE UNIQUE COUSTERED INDEX myclumn_cindex ON mytable(mycolumn)

3.单个索引和复合索引

单个索引：即非复合索引

复合索引：又叫组合索引，在索引建立语句中同时包含多个字段名，最多16个字段

CREATE INDEX name_index ON username(firstname,lastname)

4.聚簇索引和非聚簇索引(聚集索引，群集索引)

聚簇索引：物理索引，与基表的物理顺序相同，数据值的顺序总是按照顺序排列

CREATE CLUSTERED INDEX mycolumn_cindex ON mytable(mycolumn) WITH

ALLOW_DUP_ROW(允许有重复记录的聚簇索引)

非聚簇索引：

CREATE UNCLUSTERED INDEX mycolumn_cindex ON mytable(mycolumn)

六、索引的使用

1.当字段数据更新频率较低，查询使用频率较高并且存在大量重复值是建议使用聚簇索引

2.经常同时存取多列，且每列都含有重复值可考虑建立组合索引

3.复合索引的前导列一定好控制好，否则无法起到索引的效果。如果查询时前导列不在查询条件中则该复合索引不会被使用。前导列一定是使用最频繁的列

4.多表操作在被实际执行前，查询优化器会根据连接条件，列出几组可能的连接方案并从中找出系统开销最小的最佳方案。连接条件要充份考虑带有索引的表、行数多的表；内外表的选择可由公式：外层表中的匹配行数*内层表中每一次查找的次数确定，乘积最小为最佳方案

5.where子句中对列的任何操作结果都是在sql运行时逐列计算得到的，因此它不得不进行表搜索，而没有使用该列上面的索引；如果这些结果在查询编译时就能得到，那么就可以被sql优化器优化，使用索引，避免表搜索。

例：

select * from record where substring(card_no,1,4)=’5378’ && select * from record where card_no like ’5378%’

任何对列的操作都将导致表扫描，它包括数据库函数、计算表达式等等，查询时要尽可能将操作移至等号右边

6.where条件中的’in’在逻辑上相当于’or’，所以语法分析器会将in ('0','1')转化为column='0' or column='1'来执行。我们期望它会根据每个or子句分别查找，再将结果相加，这样可以利用column上的索引；但实际上它却采用了"or策略"，即先取出满足每个or子句的行，存入临时数据库的工作表中，再建立唯一索引以去掉重复行，最后从这个临时表中计算结果。因此，实际过程没有利用column上索引，并且完成时间还要受tempdb数据库性能的影响。in、or子句常会使用工作表，使索引失效；如果不产生大量重复值，可以考虑把子句拆开；拆开的子句中应该包含索引

7.要善于使用存储过程，它使sql变得更加灵活和高效

一、理解索引的结构

　　索引在数据库中的作用类似于目录在书籍中的作用，用来提高查找信息的速度。使用索引查找数据，无需对整表进行扫描，可以快速找到所需数据。微软的SQL SERVER提供了两种索引：聚集索引(clustered index，也称聚类索引、簇集索引)和非聚集索引(nonclustered index，也称非聚类索引、非簇集索引)。

　　SQL Server 中数据存储的基本单位是页(Page)。数据库中的数据文件(.mdf 或 .ndf)分配的磁盘空间可以从逻辑上划分成页(从 0 到 n 连续编号)。磁盘 I/O 操作在页级执行。也就是说，SQL Server 每次读取或写入数据的最少数据单位是数据页。

　　下面我们先简单的了解一下索引的体系结构：

　　1. 聚集索引结构

　　在 SQL Server 中，索引是按 B 树结构进行组织的。

　　聚集索引单个分区中的结构:

　　--建立UserAddDate聚集索引

　　CREATE CLUSTERED INDEX [IX_UserAddDate] ON [Net_zSurvey].[ZS_User]

　　(

　　[UserAddDate] ASC

　　)

　　聚集索引(Clustered Index)特点

　　聚集索引的叶节点就是实际的数据页

　　聚集索引中的排序顺序仅仅表示数据页链在逻辑上是有序的。而不是按照顺序物理的存储在磁盘上

　　行的物理位置和行在索引中的位置是相同的

　　每个表只能有一个聚集索引

　　聚集索引的平均大小大约为表大小的5%左右

　　2.非聚集索引结构

　　非聚集索引与聚集索引具有相同的 B 树结构，它们之间的显著差别在于以下两点：

　　1. 基础表的数据行不按非聚集键的顺序排序和存储。

　　2. 非聚集索引的叶层是由索引页而不是由数据页组成。

　　下图示意了单个分区中的非聚集索引结构：

包含列的索引

　　通过将包含列(称为非键列)添加到索引的叶级，可以扩展非聚集索引的功能。键列存储在非聚集索引的所有级别，而非键列仅存储在叶级别。

　　下面举个简单的例子来说明一下聚集索引和非聚集索引的区别：

　　我们有一本汉语字典，可以把它的正文本身看做是一个聚集索引，它是按照汉字拼音的开头字母排序的，不再需要查找其他目录。当遇到不认识的字时，需要结合“部首目录”和“检字表”，先找到目录中的结果，然后再翻到您所需要的页码。通过这种方法查到的目录中字的排序并不是真正的正文的排序方法。把这种看做是一个非聚集索引。

　　另外，请注意每个表只能有一个聚集索引。

　　--建立UserAddDate非聚集索引

　　CREATE NONCLUSTERED INDEX [IX_UserAddDate] ON [Net_zSurvey].[ZS_User]

　　(

　　[UserAddDate] ASC

　　)

　　非聚集索引 (Unclustered Index) 特点

　　非聚集索引的页，不是数据，而是指向数据页的页。

　　若未指定索引类型，则默认为非聚集索引

　　叶节点页的次序和表的物理存储次序不同

　　每个表最多可以有249个非聚集索引

　　在非聚集索引创建之前创建聚集索引(否则会引发索引重建)

　　二、选择建立哪种索引

　　1.何时创建聚集索引更能提高性能

　　Clustered Index会提高大多数table的性能，尤其是当它满足以下条件时：

　　独特, 狭窄, 持续增长的，最好是只向上增加。例如：

　　•Identity

　　•Date, identity

　　•GUID (only when using newsequentialid() function)

　　2.非聚集索引提高性能的方法

　　非聚集索引由于B树的节点不是具体数据页，有时候由于这个原因，会导致非聚集索引甚至不如表遍历来的快。但是，非聚集索引有个特性，如果你要查询的内容，在非聚集索引中以及被覆盖到了，则不需要继续到聚集索引，或者RID(heap结构中的行标识符)中去寻找数据了，这时候就可以很大的提高性能，这就是覆盖面(Covering) 的问题。

　　由于聚集索引叶子节点就是具体数据，所以聚集索引的覆盖率是 100%，通过提高覆盖面来提高性能的问题也就只有非聚集索引(Nonclustered Indexes)才存在。

　　当查询中所有的columns 都包括在index上时，我们说这个 index covers the query. Columns的顺序在此不重要(Select 时候的顺序不重要,但是Index 建立的顺序可得小心了)。

　　在 SQL Server 2005 中，为了提高这种 Covering 带来的好处，甚至可以通过将非键列添加到非聚集索引的叶级别来扩展非聚集索引的功能。

　　补充：只有查询在具有高度选择性的情况下，非聚集索引才有优势。

三、使用聚集索引或非聚集索引的场景 (注：优先级依次为推荐，应，不应)