How to improve query efficiency with big table

数据库设计方面

对查询进行优化,应尽量避免全表扫描,首先应考虑在where和order by操作涉及的列上建立索引.
应尽量避免在where子句中对字段进行null值判断,否则将导致引擎放弃使用索引而进行全表扫描,如: slect id from t where numm is null,可以在null上设置默认值为0,确保null列中没有null值,然后使用查询: select id from t where numm = 0.
并不是所有索引对查询都有效,SQL是根据表中数据进行查询优化的,当索隐列有大量数据重复时,查询可能不会去利用索引,如一表中有字段sex,male,female几乎各一半,那么即使在sex字段上添加索引也对查询效率起不了作用.
索引并不是越多越好,索引固然可以提高select效率,但同时也降低了insert和update的效率,因为这两种操作有时会重建索引,索引怎样建索引要慎重考虑,是具体情况而定.一个表的索引数最高不要超过6个.
应尽可能的避免更新索引数据列,因为索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序调整,会耗费相当大的资源.若应用系统需要频繁更新索引数据列,那么需要考虑该字段建索引的必要.
尽量使用数字型字段,若只含数字信息的字段尽量不要设计成字符型,这将会降低查询和连接的性能,并增加存储开销.这是因为引擎在处理查询和连接时,会逐个比较字符串中的字符,而对数字而言只要比较一次就够了.
尽可能的使用varchar/nvarchar代替char/nchar,因为首先边长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些.
尽量使用表变量来代替临时表,如果表包含大量数据,请注意索引非常有限(只有主键索引).
避免频繁创建和删除临时表,以减少系统表资源的消耗.
临时表并不是不可用,适当的使用它们可以使某些例程更有效.例如,当需要重复引用大型表或常用数据中的数据集时.但是对于一次性事件,最好使用导出表.
在新建临时表时,如果一次插入数据量很大,那么可以使用select into代替create table,避免造成大量log,以提高速度.如果数据量不大,为了缓和系统表的资源,应先create table,然后insert.
如果使用到了临时表,在存储过程的最后务必将所有的临时表显式删除,先truncate table,然后drop table,这样可以避免系统表的较长时间锁定.

SQL语句方面

应尽量避免在where子句中使用 != 或 <> 操作符,否则引擎将放弃使用索引而进行全表扫描.
应尽量避免在where子句使用 or 连接条件,否则引擎将放弃使用索引而进行全表扫描.比如: select id from t where num=10 or num =20;可以改为:select id from t where num=10 union all select id form t where num=20;
in 和 not in 也要慎用,否则会导致全表扫描,比如: select id from t where id in (1,2,3)改为select id from t where id between 1 and 3.
下面的查询也将导致全表扫描: select id from t where name like ‘%abc%’.
如果在where子句中使用参数,也会导致全表扫描.因为SQL只有在运行时才会解析局部变量,但优化程序不能讲访问计划的选择推迟到运行时,它必须在编译时进行选择.然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引的输入项.
应尽量在where子句中对字段记性表达式操作,否则引擎将放弃使用索引而进行全表扫描.select id from t where num/2=100 应改为: select id from t where num=100*2.
应尽量在where子句中对字段进行函数操作,否则引擎将放弃使用索引而进行全表扫描. select id from t where substring(name,1,3)=’abc’–name以abc开头的id select id from t where datediff(day,createdate,’2005-11-30′)=0–‘2005-11-30’生成的id 应改为: select id from t where name like ‘abc%’ select id from t where createdate>=’2005-11-30′ and createdate<’2005-12-1′.
不要在where子句中的 = 符号左边进行函数或算术运算或其他表达式运算,否则系统将可能无法正确使用索引.
不要写一些没有意义的查询,如需要生成一个空表结构,select col1,col2 into #t from t where 1=0,这样的代码不会返回任何结果集,然是会消耗系统资源,使用: create table #t(…)
很多时候使用exists代替in是个好选择,select num from a where num in(select num from b),替代为: select num from a where exists(select 1 from b where num=a.num).
任何地方都不要使用select from t, 用具体的字段代替 符号,不要返回用不到的字段.
尽量避免使用游标,因为游标的效率太差,如果游标操作的数据超过一万行,那么就应该考虑改写.
尽量避免向客户端返回大量数据,若数据量过大,应考虑响应需求是否合理.
尽量避免大事务操作,提高系统并发能力.

Java方面

尽可能少的创建对象.
合理摆正系统设计的位置,大量数据操作和少量数据操作一定是分开的,大量数据操作肯定不是ORM框架搞定的.
使用JDBC链接库操作数据.
控制好内存,让数据流起来,而不是全部读到内存再处理,而是边读边处理.
合理利用内存,使用缓存.

如何优化数据库,如何提高数据库性能

硬件调整性能,最有可能影响性能的是磁盘和网络吞吐量,解决办法是扩大虚拟内存,并保证有足够可以扩充的空间.把数据库服务器上不必要的服务关闭,把数据库服务器和主域服务器分开,把SQL数据库服务器的吞吐量调为最大,多余一个核.
调整数据库,若对该表的查询频率比较高,则建立索引,建立索引时,想尽对该表的所有查询操作,按照where选择条件建立索引,尽量为整形键建立为有且只有一个簇集索引.
使用存储过程,建立查询条件索引仅仅是提高速度的前提条件,响应速度的提高还依赖于对索引的使用.因为人们在使用SQL时往往会陷入一个误区,即太关注于所得结果是否正确,特别是对数据量特别大的数据库操作时,是否建立索引对索引的使用好坏对程序的响应速度影响并不大,因此程序员在写程序时就忽略了不同的实现方法之间可能存在的性能差距,这种性能差异在数据量特别大时或是大型复杂的数据环境中,比如联机事务处理OLTP或决策支持系统DSS,表现的尤为明显.在工作实践中发现,不良的SQL往往来自不恰当的索引设计,不充分的连接条件和不优化的where子句.

参考链接