信息和數據的交互是信息時代的特征和產物,隨著電子商務的興起與發展,人們已經認識到信息和數據的重要性,它既是全程工作運轉的記錄累積,也是驅動商業行為的動力之源。正如阿里巴巴、京東等公司的掌門人所夸耀的,目前他們的交易平臺可以在用戶模糊輸入產品信息進行產品搜索時,自動匹配出買家和賣家的精準內容,從而使用戶在數董龐大的產品中找到自己最想要的或相關度最高的產品。這種互聯網技術的應用,正是基于數據挖掘 (Data Mining)技術而實現的。管道泵
1數據挖掘的定義
數據挖掘是指從大量的、不不會的、有噪聲的、隨機的、模糊的數據中提取隱含在其中的、人們事先不知道的但又具有潛在有用信息和知識的過程。隨著信息技術的高速發展,人們積累的數據量急劇增長,動輒以TB(太字節,1TB=1024GB)計。從海量數據中提取有用的知識成為當務之急,數據挖掘就是為順應這種需要應運而生并發展起來的數據處理技術,是數據庫知識發現(Knowledge Discovery in Database)的關鍵步驟。磁力泵
數據挖掘功能一般可以分為兩類:預測和描述。描述性挖掘功能用來描述數據庫中數據的一般特性,而預測性挖掘功能是在現有數據上進行推斷,以進行預測。數據挖掘是從大量數據中抽取知識的過程,鑒于數據本身的性質,那些符合推理和信息論、統計原理、遺傳算法和神經網絡的知識被首先運用到知識發現的算法設計中。化工泵
數據挖掘與傳統意義上的統計學不同。統計學推斷是由假設驅動的,即形成假設并在數據基礎上進行驗證;數據挖掘是由數據驅動的,即自動地從數據中提取模式和假設。數據挖掘的目標是提取可以容易轉換成邏輯規則或可視化表示的定性模型,與傳統的統計學相比,更加以人為本。自吸泵
