什麼是聚類分析

General 更新 2024年06月06日

  聚類分析指將物理或抽象物件的集合分組為由類似的物件組成的多個類的分析過程。它是一種重要的人類行為。那麼你對聚類分析瞭解多少呢?以下是由小編整理關於的內容,希望大家喜歡!

  聚類分析的介紹

  聚類分析的目標就是在相似的基礎上收集資料來分類。聚類源於很多領域,包括數學,電腦科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述資料,衡量不同資料來源間的相似性,以及把資料來源分類到不同的簇中。

  聚類分析的區別

  聚類與分類的不同在於,聚類所要求劃分的類是未知的。

  聚類是將資料分類到不同的類或者簇這樣的一個過程,所以同一個簇中的物件有很大的相似性,而不同簇間的物件有很大的相異性。

  從統計學的觀點看,聚類分析是通過資料建模簡化資料的一種方法。傳統的統計聚類分析方法包括系統聚類法、分解法、加入法、動態聚類法、有序樣品聚類、有重疊聚類和模糊聚類等。採用k-均值、k-中心點等演算法的聚類分析工具已被加入到許多著名的統計分析軟體包中,如SPSS、SAS等。

  從機器學習的角度講,簇相當於隱藏模式。聚類是搜尋簇的無監督學習過程。與分類不同,無監督學習不依賴預先定義的類或帶類標記的訓練例項,需要由聚類學習演算法自動確定標記,而分類學習的例項或資料物件有類別標記。聚類是觀察式學習,而不是示例式的學習。

  聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本資料出發,自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對於同一組資料進行聚類分析,所得到的聚類數未必一致。

  從實際應用的角度看,聚類分析是資料探勘的主要任務之一。而且聚類能夠作為一個獨立的工具獲得資料的分佈狀況,觀察每一簇資料的特徵,集中對特定的聚簇集合作進一步地分析。聚類分析還可以作為其他演算法***如分類和定性歸納演算法***的預處理步驟。

  聚類分析的主要應用

  商業

  聚類分析被用來發現不同的客戶群,並且通過購買模式刻畫不同的客戶群的特徵。

  聚類分析是細分市場的有效工具,同時也可用於研究消費者行為,尋找新的潛在市場、選擇實驗的市場,並作為多元分析的預處理。

  生物

  聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識

  地理

  聚類能夠幫助在地球中被觀察的資料庫商趨於的相似性

  保險行業

  聚類分析通過一個高的平均消費來鑑定汽車保險單持有者的分組,同時根據住宅型別,價值,地理位置來鑑定一個城市的房產分組

  因特網

  聚類分析被用來在網上進行文件歸類來修復資訊

  電子商務

  聚類分析在電子商務中網站建設資料探勘中也是很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,並分析客戶的共同特徵,可以更好的幫助電子商務的使用者瞭解自己的客戶,向客戶提供更合適的服務。

  聚類分析的主要步驟

  1、 資料預處理,

  2、 為衡量資料點間的相似度定義一個距離函式,

  3、 聚類或分組,

  4、 評估輸出。

  資料預處理包括選擇數量,型別和特徵的標度,它依靠特徵選擇和特徵抽取,特徵選擇選擇重要的特徵,特徵抽取把輸入的特徵轉化為一個新的顯著特徵,它們經常被用來獲取一個合適的特徵集來為避免“維數災”進行聚類,資料預處理還包括將孤立點移出資料,孤立點是不依附於一般資料行為或模型的資料,因此孤立點經常會導致有偏差的聚類結果,因此為了得到正確的聚類,我們必須將它們剔除。

  既然相類似性是定義一個類的基礎,那麼不同資料之間在同一個特徵空間相似度的衡量對於聚類步驟是很重要的,由於特徵型別和特徵標度的多樣性,距離度量必須謹慎,它經常依賴於應用,例如,通常通過定義在特徵空間的距離度量來評估不同物件的相異性,很多距離度都應用在一些不同的領域,一個簡單的距離度量,如Euclidean距離,經常被用作反映不同資料間的相異性,一些有關相似性的度量,例如PMC和SMC,能夠被用來特徵化不同資料的概念相似性,在影象聚類上,子圖影象的誤差更正能夠被用來衡量兩個圖形的相似性。

  將資料物件分到不同的類中是一個很重要的步驟,資料基於不同的方法被分到不同的類中,劃分方法和層次方法是聚類分析的兩個主要方法,劃分方法一般從初始劃分和最優化一個聚類標準開始。Crisp Clustering,它的每一個數據都屬於單獨的類;Fuzzy Clustering,它的每個資料可能在任何一個類中,Crisp Clustering和Fuzzy Clusterin是劃分方法的兩個主要技術,劃分方法聚類是基於某個標準產生一個巢狀的劃分系列,它可以度量不同類之間的相似性或一個類的可分離性用來合併和分裂類,其他的聚類方法還包括基於密度的聚類,基於模型的聚類,基於網格的聚類。

  評估聚類結果的質量是另一個重要的階段,聚類是一個無管理的程式,也沒有客觀的標準來評價聚類結果,它是通過一個類有效索引來評價,一般來說,幾何性質,包括類間的分離和類內部的耦合,一般都用來評價聚類結果的質量,類有效索引在決定類的數目時經常扮演了一個重要角色,類有效索引的最佳值被期望從真實的類數目中獲取,一個通常的決定類數目的方法是選擇一個特定的類有效索引的最佳值,這個索引能否真實的得出類的數目是判斷該索引是否有效的標準,很多已經存在的標準對於相互分離的類資料集合都能得出很好的結果,但是對於複雜的資料集,卻通常行不通,例如,對於交疊類的集合。

聚類分析的應用

決策是什麼意思有什麼優缺點
具象藝術是什麼意思有什麼特點
相關知識
什麼是聚類分析
什麼是動態分析意思與概念
什麼是定性分析意思概念介紹方法與要求
什麼是行業分析行業分析的要點
什麼是因子分析因子分析的應用
什麼是機理分析機理分析的解釋
什麼是資料分析師資料分析師的作用
什麼是方差分析生活中的應用
什麼是系統分析法系統分析法的步驟
英語什麼是代詞分類用法