數(shù)據(jù)挖掘需要學(xué)什么內(nèi)容

徐克達2022-02-07 13:11:04

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān)，并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)（依靠過去的經(jīng)驗法則）和模式識別等諸多方法來實現(xiàn)上述目標(biāo)。

數(shù)據(jù)挖掘需要學(xué)什么

數(shù)據(jù)挖掘涉及的內(nèi)容比較泛，機器學(xué)習(xí)、數(shù)據(jù)挖掘、人工智能，但實際上這些知識大多是相通的，機器學(xué)習(xí)實戰(zhàn)這本書是我看的啟蒙書里很好的一本了，該有的都有，難度較小，有理論有實踐，可以較快的對各種知識有個大概的了解，但是想要長期在這個行業(yè)發(fā)展，還需要學(xué)習(xí)更多的知識，比如說提到回歸模型，你不僅僅要知道最小二乘法，你還要想到怎么進行數(shù)據(jù)清洗、哪些數(shù)據(jù)需要清洗，怎么規(guī)范數(shù)據(jù)，數(shù)據(jù)是否過多，要不要進行歸約和降維，采用哪種回歸模型，精確度大致要達到什么水平，要不要考慮過擬合和欠擬合，要不要進行交叉驗證，幾折交叉驗證效果好，如果回歸模型不適用，有哪些備選方案等等。

數(shù)據(jù)挖掘步驟

(1)定義問題。在開始知識發(fā)現(xiàn)之前最先的也是最重要的要求就是了解數(shù)據(jù)和業(yè)務(wù)問題。必須要對目標(biāo)有一個清晰明確的定義，即決定到底想干什么。比如，想提高電子信箱的利用率時，想做的可能是“提高用戶使用率”，也可能是“提高一次用戶使用的價值”，要解決這兩個問題而建立的模型幾乎是完全不同的，必須做出決定。

(2)建立數(shù)據(jù)挖掘庫。建立數(shù)據(jù)挖掘庫包括以下幾個步驟：數(shù)據(jù)收集，數(shù)據(jù)描述，選擇，數(shù)據(jù)質(zhì)量評估和數(shù)據(jù)清理，合并與整合，構(gòu)建元數(shù)據(jù)，加載數(shù)據(jù)挖掘庫，維護數(shù)據(jù)挖掘庫。

(3)分析數(shù)據(jù)。分析的目的是找到對預(yù)測輸出影響最大的數(shù)據(jù)字段，和決定是否需要定義導(dǎo)出字段。如果數(shù)據(jù)集包含成百上千的字段，那么瀏覽分析這些數(shù)據(jù)將是一件非常耗時和累人的事情，這時需要選擇一個具有好的界面和功能強大的工具軟件來協(xié)助你完成這些事情。

(4)準(zhǔn)備數(shù)據(jù)。這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作?？梢园汛瞬襟E分為四個部分：選擇變量，選擇記錄，創(chuàng)建新變量，轉(zhuǎn)換變量。

(5)建立模型。建立模型是一個反復(fù)的過程。需要仔細(xì)考察不同的模型以判斷哪個模型對面對的商業(yè)問題最有用。先用一部分?jǐn)?shù)據(jù)建立模型，然后再用剩下的數(shù)據(jù)來測試和驗證這個得到的模型。有時還有第三個數(shù)據(jù)集，稱為驗證集，因為測試集可能受模型的特性的影響，這時需要一個獨立的數(shù)據(jù)集來驗證模型的準(zhǔn)確性。訓(xùn)練和測試數(shù)據(jù)挖掘模型需要把數(shù)據(jù)至少分成兩個部分，一個用于模型訓(xùn)練，另一個用于模型測試。

(6)評價模型。模型建立好之后，必須評價得到的結(jié)果、解釋模型的價值。從測試集中得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義。在實際應(yīng)用中，需要進一步了解錯誤的類型和由此帶來的相關(guān)費用的多少。經(jīng)驗證明，有效的模型并不一定是正確的模型。造成這一點的直接原因就是模型建立中隱含的各種假定，因此，直接在現(xiàn)實世界中測試模型很重要。先在小范圍內(nèi)應(yīng)用，取得測試數(shù)據(jù)，覺得滿意之后再向大范圍推廣。

(7)實施。模型建立并經(jīng)驗證之后，可以有兩種主要的使用方法。第一種是提供給分析人員做參考；另一種是把此模型應(yīng)用到不同的數(shù)據(jù)集上。

了解【大學(xué)專業(yè)課程】更多資訊

數(shù)據(jù)挖掘需要學(xué)什么內(nèi)容

數(shù)據(jù)挖掘需要學(xué)什么

數(shù)據(jù)挖掘步驟

消防工程專業(yè)主要課程是什么

人力資源管理專業(yè)學(xué)習(xí)什么課程

會計專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)主要學(xué)什么內(nèi)容

人力資源專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)學(xué)什么課程

廣告學(xué)專業(yè)主要課程學(xué)什么

會計課程有哪些就業(yè)方向是什么

心理學(xué)專業(yè)課程有哪些就業(yè)前景分析

2022大學(xué)會計課程有哪些就業(yè)方向是什么

室內(nèi)設(shè)計工資一般多少室內(nèi)設(shè)計師前景怎么樣

經(jīng)濟學(xué)中的通脹是什么意思

軟件工程專業(yè)學(xué)什么軟件工程專業(yè)的主干課程有哪些

大學(xué)英語作文常用句型及范文

大學(xué)英語作文萬能句子參考

熱門推薦

消防工程專業(yè)主要課程是什么

人力資源管理專業(yè)學(xué)習(xí)什么課程

會計專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)主要學(xué)什么內(nèi)容

人力資源專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)學(xué)什么課程

最新文章

消防工程專業(yè)主要課程是什么

人力資源管理專業(yè)學(xué)習(xí)什么課程

會計專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)主要學(xué)什么內(nèi)容

考研初試過線就能進復(fù)試嗎

2022年二建報名時間和條件哪天考試

數(shù)據(jù)挖掘需要學(xué)什么內(nèi)容

數(shù)據(jù)挖掘需要學(xué)什么

數(shù)據(jù)挖掘步驟

消防工程專業(yè)主要課程是什么

人力資源管理專業(yè)學(xué)習(xí)什么課程

會計專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)主要學(xué)什么內(nèi)容

人力資源專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)學(xué)什么課程

廣告學(xué)專業(yè)主要課程學(xué)什么

會計課程有哪些 就業(yè)方向是什么

心理學(xué)專業(yè)課程有哪些 就業(yè)前景分析

2022大學(xué)會計課程有哪些 就業(yè)方向是什么

室內(nèi)設(shè)計工資一般多少 室內(nèi)設(shè)計師前景怎么樣

經(jīng)濟學(xué)中的通脹是什么意思

軟件工程專業(yè)學(xué)什么 軟件工程專業(yè)的主干課程有哪些

大學(xué)英語作文常用句型及范文

大學(xué)英語作文萬能句子參考

熱門推薦

消防工程專業(yè)主要課程是什么

人力資源管理專業(yè)學(xué)習(xí)什么課程

會計專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)主要學(xué)什么內(nèi)容

人力資源專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)學(xué)什么課程

最新文章

消防工程專業(yè)主要課程是什么

人力資源管理專業(yè)學(xué)習(xí)什么課程

會計專業(yè)學(xué)哪些課程

網(wǎng)絡(luò)技術(shù)專業(yè)主要學(xué)什么內(nèi)容

考研初試過線就能進復(fù)試嗎

2022年二建報名時間和條件 哪天考試

會計課程有哪些就業(yè)方向是什么

心理學(xué)專業(yè)課程有哪些就業(yè)前景分析

2022大學(xué)會計課程有哪些就業(yè)方向是什么

室內(nèi)設(shè)計工資一般多少室內(nèi)設(shè)計師前景怎么樣

軟件工程專業(yè)學(xué)什么軟件工程專業(yè)的主干課程有哪些

2022年二建報名時間和條件哪天考試