干貨分享:數(shù)據(jù)分析師應(yīng)掌握的核心技能和思維
大數(shù)據(jù)
發(fā)表時(shí)間:2018/12/5 10:30:40??作者:sjfx??
大數(shù)據(jù)
發(fā)表時(shí)間:2018/12/5 10:30:40??作者:sjfx??
對(duì)于很多剛開(kāi)始學(xué)習(xí)數(shù)據(jù)分析的人來(lái)說(shuō),最常被問(wèn)道的問(wèn)題就是:我感覺(jué)自己掌握了很多數(shù)據(jù)分析技術(shù)啊,但好像又什么也做不了。
拿到一堆數(shù)據(jù),根本不知如何下手,從哪里開(kāi)始分析?
統(tǒng)計(jì)分析、建模一頓騷操作,得出的結(jié)論竟然只是常識(shí)?
簡(jiǎn)單、規(guī)整的數(shù)據(jù)能夠下手,遇到雜亂、多文件數(shù)據(jù)就懵逼?
………
這些問(wèn)題看似簡(jiǎn)單,但是確實(shí)是大部分的人在學(xué)習(xí)過(guò)程中都會(huì)遇到的問(wèn)題。真正去學(xué)習(xí)數(shù)據(jù)分析的人,都會(huì)有這樣的感覺(jué):數(shù)據(jù)分析本身并不困難,難的是真正獲得能夠支撐決策的結(jié)論。
就好像,即便你熟讀Python各種語(yǔ)法,依然不能寫出自己的程序一樣。就是算你有一把鋒利無(wú)比的劍,你不懂得招式方法,不懂馭劍之術(shù),那就是一把廢鐵。
所以真實(shí)的數(shù)據(jù)分析應(yīng)用,應(yīng)該是工具與方法、邏輯、思維的結(jié)合,你僅掌握了工具(而且深入不夠),自然不能得心應(yīng)手。
那么到底應(yīng)該掌握哪些技能,掌握到什么程度,才能夠勝任真正的商業(yè)分析和職位需求呢?我們分別從技術(shù)、方法和業(yè)務(wù)三個(gè)方面來(lái)說(shuō)明。
關(guān)于技術(shù)
技術(shù)應(yīng)該是最能夠直觀感受的層面,請(qǐng)別人推薦書(shū)單、尋求專業(yè)人士的指導(dǎo),搜索系統(tǒng)的教程,幾乎都是去解決技術(shù)層面的問(wèn)題。
通常我們?nèi)ヌ嵘夹g(shù),無(wú)非是找一個(gè)資源,然后開(kāi)始啃。比如要偶然聽(tīng)說(shuō)要學(xué)Python,就哼哧哼哧開(kāi)始數(shù)據(jù)結(jié)構(gòu)、語(yǔ)句、函數(shù)、面向?qū)ο蟆粩?shù)據(jù)庫(kù)要學(xué)習(xí),就找來(lái)《十日精通mySQL》《MongoDB速成指南》……
這樣毫無(wú)目的的學(xué)習(xí),是一件收益極低的事情,且不說(shuō)這樣系統(tǒng)地啃大塊頭,很容易從入門到放棄,即便真正學(xué)習(xí)了一些東西,沒(méi)有真正的輸出,知識(shí)很快就不是你的了。
所以對(duì)于沒(méi)有什么數(shù)據(jù)分析經(jīng)驗(yàn)的人,更建議明確數(shù)據(jù)分析的流程,針對(duì)每個(gè)流程做針對(duì)性的學(xué)習(xí),并在每個(gè)部分做實(shí)際的訓(xùn)練和內(nèi)容輸出。
我們通常把一個(gè)數(shù)據(jù)分析項(xiàng)目的技術(shù)流程分為“數(shù)據(jù)預(yù)處理、統(tǒng)計(jì)分析、探索性分析、預(yù)測(cè)性分析、可視化及報(bào)告”,那么我們就需要針對(duì)每個(gè)流程進(jìn)行針對(duì)性的訓(xùn)練。
01 數(shù)據(jù)預(yù)處理
數(shù)據(jù)清洗雖然是“臟活”,但卻是后續(xù)分析的重要保證。比如企業(yè)用戶的數(shù)據(jù),大量的缺失、異常、錯(cuò)誤,要怎樣將數(shù)據(jù)標(biāo)準(zhǔn)化?
這里面就涉及到數(shù)據(jù)的切片、拼接、過(guò)濾、排序以及基本的索引與運(yùn)算,很多時(shí)候,數(shù)據(jù)清洗能夠幫助我們掌握數(shù)據(jù)分布的基本特征,獲得對(duì)整體數(shù)據(jù)的初步感覺(jué)。
02 統(tǒng)計(jì)分析
基礎(chǔ)統(tǒng)計(jì)分析可以讓我們直觀地對(duì)數(shù)據(jù)進(jìn)行描述,比如基本的統(tǒng)計(jì)量(極值、均值、中位數(shù)、眾數(shù)、方差等),其實(shí)就可以為我們提供基礎(chǔ)的描述性分析結(jié)論。
常見(jiàn)的排行榜、中位數(shù)對(duì)比、平均水平、相關(guān)性、影響因素等等結(jié)果,都可以從基本統(tǒng)計(jì)分析中得出,需要你要掌握基本的科學(xué)計(jì)算工具。
03 探索性分析
相對(duì)于有目的的統(tǒng)計(jì)分析(當(dāng)然統(tǒng)計(jì)也可理解為探索),探索性分析適用于我們對(duì)數(shù)據(jù)中的信息缺乏經(jīng)驗(yàn)的場(chǎng)景。通過(guò)數(shù)據(jù)可視化的方式,對(duì)數(shù)據(jù)進(jìn)行更直觀的展示,很多直接觀察得不到的結(jié)論,通過(guò)圖形卻能夠很好地掌握。
比如數(shù)據(jù)的分布規(guī)律、數(shù)據(jù)的變化趨勢(shì)……這就要求你能夠針對(duì)不同類型的數(shù)據(jù),輸出適合的圖形(常見(jiàn)的條形圖、箱線圖、散點(diǎn)圖、熱力圖、地圖等),從中獲得信息。
04 預(yù)測(cè)性分析
對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè),往往能夠獲得比較有指導(dǎo)意義的結(jié)論。這就要涉及基本的建模知識(shí),像基本的線性回歸、邏輯回歸、決策樹(shù)等模型,一般就可以建立不錯(cuò)的預(yù)測(cè)模型了。
做數(shù)據(jù)預(yù)測(cè)往往能直接提升我們的技術(shù)深度,往往一個(gè)優(yōu)秀的數(shù)據(jù)分析師,也算是初級(jí)的數(shù)據(jù)挖掘工程師了。
關(guān)于方法論
為什么我們要說(shuō)方法論呢?因?yàn)檫@在某種程度上,為我們做具體的數(shù)據(jù)分析項(xiàng)目提供了方向。
很多時(shí)候,我們拿到一個(gè)數(shù)據(jù)集、或者遇到一個(gè)分析問(wèn)題,無(wú)從下手,很大的可能不是技術(shù)不足,而是缺少分析方法。
比如即便是最簡(jiǎn)單的統(tǒng)計(jì)分析,統(tǒng)計(jì)量的理解要非常深刻。哪些字段應(yīng)該求和;哪些字段應(yīng)該取均值;哪些字段應(yīng)該進(jìn)行方差分析;哪些應(yīng)該進(jìn)行頻率統(tǒng)計(jì)……這些都是建立在你對(duì)統(tǒng)計(jì)分析理解的基礎(chǔ)上。而僅僅是這些分析,就足夠得出有價(jià)值的結(jié)論。
而對(duì)于剛上手?jǐn)?shù)據(jù)分析的小白來(lái)說(shuō),探索性分析則是彌補(bǔ)方法論不足的重要方式。所以可視化的技能就顯得尤為重要,有人認(rèn)為可視化是單純做最后的結(jié)論展示的,但事實(shí)上,可視化是進(jìn)行數(shù)據(jù)分析的重要步驟。所以,盡可能多地用圖形去觀看探索數(shù)據(jù)內(nèi)部的規(guī)律,是獲得數(shù)據(jù)中隱藏信息的關(guān)鍵步驟。
這些比較通用的方法,只要你多做幾個(gè)項(xiàng)目,你就會(huì)有一些初步的感覺(jué):哪些統(tǒng)計(jì)信息是有用的,哪些字段的信息是相對(duì)重要的,這就是我們常說(shuō)的數(shù)據(jù)思維。
當(dāng)然涉及到具體的領(lǐng)域,還有一些比較常用的方法論,比如對(duì)比分析(數(shù)據(jù)變化、同比環(huán)比等指標(biāo))、比如用戶增長(zhǎng)的AARRR模型、生命周期模型、漏斗分析法……
當(dāng)然,對(duì)于新手來(lái)說(shuō)更重要的是,去熟悉更多的項(xiàng)目,嘗試更多的實(shí)踐,找到基本的分析感覺(jué)。我們遇到的大多是二維數(shù)據(jù)、時(shí)間序列、網(wǎng)絡(luò)數(shù)據(jù),了解不同數(shù)據(jù)類型的分析方法,就能掌握不同領(lǐng)域的數(shù)據(jù)分析。
經(jīng)過(guò)實(shí)際訓(xùn)練,不用多久,你就會(huì)發(fā)現(xiàn),對(duì)于數(shù)據(jù)分析豁然開(kāi)朗,那么你就真正上道了。
關(guān)于業(yè)務(wù)思維
優(yōu)秀的數(shù)據(jù)分析師一定是對(duì)業(yè)務(wù)非常了解的,這是輸出價(jià)值結(jié)論、做出優(yōu)秀決策的必要條件。在做數(shù)據(jù)分析時(shí)一定切記,對(duì)于你要分析的問(wèn)題,你要有明確的輸出:要得到什么結(jié)論,想弄明白的事情是什么。
很多人一開(kāi)始只學(xué)習(xí)具體的技術(shù),沉迷于炫技,勢(shì)要寫大段的代碼,做炫酷的圖表。當(dāng)然提升技術(shù)深度固然沒(méi)錯(cuò),但很可能實(shí)際在分析思維和能力上的提升并不明顯,也很難輸出有價(jià)值的內(nèi)容。
這是很多人都會(huì)走入的誤區(qū),認(rèn)為努力彌補(bǔ)技術(shù)上的差距,就縮短了數(shù)據(jù)分析能力的差距,但很多時(shí)候,你和專業(yè)分析師差的是提出問(wèn)題、梳理邏輯和解決問(wèn)題的能力。
這種能力就源于對(duì)業(yè)務(wù)知識(shí)的理解。
對(duì)于一個(gè)具體的分析項(xiàng)目,你在拿到數(shù)據(jù)之后,知道具體要去解決什么問(wèn)題?需要根據(jù)分析結(jié)論去做哪些決策?現(xiàn)有的數(shù)據(jù)能夠去解決哪些方面的問(wèn)題?
對(duì)于具體的業(yè)務(wù)來(lái)說(shuō),哪些指標(biāo)是重要的?哪些字段之間通常會(huì)有很強(qiáng)的相關(guān)性?探索哪些數(shù)據(jù)之間的關(guān)系會(huì)大概率獲得有價(jià)值的結(jié)果?
通過(guò)這些問(wèn)題,你就有了一條非常清晰的分析邏輯,分析的先后順序是什么,大概會(huì)得出哪些結(jié)論,甚至最終的報(bào)告如何呈現(xiàn),就都不是問(wèn)題了。
所以,在尋求技術(shù)突破的同時(shí),更建議去找具體的數(shù)據(jù)集,或明確一個(gè)分析目標(biāo),做實(shí)際的分析項(xiàng)目,通過(guò)這種基于問(wèn)題、結(jié)論的思考,獲得數(shù)據(jù)分析的一般方法,這才是你的個(gè)人核心競(jìng)爭(zhēng)力。
當(dāng)然在具體的項(xiàng)目中,遇到技術(shù)上的空缺或不足,有針對(duì)性地彌補(bǔ),效率也會(huì)更高。(來(lái)源:微信公眾號(hào)ecshujufenxi)