想要成為一名合格的大數(shù)據(jù)研發(fā)工程師(Bigdataresearchanddevelopmentengineers),首先就要了解大數(shù)據(jù)軟件開發(fā)這個(gè)職業(yè),大數(shù)據(jù)非傳統(tǒng)型的互聯(lián)網(wǎng)數(shù)據(jù)信息,大數(shù)據(jù)也包含了很多新的特征。互聯(lián)網(wǎng)時(shí)代的發(fā)展,每天都產(chǎn)生各種各樣的數(shù)據(jù)信息,數(shù)據(jù)來(lái)源很廣,每天都有從各方面來(lái)臨的數(shù)據(jù)信息,大數(shù)據(jù)格式多種多樣,非結(jié)構(gòu)化數(shù)據(jù)(Unstructureddata)、結(jié)構(gòu)化數(shù)據(jù)(structureddata)、excel文件等等,而且大數(shù)據(jù)數(shù)量很大,至少要是TB級(jí)別的,甚至?xí)_(dá)到PB級(jí)別的。既然數(shù)據(jù)總量如此之多,又各種類型的都有,增長(zhǎng)數(shù)據(jù)也很快,那數(shù)據(jù)該如何匯總并且轉(zhuǎn)化運(yùn)用成自己所需要的數(shù)據(jù)信息呢?這就誕生了大數(shù)據(jù)研發(fā)工程師,大數(shù)據(jù)研發(fā)工程師在充分了解行情的基礎(chǔ)之上,發(fā)揮其自身所具備的專業(yè)技能。
先扯一下大數(shù)據(jù)的4V特征:
1:數(shù)據(jù)量大,TB->PB
2:數(shù)據(jù)類型繁多,結(jié)構(gòu)化、非結(jié)構(gòu)化文本、日志、視頻、圖片、地理位置等;
(datatypeisvarious,structuredandunstructuredtext,logs,video,images,thegeographicalposition,etc.;)
3:商業(yè)價(jià)值高,但是這種價(jià)值需要在海量數(shù)據(jù)之上,通過數(shù)據(jù)分析與機(jī)器學(xué)習(xí)更快速的挖掘出來(lái);
?。╤ighcommercialvalue,butthisvaluetakeonhugeamountsofdata,throughdataanalysisandmachinelearningmorerapidexcavation;)
4:處理時(shí)效性高,海量數(shù)據(jù)的處理需求不再局限在離線計(jì)算當(dāng)中。
?。╬rocessingtimelinessishigh,therequirementofthehugeamountsofdataprocessingisnolongerlimitedinoff-linecalculation.)
大數(shù)據(jù)軟件開發(fā)工程師需要學(xué)什么呢?
我們從全國(guó)幾個(gè)大城市招聘信息來(lái)了解,大數(shù)據(jù)軟件開發(fā)工程師到底需要學(xué)什么及相應(yīng)的月薪。
大數(shù)據(jù)開發(fā)工程師杭州(20000-40000元/月)
1、熟悉java或scala開發(fā)語(yǔ)言,了解python或go等語(yǔ)言,有3年以上開發(fā)經(jīng)驗(yàn)2、了解hadoop生態(tài),Hadoop,hive,HBase,Spark等,了解實(shí)時(shí)計(jì)算技術(shù),包括storm,kafka,flume,druid等3、熟悉linux各項(xiàng)基本操作4、熟悉數(shù)據(jù)結(jié)構(gòu),對(duì)常用算法有所了解,有良好的數(shù)據(jù)思維5、有大規(guī)模數(shù)據(jù)分析、推薦、廣告相關(guān)研發(fā)經(jīng)驗(yàn)的優(yōu)先6、有BI數(shù)據(jù)平臺(tái)、數(shù)據(jù)倉(cāng)庫(kù)、日志采集,多維實(shí)時(shí)分析平臺(tái)設(shè)計(jì)、開發(fā)、架構(gòu)經(jīng)驗(yàn)優(yōu)先。
崗位職責(zé)(responsibility):
1、負(fù)責(zé)大數(shù)據(jù)平臺(tái)基礎(chǔ)組件功能設(shè)計(jì)、研發(fā)及維護(hù)工作;2、負(fù)責(zé)大數(shù)據(jù)采集、清洗、整合等工作;3、負(fù)責(zé)大數(shù)據(jù)平臺(tái)文本挖掘分析等工作;4、負(fù)責(zé)相關(guān)功能設(shè)計(jì)文檔撰寫;5、負(fù)責(zé)BI及報(bào)表開發(fā)。任職要求:1、深厚的Java功底,多年的并發(fā)編程經(jīng)驗(yàn);2、參與過分布式高性能服務(wù)的設(shè)計(jì)開發(fā)過程,有大規(guī)模分布式系統(tǒng)的實(shí)踐經(jīng)驗(yàn);3、熟悉HDFS/HBase/Hive/MapReduce/Storm/Spark等相關(guān)技術(shù),有 MapReduce 程序的實(shí)戰(zhàn)開發(fā)經(jīng)驗(yàn);4、熟悉Hadoop運(yùn)行監(jiān)控及調(diào)優(yōu)技術(shù);5、熟悉常見存儲(chǔ)技術(shù)(Sqlserver ,Oracle, Mysql, NosqlDB、Redis、ElasticSearch),WebService/WebAPI(SOAP/json);6、熟悉Scala語(yǔ)言優(yōu)先;7、計(jì)算機(jī)、軟件工程及相關(guān)專業(yè)本科或以上學(xué)歷,3年以上相關(guān)項(xiàng)目開發(fā)經(jīng)驗(yàn);
大數(shù)據(jù)開發(fā)工程師安徽合肥(5000-10000元/月)
崗位職責(zé)(responsibility):
1、大數(shù)據(jù)平臺(tái)的產(chǎn)品及解決方案設(shè)計(jì)、開發(fā),實(shí)現(xiàn)大數(shù)據(jù)存儲(chǔ)、查詢、分析、挖掘的目標(biāo);
3、對(duì)大數(shù)據(jù)(云計(jì)算)的主流技術(shù)、產(chǎn)品跟蹤研究,設(shè)計(jì)適合公司業(yè)務(wù)的、有競(jìng)爭(zhēng)力的方案和產(chǎn)品;
3、具體工作包括技術(shù)預(yù)研、方案設(shè)計(jì)、構(gòu)件選型、開發(fā)、集成、優(yōu)化等;
4、能根據(jù)公司產(chǎn)品和業(yè)務(wù)特征不斷提出改進(jìn)建議,持續(xù)創(chuàng)新、開發(fā)新產(chǎn)品及方案。
任職資格(responsibility):
1.計(jì)算機(jī)或者相關(guān)專業(yè)本科以上學(xué)歷,1年實(shí)際工作經(jīng)驗(yàn)
2.精通java。熟悉shell/perl/python任意一門腳本語(yǔ)言,有扎實(shí)的編程功底。
3.熟悉Hadoop+spark+hbase生態(tài)和常見的開源分布式計(jì)算/存儲(chǔ)相關(guān)技術(shù)
4.精通SQL,有較好的SQL性能調(diào)優(yōu)經(jīng)驗(yàn),理解Hive/Mysql基本原理和調(diào)優(yōu)策略;有開源貢獻(xiàn)者優(yōu)先
5.有文檔編制基礎(chǔ),能夠流暢編寫技術(shù)方案及實(shí)施方案
大數(shù)據(jù)開發(fā)工程師北京(15001-20000元/月)
崗位職責(zé):
1、負(fù)責(zé)公司級(jí)的通用數(shù)據(jù)平臺(tái)和分析型產(chǎn)品,服務(wù)于全公司各個(gè)用戶產(chǎn)品線;
2、面向PB級(jí)超大規(guī)模數(shù)據(jù)問題,每天處理千億增量的用戶行為數(shù)據(jù);
3、為大數(shù)據(jù)的全生命周期提供服務(wù),覆蓋數(shù)據(jù)產(chǎn)生,傳輸,計(jì)算,建模,統(tǒng)計(jì)分析,實(shí)驗(yàn)評(píng)估,可視化的全流程;
4、構(gòu)建設(shè)計(jì)良好的數(shù)據(jù)流、數(shù)據(jù)倉(cāng)庫(kù)、調(diào)度系統(tǒng)、kv存儲(chǔ),查詢引擎,數(shù)據(jù)服務(wù)、分析系統(tǒng)、流程規(guī)范,數(shù)據(jù)工具/產(chǎn)品,降低數(shù)據(jù)的使用門檻,保證系統(tǒng)穩(wěn)定高效運(yùn)行,以實(shí)現(xiàn)數(shù)據(jù)的最大價(jià)值。
任職資格:
1、熟悉linux編程環(huán)境,有較強(qiáng)的開發(fā)能力(java/scala/c++/python等);
2、強(qiáng)悍的編碼能力,對(duì)新技術(shù)有強(qiáng)烈的學(xué)習(xí)熱情;
3、加分,熟悉一項(xiàng)或多項(xiàng)大數(shù)據(jù)處理/分析相關(guān)的工具/框架,e、g、azkaban,hadoop,Hive,Spark,kylin,druid,flume,kafka,hbase,mesos,kubernets,redisetc。
4.對(duì)數(shù)據(jù)建模有一定了解。