当前位置:首页 > 数学课件 > 正文内容

想学习机器学习,从哪里开始比较好?

zhao_admin11个月前 (08-20)数学课件30

第一阶段,原理入门

目标是搞清楚机器学习的基本概念和基本的算法原理。下面介绍几种入门方法,分别对应看书入门党,看视频入门党,有一些精选的优质资源推荐给初学者。李航《统计学习方法》,吴恩达公开课。

第二阶段:在编程中理解原理

目标是能够自己动手实现算法的细节而不是用sklearn去调包。很多时候你要写最基本的代码和结构去做这些工作,你能实现算法的底层原理,知道决策树的分割增益计算如何写代码,梯度下降如何写代码,知道机器学习是如何从0到1实现的。

第三阶段,实战应用

目标是把机器学习应用到实际问题中,加深对算法的理解。

大学计算机或软件工程专业,需要偏重数学还是物理基础呢?

早期在没有计算机专业的时期,数学专业的毕业生从事软件研发,物理专业的毕业生从事硬件研发,所以数学和物理两个基础学科对于计算机专业来说是非常重要的,这也是为什么计算机相关专业都要学习数学和物理课程。

虽然现在计算机专业已经有了非常详细的领域划分,但是软件工程、计算机科学与技术、计算机应用等相关专业对数学的要求要更高一些,而物联网、嵌入式、计算机网络、多媒体等领域对于物理的要求相对高一些,因为研究的方向不同,所以需要的知识结构也不相同。

因为计算机软件问题说到底就是个数学问题,而计算机硬件问题说到底就是个物理问题,所以数学和物理在计算机相关专业有密切的关系。随着物联网、大数据、云计算、人工智能的不断发展,软件和硬件的结合趋势越发明显,所以搞软件研发的工程师往往需要懂一些物理知识,而硬件研发的工程师往往也需要懂得一些数学方面的知识。

以大数据专业为例,大数据专业涉及到的岗位有数据采集、整理、存储、分析、呈现和应用,这些环节中,数据采集涉及到物联网知识(需要物理基础),而数据存储涉及到云计算知识(物理和数学都需要),数据分析涉及到数学知识,数据应用涉及到人工智能技术(数学物理相结合)。

在目前火热的人工智能领域,物理和数学知识就应用的更加普遍了,人工智能的研究内容包括自然语言处理、机器学习(深度学习)、自动推理、知识表示、机器人学、计算机视觉等,这些内容都需要扎实的数学基础和物理接触。

所以,数学和物理知识是计算机专业绕不过去的学科。

作者简介:中国科学院大学计算机专业研究生导师,从事IT行业多年,研究方向包括动态软件体系结构、大数据、人工智能相关领域,有多年的一线研发经验。

欢迎关注作者,欢迎咨询计算机相关问题。

计算机专业,万金油专业,但是也是很危险的专业

从零开始,如何学习数据挖掘?

这个问题思考了很久,作为过来人谈一谈,建议在看我这篇回答之前先去了解一下数据挖掘的概念和定义。

在学习数据挖掘之前你应该明白几点:

数据挖掘目前在中国的尚未流行开,犹如屠龙之技。数据初期的准备通常占整个数据挖掘项目工作量的70%左右。 数据挖掘本身融合了统计学、数据库和机器学习等学科,并不是新的技术。数据挖掘技术更适合业务人员学习(相比技术人员学习业务来的更高效)数据挖掘适用于传统的BI(报表、OLAP等)无法支持的领域。 数据挖掘项目通常需要重复一些毫无技术含量的工作。如果你阅读了以上内容觉得可以接受,那么继续往下看。

学习一门技术要和行业靠拢,没有行业背景的技术如空中楼阁。技术尤其是计算机领域的技术发展是宽泛且快速更替的(十年前做网页设计都能成立公司),一般人没有这个精力和时间全方位的掌握所有技术细节。但是技术在结合行业之后就能够独当一面了,一方面有利于抓住用户痛点和刚性需求,另一方面能够累计行业经验,使用互联网思维跨界让你更容易取得成功。不要在学习技术时想要面面俱到,这样会失去你的核心竞争力。

一、目前国内的数据挖掘人员工作领域大致可分为三类。1)数据分析师:在拥有行业数据的电商、金融、电信、咨询等行业里做业务咨询,商务智能,出分析报告。2)数据挖掘工程师:在多媒体、电商、搜索、社交等大数据相关行业里做机器学习算法实现和分析。3)科学研究方向:在高校、科研单位、企业研究院等高大上科研机构研究新算法效率改进及未来应用。二、说说各工作领域需要掌握的技能。(1).数据分析师

需要有深厚的数理统计基础,但是对程序开发能力不做要求。需要熟练使用主流的数据挖掘(或统计分析)工具如SAS)、SPSS、EXCEL、BI工具等。需要对与所在行业有关的一切核心数据有深入的理解,以及一定的数据敏感性培养。经典图书推荐:《概率论与数理统计》、《统计学》推荐David Freedman版、《业务建模与数据挖掘》、《数据挖掘导论》、《SAS编程与数据挖掘商业案例》、《Clementine数据挖掘方法及应用 》、《Excel 2007 VBA参考大全》、《IBM SPSS Statistics 19 Statistical Procedures Companion》等(2).数据挖掘工程师

需要理解主流机器学习算法的原理和应用。需要熟悉至少一门编程语言如(Python、C、C++、Java、Delphi等)。需要理解数据库原理,能够熟练操作至少一种数据库(Mysql、SQL、DB2、Oracle等),能够明白MapReduce的原理操作以及熟练使用Hadoop系列工具更好。经典图书推荐:《数据挖掘概念与技术》、《机器学习实战》、《人工智能及其应用》、《数据库系统概论》、《算法导论》、《Web数据挖掘》、《 Python标准库》、《thinking in Java》、《Thinking in C++》、《数据结构》等。(3).科学研究方向

需要深入学习数据挖掘的理论基础,包括关联规则挖掘 (Apriori和FPTree)、分类算法(C4.5、KNN、Logistic Regression、SVM等) 、聚类算法 (Kmeans、Spectral Clustering)。目标可以先吃透数据挖掘10大算法各自的使用情况和优缺点。相对SAS、SPSS来说R语言更适合科研人员The R Project for Statistical Computing,因为R软件是完全免费的,而且开放的社区环境提供多种附加工具包支持,更适合进行统计计算分析研究。虽然目前在国内流行度不高,但是强烈推荐。可以尝试改进一些主流算法使其更加快速高效,例如实现Hadoop平台下的SVM云算法调用平台--web 工程调用hadoop集群。需要广而深的阅读世界著名会议论文跟踪热点技术。如KDD,ICML,IJCAI,Association for the Advancement of Artificial Intelligence,ICDM 等等;还有数据挖掘相关领域期刊:ACM Transactions on Knowledge Discovery from Data,IEEE Transactions on Knowledge and Data Engineering,Journal of Machine Learning Research Homepage,IEEE Xplore: Pattern Analysis and Machine Intelligence, IEEE Transactions on等。可以尝试参加数据挖掘比赛培养全方面解决实际问题的能力。如Sig KDD ,Kaggle: Go from Big Data to Big Analytics等。可以尝试为一些开源项目贡献自己的代码,比如Apache Mahout: Scalable machine learning and data mining ,myrrix等(具体可以在SourceForge或GitHub.上发现更多好玩的项目)。经典图书推荐:《机器学习》 《模式分类》《统计学习理论的本质》《统计学习方法》《数据挖掘实用机器学习技术》《R语言实践》,英文素质是科研人才必备的《Machine Learning: A Probabilistic Perspective》《Scaling up Machine Learning : Parallel and Distributed Approaches》《Data Mining Using SAS Enterprise Miner : A Case Study Approach》《Python for Data Analysis》等。三、以下是个人对数据挖掘岗位的感受真正从数据挖掘项目实践的角度讲,沟通能力对挖掘的兴趣爱好是最重要的,有了爱好才可以愿意钻研,有了不错的沟通能力,才可以正确理解业务问题,才能正确把业务问题转化成挖掘问题,才可以在相关不同专业人才之间清楚表达你的意图和想法,取得他们的理解和支持。所以我认为沟通能力和兴趣爱好是个人的数据挖掘的核心竞争力,是很难学到的;而其他的相关专业知识谁都可以学,算不上个人发展的核心竞争力。

说到这里可能很多数据仓库专家、程序员、统计师等等都要扔砖头了,对不起,我没有别的意思,你们的专业对于数据挖掘都很重要,大家本来就是一个整体的,但是作为单独一个个体的人来说,精力有限,时间有限,不可能这些领域都能掌握,在这种情况下,选择最重要的核心,我想应该是数据挖掘技能和相关业务能力吧(从另外的一个极端的例子,我们可以看, 比如一个迷你型的挖掘项目,一个懂得市场营销和数据挖掘技能的人应该可以胜任。这其中他虽然不懂数据仓库,但是简单的Excel就足以胜任高达6万个样本的数据处理;他虽然不懂专业的展示展现技能,但是只要他自己看的懂就行了,这就无需什么展示展现;前面说过,统计技能是应该掌握的,这对个人的迷你项目很重要;他虽然不懂编程,但是专业挖掘工具和挖掘技能足够让他操练的;这样在迷你项目中,一个懂得挖掘技能和市场营销业务能力的人就可以圆满完成了,甚至在一个数据源中根据业务需求可以无穷无尽的挖掘不同的项目思路,试问就是这个迷你项目,单纯的一个数据仓库专家、单纯的一个程序员、单纯的一个展示展现技师、甚至单纯的一个挖掘技术专家,都是无法胜任的)。这从另一个方面也说明了为什么沟通能力的重要,这些个完全不同的专业领域,想要有效有机地整合在一起进行数据挖掘项目实践,你说没有好的沟通能力行吗?

数据挖掘能力只能在项目实践的熔炉中提升、升华,所以跟着项目学挖掘是最有效的捷径。国外学习挖掘的人都是一开始跟着老板做项目,刚开始不懂不要紧,越不懂越知道应该学什么,才能学得越快越有效果。我不知道国内的数据挖掘学生是怎样学的,但是从网上的一些论坛看,很多都是纸上谈兵,这样很浪费时间,很没有效率。

另外现在国内关于数据挖掘的概念都很混乱,很多BI只是局限在报表的展示和简单的统计分析,却也号称是数据挖掘;另一方面,国内真正规模化实施数据挖掘的行业是屈指可数(银行、保险公司、移动通讯),其他行业的应用就只能算是小规模的,比如很多大学都有些相关的挖掘课题、挖掘项目,但都比较分散,而且都是处于摸索阶段,但是我相信数据挖掘在中国一定是好的前景,因为这是历史发展的必然。

四、成为一名数据科学家需要掌握的技能图人一能之,己十之;人十能之,己千之。果能此道矣,虽愚,必明;虽柔,必强。与君共勉。

作为有着两三年数据科学从业经验的过来人,我想结合自己一些数据科学浅薄的经验来回答这个问题。

从零开始学习数据挖掘,首先需要明白数据挖掘是做什么的?

百度百科中的定义为:数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程,并且数据挖掘横跨多个领域,涵盖了统计学、数学、机器学习和数据库等,是一个交叉学科。

所以,学习数据挖掘需要学习多种知识。

如果是已毕业工作中的小伙伴,建议先从编程能力实现一些数据分析需求来入手。因为工作中可能没有太大块的学习时间,想在工作的同时学习,就要有一定工程能力满足老板的一些数据分析需求。适合数据挖掘的语言有编程语言python,以及偏统计的语言R,sas,数据采集语言sql等。python的优点是工作中懂的开发人员比较多,比较好沟通,近年来也是很火的语言。推荐的书籍:《跟老齐学python》,《笨方法学python》,《利用Python进行数据分析》等,网上的课程:

等。关于R语言我的经验比较少,不好推荐。sas语言是金融机构用得比较多,因为是闭源的,从信息安全角度看比较合适。推荐的书:《The Little sas book》、《深入解析SAS》等。sql语言相对比较简单,可以在工作中学习,就不作推荐了。

刚才提到实现一些数据分析需求也能有助于数据挖掘,因为数据挖掘除了刚才提到是交叉学科外,为了能让项目落地产生价值还需要学习我们的业务,例如我们的数据挖掘是基于金融业务的或者电商业务的,那么就要学习金融业务或电商业务的相关知识。那么数据分析就是一个锻炼业务敏感度的一个很好的方式。为了让数据挖掘产生价值,业务经验很重要,这是很多从业人员比较容易忽略的一个点。

后面进阶的话就必须需要数学基础和机器学习算法了,因为很多的机器学习算法乃至深度学习都是以数学、统计学理论为基础。这也是市场上招聘数据挖掘工程师、算法工程师、数据分析师比较青睐数学相关专业的人士原因。数学推荐书籍:《高等数学》,《高等代数》,《概率论与数理统计》等。算法推荐书籍:《统计学习方法》,周志华的《机器学习》

至于大数据方面知识的学习也是比较重要的,在公司发展到后期阶段积累了比较大数据量的时候,也是要学一些大数据挖掘的框架如hadoop和spark等。所以最近也有新的一个岗位大数据算法工程师也是要求大数据方面的从业经验。

所以总的路线就是:编程语言=》数据分析实践积累业务经验=〉数学基础和机器学习算法=》大数据框架。

当然每个人背景不一样,所以学习路线都可能不同,但提到的这几点是个人觉得比较重要的。有不同看法的大牛也欢迎来讨论讨论。

扫描二维码推送至手机访问。

版权声明:本文由PPT写作技巧发布,如需转载请注明出处。

本文链接:http://www.ppt3000.com/post/74940.html

分享给朋友:

相关文章

初三数学.垂径定理 附图

初三数学.垂径定理 附图

1.证明:作OC垂直AP于C,则AC=PC,AP=2PC;作O'D垂直PB于D,同理可知PB=2PD.∵AB平行于OO'.∴∠O'OC=180°-∠OCP=90°.∵∠O'OC=∠OCP=∠O'DP=90°.∴四边形OO'DC为矩形,CD=...

考研数学数一跟谁好?

考研数学数一跟谁好?

张宇老师的强化班和冲刺班,张宇老师擅长将数学抽象问题形象化,他讲课体量不是很多,技巧性很强。他的课程适合有一定基础的同学,内容覆盖较全面,技巧性、思维性很强; 汤家凤老师的基础班,汤家凤老师就是高中教师那种板书式的教学方式,非常适合打基础...

图形的相似复习课件(27.1图形的相似课件)

图形的相似复习课件(27.1图形的相似课件)

图形推理怎么复习?明确图形推理的常考点,比如点线面,还有遍历,轴对称、中心对称等。几何图形的复习方法?这部分内容包括三部分一是图形的认识与测量。着重复习小学阶段所学习的各图形的特点、关系,以及部分几何形体的周长、面积、体积计算。找部分内容纵...

小学数学课件制作实例 小学数学课件制作实例心得体会

小学数学课件制作实例 小学数学课件制作实例心得体会

怎样制作小学数学课件?数学教案和其他的课程教案有共同的方向,可以从教学分析;教学设计;教学过程;教学反思这四个方面来进行教学ppt的制作。分享一些教学ppt制作的技巧:1、排版设计:最好采用PPT的首页作为封面,这样可以一目了然的知道知识点...

谁有以前在广州天河区考过初中数学教师资格证的朋友,说课要注意些什么?还有最重要的面试一般面试什么?

谁有以前在广州天河区考过初中数学教师资格证的朋友,说课要注意些什么?还有最重要的面试一般面试什么?

初中数学说课评价标准说课要以国家颁布的“数学课程标准(实验)”为基本依据,贯彻“以学生的发展为本”的学科教育观,重点对“教什么”、“怎样教”和“为什么这样教”进行阐述,既对教学中如何根据内容选择恰当的教学方式与方法,如何发挥学生的主动性和积...

五年级数学期中家长评语?

五年级数学期中家长评语?

五年级数学期中家长评语? 比如 本次考试考的还不错,看来学习方面下功夫了,不能骄傲,还要努力,希望下次还能提高。 类似这样的都可以写写 9年级家长会数学老师发言稿 9年级家长会数学老师发言稿 在...