正在加载...
选自Github等
机器之心编译参与:蒋思源

机器之心此前曾提供过机器学习和深度学习最好的九张代码速查表,不过近日又有博主发表了一次完全的速查表。虽然有一些和以前是重复的,但还是增加了一些新的速查表。本文前一部分主要重点描述新添加的速查表,后一部分再为读者提供一些以前的速查表资源。这些速查表暂时是保持英文的,因为后面一些不熟悉的库和函数我们可能编译不太精确。所以如果读者有较多需求,机器之心会考虑在 Github 中汉化这些概念和库函数速查表。文末提供了所有速查表的百度云下载地址。

首先第一张图描述了机器学习的主要分类和算法。虽然有几个表情没看懂,但我们发现这些表情还是挺有意思的。如下图所示,机器学习可分为监督学习、无监督学习和强化学习。接下来主要是回归方法、分类方法、聚类方法、降维方法和其他一些重要的特征。我们还可以看看具体算法的表情,随机森林是四棵不同的树我们能懂,但为什么支持向量机是一只独角兽?还有一些其实挺生动的,例如异常检测所用的表情就是三只熊猫夹一只狗熊。

More …

机器之心原创,机器之心编辑部,转自机器之心公众号。

作为最早关注人工智能技术的媒体,机器之心在编译国外技术博客、论文、专家观点等内容上已经积累了超过两年多的经验。期间,从无到有,机器之心的编译团队一直在积累专业词汇。虽然有很多的文章因为专业性我们没能尽善尽美的编译为中文呈现给大家,但我们一直在进步、一直在积累、一直在提高自己的专业性。

两年来,机器之心编译团队整理过翻译词汇对照表「红宝书」,编辑个人也整理过类似的词典。而我们也从机器之心读者留言中发现,有些人工智能专业词汇没有统一的翻译标准,这可能是因地区、跨专业等等原因造成的。举个例子,DeepMind 的一篇论文中有个词汇为 differentiable boundary tree,当时机器之心的翻译为可微分界树,但后来有读者表示这样的译法如果不保留英文很难明白表达的意思且建议翻译为可微分边界树。

因此,我们想把机器之心内部积累的人工智能专业词汇中英对照表开放给大家,希望为大家写论文、中文博客、阅读文章提供帮助。同时,这也是一份开放的表单,希望越来越多的人能够提供增添、修改建议,为人工智能的传播助力。

项目地址:https://github.com/jiqizhixin/Artificial-Intelligence-Terminology

组织形式

读者在此项目中,可通过以上表盘查看自己想要了解的专业词汇。在单个首字母中,表格的组织形式为:英文/缩写、汉语、来源&扩展。

来源&扩展是对该词汇的注解,内容为机器之心往期的相关文章。例如下图所示的「算法」,我们关联到的三篇文章是《回归、分类与聚类:三大方向剖解机器学习算法的优缺点》和《机器学习算法附速查表》和《深度学习算法全景图:从理论证明其正确性》。因此,我们希望不仅能提供相对应的术语,同时还希望能为读者提供每一个术语的来源和概念上的扩展。但由于这一部分工作量较大,我们还将与读者共同推进这一部分扩展的进程。

More …

选自sas,英文原文:http://blogs.sas.com/content/subconsciousmusings/2017/04/12/machine-learning-algorithm-use/机器之心编译

参与:黄小天、蒋思源、吴攀

本文主要的目标读者是机器学习爱好者或数据科学的初学者,以及对学习和应用机器学习算法解决实际问题抱有浓厚兴趣的读者。面对大量的机器学习算法,初学者通常会问自己一个典型的问题:「我该使用哪一种算法?」有很多因素会影响这一问题的答案,比如:

  • 数据的大小、质量及性质
  • 可用计算时间
  • 任务的急迫性
  • 数据的使用用途

在没有测试过不同算法之前,即使是经验丰富的数据科学家和机器学习算法开发者也都不能分辨出哪种算法性能最好。我们并不提倡一步到位,但是我们确实希望根据一些明确的因素为算法的选择提供一些参考意见。

机器学习算法速查表

机器学习算法速查表可帮助你从大量算法之中筛选出解决你的特定问题的算法,同时本文也将介绍如何使用该速查表。

由于该速查表专门针对数据科学和机器学习的初学者,所以在探讨这些算法之时,我们做了一些简化的假设。本文中所有推荐的算法均来自于程序编译反馈以及若干个数据科学家、机器学习专家和开发者的建议。对于没有达成一致意见的几个问题,我们会着重求同存异。

More …

PS:最近测试一套比较新的开源ERP,对系统软件版本要求很新,CentOS7也没这么新的开发包,也不喜欢编译安装(洁癖)。想起了Fedora来,之前有台测试机Fedora22,就想把它更新到最新的Fedora24。该版本glibc 更新到2.23,GCC编译器更新到6.1了,够新!折腾了下,跨版本升级成功。注意:此操作只合适开发和测试环境,不能在生产环境这样折腾。Fedora是新技术试验场,不合适用于生产环境的。

一、使用 DNF 插件升级系统:

升级前的版本截图:

Fedora22
1、更新系统
# dnf update --refresh
2、安装插件
# dnf install dnf-plugin-system-upgrade
3、下载Fedora24版本的更新包
# dnf system-upgrade download --releasever=24 --allowerasing
(如果某些依赖不满足,升级将终止,可添加 --allowerasing 选项跳过。这可能是第三方源还未进行更新,建议卸载这些依赖不满足的包。添加 --best 选项,可查看依赖问题的详细信息。)

More …

PS:机器学习这两年特别火,ATB使劲开百万到几百万年薪招美国牛校的机器学习方向博士,作为一个技术控,也得折腾下,就这样来初步折腾下Mahout这个机器学习的主流开源框架。

一、Mahout简介

查了Mahout的中文意思:驭象的人,再看看Mahout的logo,骑在象头上的那个Mahout。机器学习是人工智能的一个分支,它涉及通过一些技术来允许计算机根据之前的经验改善其输出。此领域与数据挖掘密切相关,并且经常需要使用各种技巧,包括统计学、概率论和模式识别等。虽然机器学习并不是一个新兴领域,但它的发展速度是毋庸置疑的。许多大型公司,包括 IBM、Google、Amazon、Yahoo! 和 Facebook,都在自己的应用程序中实现了机器学习算法。此外,还有许多公司在自己的应用程序中应用了机器学习,以便学习用户以及过去的经验,从而获得收益。

     Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。

More …

大数据通用处理平台

  1. Spark
  2. Flink
  3. Hadoop

分布式存储

HDFS

资源调度

Yarn

Mesos

机器学习工具

Mahout

  1. Spark Mlib
  2. TensorFlow (Google 系)
  3. Amazon Machine Learning
  4. DMTK (微软分布式机器学习工具)

More …

随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:

  • Apache Flume
  • Fluentd
  • Logstash
  • Chukwa
  • Scribe
  • Splunk Forwarder

大数据平台与数据采集

任何完整的大数据平台,一般包括以下的几个过程:

  • 数据采集
  • 数据存储
  • 数据处理
  • 数据展现(可视化,报表和监控)

大数据构架

More …

在当前的互联网领域,大数据的应用已经十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。

大数据

目前国内外做大数据的厂商依旧分为两类:一类是现在已经有获取大数据能力的公司,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产品线口碑推广到新一轮技术浪潮当中。如IBM、微软、谷歌、亚马逊、百度、腾讯、阿里巴巴等互联网巨头以及华为、浪潮、中兴等国内领军企业,涵盖了数据采集,数据存储,数据分析,数据可视化以及数据安全等领域;另一类则是初创的大数据公司,他们依赖于大数据工具,针对市场需求,为市场带来创新方案并推动技术发展。其中大部分的大数据应用还是需要第三方公司提供服务,希望为市场带来创新方案并推动技术发展。

本文将主流的大数据厂商分为大数据基础设施类,大数据分析类,大数据应用类,大数据数据源类等。下面就来盘点下大数据领域国内外的主力阵营吧,其中一些早已名满天下,另外大部分则属初来乍到。

1. 大数据基础设施类

More …