正在加载...

PS:机器学习这两年特别火,ATB使劲开百万到几百万年薪招美国牛校的机器学习方向博士,作为一个技术控,也得折腾下,就这样来初步折腾下Mahout这个机器学习的主流开源框架。

一、Mahout简介

查了Mahout的中文意思:驭象的人,再看看Mahout的logo,骑在象头上的那个Mahout。机器学习是人工智能的一个分支,它涉及通过一些技术来允许计算机根据之前的经验改善其输出。此领域与数据挖掘密切相关,并且经常需要使用各种技巧,包括统计学、概率论和模式识别等。虽然机器学习并不是一个新兴领域,但它的发展速度是毋庸置疑的。许多大型公司,包括 IBM、Google、Amazon、Yahoo! 和 Facebook,都在自己的应用程序中实现了机器学习算法。此外,还有许多公司在自己的应用程序中应用了机器学习,以便学习用户以及过去的经验,从而获得收益。

     Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。

More …

大数据通用处理平台

  1. Spark
  2. Flink
  3. Hadoop

分布式存储

HDFS

资源调度

Yarn

Mesos

机器学习工具

Mahout

  1. Spark Mlib
  2. TensorFlow (Google 系)
  3. Amazon Machine Learning
  4. DMTK (微软分布式机器学习工具)

More …

随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:

  • Apache Flume
  • Fluentd
  • Logstash
  • Chukwa
  • Scribe
  • Splunk Forwarder

大数据平台与数据采集

任何完整的大数据平台,一般包括以下的几个过程:

  • 数据采集
  • 数据存储
  • 数据处理
  • 数据展现(可视化,报表和监控)

大数据构架

More …

在当前的互联网领域,大数据的应用已经十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。

大数据

目前国内外做大数据的厂商依旧分为两类:一类是现在已经有获取大数据能力的公司,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产品线口碑推广到新一轮技术浪潮当中。如IBM、微软、谷歌、亚马逊、百度、腾讯、阿里巴巴等互联网巨头以及华为、浪潮、中兴等国内领军企业,涵盖了数据采集,数据存储,数据分析,数据可视化以及数据安全等领域;另一类则是初创的大数据公司,他们依赖于大数据工具,针对市场需求,为市场带来创新方案并推动技术发展。其中大部分的大数据应用还是需要第三方公司提供服务,希望为市场带来创新方案并推动技术发展。

本文将主流的大数据厂商分为大数据基础设施类,大数据分析类,大数据应用类,大数据数据源类等。下面就来盘点下大数据领域国内外的主力阵营吧,其中一些早已名满天下,另外大部分则属初来乍到。

1. 大数据基础设施类

More …

MySQL
MySQL Connector/J Driver
驱动程序包名:MySQL-connector-Java-x.x.xx-bin.jar
驱动程序类名: com.mysql.jdbc.Driver
JDBC URL: jdbc:mysql://<host>:<port>/<database_name>
默认端口3306,如果服务器使用默认端口则port可以省略
MySQL Connector/J Driver 允许在URL中添加额外的连接属性jdbc:mysql://<host>:<port>/<database_name>?property1=value1&property2=value2

PostgreSQL
PostgreSQL Native JDBC Driver
驱动程序包名:驱动程序类名: org.postgresql.Driver
JDBC URL: jdbc:postgresql://<host>:<port>/<database_name>
默认端口5432

Microsoft SQL Server
Microsoft SQL Server JDBC Driver (用来连接 SQLServer 2000)
驱动程序包名:msbase.jar mssqlserver.jar msutil.jar
驱动程序类名: com.microsoft.jdbc.sqlserver.SQLServerDriver
JDBC URL: jdbc:microsoft:sqlserver://<server_name>:<port>
默认端口1433,如果服务器使用默认端口则port可以省略

Microsoft SQL Server 2005 JDBC Driver(用来连接 SQLServer 2005以上版本)
驱动程序包名:sqljdbc.jar
驱动程序类名: com.microsoft.sqlserver.jdbc.SQLServerDriver
JDBC URL: jdbc:sqlserver://<server_name>:<port>
默认端口1433,如果服务器使用默认端口则port可以省略

More …

PS:本人所在的公司使用OpenStack核心开发的私有云也有3年多时间了,感觉比较可惜的是2012年年底做私有云技术选型时部署测试过的CloudStack(以前折腾CloudStack的记录在http://www.ha97.com/index.php?s=CloudStack),现在发现其中国社区网站已经关闭了,也看到今天大公司越来越多基于Openstack构建自己的私有云,Openstack在大型私有云和混合云领域有一统天下之势。今天看到这篇文章比较认同其观点,转载记录一下。

编者按

AWS(Amazon Web Service) 开始于 2006 年 3 月 14 日 Amazon S3 的发布,距今已经有十年的时间了。云计算改变了企业对数据的存储、处理和分析的过程,开启了云计算时代的到来,形成了极其火爆的技术生态圈,受到非常广泛的应用。
在2016年云计算十岁生日之际,InfoQ策划了云计算十年热点系列文章,为大家梳理云计算这十年的变化,技术圈的生态状况,从历史、背景、格局、趋势、机会这5个角度来看云计算时代,回顾以前,激励以后。本文是OpenStack篇。

梦开始的地方

2016年4月OpenStack的峰会即将于美国小镇Austin召开,想起2010年OpenStack首个发行版峰会也是在Austin,很感叹这就像回到了梦想开始的地方。相比起AWS走过的十年之路,OpenStack可以说还算年轻,曾经挑战AWS公有云的雄心壮志已然暗淡,但是这并不能影响OpenStack昂首阔步奔涌向前,成熟的社区机制,活跃的开源社区,商业公司的积极涌入与探索,让我们有理由相信不可预测的未来同样是光明的。

More …

虽然此前已经多次提及,但在这里我要再次强调2015年作为云计算全面崛起元年的重要地位,这在很大程度上是因为这一年内出现了众多值得高度关注的大事件——包括戴尔/EMC的合并,而这些标志性事件意味着新的时代已然来临。这是一种直白而决绝的表态,意味着全部传统IT厂商都需要努力争取自己的生存空间,否则必将为历史所淘汰。

这场演进或者说革命则让OpenStack处于非常有趣的定位之上,目前已经有大量“企业级”厂商——从思科到惠普再到IBM——开始将相当比例的资源投入到OpenStack项目的推动工作当中。而Mirantis等新兴厂商亦凭借着英特尔向其投入的1亿美元确立了自己在新生代企业当中的领导地位。此外,红帽公司在这场竞逐当中仍然表现良好,并继续依靠自身强大的Linux发行版牢牢锁定着现有客户群体。

我们还亲眼见证了Platform 9以及Stratoscale等新兴厂商的快速崛起,它们不仅给传统主流企业造成巨大冲击,同时也威胁到了Mirantis及红帽等新生代领导者。因此,考虑到以上状况,2015年绝对是个值得认真回顾的精彩年份。

不过2015年的一切已然“俱往矣”,着眼于2016年做出展望显然更具有现实意义。

我做出的第一项预测就是,作为OpenStack(也包括任何其它云技术)核心服务之一的计算服务将在新一年中发生巨大变化,即由原本的虚拟机管理程序为核心转变为容器加裸机组合模式

事实上,根据最新发布的OpenStack用户调查显示,有31%的受访者将裸机、LXC以及容器以混合方式加以使用。这种方式也成为本届OpenStack东京峰会上的热门新闻,而且OpenStack能够支持一切计算资源的能力也正是其在云技术领域拥有差异化优势的关键所在。值得强调的是,这也与Hedvig公司市场营销副总裁Rob Whiteley的观点不谋而合——他曾在2016年预测中表示Docker将成为OpenStack内的第二大重要虚拟机管理方案。

image04.png

除此之外,2015年当中我们也经历了NFV(即网络功能虚拟化)在OpenStack社区之内的快速崛起,这也是电信与企业IT之间实现大融合的标志性事件之一。
More …

PS:最近一年事情太多,一年多没在博客分享记录了,以后有空还是分享下。

今天测试部署Hadoop 2.6集群,出现一个报错,搜索了下,都说是hadoop配置文件问题,检查了两遍发现没问题,排查怀疑是JDK版本问题,报错的是1.7,后升级安装到1.8后问题解决。记录一下:
报错如下:

解决后:

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 里面选择下载jdk-8u66-linux-x64.rpm这个包。

# rpm -Uvh jdk-8u66-linux-x64.rpm
# vim /etc/profile
在最后加入如下配置:

export JAVA_HOME=/usr/java/jdk1.8.0_66
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_HOME=/usr/lib/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$PATH

保存退出后运行source /etc/profile使其生效。上面也是每一台hadoop节点的JDK环境配置。