正在加载...

大数据通用处理平台

  1. Spark
  2. Flink
  3. Hadoop

分布式存储

HDFS

资源调度

Yarn

Mesos

机器学习工具

Mahout

  1. Spark Mlib
  2. TensorFlow (Google 系)
  3. Amazon Machine Learning
  4. DMTK (微软分布式机器学习工具)

More …

随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:

  • Apache Flume
  • Fluentd
  • Logstash
  • Chukwa
  • Scribe
  • Splunk Forwarder

大数据平台与数据采集

任何完整的大数据平台,一般包括以下的几个过程:

  • 数据采集
  • 数据存储
  • 数据处理
  • 数据展现(可视化,报表和监控)

大数据构架

More …

在当前的互联网领域,大数据的应用已经十分广泛,尤其以企业为主,企业成为大数据应用的主体。大数据真能改变企业的运作方式吗?答案毋庸置疑是肯定的。随着企业开始利用大数据,我们每天都会看到大数据新的奇妙的应用,帮助人们真正从中获益。大数据的应用已广泛深入我们生活的方方面面,涵盖医疗、交通、金融、教育、体育、零售等各行各业。

大数据

目前国内外做大数据的厂商依旧分为两类:一类是现在已经有获取大数据能力的公司,他们打算利用自身优势地位冲击大数据领域,将现有安装基础及产品线口碑推广到新一轮技术浪潮当中。如IBM、微软、谷歌、亚马逊、百度、腾讯、阿里巴巴等互联网巨头以及华为、浪潮、中兴等国内领军企业,涵盖了数据采集,数据存储,数据分析,数据可视化以及数据安全等领域;另一类则是初创的大数据公司,他们依赖于大数据工具,针对市场需求,为市场带来创新方案并推动技术发展。其中大部分的大数据应用还是需要第三方公司提供服务,希望为市场带来创新方案并推动技术发展。

本文将主流的大数据厂商分为大数据基础设施类,大数据分析类,大数据应用类,大数据数据源类等。下面就来盘点下大数据领域国内外的主力阵营吧,其中一些早已名满天下,另外大部分则属初来乍到。

1. 大数据基础设施类

More …

MySQL
MySQL Connector/J Driver
驱动程序包名:MySQL-connector-Java-x.x.xx-bin.jar
驱动程序类名: com.mysql.jdbc.Driver
JDBC URL: jdbc:mysql://<host>:<port>/<database_name>
默认端口3306,如果服务器使用默认端口则port可以省略
MySQL Connector/J Driver 允许在URL中添加额外的连接属性jdbc:mysql://<host>:<port>/<database_name>?property1=value1&property2=value2

PostgreSQL
PostgreSQL Native JDBC Driver
驱动程序包名:驱动程序类名: org.postgresql.Driver
JDBC URL: jdbc:postgresql://<host>:<port>/<database_name>
默认端口5432

Microsoft SQL Server
Microsoft SQL Server JDBC Driver (用来连接 SQLServer 2000)
驱动程序包名:msbase.jar mssqlserver.jar msutil.jar
驱动程序类名: com.microsoft.jdbc.sqlserver.SQLServerDriver
JDBC URL: jdbc:microsoft:sqlserver://<server_name>:<port>
默认端口1433,如果服务器使用默认端口则port可以省略

Microsoft SQL Server 2005 JDBC Driver(用来连接 SQLServer 2005以上版本)
驱动程序包名:sqljdbc.jar
驱动程序类名: com.microsoft.sqlserver.jdbc.SQLServerDriver
JDBC URL: jdbc:sqlserver://<server_name>:<port>
默认端口1433,如果服务器使用默认端口则port可以省略

More …

虽然此前已经多次提及,但在这里我要再次强调2015年作为云计算全面崛起元年的重要地位,这在很大程度上是因为这一年内出现了众多值得高度关注的大事件——包括戴尔/EMC的合并,而这些标志性事件意味着新的时代已然来临。这是一种直白而决绝的表态,意味着全部传统IT厂商都需要努力争取自己的生存空间,否则必将为历史所淘汰。

这场演进或者说革命则让OpenStack处于非常有趣的定位之上,目前已经有大量“企业级”厂商——从思科到惠普再到IBM——开始将相当比例的资源投入到OpenStack项目的推动工作当中。而Mirantis等新兴厂商亦凭借着英特尔向其投入的1亿美元确立了自己在新生代企业当中的领导地位。此外,红帽公司在这场竞逐当中仍然表现良好,并继续依靠自身强大的Linux发行版牢牢锁定着现有客户群体。

我们还亲眼见证了Platform 9以及Stratoscale等新兴厂商的快速崛起,它们不仅给传统主流企业造成巨大冲击,同时也威胁到了Mirantis及红帽等新生代领导者。因此,考虑到以上状况,2015年绝对是个值得认真回顾的精彩年份。

不过2015年的一切已然“俱往矣”,着眼于2016年做出展望显然更具有现实意义。

我做出的第一项预测就是,作为OpenStack(也包括任何其它云技术)核心服务之一的计算服务将在新一年中发生巨大变化,即由原本的虚拟机管理程序为核心转变为容器加裸机组合模式

事实上,根据最新发布的OpenStack用户调查显示,有31%的受访者将裸机、LXC以及容器以混合方式加以使用。这种方式也成为本届OpenStack东京峰会上的热门新闻,而且OpenStack能够支持一切计算资源的能力也正是其在云技术领域拥有差异化优势的关键所在。值得强调的是,这也与Hedvig公司市场营销副总裁Rob Whiteley的观点不谋而合——他曾在2016年预测中表示Docker将成为OpenStack内的第二大重要虚拟机管理方案。

image04.png

除此之外,2015年当中我们也经历了NFV(即网络功能虚拟化)在OpenStack社区之内的快速崛起,这也是电信与企业IT之间实现大融合的标志性事件之一。
More …

PS:最近一年事情太多,一年多没在博客分享记录了,以后有空还是分享下。

今天测试部署Hadoop 2.6集群,出现一个报错,搜索了下,都说是hadoop配置文件问题,检查了两遍发现没问题,排查怀疑是JDK版本问题,报错的是1.7,后升级安装到1.8后问题解决。记录一下:
报错如下:

解决后:

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 里面选择下载jdk-8u66-linux-x64.rpm这个包。

# rpm -Uvh jdk-8u66-linux-x64.rpm
# vim /etc/profile
在最后加入如下配置:

export JAVA_HOME=/usr/java/jdk1.8.0_66
export JRE_HOME=$JAVA_HOME/jre
export HADOOP_HOME=/usr/lib/hadoop
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$HADOOP_HOME/bin:$PATH

保存退出后运行source /etc/profile使其生效。上面也是每一台hadoop节点的JDK环境配置。

【编者按】Docker是PaaS供应商dotCloud开源的一个基于LXC 的高级容器引擎,源代码托管在 GitHub 上, 基于Go语言开发并遵从Apache 2.0协议开源。Docker提供了一种在安全、可重复的环境中自动部署软件的方式,它的出现拉开了基于云计算平台发布产品方式的变革序幕。为了更好的促进Docker在国内的发展以及传播,我们决定开设《深入浅出Docker》专栏,邀请Docker相关的布道师、开发人员、技术专家来讲述Docker的各方面内容,让读者对Docker有更深入的了解,并且能够积极投入到新技术的讨论和实践中。

1. Docker命令行

Docker官方为了让用户快速了解Docker,提供了一个交互式教程,旨在帮助用户掌握Docker命令行的使用方法。但是由于Docker技术的快速发展,此交互式教程已经无法满足Docker用户的实际使用需求,所以让我们一起开始一次真正的命令行学习之旅。首先,Docker的命令清单可以通过运行docker ,或者 docker help 命令得到:

$ sudo docker

More …

随着Apache Hadoop的起步,云客户的增多面临的首要问题就是如何为他们新的的Hadoop集群选择合适的硬件。

尽管Hadoop被设计为运行在行业标准的硬件上,提出一个理想的集群配置不想提供硬件规格列表那么简单。 选择硬件,为给定的负载在性能和经济性提供最佳平衡是需要测试和验证其有效性。(比如,IO密集型工作负载的用户将会为每个核心主轴投资更多)。

在这个博客帖子中,你将会学到一些工作负载评估的原则和它在硬件选择中起着至关重要的作用。在这个过程中,你也将学到Hadoop管理员应该考虑到各种因素。

结合存储和计算

过去的十年,IT组织已经标准化了刀片服务器和存储区域网(SAN)来满足联网和处理密集型的工作负载。尽管这个模型对于一些方面的标准程序是有相当意义 的,比如网站服务器,程序服务器,小型结构化数据库,数据移动等,但随着数据数量和用户数的增长,对于基础设施的要求也已经改变。网站服务器现在有了缓存 层;数据库需要本地硬盘支持大规模地并行;数据迁移量也超过了本地可处理的数量。

大部分的团队还没有弄清楚实际工作负载需求就开始搭建他们的Hadoop集群。

More …