english

Video: Cluster Computing and MapReduce Lecture

Google的核心价值究竟是什么,普通用户可能无法知晓,但做为Architect就不能不深究其中的道理。在观看Cluster Computing and MapReduce Lecture视频之前,先引用郝培强和孟岩关于MapReduce的话。Cluster Computing很多人都知晓,这里不做简述。

MapReduce是Google开发的C++编程工具,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(化简)",和他们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。—– 郝培强

面对复杂问题,古人教导我们要“之”,英文中对应的词是”Divide and Conquer“。Map/Reduce其实就是Divide/Conquer的过程,通过把问题Divide,使这些Divide后的Map运算高度并行,再将Map后的结果Reduce(根据某一个Key),得到最终的结果 —— 孟岩

郝培强:在Google,MapReduce用在非常广泛的应用程序中,包括“分布grep,分布排序,web连接图反转,每台机器的词矢量,web访问日志分析,反向索引构建,文档聚类,机器学习,基于统计的机器翻译…”—– 郝培强

更多更好的介绍在郝培强对英文wiki上MapReduce的翻译文档,以及孟岩关于MapReduce的科普文章。虽然这些文章已经是一年前的了,但还是很值得一读。

2007年夏天,Google软件工程师坐在一起做了精彩的Cluster Computing and MapReduce讲演。以下是第四章,介绍MapReduce对K-Means和Canopy Clusting的实现。(youtube关于此章节的评论大都是对IT业中女性的火辣赞美,hot girl, cute girl,不绝于耳 :_)

以下是全部五个章节的讲演内容,点击图片链接可观看视频。



Lecture 1 - Introduction
分布式系统简介,以及同步、网络等.
Slides - Introduction to Distributed System Design

Lecture 2 - MapReduce
介绍MapReduce编程模型.
Slides - MapReduce

Lecture 3 - Distributed File Systems
介绍Google File System的分布式文件系统.
Slides - The Google File System

Lecture 4 - Clustering Algorithms
介绍各种集群算法,以及MapReduce对K-Means和Canopy Clusting的实现。
Slides - Canopy Clustering

Lecture 5 - Graph Algorithms
由Dijkstr做的分布式Pagerank展示.
Slides - The Anatomy of a Search

terababy言:

1. 映射(Map)和规约(Reduce)是一种优秀的编程思想,从简单的程序算法到总体的代码框架,还有大型的分布式计算。规模不同,但传达的信息都是一样的,“分而治之,总而言之”。

2. plugin框架是映射的一种变异体,拿WordPress举例,它将blog平台的各个功能和扩展分化成各个钩子函数,由钩子函数完成映射功能,当所有钩子函数运行完毕,整个blog界面才会展现。

3. MapReduce必然要牵涉到分布式的可靠性,它的运行机制很像企业应用和网站应用中的cluster架构,坏点管理、并行冲突、session管理都是它们相似的地方。把握好这些,很容易理解MapReduce的运行机制。

4. 简单的是优美的。


分享: Fanfou Misterwong-CN QQ Bookmark Baidu Bookmark del.icio.us Digg Google

1 Comment »

  1. 西安办証西安办証qq874240600 said,

    6 April 2009 @ 2:17 AM

    西安办証qq874240600办英语四六级成绩单1 5 9 1 7 7 7 5 0 7 1 QQ:、8 7 4 2 4 0 6 0 0
      文凭类:、高中、中专、职业学校、高等院校学历证书、自学考试、成人高考、函授、英语、计算机等级证书以及各种档案材料(含专科、本科、研究生、硕士、博士等)。并可根据客户要求办理。        
      、资职类:物流师、助理物流师、各类操作证(电工、焊工、叉车、司炉等)、技术等级证(初级、中级、高级)、厨师、美容美发、会计、会计师、工程师、教师、医师等资格证、职称证等 
      、户口类:各种防伪身份证、户口本、未婚证、结婚证、离婚证、准生证等。   
      、部队类:退伍证、军人残疾证、驾驶证(行驶证)、职工证、等。
      、车牌类:大型客(货)车牌照、小型客(货)车牌照、挂车牌照、赛车牌照、摩托车牌照、部队车辆牌照、车辆牌照等。汽车档案:汽车驾驶证、行驶证、营运证、附加费、养路费、从业资格证、年审等。
      、房产证类:房屋所有权证、房屋他项权证、国有土地使用证、土地权利证明书、营业执照(企业、个体)、收据、入网许可证、消防安全合格证、等等。

RSS feed for comments on this post · TrackBack URI

Leave a Comment