小e的博客

栏目: 技术分享      阅读: 52

1、前言

Hadoop Pipes可供C++开发者开发MapReduce任务。文献与书籍上也写了,C++与Java是通过Socket通信,但是具体的运行机制是什么还是得参考源码。

这篇博文主要从源码角度来讲解Hadoop Pipes运行机制以及设计原理,实际的Hadoop Pipes编程请参见:Hadoop Pipes编程

Continue reading “Hadoop Pipes运行机制” »

Hadoop Pipes编程

栏目: 技术分享      阅读: 49

1、Hadoop Pipes简介

Hadoop Pipes是Hadoop MapReduce的C++接口代称。不同于使用标准输入和输出来实现的map代码和reduce代码之间的Streaming编程,Pipes使用Socket作为TaskTracker与C++进程之间数据传输的通道,数据传输为字节流。

Continue reading “Hadoop Pipes编程” »

栏目: 文化分享 , 生活分享      阅读: 93

今天看到了一个有趣的定理:

薛定谔的滚:当一个妹子叫你滚的时候,永远不知道她是在叫你滚,还是叫你过来抱紧。

看到之后,感触良多啊。也顺带想起了这个薛定谔以前玩过一只猫,但是一直没有仔细去了解那只猫的下场,所以就查了查。一不小心查到了有趣的果壳网问答了,里面有一个有趣的问题,如下:

Continue reading “轻松一刻 – 薛定谔的猫” »

栏目: 技术分享      阅读: 62

获取默认配置

配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:

1.选择相应版本的hadoop,下载解压后,找到core-default.xml,hdfs-default.xml,mapred-default.xml。这些分别在hadoop/src/{core | hdfs | mapred}下面。这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。

Continue reading “Hadoop默认配置和常用配置” »

栏目: 技术分享 , 文化分享      阅读: 142

1、自然语言处理(Natural Language Processing)

看自然语言处理的材料、书籍也有一段时间了,最近好像快看出点门道了,今天就以一个新手的角度来说说我所理解的自然语言处理。

Continue reading “新手说自然语言处理” »

标签:
阅读全文      3 枚回复

栏目: 技术分享      阅读: 110

这篇文章是漫话中文分词算法的续篇。在这里,我们将紧接着上一篇文章的内容继续探讨下去:如果计算机可以对一句话进行自动分词,它还能进一步整理句子的结构,甚至理解句子的意思吗?这两篇文章的关系十分紧密,因此,我把前一篇文章改名为了《漫话中文自动分词和语义识别(上)》,这篇文章自然就是它的下篇。我已经在很多不同的地方做过与这个话题有关的演讲了,在这里我想把它们写下来,和更多的人一同分享。

Continue reading “转 – 漫话中文自动分词和语义识别(下):句法结构和语义结构” »

栏目: 技术分享      阅读: 144

M牛的这篇博文实在是太精彩了,读了一遍又一遍,最后干脆就直接转过来了。有兴趣的可以直接看他的博客:matrix67

Continue reading “转 – 漫话中文自动分词和语义识别(上):中文分词算法” »

栏目: 生活分享      阅读: 163

1、杂侃

最近状态着实不太好,也有点闲。大部分时间都在看书,coding也不太多,琢磨着写一两个小程序,也没找到好玩的。昨晚无聊刷微博的时候,灵机一动,干脆分析分析自己的微博吧。所以也就有了这篇文章。

Continue reading “@小e_鸿伟的微博粗分析” »

栏目: 技术分享      阅读: 131

1、简介

在某些应用中,会将n个不同的元素分成一组不相交的集合(disjoint)。不相交的集合有两个重要的操作,即找到给定的元素所属的集合(find)和合并两个集合(union)。为了更好的支持这两种操作,就出现了并查集(Disjoint-Set or Union-find set)。

Continue reading “趣味数据结构 – 并查集” »

栏目: 技术分享      阅读: 173

1、简介

给一串有序的数据,如何存储可以增删查改快速方便、扩容简单、实现也简单呢?用数组吧,实现简单,二分法也老快了,但是删除就很麻烦了,且扩容也需要开辟新的空间。用链表吧,新增删除都很快,但是查找就得遍历了。用平衡树(AVL、红黑树)吧,新增删除扩容都很方便,但是实现起来非常麻烦。

Continue reading “趣味数据结构 – SkipLists” »