2014年总结

博客分类：

其它

今天是2014年最后一天，年三十，做个总结，总结一下2014年做过的事。 1.数据仓库计算平台升级 a.将数据表格式改为LZO压缩模式，历史数据压缩，数据压缩比为30%，节省了大量的存储空间 b.Hive整体升级至0.11版本 c.数据仓库服务� ...

2015-02-18 14:52
浏览 619
评论(0)
分类:互联网

一个实时数据服务平台的设计和实现

博客分类：

FLUME
KAFKA
HBASE
ElasticSearch

FLUME KAFKA HBASE ElasticSearch 实时平台

背景在这个项目之前，也做过一个准实时的项目，大约延时10分钟左右，但是对业务单位的数据有要求，需要提供数据变化表，采用批量方式抽取，通过仓库调度系统控制任务顺序和数据流向。存在的问题：需要业务方做配 ...

2014-11-20 17:54
浏览 2597
评论(1)
分类:互联网

ElasticSearch优化的一些方法

博客分类：

ElasticSearch

1. 多线程程序插入，可以根据服务器情况开启多个线程index 速度可以提高n倍, n>=2 2. 如果有多台机器，可以以每台设置n个shards的方式，根据业务情况，可以考虑取消replias curl -XPUT 'http://10.1.*.*:9200/dw-search/' -d '{ "settings& ...

2014-08-08 18:07
浏览 47506
评论(1)
分类:互联网

最近有点空，又看了看之前写的ES导入的测试记录，干脆整理一下，看是否能给大家一点参考和借鉴。采用的是bulkindex方式，实际上就是把index操作作为prepareIndex，扔到bulkRquest中，等积累到一定数量的时候再统一提交，这样的目的无非就是为了效率。测试服务器 4*2 = 8核 2.13G, 4G*4=16G, 硬盘6T 一共4台。测试用例 1. Case 1 Index：5shards, 复制一份数据数据：200万数据，每条数据200个字节 A: 200 ...

2014-08-08 17:57
浏览 11047
评论(1)
分类:互联网

迟来的2013总结

博客分类：

其它

春节后上班第一天，总结一下2013年做的事情。 1.Hadoop平台 2013Q1 HADOOP集群做了一次升级，增加一批机器，计算能力增加100%，存储能力增加70%； 2013Q2精简了之前的冗余的分区方式，之前不知道什么原因，hdfs除了按日期分partition, 还有两级目录，导致namenode内存有些吃紧，经过精简这两级目录之后，减少了约60%目录、文件，内存占用减少了70%，增强了平台稳定性优化了调度策略，平台调度能力增强60%，内存占用减少为原来的20%，报表统计计算提早5小时完成 Hive增加权限管理，普通用户只有只读权限，增加了平台数据安全性；文件压缩完成了一部分， ...

2014-02-07 16:54
浏览 1633
评论(3)
分类:非技术

几个JobTracker优化的配置及解决JobTracker OOM的方法

博客分类：

Hadoop

Hadoop JobTracker

系统上线两年多了，最近发现任务积压严重，当然与任务越来越多有关系，但也不能放任不管。然后开始找原因，通过看日志，发现JT占用的内存挺大，虽然我内存给的20g，但也不能吃住不放啊，导致服务器LOAD值也有点偏高，所以断定是出在JT这里。 1.mapred.jobtracker.completeuserjobs.maximum 默认100 The maximum number of complete jobs per user to keep around before delegating them to the job history. 任务被扔到历史作业文件之前完成的任务最大数，也就是说每 ...

2013-12-20 15:25
浏览 4255
评论(0)
分类:互联网

Running Shark Locally 及可能出现的问题

博客分类：

NoSQL
Shark

Shark real-time query

Shark本地安装 1.下载scala wget http://www.scala-lang.org/files/archive/scala-2.9.3.tgz 最新有2.10.2.tgz文件 tar xvfz scala-2.9.3.tgz 2.下载shark and hive压缩包 wget http://spark-project.org/download/shark-0.7.0-hadoop1-bin.tgz (cdh3) tar xvfz shark-0.7.0-*-bin.tgz 3. 配置环境变量 cd shark-0.7.0/conf cp shark-env.sh.tem ...

2013-09-06 15:19
浏览 5162
评论(0)
分类:开源软件

Shark: Real-time queries and analytics for big data

博客分类：

NoSQL
Shark

Shark Impala

Shark大数据实时查询分析利器 Shark SQL查询比Hive快100倍，机器学习比Hadoop快100倍作者是Ben Lorica 2012-07-27 Ben Lorica的是O'Reilly Media公司的首席数据科学家，他致力于包括直销，消费者和市场的研究，有针对性的广告，文本挖掘，金� ...

2013-09-02 18:44
浏览 1795
评论(1)
分类:互联网

Apache Hadoop: Shark与Impala相比(翻译)

博客分类：

Shark

BigData NOSQL Shark Impala Hive

内容来自Reynold Xin Berkeley的博士，此人领导了Shark的开发(在加州伯克利分校AMP实验室)。本文只做翻译，不对两个系统的优劣做评价。总体上 Shark扩展了Apache Hive，大大加快在内存和磁盘上的查询。而Impala是企业级数据仓库系统, 可以很好地使用Hive/ HDFS，从架构层来说，类似于传统的并行数据库。这两个系统有着很多共同的目标，但也有很大差异。与现有系统的兼容性 Shark直接建立在Apache/Hive代码库上，所以它自然支持几乎所有Hive特点。它支持现有的Hive SQL语言，Hive数据格式（SerDes），用户自定义函数（UDF） ...

2013-08-22 11:28
浏览 5198
评论(0)
分类:开源软件

ElasticSearch Facet异常处理

博客分类：

ElasticSearch

ElasticSearch Facet

当facet时数据返回数字不对，或者出现异常，不做facet不报错，百思不得其解，在独立的index下建index type，facet也不报错。 QueryPhaseExecutionException[[dn][2]: query[ConstantScore(NotDeleted(cache(_type:dn_character_glory)))],from[0],size[1]: Query Failed [Failed to execute main query]]; nested: NumberFormatException[Invalid shift value in prefixC ...

2013-04-18 15:06
浏览 2740
评论(0)
分类:互联网

ElasticSearch 中文分词插件安装

博客分类：

ElasticSearch

ElasticSearch ES 分布式搜索

1. ik 现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.3 在elasticsearch/plugins目录下建analysis-ik目录然后直接下载安装包 https://github.com/medcl/elasticsearch-rtf/tree/master/elasticsearch/plugins/analysis-ik cd plugins mkdir analysis-ik cd analysis-ik wget https://github.com/medcl/elasticsearch-rt ...

2013-04-18 14:59
浏览 16135
评论(2)
分类:互联网

Hadoop 启动节点Datanode失败

博客分类：

Hadoop

hadoop

重新启动之前坏掉的一个节点的Datanode，发现进程没有启动成功。查看相应日志， ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.ipc.RemoteException: java.io.IOException: verifyNodeRegistration: unknown datanode wh-9-132:50010 at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.verifyNodeRegistration(FSNames ...

2012-08-29 20:55
浏览 10039
评论(1)
分类:互联网

Hadoop Mapreduce任务出错,Child Error

博客分类：

Hadoop

集群出现大面积任务失败，表现为mapreduce刚启动不久，就抛出异常，查看log可以看到， Status : FAILED java.lang.Throwable: Child Error at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271) Caused by: java.io.IOException: Task process exit with nonzero status of 1. at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258) ...

2012-08-28 15:28
浏览 4137
评论(2)
分类:互联网

HBASE importtsv导入数据及lzo问题解决

博客分类：

HBASE

hbase

用hadoop0.20版本做hbase的bulk load测试，发现importtsv的过程出现些问题，关于importtsv网上有很多资料，这里不待言表。先大概表述出现的问题，当使用两步的方式导入数据时，第一步，生成hfile hadoop jar hbase-version.jar importtsv -Dimporttsv.columns=HBASE_ROW_KEY,c1,c2 -Dimporttsv.bulk.output=tmp hbase_table hdfs_file 这一步提醒两个地方，c1,c2列是需要指明列族和列名，例如:cf:1,cf:2, ...

2012-05-10 16:15
浏览 7234
评论(0)
分类:互联网

Redis测试分析(pipeline模式推荐)

博客分类：

NoSQL
Redis

redis java jedis

测试环境 Redis测试版本：2.2.12 使用Java Jedis客户端进行测试测试数据量：50万，超过2亿速度 1) mset函数插入效率最高，插入Redis的速度达到20万条数据/秒。但是该函数所耗内存较高，对于我们实际应用一表每天2.4亿的数据量来说，需要消耗近32G内存； 2) mset函数中当m值达到200以上时，插入速度接近饱和，因此实际应用中，应设定该值 >= 200，以达到最高的插入效率； 3) set函数除非特定应用场景需求，否则应尽量不要使用，其插入效率为mset函数的1/20； 4) 尽管不同的函数都有string与byte[]两种不同的形式，但是对于Red ...

2011-12-31 18:33
浏览 16786
评论(2)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

2014年总结

一个实时数据服务平台的设计和实现

ElasticSearch优化的一些方法

ElasticSearch导入测试

迟来的2013总结

几个JobTracker优化的配置及解决JobTracker OOM的方法

Running Shark Locally 及可能出现的问题

Shark: Real-time queries and analytics for big data

Apache Hadoop: Shark与Impala相比(翻译)

ElasticSearch Facet异常处理

ElasticSearch 中文分词插件安装

Hadoop 启动节点Datanode失败

Hadoop Mapreduce任务出错,Child Error

HBASE importtsv导入数据及lzo问题解决

Redis测试分析(pipeline模式推荐)

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>