`
sealbird
  • 浏览: 570761 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

hadoop生态环境

阅读更多
1、Redhat linux下fluentd+fluentd 实现桥接 http://www.it165.net/os/html/201209/3499.html
2、日志收集系统 Fluentd http://www.linuxdiyf.com/viewarticle.php?id=371318

3、
  3-1、SaikuSaiku是一个模块化的分析套件,它提供了一个RESTful服务器,基于JackRabbit的工作区管理,OAuth安全管理和基于JSON或XML的数据通信。其目标是让你在应用程序中嵌入数据分析尽可能的简单。它还提供一个基于jQuery开发的前台来方便安装和运行(http://www.open-open.com/open305825.htm)
  3-2、Saiku是一个模块化的开源分析套件,它提供轻量级的OLAP(联机分析处理),并且可嵌入、可扩展、可配置(http://www.oschina.net/p/saiku)


4 运维工具:http://www.opstool.com/category/35

5 Transwarp Data Hub(简称TDH)是国内首个全面支持Spark和Hadoop2的一站式大数据平台
   http://www.transwarp.io/product.html
6\activemq 很好的参考资料
   http://shensy.iteye.com/blog/1752529


7\ hbase rowkey 设计(三维有序) 
http://ronxin999.blog.163.com/blog/static/4221792020130109202973?suggestedreading

8\ hadoop-lzo
https://github.com/twitter/hadoop-lzo/releases
https://github.com/google/snappy

9\Hadoop/Hbase的Snappy安装 .

http://blog.csdn.net/lixucpf/article/details/18314409


10\关于major compact
Here is some help for this command:
          Run major compaction on passed table or pass a region row
          to major compact an individual region. To compact a single
          column family within a region specify the region name
          followed by the column family name.
          Examples:
          Compact all regions in a table:
          hbase> major_compact 't1'
          Compact an entire region:
          hbase> major_compact 'r1'
          Compact a single column family within a region:
          hbase> major_compact 'r1', 'c1'
          Compact a single column family within a table:
          hbase> major_compact 't1', 'c1'



土木工程网

11\分词器
   11.1 ansj


/////////////////////////////////////
爬虫地址
http://blog.chinaunix.net/uid-22414998-id-3774291.html

hadoop2.0相关
1、安装配置 http://www.kankanews.com/ICkengine/archives/86515.shtml

solr 与hadoop
1\solr4.4+hadoop2.1.0beta整合http://www.kankanews.com/ICkengine/archives/42064.shtml
深入剖析SolrCloud(四)solrcloud 与replication  http://www.blogjava.net/wangxinsh55/archive/2012/07/04/382220.html
http://wiki.apache.org/solr/SolrCloud

1\分词
https://github.com/ansjsun/ansj_seg/

2\导数进入solr
http://wiki.apache.org/solr/DataImportHandler#Configuration_in_data-config.xml
3\jvm 优化
利用Arena Allocation避免HBase触发Full GC http://kenwublog.com/avoid-full-gc-in-hbase-using-arena-allocation
4\
https://github.com/NGDATA/hbase-indexer/wiki/Requirements
https://github.com/NGDATA/hbase-indexer/wiki/Installation
分享到:
评论

相关推荐

    Hadoop生态环境部署手册_V1.0.doc

    Hadoop生态环境部署手册_V1.0.doc

    hadoop生态圈各种环境

    里面有tomcat,impala,hadoop,ftp,es。。。。。。。

    Hadoop生态环境(一).docx

    !

    Hadoop生态环境(一).pdf

    !

    hadoop生态

    大数据实施部署

    hadoop 生态圈集群搭建

    hadoop 2.7.5 集群搭建 spark 2.2.1 集群搭建,配置scala编译环境 hive on spark 安装 hbase 搭建

    Hadoop生态体系环境搭建及项目实验-基于模拟终端

    生态体系环境搭建及项目实验-基于模拟终端,本资料是基于大数据的资料,包含了怎么安装,以及安装后的使用,培训的资料,是基于模拟终端的,包含了Hadoop环境搭建的详细介绍文档和资料,以及Mapreduce编程、Hive编程...

    java大数据作业_1云计算、大数据、hadoop

    6.列举Hadoop生态环境的至少5个核心项目,并标明是什么? 7.描述配置项的含义 dfs.replication mapred.tasktracker.reduce.tasks.maximum dfs.data.dir 8.HDFS监控项含义 Configured Capacity DFS Used DFS Used% ...

    伪分布式基于hadoop3.1.3生态环境大数据集群

    hadoop=3.1.3 jdk=1.8.0_162 hbase=2.2.2 mysql=5.7.3 hive=3.1.2 scala=2.11.12 spark=2.4.0 sbt=1.3.8 flink=1.9.1 maven=3.6.3 建议配合主机的IntelliJ-IDEA的Bigdata拓展工具以及SSH服务进行远程操控使用。 3.本...

    Hadoop原理及部署

    Hadoop原理及部署,非常全面的讲解 大数据的理论和价值逐渐得到了社会各界的认可,各种各样的大数据应用系统应运而生,正在创造性地解决着不同使用场景下的问题。在大数据应用越来越多样化的同时,对提供支撑的基础...

    Hadoop搭建实验报告

    NULL 博文链接:https://daxiangwanju.iteye.com/blog/1962175

    Hadoop伪分布式及生态圈组件搭建新手指导文档

    学习过程中积累手工制作的文档,帮助刚刚接触Hadoop的新手搭建基本环境,文档内包括hdfs/yarn/hbase基本组件,后续会继续更新,第一次发布自己制作的文档,希望大家多多支持

    Hadoop+Spark生态系统操作与实战指南.epub

     全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作...

    Hadoop从入门到上手企业开发

    009 Hadoop 生态系统介绍讲解 010 Hadoop 生态系统介绍讲解 011 Hadoop 服务讲解 012 HDFS 架构的讲解 013 MapReduce 架构讲解和MapReduce思想原理讲解 014 Apache Hadoop 三种安装部署模式讲解 015 Apache Hadoop ...

    一、Hadoop简介 和 Hadoop结构介绍

    Hadoop是现阶段数据开发的基础,Hadoop通常是指一个更广泛的概念—-Hadoop生态圈(基于或关于Hadoop的大数据开发的各种软件环境) 是Apache公司使用Java语言编写的开源的,分布式系统的基础架构 分布式就是,当储存...

    Hadoop平台在大数据处理中的应用研究

    详细描述Hadoop集群环境的搭建过程,将Hadoop应用到一个文件发布系统中,针对不同数量级的文件在集群数不等的情况下对文件上传操作进行耗时比较。实验结果表明,数据量越大,集群节点数越多,Hadoop集群处理数据的能力就...

    ambari-1.61.tar.gz

    非常好用的大数据管理监控平台,非常感谢开源的hadoop生态环境

    hive500多网盘链接学习包含代码

    全面了解、安装部署在Hadoop生态环境下的数据仓库,解决pb级数据量的计算问题。

    Hadoop权威指南 第二版(中文版)

     Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce  一个气象数据集  数据的格式  使用Unix工具进行数据分析  使用Hadoop分析数据  map阶段和reduce阶段  横向扩展  合并函数  运行一个分布式的MapReduce...

    Hadoop权威指南(中文版)2015上传.rar

    Apache Hadoop和Hadoop生态圈 第2章 关于MapReduce 一个气象数据集 数据的格式 使用Unix工具进行数据分析 使用Hadoop分析数据 map阶段和reduce阶段 横向扩展 合并函数 运行一个分布式的MapReduce作业 Hadoop的...

Global site tag (gtag.js) - Google Analytics