a tiny data analyst: April 2010

Wednesday, April 28, 2010

淘宝商城情况和定位,淘宝CFO商城主管张勇

1：淘宝商城做B2C，相当于一个设防的经济特区，要进入这个经济特区经营的商家，必须是企业，同时它必须要符合一定的资质要求，实行更严格的管理规则和对商家更严重的服务要求

2：淘宝商城的情况：20个淘宝商城（分类），12000家商户，吸引点是：1.9亿注册会员，中国的网名3.85亿

3：商家/ 企业在淘宝商城的定位很重要，“1.9亿用户和一天4000万的访问者，怎么样在这里面找到所在商品品牌的目标用户，怎么样对这些目标用户进行定向营销”

* 数据挖掘可以做的事情：分析淘宝用户的购物需求，为企业提供需求分析

4：电子商务非常重要的问题是后台问题，即电子商务的解决方案，比如配货，例子：一个商家做活动一天得配送4W个包裹，“怎么样进行流程设计，能够保证这些包裹能够很好的报，并且很好的检验，没有发错，怎么样能够保证快递冷却及时到达消费者手里”

5：企业在淘宝商城战略上的资源配置
6：补货
* 数据挖掘：应该要能够很好的预测到可能的销量，帮助企业未雨绸缪准备货物储备

7：淘宝商城一年年收入增长500%

in reference to: 图文：淘宝商城主管张勇演讲_互联网_科技时代_新浪网 (view on Google Sidewiki)

Wednesday, April 21, 2010

Hive 安装过程

Hive 是由Facebook found的一个Hadoop子项目，看
淘宝数据平台师兄的介绍

我记录下我在安装Hive时候遇到的问题，以便后来者能够借鉴之

首先我考虑的是官方的tutorial
http://wiki.apache.org/hadoop/Hive/GettingStarted#Hive_introduction_videos_From_Cloudera

$ svn co http://svn.apache.org/repos/asf/hadoop/hive/trunk hive
$ cd hive
$ ant package
$ cd build/dist
$ ls
README.txt
bin/ (all the shell scripts)
lib/ (required jar files)
conf/ (configuration files)
examples/ (sample input and query files)

但是发现在ant的时候，一直出现 ivy:retrieve .....的提示，我估计是从网上需要下载东西，后来仔细看了下install 过程的提示发现了

[ivy:retrieve] downloading http://mirror.facebook.net/facebook/hive-deps/hadoop/core/hadoop-0.17.2.1/hadoop-0.17.2.1.tar.gz ...

在中华大局域网下，你想从facebook下东西？先翻墙
因为我有SSH，我用了proxychains，天真的把安装程序丢到proxychains中间去就以为能够万事大吉，

proxychains ant package

结果错了，还是出现这种问题。
我不知道是proxychains无能，还是别的什么我没想到的配置
最后，只好作罢，树挪死人挪活
想起淘宝数据平台博客（我暑假就要去淘宝实习了，也是这个部门，师兄的作品呢）有安装步骤，
淘宝数据平台
果然

Hive 的下载配置安装
请参考入门指南, 这里给出最基本的提纲:

* 安装配置 Hadoop。
* 安装配置数据库（mysql 等）。
* 获得 Hive 源码或者可执行代码。wget http://www.apache.org/dist/hadoop/hive/hive-0.5.0/hive-0.5.0-bin.tar.gz
* tar xzf hive-0.5.0-bin.tar.gz
* cd hive-0.5.0
* 配置 Hive 如何访问数据库，如何访问 Hadoop。
* 运行 Hive。

当看到 Hive 提示符‘Hive>’的时候，恭喜，你可以开始你的 Hive 之旅了。

最后按照此方法下载bin source code ,tar,设置了$HADOOP_HOME
最后 done

hive>>

a tiny data analyst

Wednesday, April 28, 2010

淘宝商城情况和定位,淘宝CFO商城主管张勇

Wednesday, April 21, 2010

Hive 安装过程

Blog Archive

About Me