GitHub - xiaows08/app-logs: bigdata-用户访问行为分析

模块分布

app-logs-web (web | springBoot) [主业务]
- 用户访问入口
- 前端界面设置埋点,收集用户数据
- 用户行为日志收集
  1. 通过 flume 采集 nginx 访问日志,发送至 kafka | hdfs
  2. 或者直接发送至 nginx-kafka
app-logs-phone (test) [模拟客户端生成日志]
- 通过 random 产生数据
- 模拟手机端发送日志
- 日志类型共分为5种 [startup, error, event, usage, page]
- 日志发送到 app-logs-collect tomcat服务器上
app-logs-collect (web | springBoot) [接收应用日志到 kafka 集群]
- 集成 kafka 生产者, 向 broker-list 发送数据
- 注: 该模块可被 nginx-kafka 替代
app-logs-flume
- 自定义拦截器
- 功能:
  - 增加 topicType 头
  - 增加数据收集时间头
app-logs-hive
- 自定义函数 UDF
hive spark mysql hbase
app-dubbo-api
- 声明service接口
app-dubbo-service [微服务-提供分析后的数据]
- 实现 service 接口
- 读取数据库,查询数据
- jdbc:hive2://hive-1:10000/applogdb
- jdbc:hive2://spark-1:10000/applogdb
app-dubbo-web (web | springBoot) [微服务-分析后的数据可视化]
- 调用 service 接口
- 可视化 web 程序

项目流程

zookeeper -> kafka -> flume -> hdfs -> hive -> spark

Zookeeper v3.4.10

编写集群启动脚本 [$ZOOKEEPER_HOME/cluster-zk.sh]

#!/bin/bash
if [ $# = 0 ]; then
    echo "Please input commod of zkServer {start|start-foreground|stop|restart|status|upgrade|print-cmd}"
    exit 1
fi
for i in 1 2 3; do
    ssh zk-$i "echo  $i > /data/zkData/myid;$ZOOKEEPER_HOME/bin/zkServer.sh $1"
done
#tailf -500 zookeeper.out

启动 zookeeper集群

$ZOOKEEPER_HOME/cluster-zk.sh start

Kafka v2.11-1.0

启动kafka集群脚本[$KAFKA_HOME/cluster-kafka.sh]

#!/bin/bash
if [ $# = 0 ]; then
    echo "Please input commod of kafka {start|stop}"
    exit 1
fi

for i in 1 2 3; do
    ssh kafka-$i sed -i "s/broker.id=[0-9]*/broker.id=$i/g" $KAFKA_HOME/config/server.properties;
    ssh kafka-$i $KAFKA_HOME/bin/kafka-server-$1.sh -daemon $KAFKA_HOME/config/server.properties
done

echo "$KAFKA_HOME/bin/kafka-topics.sh --zookeeper zk-1:2181,zk-2:2181,zk-3:2181 --list"
echo "$KAFKA_HOME/bin/kafka-topics.sh --zookeeper zk-1:2181,zk-2:2181,zk-3:2181 --create --replication-factor 2 --partitions 3 --topic mytopic"
echo "$KAFKA_HOME/bin/kafka-console-producer.sh --broker-list kafka-1:9092 --topic mytopic"
echo "$KAFKA_HOME/bin/kafka-console-consumer.sh --bootstrap-server kafka-1:9092 --topic mytopic"

启动kafka集群

$KAFKA_HOME/cluster-kafka.sh start

kafka常用命令

# 查看topic
/usr/local/kafka_2.11-2.0.0/bin/kafka-topics.sh --zookeeper zk-1:2181,zk-2:2181,zk-3:2181 --list

# 创建 topic
/usr/local/kafka_2.11-2.0.0/bin/kafka-topics.sh --zookeeper zk-1:2181,zk-2:2181,zk-3:2181 --create --replication-factor 2 --partitions 3 --topic mytopic

# 启动控制台生产者
/usr/local/kafka_2.11-2.0.0/bin/kafka-console-producer.sh --broker-list kafka-1:9092 --topic mytopic
#>
# 启动控制台消费者 (--from-beginning 从头开始消费)
/usr/local/kafka_2.11-2.0.0/bin/kafka-console-consumer.sh --bootstrap-server kafka-1:9092 --topic mytopic --from-beginning

Hadoop v2.8.3

启动 hdfs

start-dfs.sh

Flume v1.8

配置 $FLUME_HOME/conf/kafka-c_hdfs-k.conf

# kafka Channel + HDFS sink(without sources)
a1.channels = c1
a1.sinks = k1

# 定义 KafkaChannel
a1.channels.c1.type = org.apache.flume.channel.kafka.KafkaChannel
a1.channels.c1.parseAsFlumeEvent = false
a1.channels.c1.kafka.bootstrap.servers = kafka-1:9092,kafka-2:9092,kafka-3:9092
a1.channels.c1.kafka.topic = app-log
a1.channels.c1.kafka.consumer.group.id = g1

# 定义 HDFS sink
a1.sinks.k1.channel = c1
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://hadoop-1:9000/flume/app-log/%Y/%m/%d/%H/%M
a1.sinks.k1.hdfs.useLocalTimeStamp = true
a1.sinks.k1.hdfs.filePrefix = log
a1.sinks.k1.hdfs.fileType = DataStream
# 不按照条数生成文件
a1.sinks.k1.hdfs.rollCount = 100
# HDFS 上的文件达到128M 生成一个文件
a1.sinks.k1.hdfs.rollSize = 134217728
# HDFS 上的文件达到10分钟生成一个文件
a1.sinks.k1.hdfs.rollInterval = 600

添加 HDFS 相关依赖

ssh hadoop-1
cd /usr/local/hadoop-2.8.3/share/hadoop/

#find . -name commons-configuration-1.6.jar
#find . -name commons-io-2.4.jar
#find . -name hadoop-auth-2.8.3.jar
#find . -name hadoop-common-2.8.3.jar
#find . -name hadoop-hdfs-2.8.3.jar
#find . -name hadoop-hdfs-client-2.8.3.jar
#find . -name htrace-core4-4.0.1-incubating.jar

cp common/lib/commons-configuration-1.6.jar flume-libs/
cp common/lib/commons-io-2.4.jar flume-libs/
cp common/lib/hadoop-auth-2.8.3.jar flume-libs/
cp common/hadoop-common-2.8.3.jar flume-libs/
cp hdfs/hadoop-hdfs-2.8.3.jar flume-libs/
cp hdfs/hadoop-hdfs-client-2.8.3.jar flume-libs/
cp common/lib/htrace-core4-4.0.1-incubating.jar flume-libs/

scp -r flume-libs/* flume-1:/usr/local/flume-1.8.0-bin/lib/

启动 flume-ng

/usr/local/flume-1.8.0-bin/bin/flume-ng agent -c conf/ -f conf/kafka-c_hdfs-k.conf -n a1 -Dflume.root.logger=INFO,console

Hive v1.2 | v2.3

配置 $HIVE_HOME/conf/hive-site.xml

<configuration>
  <property>
    <name>javax.jdo.option.ConnectionURL</name>
    <value>jdbc:mysql://awx.local:3306/hivedb?createDatabaseIfNotExist=true</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionDriverName</name>
    <value>com.mysql.jdbc.Driver</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionUserName</name>
    <value>root</value>
  </property>
  <property>
    <name>javax.jdo.option.ConnectionPassword</name>
    <value>123456</value>
  </property>
</configuration>

添加mysql连接依赖

cp mysql-connector-java-5.1.40.jar $HIVE_HOME/lib/

添加 JSON 解析依赖

cp hcatalog/share/hcatalog/hive-hcatalog-core-1.2.2.jar lib/

启动hiveserver2后台服务

nohup ./bin/hiveserver2 1 >> hiveserver2.log 2>&1 &

启动 Hive 客户端 beeline

./bin/beeline -u jdbc:hive2://localhost:10000 -n root

在 Hive 客户端 beeline 中创建外部分区表

create external table ext_app_log(
  appChannel string,
  appPlatFrom string,
  appVersion string,
  brand string,
  carrier string,
  country string,
  currentDate string,
  deviceStyle string,
  eventID string,
  network string,
  osType string,
  province string,
  remoteAddr string,
  screenSize string,
  tenantId string
) partitioned by (ym string, day string, hm string)
 row format serde 'org.apache.hive.hcatalog.data.JsonSerDe' stored as textfile;

从 HDFS 中加载数据

load data inpath '/flume/app-log/2018/12/28/15/06' into table ext_app_log partition(ym=201812, day=28, hm=1506);
#load data inpath '/flume/app-log/${ym}/${day}/${hm}' into table t_access partition(dt=20170806);

编写 /root/crontab/.load_data.hql (隐藏文件)

load data inpath '/flume/app-log/${YEAR}/${MONTH}/${DAY}/${HM}' into table app_logs.ext_app_log partition(ym=${YM}, day=${DAY}, hm=${HM});

编写 crontab 执行的 shell 脚本 /root/crontab/load_data.sh

#!/bin/bash

systime=`date "+%Y-%m-%d-%H%M"`
year=`echo ${systime} | awk -F '-' '{print $1}'`
month=`echo ${systime} | awk -F '-' '{print $2}'`
ym=`echo ${systime} | awk -F '-' '{print $1$2}'`
day=`echo ${systime} | awk -F '-' '{print $3}'`
hm=`echo ${systime} | awk -F '-' '{print $4}'`

cp /root/crontab/.load_data.hql /root/crontab/load_data.hql

sed -i 's/${YEAR}/'${year}'/g' /root/crontab/load_data.hql
sed -i 's/${MONTH}/'${month}'/g' /root/crontab/load_data.hql
sed -i 's/${YM}/'${ym}'/g' /root/crontab/load_data.hql
sed -i 's/${DAY}/'${day}'/g' /root/crontab/load_data.hql
sed -i 's/${HM}/'${hm}'/g' /root/crontab/load_data.hql
echo '===========> load_data.sql creation has completed!'

#执行 hive 的命令
echo '===========> execute load_data.sql'
/usr/local/hive-1.2.2-bin/bin/hive -f /root/crontab/load_data.hql
#rm /root/crontab/load_data.sql
echo '===========> load_data.sql executed done!!!'

#sqoop export
#echo '===========> execute sqoop job ...'
#sqoop job --exec myjob
#echo '===========> execute sqoop job over!!!'

配置 crontab 表达式 crontab -e

# m h dom mon dow user	command
* * * * * root /root/crontab/load_data.sh >> /root/crontab/load_data.log

启动 crontab 服务

service crond start
service crond status

注: docker 容器中 crontab 启动不起来...(上次不知道怎么又好了O_O#)

上传 app-logs-hive-1.0.0-SNAPSHOT.jar包到 HDFS 中

hsdf dfs -put app-logs-hive-1.0.0-SNAPSHOT.jar hdfs://hadoop-1:9000/user/root/

在 beeline 中向 hive 注册 UDF 函数

create function formattime as 'cn.xiaows.hive.udf.FormatTimeUDF' using jar 'hdfs://hadoop-1:9000/user/root/app-logs-hive-1.0.0-SNAPSHOT.jar'
create function getdaybegin as 'cn.xiaows.hive.udf.DayBeginUDF' using jar 'hdfs://hadoop-1:9000/user/root/app-logs-hive-1.0.0-SNAPSHOT.jar'
create function getweekbegin as 'cn.xiaows.hive.udf.WeekBeginUDF' using jar 'hdfs://hadoop-1:9000/user/root/app-logs-hive-1.0.0-SNAPSHOT.jar'
create function getmonthbegin as 'cn.xiaows.hive.udf.MonthBeginUDF' using jar 'hdfs://hadoop-1:9000/user/root/app-logs-hive-1.0.0-SNAPSHOT.jar'

检测 Hive 元数据库

mysql> select * from funcs;
mysql> select * from func_ru;
-- 测试 UDF
hive> select formattime();
hive> select getdaybegin();
hive> select getweekbegin(-1);
hive> select getmonthbegin();
hive> select formattime(getmonthbegin(1));

Spark v2.2.0

启动thriftserver

$SPARK_HOME/sbin/start-thriftserver.sh --master spark://spark-1:7077
netstat -nultp | grep 10000

./bin/beeline -u jdbc:hive2://localhost:10000/

同步时间

echo "Asia/Shanghai" > /etc/timezone
dpkg-reconfigure -f nonineteractive tzdata

pv: select page, count(*) from logs where year=2019 and month=01 and day=01 group by page;

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
app-logs-collect		app-logs-collect
app-logs-common		app-logs-common
app-logs-flume		app-logs-flume
app-logs-hive		app-logs-hive
app-logs-phone		app-logs-phone
app-logs-web		app-logs-web
dubbo-api		dubbo-api
dubbo-consumer		dubbo-consumer
dubbo-provider		dubbo-provider
.gitignore		.gitignore
README.md		README.md
pom.xml		pom.xml
项目结构图.png		项目结构图.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

模块分布

项目流程

Zookeeper v3.4.10

Kafka v2.11-1.0

Hadoop v2.8.3

Flume v1.8

Hive v1.2 | v2.3

Spark v2.2.0

About

Releases

Packages

Languages

xiaows08/app-logs

Folders and files

Latest commit

History

Repository files navigation

模块分布

项目流程

Zookeeper v3.4.10

Kafka v2.11-1.0

Hadoop v2.8.3

Flume v1.8

Hive v1.2 | v2.3

Spark v2.2.0

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages