In [None]:
# 旅游数据的分析与变形
# 读取自由行路线数据表
import pandas as pd
df = pd.read_csv('E:/dataset/pandas_data/qunar_free_trip.csv',delimiter=",",encoding="utf8",header=0)
df.head()

In [None]:
# 按出发地、目的地分组查看价格均值
df['价格'].groupby([df['出发地'],df['目的地']]).mean()

In [None]:
# 读取路线总数
df_ = pd.read_csv('E:/dataset/pandas_data/qunar_route_cnt.csv',delimiter=",",encoding="utf8",header=0)
df_.head()

In [None]:
# 按出发地、目的地分组查看价格均值汇总表
df1 = df.groupby([df['出发地'],df['目的地']],as_index=False).mean()
df1

In [None]:
# 将价格均值汇总表和路线总数表合并  emmm...
pd.merge(df1,df_).head(10)

In [None]:
# 查看出发地vs目的地vs平均价格的数据透视图
# 就出发地到目的地的价格二维图
df2 = pd.pivot_table(df,values=['价格'],index=['出发地'],columns=['目的地'])
df2.head(8)

In [None]:
# 从杭州出发的目的地vs去程方式vs平均价格的数据透视表
df1 = pd.pivot_table(df[df['出发地']=='杭州'],values=['价格'],index=['出发地','目的地'],columns=['去程方式'])
df1
# 二维图示，抽取出发地为杭州到其他目的地的去程方式及其对应价格

In [None]:
# 缺失值处理
# 查看是否有缺失值
df = pd.read_csv('E:/dataset/pandas_data/hz_weather.csv',delimiter=",",encoding="utf8",header=0)
df1 = pd.pivot_table(df,values=['最高气温'],index=['天气'],columns=['风向'])
df1.isnull()

In [None]:
# 使用参数axis=0选择删除行
# 啥意思啊，就是选择删除，列数据均为NaN的行？
# 显示的是原表处理后的留下来的数据
df1.dropna(axis=0)

In [None]:
# 选择删除列
df1.dropna(axis=1)

In [None]:
# 用字符串代替缺失值
df1.fillna('missing')

In [None]:
# 使用前一个数据代替NaN：method='pad'
df1.fillna(method='pad')

In [None]:
# bfill表示用后一个数据代替NaN
# 用limit限制每列可以替代NaN的数目，下面限制每列只能替代一个NaN
df1.fillna(method='bfill',limit=1)

In [None]:
# 使用平均数或者其他描述性统计量来代替NaN这种方法
df1.fillna(df1.mean())

In [None]:
# 检测和过滤异常值，使用describe函数可以生成描述统计结果
# 基于统计与数据分布
# 这行啥意思啊
% matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt
df = pd.read_csv('E:/dataset/pandas_data/hz_weather.csv',delimiter=",",encoding="utf8",header=0)
fig,ax = plt.subplots(1,1,figsize=(8,5))
ax.hist(df['最低气温'],bins=20)
d = df['最低气温']
zscore = (d-d.mean())/d.std()
df['isOutlier'] = zscore.abs()>3
df['isOutlier'].value_counts()

In [None]:
# 箱型图分析
# 用于观测数据整体的分布情况，利用中位数，25%分位数，75%分位数、上边界、下边界等统计量来描述数据的整体分布情况
# 箱体中数据一般被认为正常，箱体上边界和下边界被认为异常
# %matplotlib inline
# import matplotlib as mpl
# import matplotlib.pyplot as plt
# df = pd.read_csv('E:/dataset/pandas_data/sale_data.csv',delimiter=",",encoding="utf8",header=0)# 没这数据。。
# fig,ax = plt.subplots(1,1,figsize=(8,5))
# df_ = df[df["子行业名称"]=="羽绒服"]
# df_.boxplot(column="成交量",ax=ax)
# d = df_["成交量"]
# print(d.describe())
# df_['isOutlier'] = d > d.quantile(0.75)
# df_[df_['isOutlier']==True]

In [None]:
# 移除重复数据
# duplicated方法返回一个bool型Series，用以判断某行是否为重复行
# drop_duplicates方法返回一个删除了重复行的DataFrame
df = pd.read_csv('E:/dataset/pandas_data/hz_weather.csv',delimiter=",",encoding="utf8",header=0)
df.duplicated()

In [None]:
df.duplicated('最高气温') # 按照列进行判断  这里跟书上不一样，data是啥啊

In [None]:
df.drop_duplicates('最高气温') # 返回一个新的去重后的对象

In [None]:
# 案例 旅游数据的值检查与处理
# 对某旅游网站自由行路线数据缺失值、异常值、重复值的处理
import pandas as pd
df = pd.read_csv('E:/dataset/pandas_data/qunar_free_trip.csv',delimiter=",",encoding="utf8",header=0)
df.head()

In [None]:
# 查看是否有缺失值
df.info()

In [None]:
# 查看是否有重复值
df.duplicated().value_counts()

In [None]:
# 移除重复值
df = df.drop_duplicates()
df.duplicated().value_counts()

In [None]:
# 查看描述性统计信息
df.describe()

In [None]:
# 画出价格分布的直方图和箱型图
% matplotlib inline
import matplotlib as mpl
import matplotlib.pyplot as plt

fig,axes = plt.subplots(1,2,figsize=(12,5))
axes[0].hist(df['价格'],bins=20)
df.boxplot(column="价格",ax=axes[1])
fig.tight_layout()

In [None]:
# 用均方差法找出价格异常值
d = df['价格']
zscore = (d-d.mean())/d.std()
df['isOutlier'] = zscore.abs() > 3.5
print(df['isOutlier'].value_counts())
df[df['isOutlier']==True]

In [None]:
# 时序数据处理
# 日期/时间数据转换
import time
print(time.time())

In [None]:
# 打印系统时间
print(time.localtime())

In [None]:
print(time.strftime('%Y-%m-%d %X',time.localtime()))

In [None]:
# 将系统时间转换成时间戳
print(time.mktime(time.localtime()))

In [None]:
# 将时间戳转变成系统时间
print(time.strftime('%Y-%m-%d %X',time.localtime(1578921717.0)))

In [None]:
# 时序数据基础操作
# datetime函数创建时间序列
import datetime
import numpy as np
import pandas as pd
pd.date_range(datetime.datetime(2020,1,1),periods=31)

In [None]:
pd.date_range("2020-1-1",periods=31)

In [None]:
# freq="H" 表示按小时生成序列
pd.date_range("2020-1-1 00:00","2020-1-1 12:00",freq="H")

In [None]:
# index是时间序列
ts1 = pd.Series(np.arange(31),index=pd.date_range("2020-1-1",periods=31))
ts1.head()

In [None]:
ts1["2020-1-3"]

In [None]:
ts1.index[2] # 打印第2个[从0开始]索引值

In [None]:
# 取出第二个索引对应的年月日
ts1.index[2].year,ts1.index[2].month,ts1.index[2].day

In [None]:
# 案例 天气数据分析与处理
# 时序分析
data = pd.read_csv('E:/dataset/pandas_data/hz_weather.csv',delimiter=",",encoding="utf8",header=0)
df = data[['日期','最高气温','最低气温']]
df.head()

In [None]:
df.日期 = pd.to_datetime(df.日期.values,format="%Y-%m-%d")
df = df.set_index('日期') # 把日期设为index
df.index[0] # 取出第0个索引对应的日期值

In [None]:
df.info()

In [None]:
df.index < "2017-2-1"  # 返回一个布尔值数组

In [None]:
# 提取1月份的温度数据
df_jan = df[(df.index >= "2017-1-1") & (df.index < "2017-2-1")]
df_jan.info()

In [None]:
df1_jan = df["2017-1-1":"2017-1-31"]# 设置起始日期和截止日期
df1_jan.info()

In [None]:
# 只取月份
df.to_period('M').head()

In [None]:
df_month = df.to_period("M").groupby(level=0).mean()
# groupby 对index做聚合，再做均值mean（level指定索引层数）
df_month.head()

In [None]:
# 制作温度变化趋势图
# 根据书上对matplotlib进行改动使得matplootlib支持中文作图
%matplotlib inline
import matplotlib as mlp
import matplotlib.pyplot as plt
fig,ax = plt.subplots(1,1,figsize=(12,4))
df.plot(ax=ax)

In [None]:
# 数据类型转换

import pandas as pd
df_pop = pd.read_csv('E:/dataset/pandas_data/european_cities.csv',delimiter=",",encoding="utf8",header=0)
df_pop.head()

In [None]:
type(df_pop.Population[0])# 不是纯数值，是string型的

In [None]:
df_pop["NumericPopulation"] = df_pop.Population.apply(lambda x:int(x.replace(",","")))
# lambda表示下面的内容是一个函数，对每一行用apply操作，去掉population每个元素的
# 逗号并转为integer
# apply很方便，不用循环
df_pop.head()

In [None]:
df_pop["State"].values[:3]

In [None]:
# 对state数据字段进行调整
df_pop["State"] = df_pop["State"].apply(lambda x:x.strip())
# 去掉string的前后的空格
df_pop.head()

In [None]:
df_pop.dtypes

In [None]:
# 正则表达式
# 案例 使用正则表达式提取网页文本信息
import pandas as pd
df = pd.read_csv('E:/dataset/pandas_data/getlinks.csv',delimiter=",",encoding="utf8",header=0)
df.head()

In [None]:
# 提取数字
df.link.str.extract('(\d+)')

In [None]:
df.link.str.extract('(.*)/(\d+)')

In [None]:
df.link.str.extract('(?P<URL>.*)/(?P<ID>\d+)')