In [None]:
import pandas as pd
# 从csv中读取数据，还可以读取html，txt等格式的文件
# 根据所读取的数据文件列之间的分隔方式设置delimiter参数，
# 大于一个字符的分隔符被看作正则表达式，如一个或多个空格(\s+)、tab符号(\t)等
df = pd.read_csv('E:/dataset/pandas_data/taobao_data.csv',delimiter=",",encoding="utf8",header=0)
# print(df)

In [None]:
# 向csv写入数据
# 不要索引，只要列头、"商品"、"价格"三列
df.to_csv('E:/dataset/pandas_data/taobao_price_data.csv',columns=['宝贝','价格'],index=False,header=True)

In [None]:
# 行的选取
rows = df[0:3]
rows

In [None]:
# 列的选取
cols = df[['宝贝','价格']]
cols.head()  # 用于显示数据框中前5行数据

In [None]:
# 块的选取
# 此处0:3相当于[0,1,2,3]
df.ix[0:3,['宝贝','价格']]

In [None]:
# 操作行和块
# 从已有的列中创建一个新的列
df['销售额'] = df['价格']*df['成交量']
df.head()

In [None]:
# 根据条件过滤行
# 在方括号中加入判断条件来过滤，条件必须返回True或者False
df[(df['价格']<100) & (df['成交量']>10000)]

In [None]:
# 数据整理
# 首先将数据框按照位置字段进行排序输入以下代码
df1 = df.set_index("位置") # set_index将某个字段作为index
df1 = df1.sort_index()
df1.head()

In [None]:
# 将数据框按照位置和卖家两个字段进行排序，其中位置为第一个排序因子
# sortlevel(0)表示根据第一个索引"位置"排序
df2 = df.set_index(["位置","卖家"]).sort_index(level= 0) # 根据警告进行了替换
df2.head()

In [None]:
# 将成交量按位置分组计算均值和求和
df_mean = df.drop(["宝贝","卖家"],axis=1).groupby("位置").mean().sort_values("成交量",ascending=False)
df_sum = df.drop(["宝贝","卖家"],axis=1).groupby("位置").sum().sort_values("成交量",ascending=False)
# drop（默认axis=0）是删掉行，axis=1是删掉列
# groupby 汇总
# sort_values 排序
df_mean

In [None]:
# 数据描述
# 查看表的数据信息
df.info()

In [None]:
# 查看表的描述性统计信息
df.describe()

In [None]:
# 数据分组
# 将指定字段作为索引，汇总数据
# 按位置进行分组，并计算销量列的平均值，可以访问销量列，并根据位置调用groupby
grouped = df['成交量'].groupby(df['位置'])
grouped.mean()

In [None]:
# 如果一次传入多个数组，就会得到按多列数值分组的统计结果
means = df['成交量'].groupby([df['位置'],df['卖家']]).mean()
means

In [None]:
# 将列名作为分组
# 将位置作为索引，按均值汇总所有的数值指标
# 因为卖家列不是数值，所以从结果中排除了，默认情况下，所有数值列都会被聚合
df.groupby('位置').mean()

In [None]:
#  将位置和卖家作为索引，按均值汇总所有数值指标
df.groupby(['位置','卖家']).mean()

In [None]:
# groupby的size方法，可以返回一个含有各分组大小的Series
df.groupby(['位置','卖家']).size()

In [None]:
# 数据分割
df1 = df[30:40][['位置','卖家']]
# df1中包含df的第30~39行数据，只保留位置，卖家两列
df2 = df[80:90][['卖家','销售额']]
# df2中包含df的第80~89行数据，只保留卖家，销售额两列  销售额在前面新生成的
df2

In [None]:
# 数据合并
# pandas.merge 根据一个或多个键将多个DataFrame连接起来，类似数据库连接
# pandas.concat 可以沿着一个轴将多个对象堆叠起来
# combine_first可以将重复数据编制在一起，用以填充另一个对象的缺失值
pd.merge(df1,df2) # 不指定列名，默认会选择列名相同的卖家列
pd.merge(df1,df2,on='卖家') # 指定列名，结果同上

In [None]:
# merge方法默认使用inner连接（内连接），通过how参数可以指定连接方法
# 改为外连接outer
pd.merge(df1,df2,how='outer')

In [None]:
# 通过how参数将默认连接修改为左连接
pd.merge(df1,df2,how='left')

In [None]:
# 通过how参数将默认连接修改为右连接
pd.merge(df1,df2,how='right',on='卖家')

In [None]:
# 索引上的合并
# 传入left_index=True或者right_index=True，可以将索引作为连接键使用
df1 = df[:10][['位置','卖家']]
df2 = df[:10][['价格','成交量']]
df1

In [None]:
# 将DataFrame的index作为连接键  就是出来结果的0-9索引吧
pd.merge(df1,df2,left_index=True,right_index=True)

In [None]:
# DataFrame还有join方法，可以更好地合并索引
df1.join(df2)
# 效果同pd.merge(df1,df2,left_index=True,right_index=True)

In [None]:
# 轴向链接 也被称为连接、绑定、堆叠
s1 = df[:5]['宝贝']
s2 = df[5:10]['宝贝']
s3 = df[10:15]['宝贝']
pd.concat([s1,s2,s3])

In [None]:
s1 = df[:5]['宝贝']
s2 = df[:5]['价格']
s3 = df[:5]['成交量']
pd.concat([s1,s2,s3],axis=1)# 做一个DataFrame出来  横向拼接？

In [None]:
df1 = df[:5][['位置','卖家']]
df2 = df[:5][['价格','成交量']]
pd.concat([df1,df2],sort=True)# 纵向拼接，但因为列不对应，所以有地方是NaN

In [None]:
pd.concat([df1,df2],sort=True,axis=1)

In [None]:
# 数据变形
# 重塑层次化索引
# 针对DataFrame，有stack()函数和unstack()函数，stack()将数据的列旋转为行，unstack()反之
data = pd.read_csv('E:/dataset/pandas_data/hz_weather.csv',delimiter=",",encoding="utf8",header=0)
data.head()

In [None]:
data.stack() # 把列转换为行，即形成一个层次化索引的Series  索引还是那个索引，就是每个记录的列名都展现出来

In [None]:
data.stack().unstack()# 将层次化索引的Series转换为一个普通的DataFrame

In [None]:
# 数据透视表
df = data.set_index('日期')
df.head()

In [None]:
# 表中以最高气温作为数值域，天气为行，风向为列的数据视图
df1 = pd.pivot_table(df,values=['最高气温'],index=['天气'],columns=['风向'])
df1
# 看着脑袋疼

In [None]:
df1.info()