In [None]:
import pandas as pd
# 从csv中读取数据，还可以读取html，txt等格式的文件
# 根据所读取的数据文件列之间的分隔方式设置delimiter参数，
# 大于一个字符的分隔符被看作正则表达式，如一个或多个空格(\s+)、tab符号(\t)等
df = pd.read_csv('E:/dataset/pandas_data/taobao_data.csv',delimiter=",",encoding="utf8",header=0)
# print(df)

In [None]:
# 向csv写入数据
# 不要索引，只要列头、"商品"、"价格"三列
df.to_csv('E:/dataset/pandas_data/taobao_price_data.csv',columns=['宝贝','价格'],index=False,header=True)

In [None]:
# 行的选取
rows = df[0:3]
rows

In [None]:
# 列的选取
cols = df[['宝贝','价格']]
cols.head()  # 用于显示数据框中前5行数据

In [None]:
# 块的选取
# 此处0:3相当于[0,1,2,3]
df.ix[0:3,['宝贝','价格']]

In [12]:
# 操作行和块
# 从已有的列中创建一个新的列
df['销售额'] = df['价格']*df['成交量']
df.head()

Unnamed: 0,宝贝,价格,成交量,卖家,位置,销售额
0,新款中老年女装春装雪纺打底衫妈妈装夏装中袖宽松上衣中年人t恤,99.0,16647,夏奈凤凰旗舰店,江苏,1648053.0
1,中老年女装清凉两件套妈妈装夏装大码短袖T恤上衣雪纺衫裙裤套装,286.0,14045,夏洛特的文艺,上海,4016870.0
2,母亲节衣服夏季妈妈装夏装套装短袖中年人40-50岁中老年女装T恤,298.0,13458,云新旗舰店,江苏,4010484.0
3,母亲节衣服中老年人春装女40岁50中年妈妈装套装夏装奶奶装两件套,279.0,13340,韶妃旗舰店,浙江,3721860.0
4,中老年女装春夏装裤大码 中年妇女40-50岁妈妈装夏装套装七分裤,59.0,12939,千百奈旗舰店,江苏,763401.0


In [None]:
# 根据条件过滤行
# 在方括号中加入判断条件来过滤，条件必须返回True或者False
df[(df['价格']<100) & (df['成交量']>10000)]

In [None]:
# 数据整理
# 首先将数据框按照位置字段进行排序输入以下代码
df1 = df.set_index("位置") # set_index将某个字段作为index
df1 = df1.sort_index()
df1.head()

In [None]:
# 将数据框按照位置和卖家两个字段进行排序，其中位置为第一个排序因子
# sortlevel(0)表示根据第一个索引"位置"排序
df2 = df.set_index(["位置","卖家"]).sort_index(level= 0) # 根据警告进行了替换
df2.head()

In [None]:
# 将成交量按位置分组计算均值和求和
df_mean = df.drop(["宝贝","卖家"],axis=1).groupby("位置").mean().sort_values("成交量",ascending=False)
df_sum = df.drop(["宝贝","卖家"],axis=1).groupby("位置").sum().sort_values("成交量",ascending=False)
# drop（默认axis=0）是删掉行，axis=1是删掉列
# groupby 汇总
# sort_values 排序
df_mean

In [None]:
# 数据描述
# 查看表的数据信息
df.info()

In [None]:
# 查看表的描述性统计信息
df.describe()

In [None]:
# 数据分组
# 将指定字段作为索引，汇总数据
# 按位置进行分组，并计算销量列的平均值，可以访问销量列，并根据位置调用groupby
grouped = df['成交量'].groupby(df['位置'])
grouped.mean()

In [None]:
# 如果一次传入多个数组，就会得到按多列数值分组的统计结果
means = df['成交量'].groupby([df['位置'],df['卖家']]).mean()
means

In [None]:
# 将列名作为分组
# 将位置作为索引，按均值汇总所有的数值指标
# 因为卖家列不是数值，所以从结果中排除了，默认情况下，所有数值列都会被聚合
df.groupby('位置').mean()

In [None]:
#  将位置和卖家作为索引，按均值汇总所有数值指标
df.groupby(['位置','卖家']).mean()

In [None]:
# groupby的size方法，可以返回一个含有各分组大小的Series
df.groupby(['位置','卖家']).size()

In [14]:
# 数据分割
df1 = df[30:40][['位置','卖家']]
# df1中包含df的第30~39行数据，只保留位置，卖家两列
df2 = df[80:90][['卖家','销售额']]
# df2中包含df的第80~89行数据，只保留卖家，销售额两列  销售额在前面新生成的
df2

Unnamed: 0,卖家,销售额
80,芭蒂卡旗舰店,829350.0
81,江苏妈妈装厂家直销,384120.0
82,香颜旗舰店,1363224.0
83,艾尔梦艺娜旗舰店,555861.0
84,金星靓雅服装店,495900.0
85,taylor3699,427100.0
86,bobolove987,417578.0
87,香颜旗舰店,1070748.0
88,金良国际,204036.0
89,依人怡慧no1,449604.0


In [15]:
# 数据合并
# pandas.merge 根据一个或多个键将多个DataFrame连接起来，类似数据库连接
# pandas.concat 可以沿着一个轴将多个对象堆叠起来
# combine_first可以将重复数据编制在一起，用以填充另一个对象的缺失值
pd.merge(df1,df2) # 不指定列名，默认会选择列名相同的卖家列
pd.merge(df1,df2,on='卖家') # 指定列名，结果同上

Unnamed: 0,位置,卖家,销售额
0,浙江,香颜旗舰店,1363224.0
1,浙江,香颜旗舰店,1070748.0


In [16]:
# merge方法默认使用inner连接（内连接），通过how参数可以指定连接方法
# 改为外连接outer
pd.merge(df1,df2,how='outer')

Unnamed: 0,位置,卖家,销售额
0,江苏,蒲洛妃旗舰店,
1,江苏,蒲洛妃旗舰店,
2,江苏,悦薇孔雀旗舰店,
3,江苏,摩尼树旗舰店,
4,江苏,梵忆轩旗舰店,
5,河北,loueddssd倍艾旗舰店,
6,上海,妃莲慕旗舰店,
7,河南,z昊铭么么哒666,
8,浙江,发财花旗舰店,
9,浙江,香颜旗舰店,1363224.0


In [17]:
# 通过how参数将默认连接修改为左连接
pd.merge(df1,df2,how='left')

Unnamed: 0,位置,卖家,销售额
0,江苏,蒲洛妃旗舰店,
1,江苏,悦薇孔雀旗舰店,
2,江苏,摩尼树旗舰店,
3,江苏,梵忆轩旗舰店,
4,河北,loueddssd倍艾旗舰店,
5,江苏,蒲洛妃旗舰店,
6,上海,妃莲慕旗舰店,
7,河南,z昊铭么么哒666,
8,浙江,发财花旗舰店,
9,浙江,香颜旗舰店,1363224.0


In [19]:
# 通过how参数将默认连接修改为右连接
pd.merge(df1,df2,how='right',on='卖家')

Unnamed: 0,位置,卖家,销售额
0,浙江,香颜旗舰店,1363224.0
1,浙江,香颜旗舰店,1070748.0
2,,芭蒂卡旗舰店,829350.0
3,,江苏妈妈装厂家直销,384120.0
4,,艾尔梦艺娜旗舰店,555861.0
5,,金星靓雅服装店,495900.0
6,,taylor3699,427100.0
7,,bobolove987,417578.0
8,,金良国际,204036.0
9,,依人怡慧no1,449604.0


In [20]:
# 索引上的合并
# 传入left_index=True或者right_index=True，可以将索引作为连接键使用
df1 = df[:10][['位置','卖家']]
df2 = df[:10][['价格','成交量']]
df1

Unnamed: 0,位置,卖家
0,江苏,夏奈凤凰旗舰店
1,上海,夏洛特的文艺
2,江苏,云新旗舰店
3,浙江,韶妃旗舰店
4,江苏,千百奈旗舰店
5,江苏,依安雅旗舰店
6,湖北,千百萌旗舰店
7,江苏,zxtvszml
8,江苏,ceo放牛
9,上海,简港旗舰店


In [21]:
# 将DataFrame的index作为连接键  就是出来结果的0-9索引吧
pd.merge(df1,df2,left_index=True,right_index=True)

Unnamed: 0,位置,卖家,价格,成交量
0,江苏,夏奈凤凰旗舰店,99.0,16647
1,上海,夏洛特的文艺,286.0,14045
2,江苏,云新旗舰店,298.0,13458
3,浙江,韶妃旗舰店,279.0,13340
4,江苏,千百奈旗舰店,59.0,12939
5,江苏,依安雅旗舰店,198.0,12664
6,湖北,千百萌旗舰店,199.0,12398
7,江苏,zxtvszml,288.0,12087
8,江苏,ceo放牛,298.0,11655
9,上海,简港旗舰店,189.0,11632


In [None]:
# DataFrame还有join方法，可以更好地合并索引
df1.join(df2)
# 效果同pd.merge(df1,df2,left_index=True,right_index=True)