# Pandas

In [6]:
import pandas as pd
import numpy as np

## **数据读取**

In [4]:
# pd.read_csv
# head()
# shape
# columns
# index
# dtype

# pd.read_excel
# pd.read_sql

## **数据结构**

* DataFrame:二维数组
* Series:一维数组

### Series

#### 创建

In [8]:
#list
s = pd.Series([1, 2, 3], index = [1, 2, 3])

#dict
#获取多个值df[[a,b]]

1    1
2    2
3    3
dtype: int64

### DataFrame

### 创建

In [70]:
#dict,key是columns
df = pd.DataFrame({
    'a': [np.nan, 2, 3],
    'b': [2, 3, 4],
    'c': [3, 4, 5]
})

Unnamed: 0,a,b,c
0,,2,3


In [77]:
df2 = pd.DataFrame({
    'e': [1, 2, 3],
    'f': [2, 3, 4],
    'g': [3, 4, 5]
})

pd.concat([df, df2], ignore_index = False, axis = 1)

Unnamed: 0,a,b,c,e,f,g
0,,2,3,1,2,3
1,2.0,3,4,2,3,4
2,3.0,4,5,3,4,5


### 查询

* 一列或者一行是series
* 多行多列是dataframe

In [21]:
#列
#print(df[['a', 'b']])

#行 输入是index名字，index变成列名
#print(df.loc[])
#print(df.loc[0:3])

   a  b
0  1  2
1  2  3
2  3  4


## **数据查询**

* df.loc
* df.iloc
* df.where
* df.query

### df.loc

1.使用单个label值查询数据

2.使用值列表批量查询

3.使用数值区间进行范围查询

4.使用条件表达式查询

5.调用函数查询

In [29]:
# 设定索引, inplace真表示在当前df更改，假表示返回一个更改后的df
df.set_index('a', inplace=True)

### 1、使用单个label值查询数据

In [30]:
# # 得到单个值
# df.loc['2018-01-03', 'bWendu']
# # 得到一个Series
# df.loc['2018-01-03', ['bWendu', 'yWendu']]

### 2、使用值列表批量查询

In [31]:
# # 得到Series
# df.loc[['2018-01-03','2018-01-04','2018-01-05'], 'bWendu']

# # 得到DataFrame
# df.loc[['2018-01-03','2018-01-04','2018-01-05'], ['bWendu', 'yWendu']]

### 3、使用数值区间进行范围查询

In [32]:
# # 行和列都按区间查询
# df.loc['2018-01-03':'2018-01-05', 'bWendu':'fengxiang']

### 4、使用条件表达式查询

In [34]:
# df.loc[df["yWendu"]<-10, :]
# df.loc[df['b'] <= 3, :]
# df['b'] <= 3


# df.loc[(df["bWendu"]<=30) & (df["yWendu"]>=15) & (df["tianqi"]=='晴') & (df["aqiLevel"]==1), :]

a
1     True
2     True
3    False
Name: b, dtype: bool

### 5、调用函数查询

In [None]:
# 直接写lambda表达式
# df.loc[lambda df : (df["bWendu"]<=30) & (df["yWendu"]>=15), :]

# 编写自己的函数，查询9月份，空气质量好的数据
# def query_my_data(df):
#     return df.index.str.startswith("2018-09") & (df["aqiLevel"]==1)
    
# df.loc[query_my_data, :]

## **新增数据列**

1.直接赋值

2.df.apply方法

3.df.assign方法

### 1、直接赋值的方法

In [None]:
# # 替换掉温度的后缀℃
# df.loc[:, "bWendu"] = df["bWendu"].str.replace("℃", "").astype('int32')
# df.loc[:, "yWendu"] = df["yWendu"].str.replace("℃", "").astype('int32')

### 2、df.apply方法

Objects passed to the function are Series objects whose index is either the DataFrame’s index (axis=0) or the DataFrame’s columns (axis=1). 1表示每一行都要沿着列做这个

In [None]:
def get_wendu_type(x):
    if x["bWendu"] > 33:
        return '高温'
    if x["yWendu"] < -10:
        return '低温'
    return '常温'

# 注意需要设置axis==1，这是series的index是columns
df.loc[:, "wendu_type"] = df.apply(get_wendu_type, axis=1)

# 查看每种类型以及个数
df["wendu_type"].value_counts()

### 3、df.assign方法

同时添加多个列

In [None]:
# 可以同时添加多个新的列
df.assign(
    yWendu_huashi = lambda x : x["yWendu"] * 9 / 5 + 32,
    # 摄氏度转华氏度
    bWendu_huashi = lambda x : x["bWendu"] * 9 / 5 + 32
)

### 4、按条件选择分组分别赋值

In [38]:
# 先创建空列（这是第一种创建新列的方法）
# df['wencha_type'] = ''

# df.loc[df["bWendu"]-df["yWendu"]>10, "wencha_type"] = "温差大"

# df.loc[df["bWendu"]-df["yWendu"]<=10, "wencha_type"] = "温差正常"

## **数据统计函数**

### 1、汇总类统计

In [42]:
# 一下子提取所有数字列统计结果
df.describe()

Unnamed: 0,b,c
count,3.0,3.0
mean,3.0,4.0
std,1.0,1.0
min,2.0,3.0
25%,2.5,3.5
50%,3.0,4.0
75%,3.5,4.5
max,4.0,5.0


### 2、唯一去重和按值计数

In [44]:
# #一般不用于数值列，而是枚举、分类列
# df["fengxiang"].unique()

# #按值计数
# df["fengxiang"].value_counts()

### 3、相关系数和协方差

In [None]:
# #协方差：衡量同向反向程度，如果协方差为正，说明X，Y同向变化，协方差越大说明同向程度越高；如果协方差为负，说明X，Y反向运动，协方差越小说明反向程度越高。
# # 协方差矩阵：
# df.cov()

# #相关系数：衡量相似度程度，当他们的相关系数为1时，说明两个变量变化时的正向相似度最大，当相关系数为－1时，说明两个变量变化的反向相似度最大
# # 相关系数矩阵
# df.corr()
# # 单独查看空气质量和最高温度的相关系数
# df["aqi"].corr(df["bWendu"])


## **缺失值处理**

* isnull和notnull：检测是否是空值，可用于df和series
* dropna：丢弃、删除缺失值
 * axis : 删除行还是列，{0 or ‘index’, 1 or ‘columns’}, default 0
 * how : 如果等于any则任何值为空都删除，如果等于all则所有值都为空才删除
 * inplace : 如果为True则修改当前df，否则返回新的df
* fillna：填充空值
 * value：用于填充的值，可以是单个值，或者字典（key是列名，value是值）
 * method : 等于ffill使用前一个不为空的值填充forword fill；等于bfill使用后一个不为空的值填充backword fill
 * axis : 按行还是列填充，{0 or ‘index’, 1 or ‘columns’}
 * inplace : 如果为True则修改当前df，否则返回新的df

## 检测空值

In [50]:
# studf.isnull() #返回True/False
# studf["分数"].notnull()


# # 筛选没有空分数的所有行
# studf.loc[studf["分数"].notnull(), :]

# #删除掉全是空值的列
# studf.dropna(axis="columns", how='all', inplace=True)
# #删除掉全是空值的行
# studf.dropna(axis="index", how='all', inplace=True)

# studf.fillna({"分数":0})
# # 等同于
# studf.loc[:, '分数'] = studf['分数'].fillna(0)
# # 使用前面的有效值填充，用ffill：forward fill
# studf.loc[:, '姓名'] = studf['姓名'].fillna(method="ffill")


# studf.to_excel("./datas/student_excel/student_excel_clean.xlsx", index=False)

NameError: name 'studf' is not defined

## **数据排序**

Series的排序：

Series.sort_values(ascending=True, inplace=False)

参数说明：
* ascending：默认为True升序排序，为False降序排序
* inplace：是否修改原始Series

DataFrame的排序：

DataFrame.sort_values(by, ascending=True, inplace=False)

参数说明：
* by：字符串或者List，单列排序或者多列排序
* ascending：bool或者List
* inplace：是否修改原始DataFrame

### DataFrame的排序

In [None]:
#单列排序，所有行都会改变
df.sort_values(by="aqi")

#多列排序
# 按空气质量等级、最高温度排序，默认升序
df.sort_values(by=["aqiLevel", "bWendu"]) #先比较先出现的columns
# 分别指定升序和降序
df.sort_values(by=["aqiLevel", "bWendu"], ascending=[True, False])

## **字符串处理**

In [20]:
#先获取Series的str属性，在属性上调用函数
#智能在字符串列
#DF没有，用的是Series的
df_str = pd.DataFrame({
   "s1": ["fdsd", "asdf1"],
   "s2": ["Hello", "Myword1"] 
})
df_str["s1"].str.contains("1") #replace

0    False
1     True
Name: s1, dtype: bool

## **Axis问题**

0：index，1：columns，axis是啥，啥动起来，别的不动

## **Index用途**

In [71]:
df.count() #出现多少条

#查询数据
df.loc[df.index==1, :]

#提升查询效率
#唯一最快，其次有序，所以可以先排序
df_sorted = df_shuffle.sort_index()

#index自动对齐数据

Unnamed: 0,a,b,c
1,2.0,3,4


## **Merge**
按key值关联到一个表

merge的语法：

pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)

* left，right：要merge的dataframe或者有name的Series
* how：join类型，'left', 'right', 'outer', 'inner'
* on：join的key，left和right都需要有这个key
* left_on：left的df或者series的key
* right_on：right的df或者seires的key
* left_index，right_index：使用index而不是普通的column做join
* suffixes：两个元素的后缀，如果列有重名，自动添加后缀，默认是('_x', '_y')

## **concat**
多个合并
* concat语法：pandas.concat(objs, axis=0, join='outer', ignore_index=False)
* objs：一个列表，内容可以是DataFrame或者Series，可以混合
* axis：默认是0代表按行合并，如果等于1代表按列合并
* join：合并的时候索引的对齐方式，默认是outer join，也可以是inner join
* ignore_index：是否忽略掉原来的数据索引

In [None]:
# #使用join=inner过滤掉不匹配的列
# pd.concat([df1,df2], ignore_index=True, join="inner")

# #添加多列Series
# pd.concat([df1,s1,s2], axis=1)

append语法：DataFrame.append(other, ignore_index=False)

append只有按行合并，没有按列合并，相当于concat按行的简写形式
* other：单个dataframe、series、dict，或者列表
* ignore_index：是否忽略掉原来的数据索引

## **批量拆分与合并Excel**

In [None]:
# work_dir="./"
# split_dir=f"{work_dir}/splits"

# import os
# if not os.path.exists(splits_dir):
#     os.mkdir(splits_dir)

In [None]:
# total_raw_count = df_source.shape[0]

# #大excel拆分成多个excel
# #使用iloc，将大拆分成小
# #然后to_excel


# # 每个人的任务数目
# split_size = total_row_count // len(user_names)
# if total_row_count % len(user_names) != 0:
#     split_size += 1

# split_size

# df_subs = []
# for idx, user_name in enumerate(user_names):
#     # iloc的开始索引
#     begin = idx*split_size
#     # iloc的结束索引
#     end = begin+split_size
#     # 实现df按照iloc拆分
#     df_sub = df_source.iloc[begin:end]
#     # 将每个子df存入列表
#     df_subs.append((idx, user_name, df_sub))
    
# for idx, user_name, df_sub in df_subs:
#     file_name = f"{splits_dir}/crazyant_blog_articles_{idx}_{user_name}.xlsx"
#     df_sub.to_excel(file_name, index=False)

In [None]:
# # 遍历文件夹，得到要合并的Excel文件列表
# # 分别读取到dataframe，给每个df添加一列用于标记来源
# # 使用pd.concat进行df批量合并
# # 将合并后的dataframe输出到excel


# import os
# excel_names = []
# for excel_name in os.listdir(splits_dir):
#     excel_names.append(excel_name)
# excel_names

# df_list = []

# for excel_name in excel_names:
#     # 读取每个excel到df
#     excel_path = f"{splits_dir}/{excel_name}"
#     df_split = pd.read_excel(excel_path)
#     # 得到username
#     username = excel_name.replace("crazyant_blog_articles_", "").replace(".xlsx", "")[2:]
#     print(excel_name, username)
#     # 给每个df添加1列，即用户名字
#     df_split["username"] = username
    
#     df_list.append(df_split)


# df_merged = pd.concat(df_list)
# df_merged.to_excel(f"{work_dir}/crazyant_blog_articles_merged.xlsx", index=False)

## **groupby**

In [1]:
#数据统计
df.groupby(['a', 'b'], as_index=False).agg([np.sum, np.mean])
#查看单列的结果数据统计
df.groupby('a', as_index=False).agg([np.sum, np.mean])['b']
#不同列使用不同的聚合函数
df.groupby('a').agg({"b":np.sum, "c":np.mean})

NameError: name 'df' is not defined

## **分层索引MultiIndex**
分层索引：在一个轴向上拥有多个索引层级，可以表达更高维度数据的形式；

可以更方便的进行数据筛选，如果有序则性能更好；

groupby等操作的结果，如果是多KEY，结果是分层索引，需要会使用

一般不需要自己创建分层索引(MultiIndex有构造函数但一般不用)

In [None]:
# #DataFrame的多层索引MultiIndex
# stocks.set_index(['公司', '日期'], inplace=True)
# stocks.sort_index(inplace=True)
# #元组(key1,key2)代表筛选多层索引，其中key1是索引第一级，key2是第二级，比如key1=JD, key2=2019-10-02
# #列表[key1,key2]代表同一层的多个KEY，其中key1和key2是并列的同级索引，比如key1=JD, key2=BIDU
# stocks.loc['BIDU']
# stocks.loc[('BIDU', '2019-10-02'), :]
# # slice(None)代表筛选这一索引的所有内容
# stocks.loc[(slice(None), ['2019-10-02', '2019-10-03']), :]

## **map、apply、applymap**
数据转换函数对比：map、apply、applymap：
* map：只用于Series，实现每个值->值的映射；
* apply：用于Series实现每个值的处理，用于Dataframe实现某个轴的Series的处理；
* applymap：只能用于DataFrame，用于处理该DataFrame的每个元素；

### map

In [88]:
# #方法1：Series.map(dict)
# stocks["公司中文1"] = stocks["公司"].str.lower().map(dict_company_names)
# #方法2：Series.map(function)
# stocks["公司中文2"] = stocks["公司"].map(lambda x : dict_company_names[x.lower()])

### apply

In [89]:
# #Series.apply(function)
# stocks["公司中文3"] = stocks["公司"].apply(
#     lambda x : dict_company_names[x.lower()])
# #DataFrame.apply(function)
# stocks["公司中文4"] = stocks.apply(
#     lambda x : dict_company_names[x["公司"].lower()], 
#     axis=1)

NameError: name 'stocks' is not defined

### applymap用于DataFrame所有值的转换

In [90]:
# sub_df.applymap(lambda x : int(x))

## Group&apply

In [None]:
# def getWenduTopN(df, topn):
#     """
#     这里的df，是每个月份分组group的df
#     """
#     return df.sort_values(by="bWendu")[["ymd", "bWendu"]][-topn:]

# df.groupby("month").apply(getWenduTopN, topn=1).head()

# **数据处理流程**

## 数据读取

In [2]:
# #csv
# fpath = "./datas/crazyant/access_pvuv.txt"
# pvuv = pd.read_csv(
#     fpath,
#     sep="\t",
#     header=None,
#     names=['pdate', 'pv', 'uv']
# )

# #sql
# import pymysql
# conn = pymysql.connect(
#         host='127.0.0.1',
#         user='root',
#         password='12345678',
#         database='test',
#         charset='utf8'
#     )
# mysql_page = pd.read_sql("select * from crazyant_pvuv", con=conn)

# #json
# with open('finance/finance_company.json', encoding='utf-8') as f:
#     df = json.loads(f)
    
# #pickle
# with open('E:\\data2.txt','rb') as f:
#     df = pickle.load(f)

## 数据观察

In [None]:
# #1 从宏观一点的角度去看数据：查看dataframe的信息
# df.info()
# #1.1查看每一列的数据类型
# df.dtypes
# #1.2有多少行，多少列
# df.shape

# # 2.检查缺失数据
# # 如果你要检查每列缺失数据的数量，使用下列代码是最快的方法。
# # 可以让你更好地了解哪些列缺失的数据更多，从而确定怎么进行下一步的数据清洗和分析操作。
# df.isnull().sum().sort_values(ascending=False)

# # 3.是抽出一部分数据来，人工直观地理解数据的意义，尽可能地发现一些问题
# df.head()
# # 查看这个商品名称的去重项
# df['Description'].unique()
# np.set_printoptions(threshold=np.inf) # 设置输出全部的内容 threshold就是设置超过了多少条，就会呈现省略 （比如threshold=10的意思是超过10条就会省略）

* 1）调整数据类型
* 2）修改列名
* 3）选择部分子集
* 4）可能存在逻辑问题需要筛选
* 5）格式一致化
* 6）消灭空值

## 数据清洗

In [None]:
# ##调整数据类型
# df.dtypes
# #字符串转换为数值（整型）
# DataDF['Quantity'] = DataDF['Quantity'].astype('int')#float
# DataDF.loc[:,'InvoiceDate']=pd.to_datetime(DataDF.loc[:,'InvoiceDate'],
#                                            format='%d/%m/%Y', 
#                                            errors='coerce')
# # #format 是你［原始数据］中日期的格式
# # %y 两位数的年份表示（00-99）
# # %Y 四位数的年份表示（000-9999）
# # %m 月份（01-12）
# # %d 月内中的一天（0-31）
# # %H 24小时制小时数（0-23）
# # %I 12小时制小时数（01-12）
# # %M 分钟数（00-59）
# # %S 秒（00-59）


# ##修改列名
# #建立字典字典：旧列名和新列名对应关系
# colNameDict = {'InvolceDate':'SaleDate','StockCode':'StockNo'} 
# df.rename(columns = colNameDict,inplace=True)


# ##选择部分子集
# #选择子集，选择其中一列
# subDataDF1=DataDF["InvoiceDate"]
# subDataDF1=DataDF[["InvoiceDate","UnitPrice"]]
# subDataDF2=DataDF.loc[0:9,:]
# #一般来说价格不能为负，所以从逻辑上来说如果价格是小于0的数据应该予以筛出
# querySer=DataDF.loc[:,'Quantity']>0
# DataDF=DataDF.loc[querySer,:]

# ##格式一致化
# #1.大小写/去除空格
# DataDF['Description']= DataDF['Description'].str.upper()
# str().upper() lower() title() lstrip() strip()
# #2 去除字符串符号 去乱码
# #3. 空格分割
# #定义函数：分割InvoiceDate，获取InvoiceDate
# #输入：timeColSer InvoiceDate这一列，是个Series数据类型
# #输出：分割后的时间，返回也是个Series数据类型
# def splitSaletime(timeColSer):
#     timeList=[]
#     for value in timeColSer:
#         #例如2018/01/01 12:50，分割后为：2018-01-01
#         dateStr=value.split(' ')[0]
#         timeList.append(dateStr)
# #将列表转行为一维数据Series类型
#     timeSer=pd.Series(timeList)
#     return timeSer
# DataDF.loc[:,'InvoiceDate']=splitSaletime(DataDF.loc[:,'InvoiceDate'])

# ##处理缺失值
# #缺失值有3种：None(python)，NA，NaN
# DataDF.isnull().sum().sort_values(ascending=False)
# #去除
# DataDF.dropna(axis=1,how='any')
# DataDF.dropna(thresh = 6)
# #填补
# DataDF.Country.fillna(' ')
# df.fillna(df.mean())
# DataDF.UnitPrice.fillna(method='ffill')