In [1]:
import numpy as np
import pandas as pd

In [2]:
pd.__version__

'0.25.3'

### 一、文件读取和写入

#### 1.1 文件读取

* **读取csv文件**：pd.read_csv
* **读取excel文件**：pd.read_txt
* **读取txt文件**：pd.read_txt

#### 1.2 数据文件写入

* **写入csv/txt文件**：pd.to_csv
* **写入excel文件**：pd.to_txt
* **写入markdown文件**：pd.to_markdown
* **写入latex文件：** pd.to_latex


### 二、基本数据结构

#### 2.1 series

关键词：一维value、pd.Series

#### 2.2 DataFrame

关键词：二维value、pd.DataFrame

### 三、常用基本函数

#### 3.1 汇总函数

* .head() 和 .tail()

* .info() 和 .describe()


#### 3.2 特征统计函数

* sum、mean、median、var、std、max、min

#### 3.3 唯一值函数

* unique和nuinque
* 多组合的唯一值 drop_duplicates

#### 3.4 替换函数

* replace

#### 3.5 排序函数

* 值排序：sort_values
* 索引排序：sort_index


#### 3.6 apply方法

* df.apply(lambda x : func(x))


### 四、窗口对象

#### 4.1 滑窗对象
#### 4.2 扩张对象


### 五、练习

#### Ex1：口袋妖怪数据集
#### Ex2：指数加权窗口

下面是正式的学习内容：

### 一、文件读取和写入

#### 1.1 文件读取

* **读取csv文件**：pd.read_csv
* **读取excel文件**：pd.read_txt
* **读取txt文件**：pd.read_txt

读取文件的函数使用方法基本一致，下面通过介绍pd.read_csv的主要参数来学习文件的读取。


>**pd.read_csv**(filepath_or_buffer,sep=',',delimiter=None,header='infer',names=None,index_col=None,usecols=None,dtype=None,skiprows=None,nrows=None,keep_date_col=False,date_parser=None,chunksize=None,error_bad_lines=True,
    )  
> 参数说明
> * **filepath_or_buffer** 文件路径
> * **sep** 文件分列的符号
> * **header**  int or list of ints, default ‘infer’，指定列名，默认第一行
> * **names** 重命名列名
> * **index_col** 指定行索引，int or sequence or False, default None
> * **usecols** 读取指定列表
> * **dtype** 读取数据的数据类型，例如 {‘a’: np.float64, ‘b’: np.int32}
> * **skiprows** list-like or integer, default None,跳过指定行
> * **nrows** int, default None,需要读取的行数（从文件头开始算起）。
> * **date_parser** 表示需要转化为时间的列
> * **chunksize** 数据分块处理,处理大数据的时候会用到
> * **error_bad_lines** 跳过错误行，



In [4]:
# 基本读取
pd.read_csv('../data/my_csv.csv')

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2
2,6,c,2.5,orange,2020/1/5
3,5,d,3.2,lemon,2020/1/7


**sep是正则参数** 

当遇到 非”，“号的分隔符时，可以使用step来指定数据分割的符号，并且sep是使用的正则参数，有些符号如"|" 要使用转义符号“\”

In [55]:
# sep

pd.read_table('../data/my_table_special_sep.txt', 
              sep=' \|\|\|\| ', 
              engine='python')

Unnamed: 0,col1,col2
0,TS,This is an apple.
1,GQ,My name is Bob.
2,WT,Well done!
3,PT,May I help you?


In [14]:
# header

pd.read_csv('../data/my_csv.csv',header=1)


Unnamed: 0,2,a,1.4,apple,2020/1/1
0,3,b,3.4,banana,2020/1/2
1,6,c,2.5,orange,2020/1/5
2,5,d,3.2,lemon,2020/1/7


In [22]:
# names

pd.read_csv('../data/my_csv.csv',
                   header=1,
            names=['a','b','c','d','e'])


Unnamed: 0,a,b,c,d,e
0,3,b,3.4,banana,2020/1/2
1,6,c,2.5,orange,2020/1/5
2,5,d,3.2,lemon,2020/1/7


In [32]:
# index_col =1
data = pd.read_csv('../data/my_csv.csv',
                   index_col=1)
data.loc['a',['col1','col3']]

col1      2
col3    1.4
Name: a, dtype: object

In [35]:
# index_col=sequence
data = pd.read_csv('../data/my_csv.csv',
                   index_col=[1,3])

Unnamed: 0_level_0,Unnamed: 1_level_0,col1,col3,col5
col2,col4,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,apple,2,1.4,2020/1/1
b,banana,3,3.4,2020/1/2
c,orange,6,2.5,2020/1/5
d,lemon,5,3.2,2020/1/7


In [38]:
data.loc[[('a','apple'),('c','orange')],:]

Unnamed: 0_level_0,Unnamed: 1_level_0,col1,col3,col5
col2,col4,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,apple,2,1.4,2020/1/1
c,orange,6,2.5,2020/1/5


In [41]:
#usecols 

pd.read_csv('../data/my_csv.csv',
                   usecols=['col1'])

Unnamed: 0,col1
0,2
1,3
2,6
3,5


In [46]:
# dtype 

data = pd.read_csv('../data/my_csv.csv',
                   dtype = {'col1':np.int8})

In [47]:
data['col1'].dtype

dtype('int8')

In [52]:
# skiprows

pd.read_csv('../data/my_csv.csv',
                   skiprows= [0,1])

Unnamed: 0,3,b,3.4,banana,2020/1/2
0,6,c,2.5,orange,2020/1/5
1,5,d,3.2,lemon,2020/1/7


In [54]:
# date_parser

pd.read_csv('../data/my_csv.csv', parse_dates=['col5'])

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020-01-01
1,3,b,3.4,banana,2020-01-02
2,6,c,2.5,orange,2020-01-05
3,5,d,3.2,lemon,2020-01-07


In [53]:
# nrows

pd.read_csv('../data/my_csv.csv',
                   nrows= 2) # 只读取了前两行

Unnamed: 0,col1,col2,col3,col4,col5
0,2,a,1.4,apple,2020/1/1
1,3,b,3.4,banana,2020/1/2


#### 1.2 数据文件写入

* **写入csv/txt文件**：pd.to_csv
* **写入excel文件**：pd.to_txt
* **写入markdown文件**：pd.to_markdown
* **写入latex文件：** pd.to_latex

同样的，pd.to_文件的参数是相同的，通过学习pd.to_csv()的参数来学习此类函数。

>df.to_csv(path,sep=',',columns=None,header=True,
    index=True,mode='w',chunksize=None,decimal='.')  
> 主要参数：
> * **path:** 文件路径
> * **sep:** 存储文件的分隔符
> * **columns:** 选择列
> * **header:** bool or list of str, default True，指定存储文件的列名
> * **float_format：** str，数据保存的浮点数
> * **index:** 是否保存行索引，默认True
> * **mode:** 默认’w‘，表示写入，在原文档上添加则是’a‘
> * **chunksize:** 每次写入文档的行数，大数据存储时可加快速率
> * **decimal:** 小数点分隔符

In [59]:
#head
data.to_csv('../data/my_csv_header.csv',
            header = ['a','b','c','d','e'])

In [63]:
#float_format 浮点数的理解
str1 = "%0.3f"%(0.234455)
str1

'0.234'

### 二、基本数据结构

#### 2.1 series

**关键词：一维value、pd.Series**

Series一般由四个部分组成，分别是序列的值data、索引index、存储类型dtype、序列的名字name。其中，索引也可以指定它的名字，默认为空。

data生成数据的方式有多种，可以直接list指定，也可以用np.range数据生成列表

In [None]:

s = pd.Series(data = [100, 'a', {'dic1':5}],
              index = pd.Index(['id1', 20, 'third'], name='my_idx'),
              dtype = 'object',
              name = 'my_name')

s

#### 2.2 DataFrame


关键词：二维value、pd.DataFrame

DataFrame在Series的基础上增加了列索引，一个数据框可以由**二维的data**与**行列索引**来构造，也可以用{列名：数据}字典的方式进行构造



In [65]:
# 
data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
df = pd.DataFrame(data = data,
                  index = ['row_%d'%i for i in range(3)],
                  columns=['col_0', 'col_1', 'col_2'])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


In [64]:
# 
df = pd.DataFrame(data = {'col_0': [1,2,3],
                          'col_1':list('abc'),
                          'col_2': [1.2, 2.2, 3.2]},
                  index = ['row_%d'%i for i in range(3)])
df

Unnamed: 0,col_0,col_1,col_2
row_0,1,a,1.2
row_1,2,b,2.2
row_2,3,c,3.2


#### 2.3 查看数据结构的函数


In [67]:
# 查看指定列

col1 = df['col_0']
col1

row_0    1
row_1    2
row_2    3
Name: col_0, dtype: int64

In [69]:
# 查看多列

d = df[['col_0','col_1']]
d

Unnamed: 0,col_0,col_1
row_0,1,a
row_1,2,b
row_2,3,c


In [70]:
# 查看行索引

df.index

Index(['row_0', 'row_1', 'row_2'], dtype='object')

In [71]:
# 查看列名

df.columns

Index(['col_0', 'col_1', 'col_2'], dtype='object')

In [72]:
# 查看数据类型

df.dtypes

col_0      int64
col_1     object
col_2    float64
dtype: object

In [74]:
# 查看数据shape

df.shape

(3, 3)

In [76]:
# 查看数据

df.values

array([[1, 'a', 1.2],
       [2, 'b', 2.2],
       [3, 'c', 3.2]], dtype=object)

### 三、常用基本函数


In [189]:
## 获取数据集

df = pd.read_csv('../data/learn_pandas.csv')
print(df.columns)
df.head(5)

Index(['School', 'Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer',
       'Test_Number', 'Test_Date', 'Time_Record'],
      dtype='object')


Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer,Test_Number,Test_Date,Time_Record
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N,1,2019/10/5,0:04:34
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N,1,2019/9/4,0:04:20
2,Shanghai Jiao Tong University,Senior,Mei Sun,Male,188.9,89.0,N,2,2019/9/12,0:05:22
3,Fudan University,Sophomore,Xiaojuan Sun,Female,,41.0,N,2,2020/1/3,0:04:08
4,Fudan University,Sophomore,Gaojuan You,Male,174.0,74.0,N,2,2019/11/6,0:05:22


In [190]:
df = df[df.columns[:7]]

#### 3.1 汇总函数

* .head() 和 .tail():指定返回前几行或后几行

* .info() 和 .describe() : info 返回信息概况 describe返回数值列的数据分布

In [191]:
# head

df.head(2)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
0,Shanghai Jiao Tong University,Freshman,Gaopeng Yang,Female,158.9,46.0,N
1,Peking University,Freshman,Changqiang You,Male,166.5,70.0,N


In [192]:
# tail

df.tail(2)

Unnamed: 0,School,Grade,Name,Gender,Height,Weight,Transfer
198,Shanghai Jiao Tong University,Senior,Chengmei Shen,Male,175.3,71.0,N
199,Tsinghua University,Sophomore,Chunpeng Lv,Male,155.7,51.0,N


In [193]:
# info

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 7 columns):
School      200 non-null object
Grade       200 non-null object
Name        200 non-null object
Gender      200 non-null object
Height      183 non-null float64
Weight      189 non-null float64
Transfer    188 non-null object
dtypes: float64(2), object(5)
memory usage: 11.1+ KB


In [183]:
# dscribe

df.describe()

Unnamed: 0,Height,Weight
count,183.0,189.0
mean,163.218033,55.015873
std,8.608879,12.824294
min,145.4,34.0
25%,157.15,46.0
50%,161.9,51.0
75%,167.5,65.0
max,193.9,89.0


#### 3.2 特征统计函数

* sum、mean、median、var、std、max、min 一些基本的统计函数

* quantile,count,idmax 返回分位数，非缺失的统计值，最大值的索引

需要注意的时，当未指定 axis参数时。默认是对列进行处理，指定axis=1，则表示对行进行这些函数处理

#### 3.3 唯一值函数

* unique和nuinque : 分别得到其唯一值组成的列表和唯一值的个数
* value_counts() ： 对单一序列进行数值统计
* drop_duplicates ： 去重函数，具体使用参照示例



#### 3.4 替换函数

* replace

#### 3.5 排序函数

* 值排序：sort_values
* 索引排序：sort_index


#### 3.6 apply方法

* df.apply(lambda x : func(x))

### 五、练习

#### Ex1：口袋妖怪数据集

现有一份口袋妖怪的数据集，下面进行一些背景说明：

#代表全国图鉴编号，不同行存在相同数字则表示为该妖怪的不同状态

妖怪具有单属性和双属性两种，对于单属性的妖怪，Type 2为缺失值

Total, HP, Attack, Defense, Sp. Atk, Sp. Def, Speed分别代表种族值、体力、物攻、防御、特攻、特防、速度，其中种族值为后6项之和

In [185]:
df = pd.read_csv('../data/pokemon.csv')
df.head(3)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80


In [186]:
# 验证是否为total值

t1 =df['Total'].values
t2 = df['HP'].values+df['Attack'].values+df['Defense'].values\
+df['Sp. Atk'].values+df['Sp. Def'].values+df['Speed'].values

a = (t1 == t2)
a.any()

True

In [187]:
# 求第一属性的种类数量和前三多数量对应的种类
type1 =df['Type 1'].value_counts()

type1[:3]

Water     112
Normal     98
Grass      70
Name: Type 1, dtype: int64

In [188]:
# 求第一属性和第二属性的组合种类
tpye1a2 = []
tpye12=df.groupby(by=['Type 1','Type 2'])
for i in tpye12:
    tpye1a2.append(i[0])
    
len(tpye1a2)

136

In [139]:
dict_type1a2 = dict(map(lambda k:(k,True),
                        tpye1a2
                       )
                   )
len(dict_type1a2)

136

In [138]:
# 求尚未出现过的属性组合

type12_all = [(i,j) for i in df['Type 1'].dropna().unique() for j in df['Type 2'].dropna().unique()]

type12_not = []
for i in type12_all:
    if not dict_type1a2.get(i,False):
        type12_not.append(i)
        
len(type12_not)      

188

In [149]:
# 取出物攻，超过120的替换为high，不足50的替换为low，否则设为mid

attack = df['Attack']
def trans_to_level(attack):
    if attack > 120:
        return 'high' 
    elif 50 < attack<=120:
        return 'mid' 
    else:
        return 'low'
    
res = list(map(trans_to_level,
          attack
         ))
res[:10]

['low', 'mid', 'mid', 'mid', 'mid', 'mid', 'mid', 'high', 'mid', 'low']

In [162]:
#取出第一属性，分别用replace和apply替换所有字母为大写 

# 
type1 = df['Type 1']

type1.apply(lambda x:x.upper())

0        GRASS
1        GRASS
2        GRASS
3        GRASS
4         FIRE
        ...   
795       ROCK
796       ROCK
797    PSYCHIC
798    PSYCHIC
799       FIRE
Name: Type 1, Length: 800, dtype: object

In [163]:
#取出第一属性，分别用replace和apply替换所有字母为大写 

# replace
type1 = df['Type 1']

dict1  = dict(map(lambda x:(x,x.upper()),
                  type1)
             )

type1.replace(dict1)

0        GRASS
1        GRASS
2        GRASS
3        GRASS
4         FIRE
        ...   
795       ROCK
796       ROCK
797    PSYCHIC
798    PSYCHIC
799       FIRE
Name: Type 1, Length: 800, dtype: object

In [175]:
#每个妖怪六项能力的离差，即所有能力中偏离中位数最大的值，添加到df并从大到小排序

# 求平均值

HP_quantile      = df['HP'].quantile(0.5)
Attack_quantile   = df['Attack'].quantile(0.5)
Defense_quantile  = df['Defense'].quantile(0.5)
SpAtk_quantile  = df['Sp. Atk'].quantile(0.5)
SpDef_quantile  = df['Sp. Def'].quantile(0.5)
Speed_quantile = df['Speed'].quantile(0.5)

# 

df_demo = df[['HP','Attack','Defense','Sp. Atk','Sp. Def','Speed']]
def cum_dev(x):
    return max(abs(x['HP']-HP_quantile),
               abs(x['Attack']-Attack_quantile),
               abs(x['Defense']-Defense_quantile),
               abs(x['Sp. Atk']-SpAtk_quantile),
               abs(x['Sp. Def']-SpDef_quantile),
               abs(x['Speed']-Speed_quantile)
              )

# 
df['ability'] = df_demo.apply(cum_dev,axis=1)
df.sort_values('ability',ascending=False).head()

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,ability
261,242,Blissey,Normal,,540,255,10,10,75,135,55,190.0
121,113,Chansey,Normal,,450,250,5,5,35,105,50,185.0
230,213,Shuckle,Bug,Rock,505,20,10,230,10,230,5,160.0
224,208,SteelixMega Steelix,Steel,Ground,610,75,125,230,55,95,30,160.0
333,306,AggronMega Aggron,Steel,,630,70,140,230,60,80,50,160.0
