In [1]:
import numpy as np
import pandas as pd

# 数据类型  
## Series（一维数组）  
pandas.Series(data=None, index=None)  
其中，data 可以是字典，或者NumPy 里的 ndarray 对象等。index 是数据索引，索引是 Pandas 数据结构中的一大特性，它主要的功能是帮助我们更快速地定位数据。

In [2]:
pd.Series({'a': 10, 'b': 20, 'c': 30})

a    10
b    20
c    30
dtype: int64

## DataFrame（二维数组）  
pandas.DataFrame(data=None, index=None, columns=None)  
区别于 Series，其增加了 columns 列索引。DataFrame 可以由以下多个类型的数据构建：  
- 一维数组、列表、字典或者 Series 字典。  
- 二维或者结构化的 numpy.ndarray。  
- 一个 Series 或者另一个 DataFrame。

In [3]:
pd.DataFrame({'one': pd.Series([1, 2, 3]), 'two': pd.Series([4, 5, 6])})

Unnamed: 0,one,two
0,1,4
1,2,5
2,3,6


# 数据读取  
* pd.read_csv(filename)：导入csv格式文件中的数据  
* pd.read_table(filename)：导入有分隔符的文本 (如TSV) 中的数据  
* pd.read_excel(filename)：导入Excel格式文件中的数据  
* pd.read_sql(query, connection_object)：导入SQL数据表/数据库中的数据  
* pd.read_json(json_string)：导入JSON格式的字符，URL地址或者文件中的数据  
* pd.read_html(url)：导入经过解析的URL地址中包含的数据框 (DataFrame) 数据  
* pd.read_clipboard()：导入系统粘贴板里面的数据  
* pd.DataFrame(dict)：导入Python字典 (dict) 里面的数据，其中key是数据框的表头，value是数据框的内容。

In [4]:
demo = pd.read_csv('./exercise_data/drinks.csv')
demo

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA
189,Vietnam,111,2,1,2.0,AS
190,Yemen,6,0,0,0.1,AS
191,Zambia,32,19,4,2.5,AF


# 数据导出  
* df.to_csv(filename) # 将数据框 (DataFrame)中的数据导入csv格式的文件中  
* df.to_excel(filename) # 将数据框 (DataFrame)中的数据导入Excel格式的文件中  
* df.to_sql(table_name,connection_object) # 将数据框 (DataFrame)中的数据导入SQL数据表/数据库中  
* df.to_json(filename) # 将数据框 (DataFrame)中的数据导入JSON格式的文件中  
# 基本操作  
## 预览数据  
* df.head()：默认显示前 5 条  
* df.tail(7)：指定显示后 7 条  
## 统计和描述性方法  
df.describe()

In [5]:
demo.head(), demo.tail(), demo.describe()

(       country  beer_servings  spirit_servings  wine_servings  \
 0  Afghanistan              0                0              0   
 1      Albania             89              132             54   
 2      Algeria             25                0             14   
 3      Andorra            245              138            312   
 4       Angola            217               57             45   
 
    total_litres_of_pure_alcohol continent  
 0                           0.0        AS  
 1                           4.9        EU  
 2                           0.7        AF  
 3                          12.4        EU  
 4                           5.9        AF  ,
        country  beer_servings  spirit_servings  wine_servings  \
 188  Venezuela            333              100              3   
 189    Vietnam            111                2              1   
 190      Yemen              6                0              0   
 191     Zambia             32               19              4   
 

**Pandas 基于 NumPy 开发，所以任何时候都可以通过 .values 将 DataFrame 转换为 NumPy 数组。**

In [6]:
demo.values

array([['Afghanistan', 0, 0, 0, 0.0, 'AS'],
       ['Albania', 89, 132, 54, 4.9, 'EU'],
       ['Algeria', 25, 0, 14, 0.7, 'AF'],
       ...,
       ['Yemen', 6, 0, 0, 0.1, 'AS'],
       ['Zambia', 32, 19, 4, 2.5, 'AF'],
       ['Zimbabwe', 64, 18, 4, 4.7, 'AF']], dtype=object)

## 查看索引  
df.index  
## 查看列名  
df.columns  
## 查看形状  
df.shape

In [7]:
demo.index, demo.columns, demo.shape

(RangeIndex(start=0, stop=193, step=1),
 Index(['country', 'beer_servings', 'spirit_servings', 'wine_servings',
        'total_litres_of_pure_alcohol', 'continent'],
       dtype='object'),
 (193, 6))

## 查看数据框的索引、数据类型及内存信息

In [8]:
demo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   country                       193 non-null    object 
 1   beer_servings                 193 non-null    int64  
 2   spirit_servings               193 non-null    int64  
 3   wine_servings                 193 non-null    int64  
 4   total_litres_of_pure_alcohol  193 non-null    float64
 5   continent                     170 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 9.2+ KB


## 查询每个独特数据值出现次数统计

In [9]:
demo.value_counts(subset=['continent'])

continent
AF           53
EU           45
AS           44
OC           16
SA           12
dtype: int64

## 按照数据的列对数据进行排序

In [10]:
demo.sort_values('total_litres_of_pure_alcohol', ascending=False)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
15,Belarus,142,373,42,14.4,EU
98,Lithuania,343,244,56,12.9,EU
3,Andorra,245,138,312,12.4,EU
68,Grenada,199,438,28,11.9,
45,Czech Republic,361,170,134,11.8,EU
...,...,...,...,...,...,...
79,Iran,0,0,0,0.0,AS
90,Kuwait,0,0,0,0.0,AS
128,Pakistan,0,0,0,0.0,AS
97,Libya,0,0,0,0.0,AF


## 按照某列对数据进行分组

In [11]:
demo.groupby('continent').groups

{'AF': [2, 4, 18, 22, 26, 27, 28, 29, 31, 33, 34, 38, 39, 47, 49, 53, 55, 56, 58, 62, 63, 66, 70, 71, 88, 95, 96, 97, 100, 101, 104, 107, 108, 114, 115, 117, 123, 124, 142, 148, 150, 152, 153, 158, 159, 162, 164, 172, 175, 179, 183, 191, 192], 'AS': [0, 12, 13, 19, 24, 30, 36, 46, 77, 78, 79, 80, 82, 85, 86, 87, 90, 91, 92, 94, 102, 103, 112, 116, 119, 127, 128, 134, 137, 138, 141, 149, 154, 161, 167, 168, 169, 171, 176, 177, 181, 186, 189, 190], 'EU': [1, 3, 7, 9, 10, 15, 16, 21, 25, 42, 44, 45, 48, 57, 60, 61, 64, 65, 67, 75, 76, 81, 83, 93, 98, 99, 105, 111, 113, 120, 126, 135, 136, 139, 140, 147, 151, 155, 156, 160, 165, 166, 170, 180, 182], 'OC': [8, 40, 59, 89, 106, 110, 118, 121, 125, 129, 131, 146, 157, 173, 178, 187], 'SA': [6, 20, 23, 35, 37, 52, 72, 132, 133, 163, 185, 188]}

# 数据选择  
## 基于索引数字选择  
基于数字索引对数据集进行选择。这里用到 Pandas 中的 .iloc 方法。该方法可以接受的类型有：  
* 整数。例如：5  
* 整数构成的列表或数组。例如：\[1, 2, 3]  
* 布尔数组。  
* 可返回索引值的函数或参数。

In [12]:
demo = pd.DataFrame(np.arange(12).reshape(3, 4))
demo

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


选择前两行

In [13]:
demo.iloc[:2]

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7


选择第三行

In [14]:
demo.iloc[2]

0     8
1     9
2    10
3    11
Name: 2, dtype: int32

选择第一行和第三行

In [15]:
demo.iloc[[0, 2]]

Unnamed: 0,0,1,2,3
0,0,1,2,3
2,8,9,10,11


选择第二列和第三列

In [16]:
demo.iloc[:, 1:3]

Unnamed: 0,1,2
0,1,2
1,5,6
2,9,10


## 基于标签名称选择  
根据标签对应的名称选择。这里用到的方法和上面的 iloc 很相似，少了个 i 为 df.loc[]。  
* 单个标签。例如：2 或 'a'，这里的 2 指的是标签而不是索引位置。  
* 列表或数组包含的标签。例如：\['A', 'B', 'C']。  
* 切片对象。例如：'A':'E'，注意这里和上面切片的不同之处，首尾都包含在内。  
* 布尔数组。  
* 可返回标签的函数或参数。

In [17]:
demo = pd.DataFrame(np.arange(12).reshape(3, 4), index=['第一行', '第二行', '第三行'], columns=['一', '二', '三', '四'])
demo

Unnamed: 0,一,二,三,四
第一行,0,1,2,3
第二行,4,5,6,7
第三行,8,9,10,11


选择后两行

In [18]:
demo.loc['第二行':]

Unnamed: 0,一,二,三,四
第二行,4,5,6,7
第三行,8,9,10,11


选择第一行和第三行

In [19]:
demo.loc[['第一行', '第三行']]

Unnamed: 0,一,二,三,四
第一行,0,1,2,3
第三行,8,9,10,11


选择第二列到第四列

In [20]:
demo.loc[:, '二':]

Unnamed: 0,二,三,四
第一行,1,2,3
第二行,5,6,7
第三行,9,10,11


# 数据删减  
DataFrame.drop 可以直接去掉数据集中指定的列和行。一般在使用时，指定 labels 标签参数，然后再通过 axis 指定按列或按行删除即可。当然，也可以通过索引参数删除数据。

In [21]:
demo.drop(labels=['第二行'], axis=0)

Unnamed: 0,一,二,三,四
第一行,0,1,2,3
第三行,8,9,10,11


In [22]:
demo.drop(labels=['三', '四'], axis=1)

Unnamed: 0,一,二
第一行,0,1
第二行,4,5
第三行,8,9


DataFrame.drop_duplicates 则通常用于数据去重，即剔除数据集中的重复值。使用方法非常简单，指定去除重复值规则，以及 axis 按列还是按行去除即可。

In [23]:
demo = pd.DataFrame(np.ones((5, 2)))
demo.drop_duplicates()

Unnamed: 0,0,1
0,1.0,1.0


DataFrame.dropna 也十分常用，其主要的用途是删除缺少值，即数据集中空缺的数据列或行。

In [24]:
demo = pd.DataFrame({'a': [1, 2, 3], 'b': [1, np.nan, 3], 'c': [1, 2, 3]})
demo.dropna()

Unnamed: 0,a,b,c
0,1,1.0,1
2,3,3.0,3


# 数据填充  
## 检测缺失值  
Pandas 为了更方便地检测缺失值，将不同类型数据的缺失均采用 NaN 标记。这里的 NaN 代表 Not a Number，它仅仅是作为一个标记。例外是，在时间序列里，时间戳的丢失采用 NaT 标记。  
  
Pandas 中用于检测缺失值主要用到两个方法，分别是：isna() 和 notna()，故名思意就是「是缺失值」和「不是缺失值」。默认会返回布尔值用于判断。

In [25]:
demo.isna()

Unnamed: 0,a,b,c
0,False,False,False
1,False,True,False
2,False,False,False


In [26]:
demo.notna()

Unnamed: 0,a,b,c
0,True,True,True
1,True,False,True
2,True,True,True


填充缺失值

In [27]:
demo.fillna(5)

Unnamed: 0,a,b,c
0,1,1.0,1
1,2,5.0,2
2,3,3.0,3


除了直接填充值，我们还可以通过参数，将缺失值前面或者后面的值填充给相应的缺失值。例如使用缺失值前面的值进行填充：

In [28]:
demo.fillna(method='pad')

Unnamed: 0,a,b,c
0,1,1.0,1
1,2,1.0,2
2,3,3.0,3


或者是后面的值：

In [29]:
demo.fillna(method='bfill')

Unnamed: 0,a,b,c
0,1,1.0,1
1,2,3.0,2
2,3,3.0,3


除了上面的填充方式，还可以通过 Pandas 自带的求平均值方法等来填充特定列或行。举个例子：

In [30]:
demo.fillna(demo.mean())

Unnamed: 0,a,b,c
0,1,1.0,1
1,2,2.0,2
2,3,3.0,3


## 插值填充  
插值是数值分析中一种方法。简而言之，就是借助于一个函数（线性或非线性），再根据已知数据去求解未知数据的值。插值在数据领域非常常见，它的好处在于，可以尽量去还原数据本身的样子。  
可以通过 interpolate() 方法完成线性插值。  
  
对于 interpolate() 支持的插值算法，也就是 method=。下面给出几条选择的建议：  
* 如果你的数据增长速率越来越快，可以选择 method='quadratic'二次插值。  
* 如果数据集呈现出累计分布的样子，推荐选择 method='pchip'。  
* 如果需要填补缺省值，以平滑绘图为目标，推荐选择 method='akima'。

In [31]:
demo.interpolate()

Unnamed: 0,a,b,c
0,1,1.0,1
1,2,2.0,2
2,3,3.0,3


# 数据的连接与组合

In [32]:
demo1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                   index=[0, 1, 2, 3])
demo2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                   index=[4, 5, 6, 7])
demo1.append(demo2)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [33]:
pd.concat([demo1, demo2])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [34]:
demo1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],           
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'key': ['K0', 'K1', 'K0', 'K1']})
demo2 = pd.DataFrame({'C': ['C0', 'C1'],
                      'D': ['D0', 'D1']},
                     index=['K0', 'K1'])
demo1.join(demo2, on='key')

Unnamed: 0,A,B,key,C,D
0,A0,B0,K0,C0,D0
1,A1,B1,K1,C1,D1
2,A2,B2,K0,C0,D0
3,A3,B3,K1,C1,D1


# 数据的统计  
## 每一列的平均值

In [35]:
demo = pd.DataFrame({'A': [1, 2, 3, 4],           
                     'B': [1, 4, 9, 16],
                     'C': [1, 8, 27, 64]})
demo, demo.mean()

(   A   B   C
 0  1   1   1
 1  2   4   8
 2  3   9  27
 3  4  16  64,
 A     2.5
 B     7.5
 C    25.0
 dtype: float64)

## 每一列与其他列的相关系数

In [36]:
demo.corr()

Unnamed: 0,A,B,C
A,1.0,0.984374,0.95137
B,0.984374,1.0,0.990533
C,0.95137,0.990533,1.0


## 每一列的非空值个数

In [37]:
demo.count()

A    4
B    4
C    4
dtype: int64

## 一列的最大值

In [38]:
demo.max()

A     4
B    16
C    64
dtype: int64

## 一列的最小值

In [39]:
demo.min()

A    1
B    1
C    1
dtype: int64

## 每一列的中位数

In [40]:
demo.median()

A     2.5
B     6.5
C    17.5
dtype: float64

## 每一列的标准差

In [41]:
demo.std()

A     1.290994
B     6.557439
C    28.225284
dtype: float64

# 通用函数  
## 生成时间序列

In [42]:
pd.date_range(start='12/1/2020', end='12/10/2020')

DatetimeIndex(['2020-12-01', '2020-12-02', '2020-12-03', '2020-12-04',
               '2020-12-05', '2020-12-06', '2020-12-07', '2020-12-08',
               '2020-12-09', '2020-12-10'],
              dtype='datetime64[ns]', freq='D')

## 数据透视表

In [43]:
demo = pd.DataFrame({"A": ["foo", "foo", "foo", "foo", "foo",
                         "bar", "bar", "bar", "bar"],
                   "B": ["one", "one", "one", "two", "two",
                         "one", "one", "two", "two"],
                   "C": ["small", "large", "large", "small",
                         "small", "large", "small", "small",
                         "large"],
                   "D": [1, 2, 2, 3, 3, 4, 5, 6, 7],
                   "E": [2, 4, 5, 5, 6, 6, 8, 9, 9]})
demo, pd.pivot_table(demo, values='D', index=['A', 'B'], columns=['C'], aggfunc=np.sum)

(     A    B      C  D  E
 0  foo  one  small  1  2
 1  foo  one  large  2  4
 2  foo  one  large  2  5
 3  foo  two  small  3  5
 4  foo  two  small  3  6
 5  bar  one  large  4  6
 6  bar  one  small  5  8
 7  bar  two  small  6  9
 8  bar  two  large  7  9,
 C        large  small
 A   B                
 bar one    4.0    5.0
     two    7.0    6.0
 foo one    4.0    1.0
     two    NaN    6.0)