# 2.4 Pandas数据分析

## 1、数据源

本案例主要通过Python进行数据分析，探讨了不同大陆的酒类消费情况，包括啤酒、红酒和精神饮料的平均、中位数等统计值，特别关注了精神饮料的平均、最大和最小消耗值。在本案例中，我们将使用全球193个国家某年的各类酒品消耗数据。主要数据集变量如下：

国家（country）、
啤酒消耗量（beer_servings）、
烈酒消耗量（spirit_servings）、
红酒消耗量（wine_servings）、
总酒精消耗量（total_litres_of_pure_alcohol）、
所在大洲（continent）

## 2、数据预处理

### 2.1 导入数据

In [1]:
import numpy as np
import pandas as pd

In [3]:
#使用pandas库读取指定位置的csv文件 并将其转换为DataFrame格式
drink=pd.read_csv(r'C:\Users\ws108\Documents\anaconda_projects\class 1\drinks.csv')
#显示drinks.csv文件中的数据
drink

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
...,...,...,...,...,...,...
188,Venezuela,333,100,3,7.7,SA
189,Vietnam,111,2,1,2.0,AS
190,Yemen,6,0,0,0.1,AS
191,Zambia,32,19,4,2.5,AF


In [5]:
#数据表过大 可以显示前10行 若括号内参数缺省默认为前5行
drink.head(n=10)

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
5,Antigua & Barbuda,102,128,45,4.9,
6,Argentina,193,25,221,8.3,SA
7,Armenia,21,179,11,3.8,EU
8,Australia,261,72,212,10.4,OC
9,Austria,279,75,191,9.7,EU


In [7]:
drink.tail()  #显示后5行（也可指定显示行数）

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
188,Venezuela,333,100,3,7.7,SA
189,Vietnam,111,2,1,2.0,AS
190,Yemen,6,0,0,0.1,AS
191,Zambia,32,19,4,2.5,AF
192,Zimbabwe,64,18,4,4.7,AF


### 2.2 数据类型与数据筛选

#### 2.2.1 使用dtypes查看数据类型

In [11]:
drink.dtypes  #使用dtypes查看数据中各列数据类型

country                          object
beer_servings                     int64
spirit_servings                   int64
wine_servings                     int64
total_litres_of_pure_alcohol    float64
continent                        object
dtype: object

dtypes的返回值是一个Series，我们可以使用isinstance进行确认，isinstance函数用来判断一个对象是否是一个已知的类型。

In [14]:
isinstance(drink.dtypes,pd.Series)

True

#### 2.2.2 使用astype修改数据类型

如果我们想更改某些变量的数据类型，可以使用astype方法。例如，我们将int类型的啤酒消耗量改为float类型。

In [18]:
drink.beer_servings.astype('float64')[:5]

0      0.0
1     89.0
2     25.0
3    245.0
4    217.0
Name: beer_servings, dtype: float64

#### 2.2.3 使用select_dtypes查看特定数据类型的数据

有时，数据中的变量很多，我们只想查看特定类型的变量情况，可以使用select_dtypes。通过include参数或exclude参数选择要包含的数据类型或要剔除的数据类型。例如，我们只查看数据中的浮点型数据。

In [1]:
drink.select_dtypes(include=['float64']).head()

NameError: name 'drink' is not defined

### 2.3 数据基本情况

#### 2.3.1 使用rename修改列名

中间的几个列名比较复杂，我们使用rename对其进行简化。
在参数中，我们设定了inplace参数为True，这将不创建新的对象，直接对原始对象进行修改，这一参数在许多DataFrame的方法中都有，后面的案例中我们还会多次见到。

In [27]:
drink.rename(columns={'beer_servings':'beer','spirit_servings':'spirit','wine_servings':'wine','total_litres_of_pure_alcohol':'pure_alcohol'},inplace=True)
drink.columns  #查看drink的列索引

Index(['country', 'beer', 'spirit', 'wine', 'pure_alcohol', 'continent'], dtype='object')

#### 2.3.2 使用info初步查看数据类型和大小

使用info方法初步查看数据的变量类型、缺失值情况、占用空间大小。

info() 函数用于快速查看 DataFrame 的基本信息，包括：
①索引类型‌（如 RangeIndex 或自定义索引）；
②列名、非空值数量及数据类型‌（如 int64、object 等）；
③内存占用情况‌（需开启 memory_usage 参数）；
④总行数‌（通过 RangeIndex 或索引范围显示）‌

In [32]:
drink.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   country       193 non-null    object 
 1   beer          193 non-null    int64  
 2   spirit        193 non-null    int64  
 3   wine          193 non-null    int64  
 4   pure_alcohol  193 non-null    float64
 5   continent     170 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 9.2+ KB


#### 2.3.3 使用describe查看数据数值统计情况

In [35]:
drink.describe()   #常用的一种数据描述方法

Unnamed: 0,beer,spirit,wine,pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
25%,20.0,4.0,1.0,1.3
50%,76.0,56.0,8.0,4.2
75%,188.0,128.0,59.0,7.2
max,376.0,438.0,370.0,14.4


In [37]:
drink.describe(percentiles=[0.05,0.95])    #通过调整percentile参数来获得需要的百分位数

Unnamed: 0,beer,spirit,wine,pure_alcohol
count,193.0,193.0,193.0,193.0
mean,106.160622,80.994819,49.450777,4.717098
std,101.143103,88.284312,79.697598,3.773298
min,0.0,0.0,0.0,0.0
5%,0.0,0.0,0.0,0.0
50%,76.0,56.0,8.0,4.2
95%,295.8,252.8,225.8,11.34
max,376.0,438.0,370.0,14.4


describe默认只汇总统计所有连续型变量的情况。如果我们想查看特定类别的列或者排除部分列的结果，可以设定参数include或exclude。

In [40]:
drink.describe(exclude=np.number)   #查看除了数值类型以外的其他类型变量的情况

Unnamed: 0,country,continent
count,193,170
unique,193,5
top,Afghanistan,AF
freq,1,53


describe返回的对象其实仍然是一个数据框，因此我们可以很轻松的提取需要的汇总统计量。

In [43]:
type(drink.describe())   #查看describe返回对象的类型

pandas.core.frame.DataFrame

In [45]:
des = drink.describe(include="all")   #设定参数include输出所有变量的基本描述信息
des

Unnamed: 0,country,beer,spirit,wine,pure_alcohol,continent
count,193,193.0,193.0,193.0,193.0,170
unique,193,,,,,5
top,Afghanistan,,,,,AF
freq,1,,,,,53
mean,,106.160622,80.994819,49.450777,4.717098,
std,,101.143103,88.284312,79.697598,3.773298,
min,,0.0,0.0,0.0,0.0,
25%,,20.0,4.0,1.0,1.3,
50%,,76.0,56.0,8.0,4.2,
75%,,188.0,128.0,59.0,7.2,


In [47]:
des.loc['mean','beer']

106.16062176165804

In [49]:
drink.beer.mean()   #与上面输入等价

106.16062176165804

## 2.4 缺失值的处理

下面我们来对数据中的缺失值进行处理。通过前面的的汇总统计我们看到，beer、spirit和wine三个变量中都存在少量缺失值，continent中存在较多缺失。我们将数据中含有缺失值的行提取出来。

首先，我们使用isnull。isnull会对数据框中的每一个元素进行缺失值检查，是缺失值为True，不是为False，最终返回一个数据框。

In [54]:
miss = drink.isnull()
miss.head(6)

Unnamed: 0,country,beer,spirit,wine,pure_alcohol,continent
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,True


下面我们要找到存在缺失值的行，我们可以使用any，并设定axis参数为1。则当每一行中存在True时，就返回True。

注：如果我们想找到所有列都为缺失值的行，就可以使用all方法。

In [58]:
miss.any(axis=1)

0      False
1      False
2      False
3      False
4      False
       ...  
188    False
189    False
190    False
191    False
192    False
Length: 193, dtype: bool

这样，我们就获得了列中含有缺失值的行的布尔型索引。我们将这部分数据单独查看一下：

In [61]:
drink[miss.any(axis=1)]

Unnamed: 0,country,beer,spirit,wine,pure_alcohol,continent
5,Antigua & Barbuda,102,128,45,4.9,
11,Bahamas,122,176,51,6.3,
14,Barbados,143,173,36,6.3,
17,Belize,263,114,8,6.8,
32,Canada,240,122,100,8.2,
41,Costa Rica,149,87,11,4.4,
43,Cuba,93,137,5,4.2,
50,Dominica,52,286,26,6.6,
51,Dominican Republic,193,147,9,6.2,
54,El Salvador,52,69,2,2.2,


可以看到，continent为缺失值的都是北美洲国家，进一步查看原始数据可以发现，其实是因为北美洲的缩写为NA，在读入时被默认为了缺失值。我们对这部分值进行填充。(这提醒我们一定要对缺失原因进行查找，不然可能因此损失有效数据)

In [64]:
drink.tail(20)

Unnamed: 0,country,beer,spirit,wine,pure_alcohol,continent
173,Tonga,36,21,5,1.1,OC
174,Trinidad & Tobago,197,156,7,6.4,
175,Tunisia,51,3,20,1.3,AF
176,Turkey,51,22,7,1.4,AS
177,Turkmenistan,19,71,32,2.2,AS
178,Tuvalu,6,41,9,1.0,OC
179,Uganda,45,9,0,8.3,AF
180,Ukraine,206,237,45,8.9,EU
181,United Arab Emirates,16,135,5,2.8,AS
182,United Kingdom,219,126,195,10.4,EU


设定参数value指定缺失值的填充值为'NA',设定inplace参数对原始数据进行修改。

In [67]:
drink.fillna(value='NA', inplace=True)  #用NA替代缺失值NaN

In [69]:
drink.tail(20)

Unnamed: 0,country,beer,spirit,wine,pure_alcohol,continent
173,Tonga,36,21,5,1.1,OC
174,Trinidad & Tobago,197,156,7,6.4,
175,Tunisia,51,3,20,1.3,AF
176,Turkey,51,22,7,1.4,AS
177,Turkmenistan,19,71,32,2.2,AS
178,Tuvalu,6,41,9,1.0,OC
179,Uganda,45,9,0,8.3,AF
180,Ukraine,206,237,45,8.9,EU
181,United Arab Emirates,16,135,5,2.8,AS
182,United Kingdom,219,126,195,10.4,EU


In [71]:
miss = drink.isnull()

In [73]:
miss.any(axis=1)

0      False
1      False
2      False
3      False
4      False
       ...  
188    False
189    False
190    False
191    False
192    False
Length: 193, dtype: bool

In [75]:
drink[miss.any(axis=1)]

Unnamed: 0,country,beer,spirit,wine,pure_alcohol,continent


如果需要删除缺失值数据可以使用dropna方法，默认会将任意列含有缺失值的行都删除。

In [78]:
drink.dropna(inplace=True)

In [80]:
drink.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 193 entries, 0 to 192
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   country       193 non-null    object 
 1   beer          193 non-null    int64  
 2   spirit        193 non-null    int64  
 3   wine          193 non-null    int64  
 4   pure_alcohol  193 non-null    float64
 5   continent     193 non-null    object 
dtypes: float64(1), int64(3), object(2)
memory usage: 9.2+ KB


## 2.5 索引调整方法

### 2.5.1 使用index可以查看数据的索引

In [84]:
drink.index

RangeIndex(start=0, stop=193, step=1)

### 2.5.2 使用reindex修改索引

In [87]:
drink.reindex(range(0, 190, 1))  #修改索引为0至189的整数

Unnamed: 0,country,beer,spirit,wine,pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF
...,...,...,...,...,...,...
185,Uruguay,115,35,220,6.6,SA
186,Uzbekistan,25,101,8,2.4,AS
187,Vanuatu,21,18,11,0.9,OC
188,Venezuela,333,100,3,7.7,SA


reindex也可以用来调整列的顺序，这时需要设定axis参数为'columns'或1

In [90]:
drink.reindex(['beer','spirit','wine','pure_alcohol','country','continent'],axis=1).head()

Unnamed: 0,beer,spirit,wine,pure_alcohol,country,continent
0,0,0,0,0.0,Afghanistan,AS
1,89,132,54,4.9,Albania,EU
2,25,0,14,0.7,Algeria,AF
3,245,138,312,12.4,Andorra,EU
4,217,57,45,5.9,Angola,AF


### 2.5.3 使用set_index修改索引

set_index也是修改索引的一种方法，与reindex不同的是，set_index需指定DataFrame中存在的某一列或某几列设定为索引。例如，我们修改索引为'continent'。

In [94]:
drink.set_index('continent')[:5]

Unnamed: 0_level_0,country,beer,spirit,wine,pure_alcohol
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AS,Afghanistan,0,0,0,0.0
EU,Albania,89,132,54,4.9
AF,Algeria,25,0,14,0.7
EU,Andorra,245,138,312,12.4
AF,Angola,217,57,45,5.9


这里会默认将指定为索引的列删除，若我们仍想在数据中保留该列，应设定参数drop为False。

In [97]:
drink.set_index('continent',drop=False)[:5]

Unnamed: 0_level_0,country,beer,spirit,wine,pure_alcohol,continent
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AS,Afghanistan,0,0,0,0.0,AS
EU,Albania,89,132,54,4.9,EU
AF,Algeria,25,0,14,0.7,AF
EU,Andorra,245,138,312,12.4,EU
AF,Angola,217,57,45,5.9,AF


若我们想在原来的索引基础上添加新的变量构成层次化索引，应设定append参数为True。

In [100]:
drink.set_index('continent',append=True)[:5]

Unnamed: 0_level_0,Unnamed: 1_level_0,country,beer,spirit,wine,pure_alcohol
Unnamed: 0_level_1,continent,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,AS,Afghanistan,0,0,0,0.0
1,EU,Albania,89,132,54,4.9
2,AF,Algeria,25,0,14,0.7
3,EU,Andorra,245,138,312,12.4
4,AF,Angola,217,57,45,5.9


也可以直接指定一组变量设定层次化索引。

In [103]:
drink2 = drink.set_index(['country','continent'])
drink2.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,beer,spirit,wine,pure_alcohol
country,continent,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Afghanistan,AS,0,0,0,0.0
Albania,EU,89,132,54,4.9
Algeria,AF,25,0,14,0.7
Andorra,EU,245,138,312,12.4
Angola,AF,217,57,45,5.9


### 2.5.4 使用swaplevel调整索引顺序

In [106]:
drink2.swaplevel()[:5]  #使用swaplevel调整层次化索引的顺序

Unnamed: 0_level_0,Unnamed: 1_level_0,beer,spirit,wine,pure_alcohol
continent,country,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AS,Afghanistan,0,0,0,0.0
EU,Albania,89,132,54,4.9
AF,Algeria,25,0,14,0.7
EU,Andorra,245,138,312,12.4
AF,Angola,217,57,45,5.9


swaplevel一次只能交换两层索引的顺序，当数据索引多于两层时，需要指定交换的层。

## 2.6 相关性计算

计算啤酒、白酒、红酒饮用量的相关性

In [111]:
drink.loc[:,['beer','spirit','wine']].corr() 

Unnamed: 0,beer,spirit,wine
beer,1.0,0.458819,0.527172
spirit,0.458819,1.0,0.194797
wine,0.527172,0.194797,1.0


可以看到，三类酒的消耗量都呈正相关。其中，啤酒与红酒最相关，相关系数为0.523；啤酒与烈酒也较相关，相关系数为0.450。corr默认计算的是Pearson相关系数，我们可以通过设定corr的参数method来计算其他的相关系数。

In [114]:
drink.loc[:,['beer','spirit','wine']].corr(method="spearman")

Unnamed: 0,beer,spirit,wine
beer,1.0,0.620381,0.716275
spirit,0.620381,1.0,0.554264
wine,0.716275,0.554264,1.0


与默认的Pearson相关系数相比，三类酒的Spearman相关系数更大。这主要是因为Pearson相关系数是基于样本的协方差与方差计算，更适用于大样本或正态分布数据。而观察前文describe的结果我们可以看到本次数据是比较右偏的，不符合正态分布的假设条件。而Spearman秩相关系数是基于数据排序进行计算，对数据的分布没有要求，此时更适合。

## 2.7 多条件筛选

查找啤酒、烈酒和红酒的消耗量都高于相应酒种消耗量75%分位数的国家。

In [119]:
alcohol=drink.loc[(drink.beer>des.loc['75%','beer'])&(drink.wine>des.loc['75%','wine'])&(drink.spirit>des.loc['75%','spirit'])]
alcohol  #des在前面有定义 是一个DataFrame对象

Unnamed: 0,country,beer,spirit,wine,pure_alcohol,continent
3,Andorra,245,138,312,12.4,EU
25,Bulgaria,231,252,94,10.3,EU
44,Cyprus,192,154,113,8.2,EU
45,Czech Republic,361,170,134,11.8,EU
60,Finland,263,133,97,10.0,EU
75,Hungary,234,215,185,11.3,EU
93,Latvia,281,216,62,10.5,EU
99,Luxembourg,236,133,271,11.4,EU
141,Russian Federation,247,326,73,11.5,AS
151,Serbia,283,131,127,9.6,EU


In [121]:
alcohol.continent.value_counts()   #按照洲continent计数

continent
EU    11
AS     1
NA     1
Name: count, dtype: int64

可以看到，在三种酒类消耗量都高于75%分位数的13个国家中，有11个都是欧洲国家，而唯一上榜的亚洲国家是俄罗斯（其实也可以算作是欧洲国家）。

这里要注意，三个判别式(drink.xx>des.loc[xx,xx])两端的括号不能省略。否则代码将会报错，例如：

In [125]:
alcohol=drink.loc[drink.beer>des.loc['75%','beer'] & drink.wine>des.loc['75%','wine']]  #错误代码

TypeError: Cannot perform 'rand_' with a dtyped [int64] array and scalar of type [bool]

这是因为"&"运算符的等级是要高于">"的，而我们的实际运算应该是先进行">"运算再进行"&"运算。同理，"|"，"<","=="等运算时也应该注意这个问题。

## 不同洲的饮酒情况对比

为方便筛选，我们设定continent为新的索引。

In [147]:
drink.set_index(keys=["continent"],inplace=True)
drink.head()

Unnamed: 0_level_0,country,beer,spirit,wine,pure_alcohol
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
AS,Afghanistan,0,0,0,0.0
EU,Albania,89,132,54,4.9
AF,Algeria,25,0,14,0.7
EU,Andorra,245,138,312,12.4
AF,Angola,217,57,45,5.9


下面计算各个大洲各类酒的消耗总量。

提取出各大洲名称。

In [149]:
continent = drink.index.unique()
continent

Index(['AS', 'EU', 'AF', 'NA', 'SA', 'OC'], dtype='object', name='continent')

使用values方法将sum返回值转换为数组。

In [151]:
summarize = drink.loc['AS',['beer','spirit','wine']].sum().values
summarize

array([1630, 2677,  399], dtype=int64)

循环计算，使用vstack对结果进行叠加，并将结果转化为数据框。

In [153]:
for name in continent[1:]:
    summarize = np.vstack((summarize,drink.loc[name,['beer','spirit','wine']].sum().values))
summarize = pd.DataFrame(data=summarize,columns=['beer','spirit','wine'],index=continent)
summarize

Unnamed: 0_level_0,beer,spirit,wine
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AS,1630,2677,399
EU,8720,5965,6400
AF,3258,866,862
,3345,3812,564
SA,2101,1377,749
OC,1435,935,570


可以发现：欧洲的三类酒的总消耗量都是最高的。特别是红酒消耗量，比其他五个大洲之和还要多。

下面我们计算各类酒占各大洲总消耗量的比重，来看看各大洲对不同酒类的喜好。
首先按列求和，计算各大洲的总消耗量。

In [155]:
sum_div=summarize.sum(axis=1)

按行相除，Pandas会将 6×1
 的总消耗量广播为 6×3
 ，再各元素对应相除。

In [157]:
summarize.div(sum_div,axis=0)

Unnamed: 0_level_0,beer,spirit,wine
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
AS,0.346366,0.568848,0.084785
EU,0.413564,0.282903,0.303533
AF,0.65343,0.173686,0.172884
,0.433234,0.493718,0.073048
SA,0.497043,0.325763,0.177194
OC,0.488095,0.318027,0.193878


可以看到，亚洲和北美洲更喜欢烈酒，其他四个大洲都更喜欢啤酒。相比之下，红酒在各个州的消耗占比都较低。

注意，上面我们使用div并设定参数axis为0；如果直接使用"/"进行运算是不行的：

In [159]:
summarize/sum_div

Unnamed: 0_level_0,AF,AS,EU,NA,OC,SA,beer,spirit,wine
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
AS,,,,,,,,,
EU,,,,,,,,,
AF,,,,,,,,,
,,,,,,,,,
SA,,,,,,,,,
OC,,,,,,,,,


这是因为"/"默认的是按列相除，如果我们想使用"/"进行运算，就需要先将summarize进行转置：

In [161]:
summarize.T/sum_div

continent,AS,EU,AF,NA,SA,OC
beer,0.346366,0.413564,0.65343,0.433234,0.497043,0.488095
spirit,0.568848,0.282903,0.173686,0.493718,0.325763,0.318027
wine,0.084785,0.303533,0.172884,0.073048,0.177194,0.193878
