In [1]:
import pandas as pd

- 了解 Numpy 的特点
- 应用 pandas 数据类型转换
- 掌握 pandas 分类数据类型使用方法

# pandas数据类型简介

## Numpy 介绍
- Numpy（Numerical Python）是一个开源的Python科学计算库，用于快速处理任意维度的数组。
    - 1）Numpy 支持常见的数组和矩阵操作，对于同样的数值计算任务，使用 Numpy 比直接使用 Python 要简洁的多
    - 2）Numpy 使用ndarray对象来处理多维数组，该对象是一个快速而灵活的大数据容器

In [2]:
import numpy as np

In [3]:
# 创建ndarray
score = np.array([
    [80, 89, 86, 67, 79],
    [78, 97, 89, 67, 81],
    [90, 94, 78, 67, 74],
    [91, 91, 90, 67, 69],
    [76, 87, 75, 67, 86],
    [70, 79, 84, 67, 84],
    [94, 92, 93, 67, 64],
    [86, 85, 83, 67, 80]
])
score

array([[80, 89, 86, 67, 79],
       [78, 97, 89, 67, 81],
       [90, 94, 78, 67, 74],
       [91, 91, 90, 67, 69],
       [76, 87, 75, 67, 86],
       [70, 79, 84, 67, 84],
       [94, 92, 93, 67, 64],
       [86, 85, 83, 67, 80]])

In [4]:
type(score)

numpy.ndarray

In [5]:
import random
import time

In [6]:
a = []
for i in range(1000000):
    a.append(random.random())
t1 = time.time()
sum1 = sum(a)
t2 = time.time()

b = np.array(a)
t3 = time.time()
sum2 = np.sum(b)
t4 = time.time()

print(t2-t1,t4-t3)

0.003996133804321289 0.0009970664978027344


## Numpy 的 ndarray

### ndarray 的属性


In [7]:
a = np.array([1,2,3,4])
b = np.array([[1,2,3],[4,5,6]])
c = np.array([[[1,2,3],[4,5,6]],[[1,2,3],[4,5,6]]])

In [8]:
# 数组维度的元组
print(a.shape)
print(b.shape)
print(c.shape)

(4,)
(2, 3)
(2, 2, 3)


In [9]:
# 数组维数
print(c.ndim)

3


In [10]:
# 数组中元素的数量
print(c.size)

12


In [11]:
# 一个数组元素的长度
print(c.itemsize)

4


In [12]:
# 数组元素的类型
print(c.dtype)

int32


### ndarray 的类型

In [13]:
# 创建 ndarry 的时候指定类型
b = np.array([[1,2,3],[1,2,3]],dtype=np.float32)
b.dtype

dtype('float32')

## pandas 的数据类型

### 我们以 seaborn 包中自带的 tips 数据集为例，具体来查看数据类型

In [14]:
import seaborn as sns

In [15]:
tips = sns.load_dataset('tips',data_home='./seaborn-data',cache=True)
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


In [16]:
tips.dtypes

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
dtype: object

# 类型转换

## astype函数
- astype方法是通用函数，可用于把DataFrame中的任何列转换为其他dtype
- 可以向astype方法提供任何内置类型或numpy类型来转换列的数据类型

## 转换为字符串对象

In [17]:
# 把一列的数据类型转换为字符串，可以使用 astype方法
tips['sex_str'] = tips['sex'].astype(str)
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [18]:
tips

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,sex_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Female
1,10.34,1.66,Male,No,Sun,Dinner,3,Male
2,21.01,3.50,Male,No,Sun,Dinner,3,Male
3,23.68,3.31,Male,No,Sun,Dinner,2,Male
4,24.59,3.61,Female,No,Sun,Dinner,4,Female
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,Male
240,27.18,2.00,Female,Yes,Sat,Dinner,2,Female
241,22.67,2.00,Male,Yes,Sat,Dinner,2,Male
242,17.82,1.75,Male,No,Sat,Dinner,2,Male


In [19]:
# 把total_bill列转为object/str类型
tips['total_bill'] = tips['total_bill'].astype(str)
print(tips.dtypes)

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


In [20]:
# 再把`object/str类型的total_bill列转为float64/float类型
tips['total_bill'] = tips['total_bill'].astype(float)
print(tips.dtypes)

total_bill     float64
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object


## to_numeric 函数

- 如果想把变量转换为数值类型（int、float），还可以使用 pandas 的 to_numeric 函数
- astype 函数要求 DataFrame 每一列的数据类型必须相同，当有些数据中有缺失，但不是 NaN 时（如'missing'、'null'等），会使整列数据变成字符串类型而不是数值型，这个时候可以使用 to_numeric 处理

In [21]:
# 抽取部分数据，人为制造'missing'作为缺失值的 df 数据
tips_sub_miss = tips.head(10)
tips_sub_miss.loc[[1,3,5,7],'total_bill'] = 'missing'
tips_sub_miss

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,sex_str
0,16.99,1.01,Female,No,Sun,Dinner,2,Female
1,missing,1.66,Male,No,Sun,Dinner,3,Male
2,21.01,3.5,Male,No,Sun,Dinner,3,Male
3,missing,3.31,Male,No,Sun,Dinner,2,Male
4,24.59,3.61,Female,No,Sun,Dinner,4,Female
5,missing,4.71,Male,No,Sun,Dinner,4,Male
6,8.77,2.0,Male,No,Sun,Dinner,2,Male
7,missing,3.12,Male,No,Sun,Dinner,4,Male
8,15.04,1.96,Male,No,Sun,Dinner,2,Male
9,14.78,3.23,Male,No,Sun,Dinner,2,Male


In [22]:
# 此时 total_bill 列变成了字符串对象类型
tips_sub_miss.dtypes

total_bill      object
tip            float64
sex           category
smoker        category
day           category
time          category
size             int64
sex_str         object
dtype: object

In [23]:
# 这时使用 astype 方法把 total_bill 列转换回float类型，会抛错，pandas 无法把'missing'转换成float
# tips_sub_miss['total_bill'].astype(float) 报错

In [24]:
# pd.to_numeric(tips_sub_miss['total_bill'])

In [25]:
# pd.to_numeric(tips_sub_miss['total_bill'])

- to_numeric 函数有一个参数 errors，它决定了当该函数遇到无法转换的数值时该如何处理：
    - 1）默认情况下，该值为 raise，如果 to_numeric 遇到无法转换的值时，会抛错
    - 2）设置为coerce：如果 to_numeric 遇到无法转换的值时，会返回NaN
    - 3）设置为ignore：如果 to_numeric 遇到无法转换的值时，会放弃转换，什么都不做

In [26]:
pd.to_numeric(tips_sub_miss['total_bill'],errors = 'coerce')

0    16.99
1      NaN
2    21.01
3      NaN
4    24.59
5      NaN
6     8.77
7      NaN
8    15.04
9    14.78
Name: total_bill, dtype: float64

In [27]:
pd.to_numeric(tips_sub_miss['total_bill'],errors= 'ignore')

0      16.99
1    missing
2      21.01
3    missing
4      24.59
5    missing
6       8.77
7    missing
8      15.04
9      14.78
Name: total_bill, dtype: object

## category 转换为 object/str

In [28]:
tips['sex'] = tips['sex'].astype(str)
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    object  
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(3), float64(2), int64(1), object(2)
memory usage: 10.8+ KB


## object/str转换为 category

In [29]:
tips['sex'] = tips['sex'].astype('category')
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
 7   sex_str     244 non-null    object  
dtypes: category(4), float64(2), int64(1), object(1)
memory usage: 9.3+ KB


## 深入 category 数据类型

### 通过 pd.Categorical 创建 category 类型数据，同时指定可选项

In [30]:
s = pd.Series(
    pd.Categorical(['a','b','c','d'],
                  categories=['c','d','a'])
)
s

0      a
1    NaN
2      c
3      d
dtype: category
Categories (3, object): ['c', 'd', 'a']

- 注意：不在 category 限定范围内的数据会被置为 NaN

### 通过 dtype 参数创建 category 类型数据

In [31]:
cat_series = pd.Series(['B','D','C','A'],dtype='category')
cat_series

0    B
1    D
2    C
3    A
dtype: category
Categories (4, object): ['A', 'B', 'C', 'D']

### 此时对数据进行排序

In [32]:
# 排序
cat_series.sort_values()

3    A
0    B
2    C
1    D
dtype: category
Categories (4, object): ['A', 'B', 'C', 'D']

### 通过 CategoricalDtype 指定 category 数据的类型顺序

In [33]:
from pandas.api.types import CategoricalDtype
cat  = CategoricalDtype(categories=['B','D','A','C'],ordered=True)
cat

CategoricalDtype(categories=['B', 'D', 'A', 'C'], ordered=True)

In [34]:
print(cat_series)

0    B
1    D
2    C
3    A
dtype: category
Categories (4, object): ['A', 'B', 'C', 'D']


In [35]:
print(cat_series.sort_values())

3    A
0    B
2    C
1    D
dtype: category
Categories (4, object): ['A', 'B', 'C', 'D']


In [36]:
print(cat_series.astype(cat).sort_values)

<bound method Series.sort_values of 0    B
1    D
2    C
3    A
dtype: category
Categories (4, object): ['B' < 'D' < 'A' < 'C']>


### 临时修改排序规则，可以使用categories类型的series对象.cat.reorder_categories()方法

In [37]:
print(cat_series)
cat_series.cat.reorder_categories(['D','B','C','A'],ordered=True,inplace=True)
print(cat_series)

0    B
1    D
2    C
3    A
dtype: category
Categories (4, object): ['A', 'B', 'C', 'D']
0    B
1    D
2    C
3    A
dtype: category
Categories (4, object): ['D' < 'B' < 'C' < 'A']


  cat_series.cat.reorder_categories(['D','B','C','A'],ordered=True,inplace=True)


# 总结
- Numpy 的特点
- Numpy 是一个高效科学计算库，pandas 的数据计算功能是对 Numpy 的封装
- ndarray 是 Numpy 的基本数据结构，pandas 的 Series 和 DataFrame 好多函数和属性都与 ndarray 一样
- Numpy 的计算效率比原生 Python 效率高很多，并且支持并行计算
- pandas 数据类型转换
- pandas 除了数值型的 int 和 float 类型外，还有object、category、bool、datetime类型，可以通过 as_type 和 to_numeric 函数进行数据类型转换
- pandas 分类数据类型
- category 类型，可以用来进行排序，并且可以自定义排序顺序
- CategoricalDtype 可以用来定义顺序