# Pandas 小技巧

## 类型变换 

In [1]:
import pandas as pd

将字符串转化为数字时，使用 `pd.to_numeric()` 可以保留空值，注意原始数据中存在 float 或空值时，结果将是 float。

In [2]:
df = pd.DataFrame({
    'a': [None, 1, 2, 3],
    'b': ['1', '2', '3', '4'],
    'c': [None, '1', '2', '3'],
})
df

Unnamed: 0,a,b,c
0,,1,
1,1.0,2,1.0
2,2.0,3,2.0
3,3.0,4,3.0


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   a       3 non-null      float64
 1   b       4 non-null      object 
 2   c       3 non-null      object 
dtypes: float64(1), object(2)
memory usage: 224.0+ bytes


我们可以发现，当 dataframe 的某一列中存在空值时，这一列中的 int 会强制转化为 float，为了保持 int 不变，我们需要将 float 转化为 Int64。

In [4]:
df = df.astype({'a': 'Int64'})
df

Unnamed: 0,a,b,c
0,,1,
1,1.0,2,1.0
2,2.0,3,2.0
3,3.0,4,3.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   a       3 non-null      Int64 
 1   b       4 non-null      object
 2   c       3 non-null      object
dtypes: Int64(1), object(2)
memory usage: 228.0+ bytes


当 dataframe 中某一列时 str 时，将其转化为数值时应该使用 `pd.to_numeric()`，这是比较稳妥的方式（直接 `.astype` 也可以）。

In [6]:
df['b'] = pd.to_numeric(df['b'])
df

Unnamed: 0,a,b,c
0,,1,
1,1.0,2,1.0
2,2.0,3,2.0
3,3.0,4,3.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   a       3 non-null      Int64 
 1   b       4 non-null      int64 
 2   c       3 non-null      object
dtypes: Int64(1), int64(1), object(1)
memory usage: 228.0+ bytes


如果原数据中又是 str，有存在空值，那么就这样操作m

In [8]:
df['c'] = pd.to_numeric(df['c']).astype('Int64')
df

Unnamed: 0,a,b,c
0,,1,
1,1.0,2,1.0
2,2.0,3,2.0
3,3.0,4,3.0


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   a       3 non-null      Int64
 1   b       4 non-null      int64
 2   c       3 non-null      Int64
dtypes: Int64(2), int64(1)
memory usage: 232.0 bytes


可以发现 int64 和 Int64 是不同的，Int64 支持空值（nullable integer）