### 3.数据类型转换

在 Pandas 中，数据类型转换是非常重要的一步，通常用于确保数据的正确性和一致性。这可以通过 .astype() 方法来完成。

In [None]:
import pandas as pd

# 创建一个示例 DataFrame
data = {
    'A': [1, 2, 3],
    'B': ['4', '5', '6'],
    'C': [True, False, True]
}

df = pd.DataFrame(data)

# 查看每一列的数据类型
print(df.dtypes)

A     int64
B    object
C      bool
dtype: object


In [None]:

# 使用 .astype() 方法可以将数据转换为指定类型
# 将 B 列从字符串转换为整数
df['B'] = df['B'].astype(int)
# 将 A 列从整数转换为浮点数
df['A'] = df['A'].astype(float)
print("单列转换指定类型:\n", df.dtypes)

单列转换指定类型:
 A    float64
B      int32
C       bool
dtype: object


In [None]:

# 同时将多列的数据类型转换
df = df.astype({'A': 'float', 'B': 'int', 'C': 'str'})
print("多列同时数据转换:\n", df.dtypes)

多列同时数据转换:
 A    float64
B      int32
C     object
dtype: object


In [None]:
# 使用 pd.to_numeric 和 pd.to_datetime
# 对于某些特定的转换，如将字符串转换为数字或日期，可以使用 Pandas 提供的函数。
# 将字符串转换为数字（如果无法转换则会产生 NaN）
df['B'] = pd.to_numeric(df['B'], errors='coerce')
print("to_numeric\n", df)

to_numeric
      A  B      C
0  1.0  4   True
1  2.0  5  False
2  3.0  6   True


In [None]:
# 将字符串转换为日期
date_data = {
    'dates': ['2021-01-01', '2021-02-01', 'invalid_date']
}
date_df = pd.DataFrame(date_data)
date_df['dates'] = pd.to_datetime(date_df['dates'], errors='coerce')  # 无法解析的日期将被设为 NaT

print(date_df)

       dates
0 2021-01-01
1 2021-02-01
2        NaT


> 类型转换的小技巧
> 
> - 处理缺失值：在转换数据类型之前，确保处理缺失值，以避免错误。
> 
> - 性能考虑：在大型数据集上，合理选择数据类型（如使用 category 而非 object）可以显著提高性能。

数据类型转换是数据预处理中的关键步骤，通过适当地转换数据类型，你可以确保数据分析的准确性以及提高分析效率。接下来，你可以继续阅读下一节关于“重塑数据”的内容。