In [1]:
import pandas as pd
import numpy as np

# 创建一个包含多种数据类型的DataFrame
data = {
    '整数列': [1, 2, 3, 4, 5],
    '浮点数列': [1.1, 2.2, 3.3, 4.4, 5.5],
    '字符串列': ['a', 'b', 'c', 'd', 'e'],
    '布尔列': [True, False, True, False, True],
    '日期列': pd.date_range('20230101', periods=5)
}

df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)
print("\n数据类型:")
print(df.dtypes)

# 1. Pandas DataFrame/Series 转换为 NumPy 数组
print("\n" + "="*50)
print("Pandas 转换为 NumPy")

# 将整数列转换为NumPy数组
int_array = df['整数列'].to_numpy()
print(f"\n整数列转换为NumPy数组: {int_array}")
print(f"数组类型: {int_array.dtype}")

# 将浮点数列转换为NumPy数组
float_array = df['浮点数列'].values  # .values是另一种获取NumPy数组的方法
print(f"\n浮点数列转换为NumPy数组: {float_array}")
print(f"数组类型: {float_array.dtype}")

# 将多个列转换为二维NumPy数组
multi_array = df[['整数列', '浮点数列']].to_numpy()
print(f"\n多列转换为NumPy二维数组:\n{multi_array}")
print(f"数组形状: {multi_array.shape}")
print(f"数组类型: {multi_array.dtype}")  # 注意：所有元素会转换为相同的类型

# 2. NumPy 数组转换为 Pandas DataFrame/Series
print("\n" + "="*50)
print("NumPy 转换为 Pandas")

# 创建NumPy数组
np_array = np.array([10, 20, 30, 40, 50])
print(f"\nNumPy数组: {np_array}")
print(f"数组类型: {np_array.dtype}")

# 转换为Pandas Series
series_from_np = pd.Series(np_array)
print(f"\n转换为Series:\n{series_from_np}")
print(f"Series类型: {series_from_np.dtype}")

# 创建二维NumPy数组
np_2d_array = np.random.rand(5, 3)
print(f"\n二维NumPy数组:\n{np_2d_array}")

# 转换为Pandas DataFrame
df_from_np = pd.DataFrame(np_2d_array, columns=['A', 'B', 'C'])
print(f"\n转换为DataFrame:\n{df_from_np}")
print(f"DataFrame数据类型:\n{df_from_np.dtypes}")

# 3. 显式类型转换
print("\n" + "="*50)
print("显式类型转换")

# 使用astype进行类型转换
print(f"\n原始整数列类型: {df['整数列'].dtype}")
float_ints = df['整数列'].astype('float64')
print(f"转换为float64后: {float_ints.dtype}")

# 转换为字符串
str_ints = df['整数列'].astype('str')
print(f"转换为字符串后: {str_ints.dtype}")

# 转换为分类数据
cat_ints = df['整数列'].astype('category')
print(f"转换为分类数据后: {cat_ints.dtype}")

# 4. 处理日期类型
print("\n" + "="*50)
print("日期类型处理")

print(f"\n原始日期列类型: {df['日期列'].dtype}")

# 转换为NumPy数组时的日期表示
date_array = df['日期列'].to_numpy()
print(f"\n日期列转换为NumPy数组:\n{date_array}")
print(f"数组类型: {date_array.dtype}")

# 将日期转换为时间戳（Unix时间戳）
timestamps = df['日期列'].astype('int64') // 10**9  # 转换为秒
print(f"\n日期转换为时间戳:\n{timestamps}")

# 5. 使用pd.to_numeric进行智能转换
print("\n" + "="*50)
print("使用pd.to_numeric进行智能转换")

# 创建包含数字字符串的列
str_nums = pd.Series(['1', '2', '3.5', '4', '5.5'])
print(f"\n原始字符串数字系列:\n{str_nums}")
print(f"数据类型: {str_nums.dtype}")

# 转换为数值类型
numeric_series = pd.to_numeric(str_nums)
print(f"\n转换后:\n{numeric_series}")
print(f"数据类型: {numeric_series.dtype}")

# 处理错误值
str_with_errors = pd.Series(['1', '2', '3.5', 'abc', '5.5'])
print(f"\n包含错误值的系列:\n{str_with_errors}")

# 使用errors参数处理错误
numeric_with_errors = pd.to_numeric(str_with_errors, errors='coerce')  # 将错误值转换为NaN
print(f"\n错误处理后的数值系列:\n{numeric_with_errors}")

# 6. 使用convert_dtypes方法（Pandas 1.0+）
print("\n" + "="*50)
print("使用convert_dtypes方法")

# 创建包含多种类型的DataFrame
mixed_df = pd.DataFrame({
    '整数': [1, 2, 3],
    '浮点数': [1.1, 2.2, 3.3],
    '字符串': ['a', 'b', 'c'],
    '布尔值': [True, False, True]
})

print(f"\n混合类型DataFrame:\n{mixed_df}")
print(f"数据类型:\n{mixed_df.dtypes}")

# 转换为最佳可能类型
converted_df = mixed_df.convert_dtypes()
print(f"\n转换后的DataFrame:\n{converted_df}")
print(f"优化后的数据类型:\n{converted_df.dtypes}")

# 7. 处理缺失值的数据类型转换
print("\n" + "="*50)
print("处理缺失值的数据类型转换")

# 创建包含缺失值的整数系列
int_with_na = pd.Series([1, 2, None, 4, 5])
print(f"\n包含缺失值的整数系列:\n{int_with_na}")
print(f"数据类型: {int_with_na.dtype}")  # 由于有NaN，类型变为float64

# 使用可空整数类型
nullable_ints = int_with_na.astype('Int64')
print(f"\n转换为可空整数类型:\n{nullable_ints}")
print(f"数据类型: {nullable_ints.dtype}")

原始DataFrame:
   整数列  浮点数列 字符串列    布尔列        日期列
0    1   1.1    a   True 2023-01-01
1    2   2.2    b  False 2023-01-02
2    3   3.3    c   True 2023-01-03
3    4   4.4    d  False 2023-01-04
4    5   5.5    e   True 2023-01-05

数据类型:
整数列              int64
浮点数列           float64
字符串列            object
布尔列               bool
日期列     datetime64[ns]
dtype: object

Pandas 转换为 NumPy

整数列转换为NumPy数组: [1 2 3 4 5]
数组类型: int64

浮点数列转换为NumPy数组: [1.1 2.2 3.3 4.4 5.5]
数组类型: float64

多列转换为NumPy二维数组:
[[1.  1.1]
 [2.  2.2]
 [3.  3.3]
 [4.  4.4]
 [5.  5.5]]
数组形状: (5, 2)
数组类型: float64

NumPy 转换为 Pandas

NumPy数组: [10 20 30 40 50]
数组类型: int64

转换为Series:
0    10
1    20
2    30
3    40
4    50
dtype: int64
Series类型: int64

二维NumPy数组:
[[0.13000105 0.26311959 0.70837452]
 [0.89799651 0.43030294 0.48715861]
 [0.63971942 0.41415067 0.07889385]
 [0.88602344 0.25330813 0.78382531]
 [0.95410941 0.69380168 0.41526612]]

转换为DataFrame:
          A         B         C
0  0.130001  0.263120  0.708375
1  0.897997  0

In [2]:
import pandas as pd
import numpy as np

# 创建包含多种类型的DataFrame
df = pd.DataFrame({
    '整数列': [1, 2, 3],
    '浮点列': [1.1, 2.2, 3.3],
    '字符串列': ['1', '2', '3'],
    '布尔列': [True, False, True],
    '日期列': ['2020-01-01', '2020-01-02', '2020-01-03']
})

print("原始数据类型:")
print(df.dtypes)

# 转换整数列为浮点数
df['整数列'] = df['整数列'].astype('float64')
print("\n转换整数列为浮点数后:")
print(df.dtypes)

# 转换字符串列为整数
df['字符串列'] = pd.to_numeric(df['字符串列']).astype('int64')
print("\n转换字符串列为整数后:")
print(df.dtypes)

# 转换日期列
df['日期列'] = pd.to_datetime(df['日期列'])
print("\n转换日期列后:")
print(df.dtypes)

# 将浮点列转换为NumPy数组
arr = df['浮点列'].to_numpy()
print("\n浮点列的NumPy数组:", arr)
print("数组类型:", arr.dtype)

# 将NumPy数组转换回Pandas Series
s = pd.Series(arr, name='新的浮点列')
print("\n转换回的Series:")
print(s)
print("Series类型:", s.dtype)

原始数据类型:
整数列       int64
浮点列     float64
字符串列     object
布尔列        bool
日期列      object
dtype: object

转换整数列为浮点数后:
整数列     float64
浮点列     float64
字符串列     object
布尔列        bool
日期列      object
dtype: object

转换字符串列为整数后:
整数列     float64
浮点列     float64
字符串列      int64
布尔列        bool
日期列      object
dtype: object

转换日期列后:
整数列            float64
浮点列            float64
字符串列             int64
布尔列               bool
日期列     datetime64[ns]
dtype: object

浮点列的NumPy数组: [1.1 2.2 3.3]
数组类型: float64

转换回的Series:
0    1.1
1    2.2
2    3.3
Name: 新的浮点列, dtype: float64
Series类型: float64
