## x.1 process structural data such as table using Pandas

在前面一节中，简单学习了一下torch的使用，这一章节将学习pandas的使用

使用pd.read_csv()读取csv文件

使用print(df)来打印DataFrame类型数据

In [1]:
import pandas as pd

data_file = "/home/yingmuzhi/_learning/d2l/data/house_tiny.csv"
data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


使用DataFrame.iloc[:,:]来按照索引值取DataFrame中值

使用DataFrame.loc[:, :]来根据行名和列名的具体名字来索引DataFrame中的值

In [4]:
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
print(inputs)

   NumRooms Alley
0       NaN  Pave
1       2.0   NaN
2       4.0   NaN
3       NaN   NaN


当输入的csv文件有NA或者3, , , 3这样的数据时，使用Pandas读入就会显示成NaN字符，这是数据科学的“臭虫”. 一般使用平均值来填补臭虫。

In [5]:
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       NaN           1          0
1       2.0           0          1
2       4.0           0          1
3       NaN           0          1


In [6]:
# using mean
inputs = inputs.fillna(inputs.mean())
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


## x.2 将DataFrame类型转为ndarray类型，Tensor类型

Pandas一般用于读取和存储数据，在做真正数据处理时候，我们还是更加通用地使用ndarray，Tensor数据类型。

我们一般通过将DataFrame先转为list（python自带，不推荐）或者ndarray（numpy自带，推荐）类型，再转为Tensor类型，如下，

使用pandas自带的转为numpy类型，DataFrameA.to_numpy()将DataFrame转型。

In [7]:
import torch

X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(targets.to_numpy(dtype=float))
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500., 106000., 178100., 140000.], dtype=torch.float64))

## x.3 常见的使用pandas创建DataFrame的方式

介绍下面两种常用，一种是使用dict()直接创建数据和列表；一种使用list()声明数据，用column的list声明列名；

In [5]:
# 使用dict()
df1 = pd.DataFrame({
    'wavenumber': [1, 2],
    'intensity': [1, 0]
})
df2 = pd.DataFrame(dict(
    wavenumber = [1, 2],
    intensity = [1, 0]
))

# 使用list
df3 = pd.DataFrame([
    [1, 1],
    [2, 0]
], columns=["wavenumber", "intensity"])

# 常见案例，使用list，再逐行增加
df_names = ["wavenumber", "intensity"]
df4 = pd.DataFrame(data=[
    [1, 1]
], columns=df_names)
# 增加一行
new_line = pd.DataFrame(data=[
    [2, 0]
], columns=df_names)
df = pd.concat([df4, new_line]) # 使用concat将两个DataFrame拼接
df.to_csv("/home/yingmuzhi/_learning/d2l/chapter2/test2.csv", index=False)    # 使用to_csv()存储，但是不存储index