## **演练0003：Pandas文件读取**

### **案例1：使用Pandas读取csv文件**

> **步骤1：直接读取文件并打印**

In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/house_price.csv')
print("所有内容：")
print(df)
print("df类型：", type(df))

所有内容：
   Area  Rooms   Price
0  2104      3  399900
1  1600      3  329900
2  2400      3  369000
3  1416      2  232000
df类型： <class 'pandas.core.frame.DataFrame'>


>**步骤2：访问DataFrame对象**

In [2]:
print("前2行内容：")
print(df.head(2))

print("标题：")
print(df.columns)

print("数据：")
print(df.values)

前2行内容：
   Area  Rooms   Price
0  2104      3  399900
1  1600      3  329900
标题：
Index(['Area', 'Rooms', 'Price'], dtype='object')
数据：
[[  2104      3 399900]
 [  1600      3 329900]
 [  2400      3 369000]
 [  1416      2 232000]]


### **案例2：读取普通文本文件**

In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/house_price.txt', sep=" ")
print("所有内容：")
print(df)

所有内容：
   Area  Rooms   Price
0  2104      3  399900
1  1600      3  329900
2  2400      3  369000
3  1416      2  232000


### **案例3：给纯数据附加标题**

In [4]:
import pandas as pd
import numpy as np

df = pd.read_csv('data/house_price_no_titles.csv', names=['Area', 'Rooms', 'Price'])
print("所有内容：")
print(df)

所有内容：
   Area  Rooms   Price
0  2104      3  399900
1  1600      3  329900
2  2400      3  369000
3  1416      2  232000


### **案例4：读取具有异常、缺失数据的文件**
使用np.loadtxt读取，则一旦文件中存在非数字、空白字符，就会报错  
使用pd.read_csv读取，则可以控制对这些非正常数据的处理方式

>**步骤1：查看在处理非数值字符时，np.loadtxt如何报错**

In [5]:
import pandas as pd
import numpy as np

file_name = 'data/house_price_with_errors.csv'
np.loadtxt(file_name, delimiter=",", skiprows=1)

ValueError: could not convert string to float: '?'

>**步骤2：使用pd读取和处理非数字字符**

In [6]:
import pandas as pd
import numpy as np

file_name = 'data/house_price_with_errors.csv'
df = pd.read_csv(file_name)
print("原始数据：")
print(df)

print("去掉非数字字符：")
df = df.replace(to_replace='?',value=np.nan)
print(df)

print("去掉包含空值、NaN值的行：")
df = df.dropna(how='any')
print(df)

原始数据：
   Area Rooms     Price
0  2104     3  399900.0
1  1600     ?  329900.0
2     ?     3  369000.0
3  1416     2       NaN
去掉非数字字符：
   Area Rooms     Price
0  2104     3  399900.0
1  1600   NaN  329900.0
2   NaN     3  369000.0
3  1416     2       NaN
去掉包含空值、NaN值的行：
   Area Rooms     Price
0  2104     3  399900.0
