# 数据的写入
![](./picture/3-1.png)
我们可以将数据写入到文件中进行永久性的保存，支持的文件格式有HTML、CSV、JSON、Excel。  
csv是最为常见的以纯文本文件存储数据文件的格式，它的优点是通用性很强，不受操作系统以及具体的软件的限制。我们以写入csv为例，看一下pandas是如何是将数据写入csv文件中。  


In [1]:
from pandas import Series,DataFrame
import pandas as pd

# 使用字典创建
index_list = ['001','002','003','004','005','006','007','008','009','010']
name_list = ['李白','王昭君','诸葛亮','狄仁杰','孙尚香','妲己','周瑜','张飞','王昭君','大乔']
age_list = [25,28,27,25,30,29,25,32,28,26]
salary_list = ['10k','12.5k','20k','14k','12k','17k','18k','21k','22k','21.5k']
marital_list = ['NO','NO','YES','YES','NO','NO','NO','YES','NO','YES']
dic={
    '姓名': Series(data=name_list,index=index_list),
    '年龄': Series(data=age_list,index=index_list),
    '薪资': Series(data=salary_list,index=index_list),
    '婚姻状况': Series(data=marital_list,index=index_list)
    }
df=DataFrame(dic) 

# 写入csv，path_or_buf为写入文本文件
# df.to_csv(path_or_buf='./People_Information.csv', encoding='utf_8_sig')
# print('end')

Index(['Unnamed: 0', '姓名', '年龄', '薪资', '婚姻状况'], dtype='object')


在上面的代码里，我们创建了一个DataFrame，接着通过to_csv()方法将DataFrame保存为csv文件。  
从结果中可以发现，to_csv()保存数据时，df的行索引作为一列被输出到csv文件中。  
如何在保存csv文件的时候，不存储DataFrame的行索引信息呢，我们看下面的解决方法。  
代码片段  
```
df.to_csv(path_or_buf='./People_Information.csv',index=False,encoding='utf_8_sig')
```
在to_csv方法中将参数index设置为False就可以不存储DataFrame的行索引信息。   
在to_csv方法参数中设置encoding='utf_8_sig'，此举为何呢？   
![](./picture/3-2.png)
因为to_csv()方法生成csv文件时，打开文件时都是乱码，encoding参数设置“utf_8_sig”后乱码就会消失。  
## 数据的读取  
数据的存储我们发现很简单，调用to_csv()后设置文件存储路径后就可以了。  
人生就是要反复的折腾，现在我们看看是如何从csv文件将数据读取出来的。  
运行下面的代码，看一下与上面保存的数据是否一致。  

In [4]:
import pandas as pd
df = pd.read_csv('./People_Information.csv')
print(df)
print(df.shape)

   Unnamed: 0   姓名  年龄     薪资 婚姻状况
0           1   李白  25    10k   NO
1           2  王昭君  28  12.5k   NO
2           3  诸葛亮  27    20k  YES
3           4  狄仁杰  25    14k  YES
4           5  孙尚香  30    12k   NO
5           6   妲己  29    17k   NO
6           7   周瑜  25    18k   NO
7           8   张飞  32    21k  YES
8           9  王昭君  28    22k   NO
9          10   大乔  26  21.5k  YES
(10, 5)


根据结果我们可以看出，调用read_csv()方法并传入文件的路径，就可以将数据读取出来并且是DataFrame类型。  
还可以看出，read_csv()默认会将文件中的第一行作为数据的列索引。  
![](./picture/3-3.png)
如果csv文件的第一行或者其他行不满足我们的需求时，我们就不能再屈服在它的淫威下了，我们要自己修改。
![](./picture/3-4.png)
当csv数据的第一行是一条脏数据，不符合我们要求，如上图。
可以利用read_excel()中的header参数进行选择哪一行作为我们的列索引。  

In [7]:
import pandas as pd
people = pd.read_csv('./data/People1.csv',header = 0)
print(people.columns)

people = pd.read_csv('./data/People1.csv',header = 1)
print(people.head())

Index(['aa', ' bb', ' bb.1', ' dd', ' ee', ' ff'], dtype='object')
   ID       Type  Title  FirstName  MiddleName     LastName
0   1   Employee               Ken           J      Sánchez
1   2   Employee             Terri         Lee        Duffy
2   3   Employee           Roberto               Tamburello
3   4   Employee               Rob                  Walters
4   5   Employee    Ms.       Gail           A     Erickson


read_csv()的header参数默认是0，取第一行的值，可以根据具体的要求设置header的值来确定列索引。  
如果都不满足的你的要求，可以将header设置为None，列索引值会使用默认的1、2、3、4，之后在自行设置。  
【江湖秘籍】当指定了header的值，读出来的数据就是从该行开始向下切片，该行以上的数据会被忽略。    
一个Excel文件可以创建多个表，然后在不同的表中存储不同数据，这种形式的文件很常见。但是要注意csv文件不存在多个sheet的问题。  
![](./picture/3-5.png)
所以，如果是Excel文件就需要考虑，如何从Excel中读取出其中的一个表。  
Excel文件的读取和csv的读取方式相似，read_csv()读取csv文件，read_excel()读取Excel文件。  

In [9]:
import pandas as pd
sheet = pd.read_excel('./data/sheet.xlsx')
print(sheet.head())

   ID Name
0   0   zs
1   1   li


to_csv()会比to_excel()少一个sheet_name的参数，这个参数就是可以指定表的名字。  

In [13]:
import pandas as pd
sheet1 = pd.read_excel('./data/sheet.xlsx',sheet_name='Sheet1')
print(sheet1.head())

sheet2 = pd.read_excel('./data/sheet.xlsx',sheet_name='Sheet2')
print(sheet2.head())

   ID Name
0   0   zs
1   1   li
   ID  age
0   0   18
1   1   19


![](./picture/3-6.png)

## 题目要求
从数据集中选取5个球员，组成自己的球队。
## 题目讲解

1. 球员信息存储在csv中，路径为/data/course_data/data_analysis/players.csv
2. 打印前5条了解数据的基本信息；
3. 随机获取5条数据。

## 书写代码

In [17]:
import pandas as pd
import random
# 1. 读取数据
players = pd.read_csv('./data/players.csv')
# 2. 打印前5条了解数据的基本信息
print(players.head())
# 3. 随机获取5条信息
index_list = players.index.tolist()
for i in range(0,5):
    value = index_list[random.randint(0,len(index_list))]
    msg = players.iloc[value]
    print(msg)

            player   height   weight                           college  born  \
0  Curly Armstrong      180       77                Indiana University  1918   
1     Cliff Barker      188       83            University of Kentucky  1921   
2    Leo Barnhorst      193       86          University of Notre Dame  1924   
3       Ed Bartels      196       88   North Carolina State University  1925   
4      Ralph Beard      178       79            University of Kentucky  1927   

     birth_city  birth_state Unnamed: 7  
0                                   NaN  
1      Yorktown      Indiana        NaN  
2                                   NaN  
3                                   NaN  
4   Hardinsburg     Kentucky        NaN  
player                          Skip Harlicka
 height                                   185
 weight                                    83
 college         University of South Carolina
 born                                    1946
 birth_city                          

## 题目要求
在这个练习中，我们会读取好莱坞电影信息的csv文件，并统计出数据集中共有多少个导演。  
## 题目讲解
1. 电影信息存储在csv中，路径为./data/movie_data.csv   
2. 获取导演名字信息并算出一共多少个导演。  

## 书写代码

In [23]:
import pandas as pd
import random
# 1. 读取数据
movie = pd.read_csv('./data/movie_data.csv')
# 2. 了解数据的基本信息
print(movie.head())
# 3. 获取导演列信息,并转成list
directors = movie["director_name"].tolist()
# 4. 去重后获取个数
num = set(directors)
print(len(num))

   Unnamed: 0   color       director_name   num_critic_for_reviews   duration  \
0           0   Color       James Cameron                      723        178   
1           1   Color      Gore Verbinski                      302        169   
2           2   Color          Sam Mendes                      602        148   
3           3   Color   Christopher Nolan                      813        164   
4           5   Color      Andrew Stanton                      462        132   

    director_facebook_likes   actor_3_facebook_likes       actor_2_name  \
0                         0                      855   Joel David Moore   
1                       563                     1000      Orlando Bloom   
2                         0                      161       Rory Kinnear   
3                     22000                    23000     Christian Bale   
4                       475                      530    Samantha Morton   

    actor_1_facebook_likes      gross  ...  content_rating    