## Pandas读取文件

In [None]:
# read_csv()         读取文本文件（包括txt）
# read_excel()       读取文本文件
# read_json()        读取json文件
# read_sql_query()   读取sql语句

### 通用流程


In [1]:
# 1、导入库 pandas
# 2、找到文件位置
# 3、变量名=pd.读写操作方法（文件路径，具体筛选条件，……）

### 一、CSV 文件读取

In [None]:
import pandas as pd
df =pd.read_csv()
# os动态获取绝对路径 ： os.getcwd()   os.path.json

print(df,type(df))

In [None]:
一、基本参数
1、filepath_or_buffer：数据输入的路径：可以是文件路径、可以是URL，也可以是实现read方法的任意对象。这个参数，就是我们输入的第一个参数。
2、sep：读取csv文件时指定的分隔符，默认为逗号。注意："csv文件的分隔符" 和 "我们读取csv文件时指定的分隔符" 一定要一致。
3.delim_whitespace ：默认为 False，设置为 True 时，表示分割符为空白字符，可以是空格、"\t"等等。不管分隔符是什么，只要是空白字符，那么可以通过delim_whitespace=True进行读取。
    所以names和header的使用场景主要如下：
        ①. csv文件有表头并且是第一行，那么names和header都无需指定;
        ②. csv文件有表头、但表头不是第一行，可能从下面几行开始才是真正的表头和数据，这个时候指定header即可;
        ③. csv文件没有表头，全部是纯数据，那么我们可以通过names手动生成表头;
        ④. csv文件有表头、但是这个表头你不想用，这个时候同时指定names和header。先用header选出表头和数据，然后再用names将表头替换掉，就等价于将数据读取进来之后再对列名进行rename；
4 index_col：我们在读取文件之后所得到的DataFrame的索引默认是0、1、2……，我们可以通过set_index设定索引，但是也可以在读取的时候就指定某列为索引。
5.usecols：返回列的子集。如果是类似列表的，则所有元素都必须是位置性的（即文档列中的整数索引），或者是与用户在名称中提供的列名或从文档标题行推断的列名相对应的字符串。如果给出了名称，则不考虑文档标题行


### 二、通用解析参数


In [None]:
1. encoding:这只编码格式  utf-8  gbk
2. dtype：在读取数据的时候，设定字段的类型。比如，公司员工的id一般是：00001234，如果默认读取的时候，会显示为1234，所以这个时候要把他转为字符串类型，才能正常显示为00001234：
3. converters：在读取数据的时候对列数据进行变换，例如将id增加10，但是注意 int(x)，在使用converters参数时，解析器默认所有列的类型为 str，所以需要进行类型转换。
4. true_values和false_values：指定哪些值应该被清洗为True，哪些值被清洗为False。
5、skiprows：表示过滤行，想过滤掉哪些行，就写在一个列表里面传递给skiprows即可。注意的是：这里是先过滤，然后再确定表头
6、skipfooter：从文件末尾过滤行
7、nrows：设置一次性读入的文件行数，在读入大文件时很有用，比如 16G 内存的PC无法容纳几百 G 的大文件。


### 三、空值处理相关参数

In [None]:
na_values：该参数可以配置哪些值需要处理成 NaN：
pd.read_csv('data\students.csv', na_values=["女", "朱梦雪"])

### 四、时间处理相关参数

In [None]:
1、parse_dates：指定某些列为时间类型，这个参数一般搭配date_parser使用。
    df = pd.read_csv('data\students.csv',parse_dates=["birthday"])
2、date_parser：是用来配合parse_dates参数的，因为有的列虽然是日期，但没办法直接转化，需要我们指定一个解析格式：
    df = pd.read_csv('data\students.csv',parse_dates=["birthday"],date_parser=lambda x:datetime.strptime(x,"%Y年%m月%d日"))


### 五、分块读入相关参数

In [None]:
1、iterator：迭代器, iterator 为 bool类型，默认为False。如果为True，那么返回一个 TextFileReader 对象，以便逐块处理文件。这个在文件很大、内存无法容纳所有数据文件时，可以分批读入，依次处理。
    chunk = pd.read_csv('data\students.csv', iterator=True)
    print(chunk.get_chunk(2))
    
    try:
        # 但是在读取完毕之后，再读的话就会报错了
        chunk.get_chunk(5)
    except StopIteration as e:
        print("读取完毕")
    # 读取完毕
2、chunksize：整型，默认为 None，设置文件块的大小。
    chunk = pd.read_csv('data\students.csv', chunksize=2)
    # 还是返回一个类似于迭代器的对象
    print(chunk)  
    # <pandas.io.parsers.TextFileReader object at 0x0000025501143AF0>

    # 调用get_chunk，如果不指定行数，那么就是默认的chunksize
    print(chunk.get_chunk())

### 六、保存

In [None]:
df.to_csv(filename)
df.to_excel(filename)
df.to_sql(table_name,connection_object)
df.to_json(filename)



参数：
    na_rep:设置空值
    sep：设置分隔符