# 第二章 pandas基础

In [2]:
import numpy as np
import pandas as pd

In [3]:
pd.__version__

'2.0.3'

## 一、文件的读取和写入
### 1. 文件读取

`pandas`可以读取的文件格式有很多，这里主要介绍读取`csv`, `excel`, `txt`文件。

In [None]:
df_csv = pd.read_csv('../data/my_csv.csv')
df_csv

FileNotFoundError: [Errno 2] No such file or directory: '../data/my_csv.csv'

In [None]:
df_txt = pd.read_table('../data/my_table.txt')
df_txt

In [None]:
df_excel = pd.read_excel('../data/my_excel.xlsx')
df_excel

这里有一些常用的公共参数，`header=None`表示第一行不作为列名，`index_col`表示把某一列或几列作为索引，`usecols`表示读取列的集合，默认读取所有的列，`parse_dates`表示需要转化为时间的列，`nrows`表示读取的数据行数。上面这些参数在上述的三个函数里都可以使用。

In [None]:
pd.read_table('../data/my_table.txt', header=None)

In [None]:
pd.read_csv('../data/my_csv.csv', index_col=['col1', 'col2'])

In [None]:
pd.read_table('../data/my_table.txt', usecols=['col1', 'col2'])

In [None]:
pd.read_csv('../data/my_csv.csv', parse_dates=['col5'])

In [None]:
pd.read_excel('../data/my_excel.xlsx', nrows=2)

在读取`txt`文件时，经常遇到分隔符非空格的情况，`read_table`有一个分割参数`sep`,它使得用户可以自定义分割符号，进行`txt`数据的读取。例如，下面的读取的表以`||||`为分割：

In [None]:
pd.read_table('../data/my_table_special_sep.txt')

上面的结果显然不是理想的，这时可以使用`sep`，同时需要指定引擎为`python`:

In [None]:
pd.read_table('../data/my_table_special_sep.txt', sep=' \|\|\|\| ', engine='python')

#### 【WARNING】`sep`是正则参数
在使用`read_table`的时候需要注意，参数`sep`中使用的是正则表达式，因此需要对`|`行转义变成`\|`，否则无法读取到正确的结果。


### 2. 数据写入
一般在数据写入中，最常用的操作是把`index`设置为`False`,特别当索引没有特殊意义的时候，这样的行为能把索引在保存的时候去除。

In [None]:
df_csv.to_csv('../data/my_csv_saved.csv', index=False)
df_excel.to_excel('../data/my_excel_saved.xlsx', index=False)

`pandas`中没有定义`to_table`函数，但是`to_csv`可以保存为`txt`文件，并且允许自定义分隔符，常用制表符`\t`分割：

In [None]:
df_txt.to_csv('../data/my_txt_saved.txt', sep='\t', index=False)

如果想要把表格快速转换为`markdown`和`latex`语言，可以使用`to_markdown`和`to_latex`函数，此处需要安装`tabulate`包。

In [None]:
print(df_csv.to_markdown())

In [None]:
print(df_csv.to_latex())

## 二、基本数据结构
`pandas`中具有两种基本的数据存储结构，存储一维`values`的`Series`和存储二维`values`的`DataFrame`，在这两种结构上定义了很多的属性和方法。

### 1. Series
`Series`一般由四个部分组成，分别是序列的值`data`、索引`index`、存储类型`dtype`、序列的名字`name`。其中，索引也可以指定它的名字，默认为空。

In [None]:
s = pd.Series(data=[100, 'a', {'dic1':5}],
              index=pd.Index(['id1', 20, 'third'], name='my_idx'),
              dtype='object',
              name='my_name')
s

#### 【NOTE】`Object`类型
`Object`代表了一种混合类型，正如上面的例子中存储了整数、字符串以及`Python`的字典数据结构。此外，目前`pandas`把纯字符串序列也默认认为是一种`Object`类型的序列，但它也可以用`string`类型存储，文本序列的内容会在第八章中讨论。

对于这些属性，可以通过`.`的方式来获取：

In [None]:
s.values

In [None]:
s.index

In [None]:
s.dtype

In [None]:
s.name

利用`.shape`可以获取序列的长度：

In [None]:
s.shape

索引是`pandas`中最重要的概念之一，如果想要取出单个索引对应的值，可以通过`[index_item]`可以取出。

### 2. DataFrame
`DataFrame`在`Series`的基础上增加了列索引，一个数据框可以由二维的`data`与行列索引来构造：

In [None]:
data = [[1, 'a', 1.2], [2, 'b', 2.2], [3, 'c', 3.2]]
df = pd.DataFrame(data=data,
                  index = ['row_%d'%i for i in range(3)],
                  columns=['col_0', 'col_1', 'col_2'])
df

但一般而言，更多的时候会采用从列索引名到数据的映射来构造数据框，同时再加上行索引：