# Pandas学习笔记（一）文件操作和基本数据类型

## 0. 导入Pandas到项目中

In [1]:
import pandas as pd
import numpy as np

你可以通过Pandas中的`__version__`来查看Pandas的版本.

In [2]:
pd.__version__

'2.3.1'

## 1. 读取文件
Pandas对基础的文件读取可以使用csv格式和txt格式.

**读取CSV文件**
读取csv文件后,read_csv()`函数将会返回一个DataFrame对象. 这个DataFrame对象可以被直接打印出来.

In [3]:
data_frame = pd.read_csv('data.csv')
print(type(data_frame))

<class 'pandas.core.frame.DataFrame'>


In [4]:
print(data_frame)

      Name  Age       City
0    Alice   25   New York
1      Bob   30     London
2  Charlie   35      Paris
3      Ann   28     Peking
4     Jack   22      Tokyo
5    Angle   33   Shanghai
6      Sue   20  Hong Kong


**读取TXT/TSV文件** 同样的,你可使用`read_table()`来读取txt或者tsv文件.

In [5]:
data = pd.read_table('data.tsv')
print(data)

   id     name  age  gender  score
0   1    Alice   30  Female   88.5
1   2      Bob   25    Male   92.0
2   3  Charlie   28    Male   76.5
3   4    Diana   32  Female   95.0
4   5    Ethan   24    Male   85.0
5   6    Fiona   29  Female   90.5
6   7   George   35    Male   80.0
7   8   Hannah   27  Female   89.0
8   9      Ian   31    Male   78.5
9  10    Julia   26  Female   93.0


**读取XLSX/XLS文件** 同样的，Pandas还可以读取xlsx和xls文件,但你需要另外安装xlrd包.
`pip install xlrd openpyxl`安装这两个包可以让你准确处理Excel 2000以后版本的大多数文件。
使用`read_excel()`的函数方法与上面的内容基本相同，在这里就不加赘述了。

## 2. 写入文件

**写入CSV文件** 你可以将DataFrame的对象直接写入CSV文件之中.

In [6]:
data_frame.to_csv('data.csv', index=False) #index=False这个参数可以去掉行索引

**写入XLSX/XLS文件** 在安装了openpyxl的包以后你同样可以将DataFrame写入Excel文件中.

In [7]:
data_frame.to_excel('data.xlsx', index=False)

这下面的是`to_csv()`函数的常用参数:
```Python
df.to_csv(
    'output.csv',           # 文件名
    sep=',',                # 分隔符
    na_rep='NULL',          # 缺失值替换为NULL
    header=True,            # 包含列名
    index=False,            # 不包含行索引
    encoding='utf-8',       # 编码方式
    mode='w',               # 写入模式，覆盖已有文件
    date_format='%Y-%m-%d', # 日期格式
    decimal='.',            # 小数点符号
    line_terminator='\n'    # 行结束符
)
```

## 3. 查看数据的方法

对于一个DataFrame结构,我们通常有可以通过`head()` `tail()` `sample()`这三个函数来查看它里面的内容》
- `head()` 查看前五行内容
- `tail()` 查看后五行内容
- `sample()` 随机查看五行内容
它们的使用方法如下：

In [18]:
data_frame.head()

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,London
2,Charlie,35,Paris
3,Ann,28,Peking
4,Jack,22,Tokyo


In [19]:
#为head()函数带上参数可以查看从头开始的指定行数
data_frame.head(7)

Unnamed: 0,Name,Age,City
0,Alice,25,New York
1,Bob,30,London
2,Charlie,35,Paris
3,Ann,28,Peking
4,Jack,22,Tokyo
5,Angle,33,Shanghai
6,Sue,20,Hong Kong


`tail()`函数的使用方法与`head()`函数的使用方法相同。
`sample()`函数可以随机查看指定行数的内容。

In [20]:
data_frame.sample() #没有参数则默认是1行

Unnamed: 0,Name,Age,City
4,Jack,22,Tokyo


In [21]:
data_frame.sample(3)

Unnamed: 0,Name,Age,City
3,Ann,28,Peking
1,Bob,30,London
0,Alice,25,New York


## 4.Pandas的基本数据类型

Pandas 提供了多种数据类型，其中最常用的是 Series 和 DataFrame。下面我们来介绍一下这两种数据类型及它们常用的一些方法和属性.

### 1.Series（一维数据）
Series 是带标签的一维数组，能够保存任何数据类型（整数、字符串、浮点数、Python 对象等）。轴标签统称为索引。
我们来定义一个Series:

In [13]:
s = pd.Series([1,2,3,4,5],index=['a','b','c','d','e'], dtype='int32')

请你注意，以上这个方法第一个参数data和index参数（若你使用的话）的列表长度应当一致，否则会抛出错误。同样的Series对象也可以直接被打印出来，或者使用`head()` `tail()` `sample()`等方法。

In [14]:
print(s)

a    1
b    2
c    3
d    4
e    5
dtype: int32


In [16]:
s.head(3)

a    1
b    2
c    3
dtype: int32

### 2. DataFrame（数据表）

DataFrame 是一个二维表格型数据结构，包含一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。它通常被看作是一个类似于 SQL 表格或 Excel 工作表的结构。接下来我们来定义一个DataFrame。

In [17]:
df = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie'],
    'age': [25, 30, 35],
    'gender': ['Female', 'Male', 'Male']
}) #在定义DataFrame时我们应当使用一个字典来指定列的名称和它的值

print(df)


      name  age  gender
0    Alice   25  Female
1      Bob   30    Male
2  Charlie   35    Male


查看DataFrame的一些方法已经在[查看数据的方法](#3-查看数据的方法)中详细说到，你可回头查看。