# Pandas基础

Pandas在Numpy基础上，优化了数据结构，在数据的存储、读取、分割、转换等方面进行了改进，是一个非常强的Python数据分析库。

## 1.Pandas是什么
* Pandas是基于NumPy数组构建的，也是Python语言的第三方库，Pandas使数据预处理、清洗、分析工作变得更快更简单，主要用于数据分析。
* Pandas是专门为处理表格和混杂数据设计的，相当于Python的Excel，而Numpy更适合处理统一的数组数据。

## 2.常用数据对象
* pandas提供了三种常用数据对象，分别是series, Dataframe和Panel(不常用)
* series用于保存一维类的数据，DataFrame用于保存二维类的数据，panel用于保存三维类或者可变维度的数据

### 2.1 创建DataFrame对象
* series 对象用于存储一维数据，DataFrame专门用于存储二维数据，
* 二维数据很常见，特别是在网站开发时，要用到数据库，每个数据保存到数据库中的表里面，那么每个表就是一个二维数据

**创建Dataframe对象**
pd.DataFrame(data=None, index=None, columns = None, dtype=None)
data: 可以是嵌套列表，二维数组，字典或者DataFrame对象
index: 可以是索引对象或者类数组对象
跟Series一样，index=None时，则会按照默认的0,1,2...顺序建立索引
columns: 可以是索引对象或者类数组对象，其含义是列索引

In [None]:
import pandas as pd

In [None]:
#字典法创建
data = {"grammer":['Python', 'C', 'Java', 'GO', 'css', 'SQL', 'PHP', 'Python'],
       "score":[1.0, 2.0, 6.0, 4.0, 5.0, 6.0, 7.0, 10.0]}
df = pd.DataFrame(data)
df

In [None]:
#先创建空的，再加入列
df1 = pd.DataFrame()
df1['ID'] = [0,1,2]
df1

In [None]:
df1['name'] = ['a','b','c']
df1

### 2.2 DataFrame对象常用基本属性
1.查看数据维度
dataframe.ndim
dataframe.shape

2.查看数据的行名称
dataframe.index

3.查看数据的列名称
dataframe.columns

4.查看数据的前几行：（n为设置查看几行，默认为5行）
dataframe.head(n)

5.查看数据的后几行：（n为设置查看几行，默认为5行）
dataframe.tail(n)

6.数据转置
dataframe.T

7.查看数据是否存在空值（可以连用，dataframe.isnull().sum()统计列中含有缺失值的个数，dataframe.isnull().any().sum()统计含有缺失值的列数）
dataframe.isnull()

8.按照行名称或列名称进行排序：（axis参数：指定排序的数轴；ascending：默认按照升序排序；当设置为False时，按照降序排序）
dataframe.sort_index(axis=1, ascending=False)

9.按照数据值排序：（axis参数指定排序的数轴；by参数指定按照哪一列或行进行排序；ascending参数指定是升序还是降序）
dataframe.sort_values(by='列名, ascending=False, axis=0)

10.对数据直接进行统计分析
dataframe.describe()

11.打印DataFrame对象的信息
dataframe.info()

12.查看数据类型
dataframe.dtypes

13.根据数据类型选取特征
dataframe.select_dtypes(include=None, exclude=None)

In [None]:
#查看数据维度
df.ndim

In [None]:
#查看数据形状
df.shape

In [None]:
#前5行：
df.head() # 默认是5

In [None]:
#后5行：
# 方法一：
df.tail() # 默认是5

In [None]:
# 方法二：
df.iloc[-5:, :]

In [None]:
#查看列名
df.columns

In [None]:
#查看列数
#方法一：
len(df.columns)

In [None]:
#方法二：
df.shape[1]

In [None]:
#查看DataFrame的所有信息
df.info()

In [None]:
#查看数据是否存在空值
df.isnull()

In [None]:
#查看每一列缺失值的 个数
df.isnull().sum()

In [None]:
#查看描述性统计分析
df.describe()

In [None]:
#查看某一列共有几种类别
df['grammer'].nunique()

In [None]:
#查看某一列每个类别的个数
df['grammer'].value_counts()

In [None]:
#查看转置
df.T

## 3.数据的读取与保存

### 3.1 读取excel文件

In [None]:
pd.read_excel('./data/xxx.xlsx')
#括号内为excel文件路径

### 3.2 读取csv文件

In [None]:
pd.read_csv('./xxx/data1.csv')

### 3.3将DataFrame保存成csv文件

In [None]:
df.to_csv('xxx.csv')