# Pandas常用数据类型及其操作
## 一.Pandas读取和存储文件
## 二.数据排序
## 三.描述性统计分析
## 四.层次化索引（补充）
## 知识目标：掌握描述性统计分析的常用方法
## 技能目标：掌握pandas读写不同类型文件的方法
## 重点：描述性统计分析
## 难点：层次化索引
=========================================================

## 一.Pandas读取和存储文件
### 1.读写Excel文件
#### （1）读取Excel文件
to_excel()函数可以将Excel文件中的数据读取出来，并转成DataFrame对象。

to_excel()函数语法：pd.read_excel(io,sheet_name=0,header=0,index_col=None ……)
#io：接收字符串，表示路劲对象。
#sheet_name：指定要读取的工作表，可接收字符串（工作表名）或int型（工作表索引）。
#header：用于表示DataFrame的列标签，即指定某行数据作为列名。如果传入一个整数列表，则这些行会合并为一个MultiIndex对象(层次化索引)。
#index_col：用作行索引的列编号或者列名，如果给定一个序列，则表示有多个行索引。
#usecols：用来指定要读取的列的索引或名字。

In [3]:
#例1：读取‘超市营业额2.xlsx’文件中的“工号,姓名,交易额,柜台”四列数据，并将“工号”指定为行索引。
import pandas as pd
df = pd.read_excel(r'D:\Desktop\超市营业额2.xlsx',index_col=0,usecols=['工号','姓名','交易额','柜台'])
df

Unnamed: 0_level_0,姓名,交易额,柜台
工号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1001,张三,1664.0,化妆品
1002,李四,954.0,化妆品
1003,王五,1407.0,食品
1004,赵六,1320.0,食品
1005,周七,994.0,日用品
...,...,...,...
1002,李四,859.0,蔬菜水果
1004,赵六,1668.0,日用品
1004,赵六,1722.0,日用品
1003,王五,1274.0,食品


In [None]:
思考1：读取九九乘法表数据

#### （2）写入Excel文件
将文件存储为Excel文件，可以使用to_excel()方法。
to_excel()语法：DataFrame.to_excel(excel_writer=None,sheetname='None',na_rep='',header=True,index=True,index_label=None,mode='w',encoding=None)
#excel_writer:表示文件存放的路径
#sheet_name:表示工作表的名称，可以接收字符串，默认为“Sheet1”
#na_rep:表示缺失值
#header：是否将列名写出
#index:表示是否将行索引写出，默认为True
#index_label:表示索引名
#mode:表示数据写入模式
#encoding：表示存储文件的编码格式

In [None]:
#例2：将上周思考题3写入Excel文件，命名为“新生报到统计”
data_demo = np.random.randint(30,100,(10,3))
date_list = pd.date_range(start='202010100800',end='202010101700',freq='H')
d6 = pd.DataFrame(data_demo,index=date_list,columns=['数据信息学院','艺术设计学院','医药护理学院'])
d6.to_excel('D:\pyData\新生报到统计.xlsx',sheet_name="新生报到统计")

### 2.读写csv文件
#### （1）读取csv文件
pandas提供read_csv()函数来读取csv文件,若要读取text文件，则使用read_table()函数来读取。

read_csv()函数语法：

pd.read_csv(filepath,sep=',',hearder='infer',names=None,index_col=None,dtype=None,encoding=utf-8,engine=None,nrows=None)
#filepath:表示文件路径
#sep:表示分隔符
#header:表示将某行数据作为列名，默认为‘infer’，表示自动识别
#index_col:表示索引列的位置
#engine:表示数据解析引擎，接收c或Python，默认为c
#nrows:表示读取前n行

In [None]:
#例3：读取meal_order_info.csv文件中的前10行数据
order_data = pd.read_csv(r'D:\pyData\meal_order_info.csv',encoding='gbk',nrows=10)
order_data

#### （2）写入csv文件
将文件存储为csv文件，可以使用to_csv()方法。
to_csv()语法：DataFrame.to_csv(path_or_buf=None,sep=',',na_rep='',columns=None,header=True,index=True,index_label=None,mode='w',encoding=None)
#path_or_buf:表示文件存放的路径
#sep:表示分隔符
#columns:表示是否将列名写出
#na_rep:表示缺失值
#header：是否将列名写出，接收布尔值
#index:表示是否将行索引写出，默认为True
#index_label:表示索引名
#mode:表示数据写入模式
#encoding：表示存储文件的编码格式

### 3.读写数据库文件
#### （1）连接准备
通过SQLAlchemy建立与数据库的连接，下载安装对应的连接工具

下载PyMySql：
pip install pymysql -i http://pypi.douban.com/simple/
#### （2）创建连接
使用create_engine() 函数创建连接

语法格式：create_engine(‘数据库类型+数据库连接器://用户名:密码@机器地址:端口号/数据库名?字符类型’)

In [None]:
#例4：创建连接
import pymysql
from sqlalchemy import create_engine
engine = create_engine('mysql+pymysql://root:123456@127.0.0.1:3306/dsj?charset=utf8')
engine

#### (3)读取数据库文件
#pandas读取数据库文件有3个函数：

①read_sql_table（只能读某个表）：pd.read_sql_table (table_name,con)  #con=engine接受连接 无默认

②read_sql_query（只能查询）：pd.read_sql_query (sql, con)

③read_sql（既能读表也能查询）                   

In [None]:
#例5：使用read_sql_table读取“学生信息表”数据库文件
sql_data = pd.read_sql_table('学生信息表',con=engine)
sql_data

In [None]:
#例6：使用read_sql_query读取“学生信息表”中班级为“大数据1902”的数据
sql='select * from 学生信息表 where 班级="大数据1902";'
sql_stu2 = pd.read_sql_query(sql,con=engine)
sql_stu2

#### （4）写入数据库

使用to_sql()方法将数据写入到数据库中

to_sql()语法：DataFrame.to_sql (name,con,if_exists='fail',index=True,index_label=None)
#if_exists：可以取值为fail,replace,append，默认为fail。

fail：如果表存在，则不执行写入操作

replace：如果表存在，则将源数据库表删除再重新创建

append：如果表存在，则在原数据库表的基础上追加数据
#index:表示将DataFrame行索引作为数据传入数据库

In [None]:
#例7：将上周思考题3写入数据库，命名为“新生报到统计”
data_demo = np.random.randint(30,100,(10,3))
date_list = pd.date_range(start='202010100800',end='202010101700',freq='H')
d6 = pd.DataFrame(data_demo,index=date_list,columns=['数据信息学院','艺术设计学院','医药护理学院'])
d6.to_sql('新生报到统计',con=engine)

## 二.数据排序
pandas对象是索引和数据的结合，所以它既可以按索引排序，也可以按数据排序。
### 1.按索引排序
使用sort_index()方法可以按行索引或者列索引进行排序

sort_index()语法：DataFrame.sort_index(axis=0,level=None,ascending=True,inplace=False)
#level：若不为None，则对指定索引级别的值进行排序
#ascending：是都为升序排序，默认为True
#inplace：表示是否将排序的结果创建为新的实例，默认为False

In [None]:
#例7：将d6中的数据按照行索引进行降序排列
d6.sort_index(axis=0,ascending=False)

### 2.按数据排序
使用sort_values()方法可以按值进行排序

sort_values()语法：DataFrame.sort_values(by,axis=0,ascending=True,inplace=False,na_position='last')
#by:表示参与排序的列
#na_position:此参数有两个值，first和last，若为first，则将NaN值放在开头，否则将放在最后。

In [None]:
#例8：将d6中数据信息学院的数据进行升序排序
d6.sort_values(by=['数据信息学院'])

## 三.描述性统计分析
描述性统计是用来概括、表述事物整体状况，以及事物间关联、类属关系的统计方法。通过几个统计值可以简单地表示一组数据的集中趋势和离散程度。
pandas描述性统计方法：
#min	最小值
#mean	均值
#median	中位数
#var	方差
#sem	标准误差
#skew	样本偏度
#quantile	四分位数
#max	最大值
#ptp	极差
#std	标准差
#cov	协方差
#mode	众数
#kurt	样本峰度
#count	非空值数目
#mad	平均绝对离差
#describe	描述统计：能够一次性得出数值型特征的非空值数目，均值，四分位数和标准差
### 1.数值型特征的描述性统计

In [8]:
#例9：查看“超市营业额”中的交易额数据，并使用describe对交易额数据进行描述性统计
df['交易额'].describe()

count      246.000000
mean      1330.313008
std        904.300720
min         53.000000
25%       1031.250000
50%       1259.000000
75%       1523.000000
max      12100.000000
Name: 交易额, dtype: float64

### 2.类别型特征的描述性统计
描述类别型特征的分布状况，可以使用value_counts()方法进行频数统计

In [None]:
#例10：查看“超市营业额”中的交易额数据，并使用value_counts()方法对柜台数据进行频数统计
df['柜台'].value_counts()

### 3.category类型的描述性统计（补充）
category类型：分类数据，可以理解成取值有限的，或者是固定数量的可能值。例如，性别，血型。

describe方法除了支持传统数值型数据以外，还能够对category类型的数据进行描述性统计，统计的4个统计量分别是：
#count（非空元素的数目）
#unique（类别的数目）
#top（数目最多的类别）
#freq（数目最多类别的数目）

In [7]:
#例11：用describe方法查看“超市营业额”中的柜台数据特征描述
df['柜台']=df['柜台'].astype('category')  #使用astype将目标特征的数据类型强制转换为category类型
df['柜台']
df['柜台'].describe()

count      249
unique       4
top       蔬菜水果
freq        63
Name: 柜台, dtype: object

## 四.层次化索引（补充）
详见word文档