# Pandas数据读取

Pandas需要先读取表格类型的数据，然后进行分析

| 数据类型 | 说明 | Pandas读取方法 |
| :-----:| :----: | :----: |
| csv、tsv、txt | 用逗号分隔开、tab分割的纯文本文件 | pd.read_csv |
| excel | 微软xls或者xlsx | pd.read_excel |
| mysql | 关系型数据表 | pd.read_sql |

## 读取纯文本文件

In [1]:
import pandas as pd

### 读取csv，使用默认的标题行、逗号分割符

In [2]:
moviePath="./datas/movie.csv"

In [3]:
# 读取数据
data = pd.read_csv(moviePath)

In [4]:
# 显示前5个
data.head()

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,5.0
2,1,4,4.0
3,1,2,5.0
4,1,6,3.0


In [5]:
# 查看数据的形状，返回（行数、列数）
data.shape

(15, 3)

In [6]:
# 查看列名列表
data.columns

Index(['userId', 'movieId', 'rating'], dtype='object')

In [7]:
# 查看索引列
data.index

RangeIndex(start=0, stop=15, step=1)

In [8]:
# 查看每列的数据类型
data.dtypes

userId       int64
movieId      int64
rating     float64
dtype: object

### 读取txt,自己指定分割符、列名

In [9]:
txtPath = "./datas/log.txt"

In [10]:
tdata = pd.read_csv(txtPath,sep='*',header=None,names=['data','pv','uv'])

In [11]:
tdata

Unnamed: 0,data,pv,uv
0,2020-10-21,200,4331
1,2020-10-21,2320,3332
2,2020-10-21,2030,3311
3,2020-10-21,2200,3322
4,2020-10-21,1200,3111
5,2020-10-21,2030,323


## 读取excel文件

In [12]:
excelPath = "./datas/hotel.xlsx"

In [13]:
exdata = pd.read_excel(excelPath)

In [14]:
exdata.head(3)

Unnamed: 0,web-scraper-order,web-scraper-start-url,省份,城市,酒店名称,婚宴价格,地址,容纳桌数,酒店详情地址,酒店标签,酒店标签.1,详细地址
0,1583656551-3414,https://sz.tuanyanwang.com/hunyan-page5,江苏,苏州,唐宫美罗海鲜舫,￥3488-5988/桌,观前街,容纳16桌,https://sz.tuanyanwang.com/shop/4246,中式婚礼,中式婚礼,观前街
1,1583666978-4551,https://shenzhen.tuanyanwang.com/hunyan-page7,广东,深圳,佳宁娜贵宾楼,￥2880-10888/桌,福田区 福华新村,容纳60桌,https://shenzhen.tuanyanwang.com/shop/3813,中式婚礼西式婚礼,中式婚礼西式婚礼,福华新村
2,1583652550-2201,https://hz.tuanyanwang.com/hunyan-page13,浙江,杭州,五洋宾馆,￥2380-3880/桌,下城区 潮鸣,容纳25桌,https://hz.tuanyanwang.com/shop/2984,中式婚礼西式婚礼,中式婚礼西式婚礼,下城区庆春路


## 读取Mysql数据库

In [15]:
import pymysql
conn = pymysql.connect(
    host = '127.0.0.1',
    user = 'root',
    password = '123456',
    database='rbac',
    charset = 'utf8'
)

In [16]:
mysql_data = pd.read_sql("select * from role",con=conn)

In [17]:
mysql_data

Unnamed: 0,id,roleId,describe
0,1,admin,超级管理员
1,2,editor,编辑者
2,3,operate,操作员


# Pandas数据结构（DataFrame && Series）

## 介绍

![image.png](attachment:image.png)

## Series
Series是一种类似于一维数组的对象，它由一组数据（不同数据类型）以及一组与之相关的数据标签（即索引）组成

### 仅有数据列表即可产生最简单的Series

In [18]:
s1 = pd.Series(['a',1,2.3,5])

In [19]:
# 左侧为索引，右侧为数据
s1

0      a
1      1
2    2.3
3      5
dtype: object

In [20]:
# 获取索引
s1.index

RangeIndex(start=0, stop=4, step=1)

In [21]:
# 获取数据
s1.values

array(['a', 1, 2.3, 5], dtype=object)

### 创建一个具有标签索引的Series

In [22]:
s2 = pd.Series(['a',1,2.3,5],index=['d','a','c','b'])

In [23]:
s2

d      a
a      1
c    2.3
b      5
dtype: object

In [24]:
s2.index

Index(['d', 'a', 'c', 'b'], dtype='object')

### 使用python字典创建Series

In [25]:
dicts = {'name':'taisoulx','age':18,'sex':'m'}

In [26]:
s3 = pd.Series(dicts)

In [27]:
s3

name    taisoulx
age           18
sex            m
dtype: object

### 根据索引标签查询数据

In [28]:
s2

d      a
a      1
c    2.3
b      5
dtype: object

In [29]:
s2['c']

2.3

In [30]:
type(s2['a'])

int

In [31]:
s2[['b','a']]

b    5
a    1
dtype: object

## DataFrame
DataFrame是一个表格型的数据结构
* 每列可以是不同的值类型（数值、字符串、布尔值等）
* 既有行索引index也有列索引columns
* 可以被看作由Series组成的字典

### DataFrame创建

In [32]:
dataF = {
    'state':['greate','nice','normal','bad','greate'],
    'year':[2000,2001,2002,2003,2004],
    'pop':[1.2,1.3,2.1,3.1,4.4]
}
df =pd.DataFrame(dataF)

In [33]:
df

Unnamed: 0,state,year,pop
0,greate,2000,1.2
1,nice,2001,1.3
2,normal,2002,2.1
3,bad,2003,3.1
4,greate,2004,4.4


In [34]:
# 值类型
df.dtypes

state     object
year       int64
pop      float64
dtype: object

In [35]:
df.columns

Index(['state', 'year', 'pop'], dtype='object')

In [36]:
df.index

RangeIndex(start=0, stop=5, step=1)

### DataFrame查询

In [37]:
# 查询一列，返回一个Series
df['year']

0    2000
1    2001
2    2002
3    2003
4    2004
Name: year, dtype: int64

In [38]:
# 查询大于1列，返回一个DataFrame
df[['state','year']]

Unnamed: 0,state,year
0,greate,2000
1,nice,2001
2,normal,2002
3,bad,2003
4,greate,2004


In [39]:
# 查询1行，返回一个Series
df.loc[1]

state    nice
year     2001
pop       1.3
Name: 1, dtype: object

In [40]:
# 查询多行，返回一个DataFrame,包含第三个元素
df.loc[1:3]

Unnamed: 0,state,year,pop
1,nice,2001,1.3
2,normal,2002,2.1
3,bad,2003,3.1


# Pandas数据查询
按**数值、列表、区间、条件、函数**五种方法

## Pandas查询数据的几种方法

* 1.df.loc方法-->根据行、列的标签值查询
* 2.df.iloc方法-->根据行、列的数字位置查询
* 3.df.where方法
* 4.df.query方法

**.loc既能查询，又能覆盖写入**

### pandas 使用df.loc查询数据的方法

* 1.使用单个lable值查询数据
* 2.使用值列表批量查询
* 3.使用数值区间进行范围查询
* 4.使用条件表达式查询
* 5.调用函数查询

**注意**
* 以上方法，既适用于行，也适用于列
* 注意观察降维DataFrame>Series>值

#### 读取数据

In [41]:
wPath = "./datas/SURF_CHN_MUL_STATION.xlsx"

In [42]:
wData = pd.read_excel(wPath)

In [43]:
wData.head(8)

Unnamed: 0,区站号,省份,站名,经度,纬度,观测场拔海高度（米）,气压传感器拔海高度(米),开始年份,结束年份,缺测时段,标准值统计时段
0,50136,黑龙江,漠河,122.31,52.58,433.0,434.2,198101,201012,,198101-199612/199701-201012
1,50137,黑龙江,北极村,122.22,53.28,296.0,297.3,200201,201012,,/////
2,50246,黑龙江,塔河,124.43,52.21,361.9,363.0,198101,201012,,198101-201012
3,50247,黑龙江,呼中,123.34,52.02,514.5,514.9,198101,201012,,198101-201012
4,50349,黑龙江,新林,124.24,51.4,501.5,502.2,198101,201012,,198101-201012
5,50353,黑龙江,呼玛,126.38,51.44,177.4,178.0,198101,201012,,198101-201012
6,50425,内蒙古,额尔古纳市,120.11,50.15,581.4,582.3,198101,201012,,198101-201012
7,50431,内蒙古,根河市,121.31,50.47,717.0,718.2,198101,201012,,198101-200412


In [44]:
wData.index

RangeIndex(start=0, stop=2160, step=1)

In [45]:
wData.columns

Index(['区站号', '省份', '站名', '经度', '纬度', '观测场拔海高度（米）', '气压传感器拔海高度(米)', '开始年份',
       '结束年份', '缺测时段', '标准值统计时段'],
      dtype='object')

#### 使用单个lable值查询数据
行或者列，都可以只传入单个值，实现精确匹配

In [46]:
# 得到单个值
wData.loc[500,'气压传感器拔海高度(米)']

751.5

In [47]:
# 得到一个Series
wData.loc[1212,['站名','气压传感器拔海高度(米)','标准值统计时段']]

站名                         尉氏
气压传感器拔海高度(米)             68.5
标准值统计时段         198101-201012
Name: 1212, dtype: object

#### 使用值列表批量查询

In [48]:
# 得到Series
wData.loc[[5,100,300],'气压传感器拔海高度(米)']

5      178.0
100    282.0
300    910.5
Name: 气压传感器拔海高度(米), dtype: float64

In [49]:
# 得到DataFrame
wData.loc[[2,322,1231],['观测场拔海高度（米）','气压传感器拔海高度(米)']]

Unnamed: 0,观测场拔海高度（米）,气压传感器拔海高度(米)
2,361.9,363.0
322,1185.1,1186.1
1231,818.2,819.4


#### 使用数值区间进行范围查询
注意：区间既包含开始，也包含结束（和python本身的特点有所区别）

In [50]:
# 行index按区间
wData.loc[1:6,'气压传感器拔海高度(米)']

1    297.3
2    363.0
3    514.9
4    502.2
5    178.0
6    582.3
Name: 气压传感器拔海高度(米), dtype: float64

In [51]:
# 列index按区间
wData.loc[210,'站名':'气压传感器拔海高度(米)']

站名                  泽库
经度              101.28
纬度               35.02
观测场拔海高度（米）      3662.8
气压传感器拔海高度(米)    3663.6
Name: 210, dtype: object

In [52]:
# 行列都按区间
wData.loc[200:206,'站名':'气压传感器拔海高度(米)']

Unnamed: 0,站名,经度,纬度,观测场拔海高度（米）,气压传感器拔海高度(米)
200,皋兰,103.57,36.21,1668.5,1669.7
201,永登,103.15,36.45,2118.8,2120.0
202,靖远,104.41,36.34,1398.2,1399.4
203,白银,104.09,36.33,1738.7,1739.9
204,五道梁,93.05,35.13,4612.2,4613.0
205,沙珠玉,100.16,36.16,2872.0,2872.8
206,兴海,99.59,35.35,3323.2,3324.0


#### 使用表达式进行查询
bool列表的长度得等于行数或者列数

In [53]:
# 观测场拔海高度大于4000的数据
wData.loc[wData['观测场拔海高度（米）']>4000,:] 

Unnamed: 0,区站号,省份,站名,经度,纬度,观测场拔海高度（米）,气压传感器拔海高度(米),开始年份,结束年份,缺测时段,标准值统计时段
204,52908,青海,五道梁,93.05,35.13,4612.2,4613.0,198101,201012,,198101-201012
879,55228,西藏,狮泉河,80.05,32.3,4278.6,4279.8,198101,201012,,198101-201012
880,55248,西藏,改则,84.25,32.09,4414.9,4416.1,198101,201012,,198101-201012
881,55299,西藏,那曲,92.04,31.29,4507.0,4508.2,198101,201012,,198101-201012
883,55493,西藏,当雄,91.06,30.29,4200.0,4201.2,198101,201012,,198101-201012
890,55664,西藏,定日,87.05,28.38,4300.0,4301.2,198101,201012,,198101-201012
891,55680,西藏,江孜,89.36,28.55,4040.0,4041.2,198101,201012,,198101-201012
892,56004,青海,沱沱河,92.26,34.13,4533.1,4533.9,198101,201012,,198101-201012
893,56016,青海,治多,95.37,33.51,4179.1,4179.9,198101,201012,,198101-201012
894,56018,青海,杂多,95.17,32.53,4066.4,4067.2,198101,201012,,198101-201012


* 复杂查询，组合条件用&符号合并,每个判断条件都得带括号

In [54]:
wData.loc[(wData['纬度']<30) & (wData['观测场拔海高度（米）']>4000),:]

Unnamed: 0,区站号,省份,站名,经度,纬度,观测场拔海高度（米）,气压传感器拔海高度(米),开始年份,结束年份,缺测时段,标准值统计时段
890,55664,西藏,定日,87.05,28.38,4300.0,4301.2,198101,201012,,198101-201012
891,55680,西藏,江孜,89.36,28.55,4040.0,4041.2,198101,201012,,198101-201012


#### 调用函数查询

In [55]:
# 直接写lambda表达式
wData.loc[lambda wData: (wData['纬度']>30) & (wData['观测场拔海高度（米）']>4000),:]

Unnamed: 0,区站号,省份,站名,经度,纬度,观测场拔海高度（米）,气压传感器拔海高度(米),开始年份,结束年份,缺测时段,标准值统计时段
204,52908,青海,五道梁,93.05,35.13,4612.2,4613.0,198101,201012,,198101-201012
879,55228,西藏,狮泉河,80.05,32.3,4278.6,4279.8,198101,201012,,198101-201012
880,55248,西藏,改则,84.25,32.09,4414.9,4416.1,198101,201012,,198101-201012
881,55299,西藏,那曲,92.04,31.29,4507.0,4508.2,198101,201012,,198101-201012
883,55493,西藏,当雄,91.06,30.29,4200.0,4201.2,198101,201012,,198101-201012
892,56004,青海,沱沱河,92.26,34.13,4533.1,4533.9,198101,201012,,198101-201012
893,56016,青海,治多,95.37,33.51,4179.1,4179.9,198101,201012,,198101-201012
894,56018,青海,杂多,95.17,32.53,4066.4,4067.2,198101,201012,,198101-201012
895,56021,青海,曲麻莱,95.48,34.07,4175.0,4175.8,198101,201012,,198101-201012
897,56033,青海,玛多,98.13,34.55,4272.3,4273.1,198101,201012,,198101-201012


In [56]:
# 编写自己的函数
def query_data(data):
    return data['区站号'] == 56033
wData.loc[query_data,:]

Unnamed: 0,区站号,省份,站名,经度,纬度,观测场拔海高度（米）,气压传感器拔海高度(米),开始年份,结束年份,缺测时段,标准值统计时段
897,56033,青海,玛多,98.13,34.55,4272.3,4273.1,198101,201012,,198101-201012


# pandas 数据新增
直接赋值、apply、assign、分条件赋值

## Pandas怎样新增数据列
在进行数据分析时，经常需要按照一定的条件创建新的数据列，然后进行近一步分析
* 1、直接赋值
* 2、df.apply方法
* 3、df.assign方法
* 4、按条件选择分组分别赋值

### 读取数据

In [57]:
tPath = './datas/tianqi.csv'
tData = pd.read_csv(tPath)

In [58]:
tData.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3℃,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2℃,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2℃,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0℃,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3℃,-6℃,多云~晴,西北风,1-2级,50,优,1


### 直接赋值的方法
实例：清理温度列，变成数字类型

In [59]:
tData.loc[:,'bWendu'] = tData['bWendu'].str.replace('℃','').astype('int32')

In [60]:
tData.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3,-6℃,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2,-5℃,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2,-5℃,多云,北风,1-2级,28,优,1
3,2018-01-04,0,-8℃,阴,东北风,1-2级,28,优,1
4,2018-01-05,3,-6℃,多云~晴,西北风,1-2级,50,优,1


In [61]:
tData.loc[:,'yWendu'] = tData['yWendu'].str.replace('℃','').astype('int32')

In [63]:
tData.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel
0,2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2
1,2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1
2,2018-01-03,2,-5,多云,北风,1-2级,28,优,1
3,2018-01-04,0,-8,阴,东北风,1-2级,28,优,1
4,2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1


实例：计算温差

In [66]:
# 注意：tData['bWendu']其实是一个Series，后面的减法返回的是Series
tData.loc[:,'wencha'] = tData['bWendu']-tData['yWendu']

In [67]:
tData.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,wencha
0,2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2,9
1,2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1,7
2,2018-01-03,2,-5,多云,北风,1-2级,28,优,1,7
3,2018-01-04,0,-8,阴,东北风,1-2级,28,优,1,8
4,2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1,9


### df.apply方法
apply a function along an axis of DataFrame
Objects passed to the function are Series objects whose index either the DataFrame's index(axis = 0) or the DataFrame's columns(axis=1)

实例：添加一列温度类型
* 1、如果最高温度大于33度就是高温
* 2、低于-10就是低温
* 3、否则就是常温

In [68]:
def get_wendu_type(x):
    if x['bWendu']>33:
        return '高温'
    if x['yWendu']<-10:
        return '低温'
    return '常温'

In [69]:
# 注意：需要设置axis=1,这是series的index是columns
tData.loc[:,'wendu_type'] = tData.apply(get_wendu_type,axis=1)

In [70]:
tData.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,wencha,wendu_type
0,2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2,9,常温
1,2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1,7,常温
2,2018-01-03,2,-5,多云,北风,1-2级,28,优,1,7,常温
3,2018-01-04,0,-8,阴,东北风,1-2级,28,优,1,8,常温
4,2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1,9,常温


In [72]:
# 查看温度类型的计数
tData['wendu_type'].value_counts()

常温    328
高温     29
低温      8
Name: wendu_type, dtype: int64

### df.assign方法
Assign new columns to DataFrame
Return a new object with all original columns in addition to new ones

实例：将温度从摄氏度变成华氏度 

In [79]:
# 可以同时添加多个新的列,返回一个新的DataFrame
tData.assign(
    # 摄氏度转换为华氏度
    yWendu_huashi = lambda x: x['yWendu'] * 9/5 +32,
    bWendu_huashi = lambda x: x['bWendu'] * 9/5 +32
)

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,wencha,wendu_type,wencha_type,yWendu_huashi,bWendu_huashi
0,2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2,9,常温,温差小,21.2,37.4
1,2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1,7,常温,温差小,23.0,35.6
2,2018-01-03,2,-5,多云,北风,1-2级,28,优,1,7,常温,温差小,23.0,35.6
3,2018-01-04,0,-8,阴,东北风,1-2级,28,优,1,8,常温,温差小,17.6,32.0
4,2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1,9,常温,温差小,21.2,37.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
360,2018-12-27,-5,-12,多云~晴,西北风,3级,48,优,1,7,低温,温差小,10.4,23.0
361,2018-12-28,-3,-11,晴,西北风,3级,40,优,1,8,低温,温差小,12.2,26.6
362,2018-12-29,-3,-12,晴,西北风,2级,29,优,1,9,低温,温差小,10.4,26.6
363,2018-12-30,-2,-11,晴~多云,东北风,1级,31,优,1,9,低温,温差小,12.2,28.4


### 按条件选择分组分别赋值
按条件先选择数据，然后对这部分数据赋值新列

实例：高低温差大于10度，则认为温差大

In [75]:
# 先创建空列（第一种创建新列的方法）
tData['wencha_type'] = ''

In [76]:
tData.loc[tData['bWendu']-tData['yWendu']>10,'wencha_type'] = '温差大'
tData.loc[tData['bWendu']-tData['yWendu']<=10,'wencha_type'] = '温差小'

In [77]:
tData['wencha_type'].value_counts()

温差小    187
温差大    178
Name: wencha_type, dtype: int64

In [78]:
tData.head()

Unnamed: 0,ymd,bWendu,yWendu,tianqi,fengxiang,fengli,aqi,aqiInfo,aqiLevel,wencha,wendu_type,wencha_type
0,2018-01-01,3,-6,晴~多云,东北风,1-2级,59,良,2,9,常温,温差小
1,2018-01-02,2,-5,阴~多云,东北风,1-2级,49,优,1,7,常温,温差小
2,2018-01-03,2,-5,多云,北风,1-2级,28,优,1,7,常温,温差小
3,2018-01-04,0,-8,阴,东北风,1-2级,28,优,1,8,常温,温差小
4,2018-01-05,3,-6,多云~晴,西北风,1-2级,50,优,1,9,常温,温差小
