# 获取数据

## 导入外部数据  
导入数据主要用到pandas的read_x()方法，x表示待导入文件的式

### 导入.xlsx文件  
- 用read_excel()方法，传入文件路径即可，避免路径被转义前面加一个**r**
- 指定导入那个Sheet可以设定sheet_name参数
- 指定行索引index_col参数，默认是从0开始
- 指定列索引header参数，默认为0，即第一行作为列索引
- 指定导入列usecols参数

In [2]:
#直接导入
import pandas as pd
df = pd.read_excel(r"../Data/Chapter04.xlsx")
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09
2,A3,47,女,2018-08-10
3,A4,41,男,2018-08-11
4,A5,51,女,2018-08-12
5,A6,26,男,2018-08-13


In [3]:
#导入具体的sheet
df = pd.read_excel(r"../Data/Chapter04.xlsx",sheet_name = 0)
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09
2,A3,47,女,2018-08-10
3,A4,41,男,2018-08-11
4,A5,51,女,2018-08-12
5,A6,26,男,2018-08-13


In [19]:
#指定行索引
df = pd.read_excel(r"../Data/Chapter04.xlsx",sheet_name = 0,index_col = 0)
df

Unnamed: 0_level_0,年龄,性别,注册时间
编号,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A1,54,男,2018-08-08
A2,16,女,2018-08-09
A3,47,女,2018-08-10
A4,41,男,2018-08-11
A5,51,女,2018-08-12
A6,26,男,2018-08-13


In [5]:
#指定列索引
df = pd.read_excel(r"../Data/Chapter04.xlsx",sheet_name = 0,header = 0)
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09
2,A3,47,女,2018-08-10
3,A4,41,男,2018-08-11
4,A5,51,女,2018-08-12
5,A6,26,男,2018-08-13


In [6]:
#导入指定的列
df = pd.read_excel(r"../Data/Chapter04.xlsx",usecols =0)
df

Unnamed: 0,编号
0,A1
1,A2
2,A3
3,A4
4,A5
5,A6


In [7]:
#导入多列
df = pd.read_excel(r"../Data/Chapter04.xlsx",sheet_name = 0,usecols =[1,2])
df

Unnamed: 0,年龄,性别
0,54,男
1,16,女
2,47,女
3,41,男
4,51,女
5,26,男


In [8]:
#读取中文表名
df = pd.read_excel(r"../Data/Chapter04.xlsx",sheet_name = "你好")
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09
2,A3,47,女,2018-08-10
3,A4,41,男,2018-08-11


### 导入.csv文件  
- read_csv()方法直接导入
- sep参数指明分隔符
- nrows参数指明读取行
- engineing参数指定文件编码格式
- 如果文件路径含有中文需要设定engine


In [51]:
#直接导入
df = pd.read_csv(r"../Data/Chapter04.csv")
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [9]:
#指定分隔符
df = pd.read_csv(r"../Data/Chapter04.1.csv",sep=" ")
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


In [57]:
#指定读取行数
df = pd.read_csv(r"../Data/Chapter04.csv",nrows =2)
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9


### 导入.txt文件  
- 用read_table()方法读取
- sep参数指定分隔符
- 也可以读取csv文件
- 其他参数与read_csv()方法基本一致

In [58]:
#指定读取行数
df = pd.read_csv(r"../Data/Chapter04.txt",sep =",")
df

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018/8/8
1,A2,16,女,2018/8/9
2,A3,47,女,2018/8/10
3,A4,41,男,2018/8/11


### 导入sql文件
- 连接数据库
- 执行SQL查询

In [1]:
#导入pymysql模块
import pymysql
import pandas as pd

#创建连接
eng = pymysql.connect(host='localhost',
                      user='root',
                      password='',
                      db='new_website',
                      charset='utf8')
sql= 'SELECT * FROM lara_migrations'
df = pd.read_sql(sql,eng,)
df

Unnamed: 0,id,migration,batch
0,9,2014_10_12_000000_create_users_table,1
1,10,2014_10_12_100000_create_password_resets_table,1
2,11,2019_01_08_103331_create_banners_table,1
3,12,2019_01_10_102434_create_tags_table,1
4,13,2019_01_11_134855_create_articles_table,1
5,14,2019_01_11_135017_create_contents_table,1
6,15,2019_01_11_135138_create_article_tags_table,1
7,16,2019_01_14_124801_create_settings_table,1


## 新建数据  
利用pd.DataFrame()方法进行新建

## 熟悉数据

### 利用head预览前几行  
head()方法如果不传参数，默认显示**前5行**

In [20]:
import pandas as pd
df = pd.read_excel(r"../Data/Chapter04.xlsx")
df
#默认显示
df.head()

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09
2,A3,47,女,2018-08-10
3,A4,41,男,2018-08-11
4,A5,51,女,2018-08-12


In [7]:
#显示前2行
df.head(2)

Unnamed: 0,编号,年龄,性别,注册时间
0,A1,54,男,2018-08-08
1,A2,16,女,2018-08-09


### 利用shape获取数据表的大小  
Python中shape方法获取数据表的行和列数**(注意没括号)**

In [15]:
import pandas as pd
df = pd.read_excel(r"../Data/Chapter04.xlsx")
df.shape

(6, 4)

### 利用info获取数据类型  
Python中info()方法查看数据表的中的数据类型

In [18]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 4 columns):
编号      6 non-null object
年龄      6 non-null int64
性别      6 non-null object
注册时间    6 non-null datetime64[ns]
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 272.0+ bytes


### 利用describe获取数值分布情况
Python中describe()方法可以获取所有数值类型字段的分布值

In [19]:
df.describe()

Unnamed: 0,年龄
count,6.0
mean,39.166667
std,15.065413
min,16.0
25%,29.75
50%,44.0
75%,50.0
max,54.0
