### 数据结构：Series 和 DataFrame

* Series 是个定长的字典序列。说是定长是因为在存储的时候，相当于两个 ndarray，这也是和字典结构最大的不同。因为在字典的结构里，元素的个数是不固定的。
* Series 有两个基本属性：index 和 values。在 Series 结构中，index 默认是 0,1,2,……递增的整数序列，当然我们也可以自己来指定索引，比如 index=[‘a’, ‘b’, ‘c’, ‘d’]。

In [2]:
import pandas as pd
from pandas import Series, DataFrame

#1. 包含index與value，index默認為0,1,2,3
x1 = Series([1,2,3,4])   

#2. 將index設為a,b,c,d
x2 = Series(data=[1,2,3,4], index=['a', 'b', 'c', 'd'])  

#3. 由dict()轉成Series
x3 = {'a': 1, 'b': 2, 'c': 3, 'd': 4}
x3 = Series(x3)

print(x1)
print(x2)
print(x3)


0    1
1    2
2    3
3    4
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64
a    1
b    2
c    3
d    4
dtype: int64


### DataFrame 类型数据结构类似数据库表。
* 它包括了行索引和列索引，我们可以将 DataFrame 看成是由<span style="color:red">相同索引的 Series 组成的字典类型</span>。
* 我们虚构一个王者荣耀考试的场景，想要输出几位英雄的考试成绩：

In [4]:
import pandas as pd
from pandas import Series, DataFrame
data = {'Chinese': [66, 95, 93, 90,80],'English': [65, 85, 92, 88, 90],'Math': [30, 98, 96, 77, 90]}
df1 = DataFrame(data)
df2 = DataFrame(data, index=['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei'], columns=['English', 'Math', 'Chinese'])
# 將dict()形式的資料轉成dataframe，並加上index。
# index的個數必須與data的筆數一致，例如：data內共有五個人的成績，index的設置也需要提供五個元素才能匹配。
# 若成績比數跟index元素個數不同，則無法匹配。

print(df1)
print(df2)

   Chinese  English  Math
0       66       65    30
1       95       85    98
2       93       92    96
3       90       88    77
4       80       90    90
            English  Math  Chinese
ZhangFei         65    30       66
GuanYu           85    98       95
ZhaoYun          92    96       93
HuangZhong       88    77       90
DianWei          90    90       80


In [17]:
persons = ['小一', '小二', '小三','小四', '小武']
data1 = {'Chinese': [66, 95, 93, 90,80],'English': [65, 85, 92, 88, 90],'Math': [30, 98, 96, 77, 90]}
print(data1.keys())
df3 = DataFrame(data1, index=persons, columns=data.keys())
print(df3)

dict_keys(['Chinese', 'English', 'Math'])
    Chinese  English  Math
小一       66       65    30
小二       95       85    98
小三       93       92    96
小四       90       88    77
小武       80       90    90


### 数据导入和输出
* Pandas 允许直接从 xlsx，csv 等文件中导入数据，也可以输出到 xlsx, csv 等文件，非常方便。

In [None]:
import pandas as pd
from pandas import Series, DataFrame
score = DataFrame(pd.read_excel('data.xlsx'))
score.to_excel('data1.xlsx')
print(score)

# 安裝了xlrd 和 openpyxl兩個套件

### 数据清洗数据
* 清洗是数据准备过程中必不可少的环节，Pandas 也为我们提供了数据清洗的工具，在后面数据清洗的章节中会给你做详细的介绍，这里简单介绍下 Pandas 在数据清洗中的使用方法。
* 我还是以上面这个王者荣耀的数据为例。

In [18]:
data = {'Chinese': [66, 95, 93, 90,80],'English': [65, 85, 92, 88, 90],'Math': [30, 98, 96, 77, 90]}
df2 = DataFrame(data, index=['ZhangFei', 'GuanYu', 'ZhaoYun', 'HuangZhong', 'DianWei'], columns=['English', 'Math', 'Chinese'])

# 1. 刪除不必要的欄位
df2 = df2.drop(columns=['Chinese'])
# 2. 刪除不必要的列
df2 = df2.drop(index=['ZhangFei'])
# 3. 重新命名欄位
df2.rename(columns={'Chinese': 'YuWen', 'English': 'Yingyu'}, inplace = True)
# 4. 去除重複的行，例如：有兩個張飛，把重複的張飛刪掉
df = df.drop_duplicates()

### 格式问题更改数据格式
* 这是个比较常用的操作，因为很多时候数据格式不规范，我们可以使用 astype 函数来规范数据格式，
* 比如我们把 Chinese 字段的值改成 str 类型，或者 int64 可以这么写：

In [26]:
import numpy as np
df2['English'].astype('str') 
df2['English'].astype(np.int64) 

GuanYu        85
ZhaoYun       92
HuangZhong    88
DianWei       90
Name: English, dtype: int64

In [29]:
df2['English'].astype('str') 

GuanYu        85
ZhaoYun       92
HuangZhong    88
DianWei       90
Name: English, dtype: object

### 数据间的空格與特殊符號

* 有时候我们先把格式转成了 str 类型，是为了方便对数据进行操作，这时想要删除数据间的空格，我们就可以使用 strip 函数：

In [30]:
#删除左右两边空格
df2['English']=df2['English'].map(str.strip)
#删除左边空格
df2['English']=df2['English'].map(str.lstrip)
#删除右边空格
df2['English']=df2['English'].map(str.rstrip)

# 比如 Chinese 字段里有美元符号，我们想把这个删掉，可以这么写
df2['Chinese']=df2['Chinese'].str.strip('$')


TypeError: descriptor 'strip' requires a 'str' object but received a 'int'

### 大小写转换
* 大小写是个比较常见的操作，比如人名、城市名等的统一都可能用到大小写的转换，在 Python 里直接使用 upper(), lower(), title() 函数，方法如下

In [31]:
#全部大写
df2.columns = df2.columns.str.upper()
#全部小写
df2.columns = df2.columns.str.lower()
#首字母大写
df2.columns = df2.columns.str.title()

### 查找空值
* 数据量大的情况下，有些字段存在空值 NaN 的可能，这时就需要使用 Pandas 中的 isnull 函数进行查找。

In [39]:
# 哪个地方存在空值 NaN，可以针对数据表 df
df2.isnull()
# 哪列存在空值
df2.isnull().any()

English    False
Math       False
dtype: bool

### 使用 apply 函数对数据进行清洗
* apply 函数是 Pandas 中自由度非常高的函数，使用频率也非常高。
* 比如我们想对 name欄的数值都进行大写转化可以用：

In [42]:
df2['name'] = df2['name'].apply(str.upper)
"""
1. 我们也可以定义个函数，在 apply 中进行使用。
比如定义 double_df 函数是将原来的数值 *2 进行返回。
然后对 df1 中的“语文”列的数值进行 *2 处理，可以写成：
"""

def double_df(x):
           return 2*x
df1[u'语文'] = df1[u'语文'].apply(double_df)


"""
2. 我们也可以定义更复杂的函数，比如对于 DataFrame，我们新增两欄，
其中’new1’欄是“语文”和“英语”成绩之和的 m 倍，
'new2’欄是“语文”和“英语”成绩之和的 n 倍，我们可以这样写：
"""
def plus(df,n,m):
    df['new1'] = (df[u'语文']+df[u'英语']) * m
    df['new2'] = (df[u'语文']+df[u'英语']) * n
    return df
df1 = df1.apply(plus,axis=1,args=(2,3,))

"""
3. 其中 axis=1 代表按照列为轴进行操作，
axis=0 代表按照行为轴进行操作，
args 是传递的两个参数，即 n=2, m=3，在 plus 函数中使用到了 n 和 m，从而生成新的 df。
"""

TypeError: descriptor 'upper' requires a 'str' object but received a 'int'

### 数据统计
* 在数据清洗后，我们就要对数据进行统计了。
* Pandas 和 NumPy 一样，都有常用的统计函数，如果遇到空值 NaN，会自动排除。常用的统计函数包括：
<img src="./images/05-01.jpg" width="200" height="50"/>
* 表格中有一个 describe() 函数，统计函数千千万，describe() 函数最简便。
* 它是个统计大礼包，可以快速让我们对数据有个全面的了解。下面我直接使用 df1.descirbe() 输出结果为：

In [44]:
df1 = DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5)})
print(df1.describe())

          data1
count  5.000000
mean   2.000000
std    1.581139
min    0.000000
25%    1.000000
50%    2.000000
75%    3.000000
max    4.000000


### 数据表合并
有时候我们需要将多个渠道源的多个数据表进行合并，一个 DataFrame 相当于一个数据库的数据表，那么多个 DataFrame 数据表的合并就相当于多个数据库的表合并。比如我要创建两个 DataFrame：

In [50]:
# 两个 DataFrame 数据表的合并使用的是 merge() 函数，有下面 5 种形式：
"""
1. 基于指定列进行连接: 比如我们可以基于 name 这列进行连接。
"""
df2 = DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5,10)})
df3 = pd.merge(df1, df2, on='name')
print(df3)

"""
2. inner 内连接
inner 内链接是 merge 合并的默认情况，inner 内连接其实也就是键的交集，
在这里 df1, df2 相同的键是 name，所以是基于 name 字段做的连接：
"""
df3 = pd.merge(df1, df2, how='inner')

"""
3. left 左连接
左连接是以第一个 DataFrame 为主进行的连接，第二个 DataFrame 作为补充。
"""
df3 = pd.merge(df1, df2, how='left')

"""
4. right 右连接
右连接是以第二个 DataFrame 为主进行的连接，第一个 DataFrame 作为补充。
"""
df3 = pd.merge(df1, df2, how='right')

"""
5. outer 外连接
外连接相当于求两个 DataFrame 的并集。
"""
df3 = pd.merge(df1, df2, how='outer')

### 如何用 SQL 方式打开 Pandas
* Pandas 的 DataFrame 数据类型可以让我们像处理数据表一样进行操作，比如数据表的增删改查，都可以用 Pandas 工具来完成。不过也会有很多人记不住这些 Pandas 的命令，相比之下还是用 SQL 语句更熟练，用 SQL 对数据表进行操作是最方便的，它的语句描述形式更接近我们的自然语言。
* 事实上，在 Python 里可以直接使用 SQL 语句来操作 Pandas。
* 这里给你介绍个工具：pandasql。
* pandasql 中的主要函数是 sqldf，它接收两个参数：一个 SQL 查询语句，还有一组环境变量 globals() 或 locals()。这样我们就可以在 Python 里，直接用 SQL 语句中对 DataFrame 进行操作，举个例子：
* 安裝!pip install pandasql

In [55]:
import pandas as pd
from pandas import DataFrame
from pandasql import sqldf, load_meat, load_births
df1 = DataFrame({'name':['ZhangFei', 'GuanYu', 'a', 'b', 'c'], 'data1':range(5)})
pysqldf = lambda sql: sqldf(sql, globals())
sql = "select * from df1 where name ='ZhangFei'"
print(pysqldf(sql))

"""
pysqldf = lambda sql: sqldf(sql, globals())
也可以寫成
def pysqldf(sql):
    sqldf(sql, globals())
    
# 會return query的結果
# 環境設定：locals() or globals()
        variable environment; locals() or globals() in your function
        allows sqldf to access the variables in your python environment  
"""


       name  data1
0  ZhangFei      0


* 上面这个例子中，我们是对“name='ZhangFei”“的行进行了输出。
* 当然你会看到我们用到了 lambda，lambda 在 python 中算是使用频率很高的，那 lambda 是用来做什么的呢？它实际上是用来定义一个匿名函数的，具体的使用形式为：
* lambda argument_list: expression

* 在这个例子里，输入的参数是 sql，返回的结果是 sqldf 对 sql 的运行结果，当然 sqldf 中也输入了 globals 全局参数，因为在 sql 中有对全局参数 df1 的使用。


In [56]:
help(sqldf)

Help on function sqldf in module pandasql.sqldf:

sqldf(query, env=None, db_uri='sqlite:///:memory:')
    Query pandas data frames using sql syntax
    This function is meant for backward compatibility only. New users are encouraged to use the PandaSQL class.
    
    Parameters
    ----------
    query: string
        a sql query using DataFrames as tables
    env: locals() or globals()
        variable environment; locals() or globals() in your function
        allows sqldf to access the variables in your python environment
    db_uri: string
        SQLAlchemy-compatible database URI
    
    Returns
    -------
    result: DataFrame
        returns a DataFrame with your query's result
    
    Examples
    --------
    >>> import pandas as pd
    >>> df = pd.DataFrame({
        "x": range(100),
        "y": range(100)
    })
    >>> from pandasql import sqldf
    >>> sqldf("select * from df;", globals())
    >>> sqldf("select * from df;", locals())
    >>> sqldf("select avg(x) from

## 练习题
对于下表的数据，请使用 Pandas 中的 DataFrame 进行创建，并对数据进行清洗。同时新增一列“总和”计算每个人的三科成绩之和。
<img src="./images/05-02.png">

In [60]:
import pandas as pd
from pandas import Series, DataFrame
data = {'語文': [66, 95, 95, 90, 80, 80],'英文': [65, 85, 92, 88, 90, 90],'數學':[None,98, 96, 77, 90, 90]}
dfp = DataFrame(data, index=['張飛', '關羽', '趙雲', '黃忠', '典偉', '典偉'], columns=data.keys())

In [63]:
dfp

Unnamed: 0,語文,英文,數學
張飛,66,65,
關羽,95,85,98.0
趙雲,95,92,96.0
黃忠,90,88,77.0
典偉,80,90,90.0
典偉,80,90,90.0


In [97]:
dfp1 = dfp.fillna(50)
dfp1 = dfp1.drop_duplicates()
def plus_col(df):
    df['Sum'] = (df['語文']+df['英文']+df['數學'])
    return df
df2 = dfp1.apply(plus_col,axis=1)

In [98]:
df2

Unnamed: 0,語文,英文,數學,Sum
張飛,66.0,65.0,50.0,181.0
關羽,95.0,85.0,98.0,278.0
趙雲,95.0,92.0,96.0,283.0
黃忠,90.0,88.0,77.0,255.0
典偉,80.0,90.0,90.0,260.0
