## Pandas 基础知识及入门

#### 1、Pandas 是基于 Numpy 的一个数据分析包
#### 2、Pandas 提供了高效的操作大型数据集所需要的函数
#### 3、Pandas 的名称来自于面板数据（panel data）和 Python 数据分析（data analysis）

### 一、基本数据结构

#### Series: 一维数组，与 Numpy 中的一维 array 类似。

- 与 Python 的 List 的区别是: List 中的元素可以是不同的数据类型，而 Array 和 Series 中则只允许存储相同的数据类型。

#### DataFrame: 二维的表格型数据结构。

- 可以将 DataFrame 理解为 Series 的容器。

#### Panel: 三维的数组。

- 可以理解为 DataFrame 的容器

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.__version__, pd.__version__

('1.19.2', '1.1.4')

### 二、创建

#### 1、Series

Series 是一种类似于一维数组的对象，由下面两个部分组成：

    values: 一组数据（ndarrary 类型）
    index: 相关的数据索引标签


1.1 创建

- pd.Series(data, index=index)

1.1.1 从 list 创建

In [3]:
data1 = pd.Series([3., 3.1, 3.14, 3.141, 3.1415])
data1

0    3.0000
1    3.1000
2    3.1400
3    3.1410
4    3.1415
dtype: float64

In [5]:
# 数据，类型是 numpy 数组
data1.values

array([3.    , 3.1   , 3.14  , 3.141 , 3.1415])

index 默认是整数序列

In [6]:
data1.index

RangeIndex(start=0, stop=5, step=1)

1.1.2 从 ndarray 创建

In [7]:
nda = np.array([3.    , 3.1   , 3.14  , 3.141 , 3.1415])
nda

array([3.    , 3.1   , 3.14  , 3.141 , 3.1415])

In [8]:
data2 = pd.Series(nda)

In [9]:
data2

0    3.0000
1    3.1000
2    3.1400
3    3.1410
4    3.1415
dtype: float64

In [10]:
data2.values

array([3.    , 3.1   , 3.14  , 3.141 , 3.1415])

index 默认是整数序列

In [11]:
data2.index

RangeIndex(start=0, stop=5, step=1)

1.1.3 从字典创建

In [12]:
dic = {'姓名':'张飞', '年龄':60, '属地':'蜀国', '武力': 90}
data3 = pd.Series(data=dic)
data3

姓名    张飞
年龄    60
属地    蜀国
武力    90
dtype: object

In [13]:
data3.values

array(['张飞', 60, '蜀国', 90], dtype=object)

In [14]:
data3.index

Index(['姓名', '年龄', '属地', '武力'], dtype='object')

In [15]:
data4 = pd.Series({2:'a', 1:'b', 3:'c'})
data4

2    a
1    b
3    c
dtype: object

#### 2、DataFrame

DataFrame 是一个`表格型`的数据结构，DataFrame 由按一定顺序排列的多列数据组成，可以看做是`由 Series 组成的字典`（各列共用同一个索引）。DataFrame 既有行索引，也有列索引。

    行索引：index
    列索引：columns
    值：values（numpy 的二维数组）


2.1 创建


2.1.1 最常用的方法是传递一个 <strong>`Series` 字典</strong> 来创建。

DataFrame 以字典的键作为每一列的名称，以字典的值（一个数组）作为每一列。

In [16]:
dic = {
    '刘备': [120,120,120,90],
    '关羽': [100,100,100,100],
    '张飞': [60,60,60,60]
}
data5 = pd.DataFrame(data=dic,index=['语文','数学','英语','计算机'])

In [17]:
data5

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


2.1.2 从二维数组创建

In [18]:
# 从 list
data_list = [[120,100,60],[120,100,60],[120,100,60],[90,100,60]]
index = ['语文','数学','英语','计算机']
columns = ['刘备','关羽','张飞']
data6 = pd.DataFrame(data=data_list,index=index,columns=columns)

In [19]:
data6

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


In [20]:
# 从 numpy 数组
data_np = np.array([[120,100,60],[120,100,60],[120,100,60],[90,100,60]])
index = ['语文','数学','英语','计算机']
columns = ['刘备','关羽','张飞']
data7 = pd.DataFrame(data=data_np,index=index,columns=columns)

In [21]:
data7

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


2.1.3 从字典 list 创建

In [22]:
# 每行对应一个字典
dic_list = [{'刘备': 120, '关羽': 100, '张飞': 60},{'刘备': 120, '关羽': 100, '张飞': 60},
        {'刘备': 120, '关羽': 100, '张飞': 60},{'刘备': 90, '关羽': 100, '张飞': 60}]
data8 = pd.DataFrame(data=dic_list,index=index,columns=columns)

In [23]:
data8

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


2.1.4 单列

In [32]:
data9 = pd.DataFrame(data3, columns=['ID_001'])

In [33]:
data9

Unnamed: 0,ID_001
姓名,张飞
属地,蜀国
年龄,60
武力,90


### 三、索引和切片

3.1 Serias 索引和切片

- loc 为显式索引
- iloc 为隐式索引（通过整数索引）

访问单个元素
- data[indexname]
- data.loc[indexname] 推荐

访问多个元素
- data[[indexname1,indexname2]]
- data.loc[[indexname1,indexname2]] 推荐


In [24]:
data4

2    a
1    b
3    c
dtype: object

In [25]:
data4[1], data4.loc[1]

('b', 'b')

In [26]:
data4.iloc[1]

'b'

In [27]:
data4[[1,2]]

1    b
2    a
dtype: object

In [28]:
data4.loc[[1,3]]

1    b
3    c
dtype: object

In [29]:
data4[1:2]

1    b
dtype: object

In [30]:
data4.loc[1:2]

Series([], dtype: object)

In [31]:
data4.iloc[1:2]

1    b
dtype: object

3.2 对 DataFrame 列进行索引

- 通过类似字典的方式
- 通过属性的方式

可以将 DataFrame 的列获取为一个 Series。

返回的 Series 拥有原 DataFrame 相同的索引，name 属性就是相应的列名。

列索引

- data[columnname]  推荐
- data.columnname

In [8]:
s=data8['刘备']

In [46]:
type(s), s

(pandas.core.series.Series, 刘备     90
 关羽    100
 张飞     60
 Name: 计算机, dtype: int64)

3.3 DataFrame 行索引

- data.loc[] 加 index 来进行显式行索引  推荐
- data.iloc[] 加整数来进行隐式行索引

In [41]:
s=data8.loc['计算机']
s

刘备     90
关羽    100
张飞     60
Name: 计算机, dtype: int64

In [None]:
# 这样会出错
data8['计算机']

In [37]:
data8

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


In [38]:
data8.iloc[2]

刘备    120
关羽    100
张飞     60
Name: 英语, dtype: int64

In [39]:
# data[] 索引是列索引
data8['张飞']

语文     60
数学     60
英语     60
计算机    60
Name: 张飞, dtype: int64

3.4 元素索引

array-style

- data.loc[indexname].loc[columnname]
- data[columnname].loc[indexname]
- data.loc[indexname,columnname] 推荐
- data.iloc 隐式

In [32]:
data8

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


In [33]:
data8['张飞'].loc['计算机']

60

In [34]:
data8.loc['数学','关羽']

100

In [35]:
data8.iloc[0,2]

60

3.4 看成二维数组

In [54]:
data8.values

array([[120, 100,  60],
       [120, 100,  60],
       [120, 100,  60],
       [ 90, 100,  60]])

In [55]:
data8.values[0]

array([120, 100,  60])

In [56]:
data8.values.T

array([[120, 120, 120,  90],
       [100, 100, 100, 100],
       [ 60,  60,  60,  60]])

3.2  切片

- 行切片
  - data[indexname1:indexname2] 
  - data.loc[indexname1:indexname2] 推荐

- 列切片
  - data.loc[:,columnname1:columnname2] 推荐

- 行列切片
  - data.loc[indexname1:indexname2,columnname1:columnname2] 推荐
  - data.iloc[indexloc1:indexloc2,columnloc1:columnloc2]

In [57]:
# data[] 切片是行切片
data8['语文':'计算机']

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


In [58]:
data8.loc['语文':'计算机']

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


In [59]:
data8.loc[:, '刘备':'张飞']

Unnamed: 0,刘备,关羽,张飞
语文,120,100,60
数学,120,100,60
英语,120,100,60
计算机,90,100,60


In [60]:
data8.iloc[0:2,1:]

Unnamed: 0,关羽,张飞
语文,100,60
数学,100,60
