# Pandas DataFrames Practice

In [1]:
import numpy as np
import pandas as pd

## 数据结构 / 创建


Pandas中有三种数据结构 ​​`Series` 、 ​`DataFrame​​` 、 `MultiIndex（老版本中叫Panel ）`。
- `Series` 是一维数据结构；
- `DataFrame` 是二维的表格型数据结构；
- `MultiIndex` 是三维的数据结构；


<img alt="数据结构" src="https://s2.51cto.com/images/blog/202201/10000606_61db07eea8a9634126.png" referrerPolicy="no-referrer">

### Series 一维结构

`​​Series` ​​用一维数组，可以存储不同类型的数据。`pd.Series()` ​​​函数用来创建​​Series​​对象。
  - 第一个参数是存储的数据，这里是 Numpy 随机生成的一维数组。
  - 第二个参数​ `​index​` ​是数据对应的索引。在 Python list 或 Numpy 中数组的索引都是数字，也称为下标，但在 Pandas 中索引可以是任意类型。

#### 基于数组创建

In [2]:
dt1 = np.random.randn(5)
display(type(dt1))

s_array = pd.Series(dt1)
display(type(s_array))
display(s_array)

numpy.ndarray

pandas.core.series.Series

0    0.257091
1    2.107121
2    0.110101
3    1.278196
4   -1.325080
dtype: float64

In [3]:
# 默认index是从0开始，步长为1的数字。也可以在 pd.Series() 指定 index=
s_array.index

RangeIndex(start=0, stop=5, step=1)

#### 基于字典创建

In [4]:
dt2 = {'b':1, 'a':0, 'c':2}
display(type(dt2))

s_dict = pd.Series(dt2)

display(type(s_dict))
display(s_dict)

dict

pandas.core.series.Series

b    1
a    0
c    2
dtype: int64

In [5]:
s_dict.index

Index(['b', 'a', 'c'], dtype='object')

#### 基于标量创建

如果data是标量值，则必须提供索引。该值会重复，来匹配索引的长度

In [6]:
dt3 = 10
display(type(dt3))

s_int = pd.Series(data=dt3, index=range(5))
s_int

int

0    10
1    10
2    10
3    10
4    10
dtype: int64


### DataFrame 二维结构

​​DataFrame​​是二维结构，类似 Excel 或数据库中的表。

#### 基于Series字典创建

[From dict of Series or dicts](https://pandas.pydata.org/docs/user_guide/dsintro.html#from-dict-of-series-or-dicts)

In [24]:
df_dict_s = pd.DataFrame(
    {
        'one': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
        'two': pd.Series([1., 2., 3., 4.], index=['b', 'c', 'a', 'd'])
    }
)

In [16]:
# 注意 index 位置
df_dict_s

Unnamed: 0,one,two
a,1.0,3.0
b,2.0,1.0
c,3.0,2.0
d,,4.0


#### 基于数组字典创建

[From dict of ndarrays / lists](https://pandas.pydata.org/docs/user_guide/dsintro.html#from-dict-of-ndarrays-lists)

In [25]:
df_dict_array = pd.DataFrame(
    {
        "one": [1.0, 2.0, 3.0, 4.0], 
        "two": [4.0, 3.0, 2.0, 1.0]
    }
)
df_dict_array

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,1.0


#### 基于列表字典创建

[From a list of dicts](https://pandas.pydata.org/docs/user_guide/dsintro.html#from-a-list-of-dicts)

In [26]:
df_lst_dict = pd.DataFrame(
    [
        {"a": 1, "b": 2}, 
        {"a": 5, "b": 10, "c": 20}
    ]
)
df_lst_dict

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


#### 元组字典创建多层索引
[From a dict of tuples](https://pandas.pydata.org/docs/user_guide/dsintro.html#from-a-list-of-dicts)

In [27]:
df_dict_tuple = pd.DataFrame(
    {
        ("a", "b"): {("A", "B"): 1, ("A", "C"): 2},
        ("a", "a"): {("A", "C"): 3, ("A", "B"): 4},
        ("a", "c"): {("A", "B"): 5, ("A", "C"): 6},
        ("b", "a"): {("A", "C"): 7, ("A", "B"): 8},
        ("b", "b"): {("A", "D"): 9, ("A", "B"): 10},
    }
)
df_dict_tuple

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b
A,B,1.0,4.0,5.0,8.0,10.0
A,C,2.0,3.0,6.0,7.0,
A,D,,,,,9.0


#### 文件读取

- `pd.read_csv()`
- `pd.read_excel()`
- `pd.read_json()`
- `pd.read_html()`

## 查看数据

通过属性查看 ​​DataFrame ​​​基本情况，如： `​​index​​​​` , `columns` ​​​和​ `​shape​​` .

![查看数据](https://s2.51cto.com/images/blog/202201/10000607_61db07ef0465e71954.png)

### 查看结构

In [38]:
df_dict_s.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [43]:
df_dict_s.columns

Index(['one', 'two'], dtype='object')

In [44]:
df_dict_s.shape

(4, 2)

### 查看明细

In [45]:
df_dict_s.head()

Unnamed: 0,one,two
a,1.0,3.0
b,2.0,1.0
c,3.0,2.0
d,,4.0


In [46]:
df_dict_s.tail(2)

Unnamed: 0,one,two
c,3.0,2.0
d,,4.0


### 查看统计

In [39]:
df_dict_s.info()

<class 'pandas.core.frame.DataFrame'>
Index: 4 entries, a to d
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   one     3 non-null      float64
 1   two     4 non-null      float64
dtypes: float64(2)
memory usage: 268.0+ bytes


In [42]:
df_dict_s.describe()

Unnamed: 0,one,two
count,3.0,4.0
mean,2.0,2.5
std,1.0,1.290994
min,1.0,1.0
25%,1.5,1.75
50%,2.0,2.5
75%,2.5,3.25
max,3.0,4.0


### 其他

In [47]:
df_dict_s.to_numpy()

array([[ 1.,  3.],
       [ 2.,  1.],
       [ 3.,  2.],
       [nan,  4.]])

## 索引

索引在 Pandas 中非常重要，通过索引我们可以获取 ​​Series​​​ 或 ​​DataFrame​ ​中的任意数据。

Pandas的既有行索引，也有列索引。

### 创建与转化

索引除了创建​​Series​​​ 或 ​​DataFrame ​​时指定，也可以单独创建。

通过​​ `pd.Index​`​ ​分别创建行列索引​ `​index` ​​​和 `​​columns​​​` ，并用于创建 ​​DateFrame​ ​。

![索引的创建与转化](https://s2.51cto.com/images/blog/202201/10000607_61db07ef453e844088.png)

In [50]:
ind = pd.Index(['e', 'd', 'a', 'b'])
col = pd.Index(['A', 'B', 'C'], name='cols')
df = pd.DataFrame(np.random.randn(4, 3), index=ind, columns=col)

df


cols,A,B,C
e,1.081384,0.991417,-0.40099
d,0.932786,-0.564604,0.272859
a,-0.167837,1.559846,0.433583
b,0.231767,-0.29171,-0.844227


### 排序

用 `​​sort_index` ​​​函数对上面的​ `​df` ​​行索引排序。

Pandas 函数里经常会见到 `axis` 参数，用来指定行索引或列索引：
- `axis=0` 等价于 `axis='index'`
- `axis=1` 等价于 `axis='columns'`


`​axis=0`​​​ 表示行索引或者行索引对应的列值，因此，`​​axis=0​​`​ 表示处理每列数据。同样地，​`​axis=1`​ ​表示处理每行数据。

In [51]:
df.sort_index(axis=0)

cols,A,B,C
a,-0.167837,1.559846,0.433583
b,0.231767,-0.29171,-0.844227
d,0.932786,-0.564604,0.272859
e,1.081384,0.991417,-0.40099


### 数据查询