In [1]:
import pandas as pd
import numpy as np

## 建立 DataFrame
1. 使用 numpy 矩阵
2. 使用 {[]}
    - `{'name': ['xiaohong', 'xiaowang'], 'age': [15, 16], 'sex': [0, 1]}`
3. 使用 [{}]
    - `[{'name': 'xiaohong', 'age': 15, 'sex': 0}, {'name': 'xiaowang', 'age': 16, 'sex': 1}]`
4. 导入外部数据
    - csv
      - `pd.read_csv('file_path')`
    - HDF5
      - `pd.read_hdf('file_path')`

In [3]:
# 使用numpy矩阵建立DataFrame
# 竖着的叫index，axis=0
# 横着的叫column，axis=1

pd.DataFrame(np.arange(12).reshape(3,4))

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [4]:
# 配置DataFrame的index与column

pd.DataFrame(np.arange(12).reshape(3,4), index=list('abc'), columns=list('ABCD'))

Unnamed: 0,A,B,C,D
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11


In [6]:
# 使用字典创建DataFrame

people = {
    'name': ['xiaohong', 'xiaowang'],
    'age': [15, 16],
    'sex': [0, 1]
}

df1 = pd.DataFrame(people)
df1

Unnamed: 0,name,age,sex
0,xiaohong,15,0
1,xiaowang,16,1


In [3]:
# 使用[{}]创建DataFrame

people2 = [
    {'name': 'xiaohong', 'age': 15, 'sex': 0},
    {'name': 'xiaowang', 'age': 16, 'sex': 1},
    {'name': 'xiaochen', 'age': 17, 'sex': 1}
]

df2 = pd.DataFrame(people2)
df2

Unnamed: 0,name,age,sex
0,xiaohong,15,0
1,xiaowang,16,1
2,xiaochen,17,1


## DataFrame 的基础属性

1. `df.shape` 得到行列大小
2. `df.dtypes` 得到每列的数据类型
3. `df.ndim` 得到数据维度（存疑）
4. `df.index` 得到行索引
5. `df.columns` 得到列索引
6. `df.values` 返回二维np.ndarray数组形式

In [23]:
# 行数列数
df2.shape

(3, 3)

In [24]:
# 列数据类型
df2.dtypes

name    object
age      int64
sex      int64
dtype: object

In [25]:
# 数据维度
df2.ndim

2

In [26]:
# 行索引
df2.index

RangeIndex(start=0, stop=3, step=1)

In [27]:
# 列索引
df2.columns

Index(['name', 'age', 'sex'], dtype='object')

In [28]:
# 值，返回二维np.ndarray数组
df2.values

array([['xiaohong', 15, 0],
       ['xiaowang', 16, 1],
       ['xiaochen', 17, 1]], dtype=object)

## DataFrame 的基础方法

1. `df.head(n)` 显示头部n行，默认5行
2. `df.tail(n)` 显示末尾n行，默认5行
3. `df.info()` 相关信息概览：行数、列数、列索引、列非空值个数、列类型、内存占用
4. `df.describe()` 快速综合统计结果：计数、均值、标准差、最大值、四分位数、最小值
5. `df.sort_values(by='column_name', ascending=False, inplace=False)` DataFrame排序

In [29]:
# 显示头部n行，默认5行
df2.head(2)

Unnamed: 0,name,age,sex
0,xiaohong,15,0
1,xiaowang,16,1


In [30]:
# 显示末尾n行，默认5行
df2.tail(2)

Unnamed: 0,name,age,sex
1,xiaowang,16,1
2,xiaochen,17,1


In [35]:
# 相关信息概览：行数、列数、列索引、列非空值个数、列类型、内存占用
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    3 non-null      object
 1   age     3 non-null      int64 
 2   sex     3 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 204.0+ bytes


In [36]:
# 快速综合统计结果：计数、均值、标准差、最大值、四分位数、最小值
# 只有int和float类型的列有

df2.describe()

Unnamed: 0,age,sex
count,3.0,3.0
mean,16.0,0.666667
std,1.0,0.57735
min,15.0,0.0
25%,15.5,0.5
50%,16.0,1.0
75%,16.5,1.0
max,17.0,1.0


In [37]:
# DataFrame排序
df2.sort_values(by='age', ascending=False, inplace=False)

Unnamed: 0,name,age,sex
2,xiaochen,17,1
1,xiaowang,16,1
0,xiaohong,15,0


## DataFrame 的索引 - 基础

1. `df['column_name']` 选择列
2. `df[['column_name1', 'column_name2']]` 选择多列
3. `df.loc['index_name', 'column_name']` 选择行列
4. `df.loc['index_name1':, ['column_name1', 'column_name2']]` 选择多行多列
5. `df.iloc[0, 0]` 选择行列
6. `df.iloc[0:2, 0:2]` 选择多行多列

注意，冒号前后都是闭区间

## DataFrame 的逻辑索引

1. `df[df['column_name'] > 10]` 选择满足条件的行
2. `df[(df['column_name1'] > 10) & (df['column_name2'] < 20)]` 选择满足条件的行
3. `df[(df['column_name1'] > 10) | (df['column_name2'] < 20)]` 选择满足条件的行
4. `df[~df['column_name'].str.contains('chen')]` 选择不包含'chen'的行

注意，逻辑运算符是 `&` 和 `|`，而不是 `and` 和 `or`

原理：`df['column_name'] > 10` 返回一个布尔值的Series，然后根据这个Series选择行

In [4]:
# 筛选出年龄大于15的行
df2[df2['age'] > 15]

Unnamed: 0,name,age,sex
1,xiaowang,16,1
2,xiaochen,17,1


In [6]:
# 筛选出年龄小于17且性别为1的行
df2[(df2['age'] < 17) & (df2['sex'] == 1)]

Unnamed: 0,name,age,sex
1,xiaowang,16,1


In [7]:
# 筛选出姓名包含'chen'的行
df2[df2['name'].str.contains('chen')]

Unnamed: 0,name,age,sex
2,xiaochen,17,1


In [8]:
# 筛选出姓名不包含'chen'的行
df2[~df2['name'].str.contains('chen')]

Unnamed: 0,name,age,sex
0,xiaohong,15,0
1,xiaowang,16,1


## DataFrame 的操作函数

1. `df.join(df2, how='inner')` 连接两个DataFrame
2. `df.merge(df2, on='column_name', how='inner')` 连接两个DataFrame
3. `df.drop('column_name', axis=1)` 删除列
4. `df.drop('index_name', axis=0)` 删除行
5. `df.drop_duplicates()` 删除重复值
6. `df.replace('old', 'new')` 替换值
7. `df.groupby('column_name').sum()` 分组求和