# 这是DataFrame的学习笔记

DateFrame中的每一行叫做一个`Record`，每一列可以看作是一个`Series`

In [1]:
import numpy as np
import pandas as pd

### DataFrame的创建

In [5]:
# 1. 通过Series来创建
s1 = pd.Series([1, 2, 3, 4, 5])
s2 = pd.Series([6, 7, 8, 9, 10])
# 注意DataFrame是一个列表所以用字典创建
df = pd.DataFrame({"第一列": s1, "第二列": s2})
df

pandas.core.frame.DataFrame

In [12]:
# 2. 通过字典来创建
'''
    index 指定索引的下标，columns指定展示列的先后顺序
'''
df = pd.DataFrame(
    {
        'id': [100, 200, 300, 400, 500],
        'name': ['tom', 'jack', 'bob', 'allen', 'lucy'],
        'age': [15, 17, 20, 26, 30],
        'score': [60.5, 73.44, 100.00, 76.32, 20.89]
    }, index=[1, 2, 3, 4, 5], columns=['name', 'age', 'score', 'id']
)
df

Unnamed: 0,name,age,score,id
1,tom,15,60.5,100
2,jack,17,73.44,200
3,bob,20,100.0,300
4,allen,26,76.32,400
5,lucy,30,20.89,500


### DataFrame的属性
| 属性 / 方法 | 说明 |
|------------|------|
| index | DataFrame 的行索引 |
| values | DataFrame 的值 |
| dtypes | DataFrame 的元素类型 |
| shape | DataFrame 的形状 |
| ndim | DataFrame 的维度 |
| size | DataFrame 的元素个数 |
| columns | DataFrame 的列标签 |
| loc[] | 显式索引，按行列标签索引或切片 |
| iloc[] | 隐式索引，按行列位置索引或切片 |
| at | 使用行列标签访问单个元素 |
| iat[] | 使用行列位置访问单个元素 |
| T | 行列转置 |

In [23]:
# DateFrame的属性
print('行索引', df.index)
print('列标签', df.columns)
print('返回值\n', df.values)
print('维度', df.ndim)
print('形状', df.shape)
print('元素个数', df.size)
print('数据类型\n', df.dtypes)
print('转置\n', df.T)

行索引 Index([1, 2, 3, 4, 5], dtype='int64')
列标签 Index(['name', 'age', 'score', 'id'], dtype='object')
返回值
 [['tom' 15 60.5 100]
 ['jack' 17 73.44 200]
 ['bob' 20 100.0 300]
 ['allen' 26 76.32 400]
 ['lucy' 30 20.89 500]]
维度 2
形状 (5, 4)
元素个数 20
数据类型
 name      object
age        int64
score    float64
id         int64
dtype: object


In [40]:
# 获取某行某列元素 loc iloc
print('获取某行的数据\n', df.loc[5])  # 显式的索引
print('获取某行的数据\n', df.iloc[3])  # 隐式的索引，按照数字下标从0开始

print('获取多列的数据\n', df[['id', 'score']])
print('获取某列的数据\n', df.loc[:, 'name'])  # 显式的索引
print('获取某列的数据\n', df.iloc[:, 0])  # 隐式的索引，按照数字下标从0开始


获取某行的数据
 name      lucy
age         30
score    20.89
id         500
Name: 5, dtype: object
获取某行的数据
 name     allen
age         26
score    76.32
id         400
Name: 4, dtype: object
获取某列的数据
     id   score
1  100   60.50
2  200   73.44
3  300  100.00
4  400   76.32
5  500   20.89
获取某列的数据
 1      tom
2     jack
3      bob
4    allen
5     lucy
Name: name, dtype: object
获取某列的数据
 1      tom
2     jack
3      bob
4    allen
5     lucy
Name: name, dtype: object


In [37]:
# 获取单个元素 at iat
print('获取某个数据\n', df.at[3, 'score'])  # 显式的索引
print('获取某个数据\n', df.iat[3, 0])  # 隐式的索引，按照数字下标从0开始

获取某个数据
 100.0
获取某个数据
 allen


In [46]:
# 查看部分数据
print(df.head(2))  # 查看前n行的数据，默认是5行
print(df.tail(3))  # 查看后n行的数据，默认是5行

# 布尔索引进行筛选数据
print('查找成绩大于70且年龄小于20的人\n', df[(df.score > 70) & (df.age < 20)])

   name  age  score   id
1   tom   15  60.50  100
2  jack   17  73.44  200
    name  age   score   id
3    bob   20  100.00  300
4  allen   26   76.32  400
5   lucy   30   20.89  500
查找成绩大于70且年龄小于20的人
    name  age  score   id
2  jack   17  73.44  200


In [52]:
# 随机抽样，在数据集中随机取一条数据
df.sample(2)

Unnamed: 0,name,age,score,id
4,allen,26,76.32,400
3,bob,20,100.0,300


### DataFrame的常用方法
| 方法 | 说明 |
|------|------|
| head() | 查看前 n 行数据，默认 5 行 |
| tail() | 查看后 n 行数据，默认 5 行 |
| isin() | 判断元素是否包含在参数集合中 |
| isna() | 判断是否为缺失值（如 NaN 或 None） |
| sum() | 求和，自动忽略缺失值 |
| mean() | 平均值 |
| median() | 中位数 |
| mode() | 众数（可返回多个） |
| max() | 最大值 |
| min() | 最小值 |
| var() | 方差 |
| std() | 标准差 |
| quantile(q) | 分位数，q 取 0~1 之间 |
| describe() | 常见统计信息（count、mean、std、min、25%、50%、75%、max） |

In [56]:
print('查看元素包含在参数集合中\n', df.isin(['jack', 20]))
print('查看元素是否有缺失值\n', df.isnull())

查看元素包含在参数集合中
     name    age  score     id
1  False  False  False  False
2   True  False  False  False
3  False   True  False  False
4  False  False  False  False
5  False  False  False  False
查看元素是否有缺失值
     name    age  score     id
1  False  False  False  False
2  False  False  False  False
3  False  False  False  False
4  False  False  False  False
5  False  False  False  False


In [63]:
print('求某一列的总和', df['score'].sum())
print('求某一列的最大值', df.score.max())
print('求某一列的最小值', df.age.min())
print('求某一列的平均值', df.score.mean())
print('求某一列的中位数', df.score.median())
print('求某一列的众数,这里没有重复的所以打印全部\n', df.score.mode())

求某一列的总和 331.15
求某一列的最大值 100.0
求某一列的最小值 15
求某一列的平均值 66.22999999999999
求某一列的中位数 73.44
求某一列的众数,这里没有重复的所以打印全部
 0     20.89
1     60.50
2     73.44
3     76.32
4    100.00
Name: score, dtype: float64


In [65]:
print('求某一列的标准差', df.score.std())
print('求某一列的方差', df.score.var())
print('求某一列的分位数', df.score.quantile(0.25))

求某一列的标准差 29.08072213683835
求某一列的方差 845.6884
求某一列的分位数 60.5


In [66]:
print('数据的描述信息\n', df.describe())

数据的描述信息
              age       score          id
count   5.000000    5.000000    5.000000
mean   21.600000   66.230000  300.000000
std     6.268971   29.080722  158.113883
min    15.000000   20.890000  100.000000
25%    17.000000   60.500000  200.000000
50%    20.000000   73.440000  300.000000
75%    26.000000   76.320000  400.000000
max    30.000000  100.000000  500.000000


In [69]:
print('查看是否重复\n', df.duplicated(subset=['score']))
print('替换某一个值\n', df.replace(15, 25))

查看是否重复
 1    False
2    False
3    False
4    False
5    False
dtype: bool
替换某一个值
     name  age   score   id
1    tom   25   60.50  100
2   jack   17   73.44  200
3    bob   20  100.00  300
4  allen   26   76.32  400
5   lucy   30   20.89  500


In [78]:
# 排序
print('按照索引排序\n', df.sort_index(ascending=True))
print('按照数值排序\n', df.sort_values(by=['name', 'age'], ascending=[True, False]))

按照索引排序
     name  age   score   id
1    tom   15   60.50  100
2   jack   17   73.44  200
3    bob   20  100.00  300
4  allen   26   76.32  400
5   lucy   30   20.89  500
按照数值排序
     name  age   score   id
4  allen   26   76.32  400
3    bob   20  100.00  300
2   jack   17   73.44  200
5   lucy   30   20.89  500
1    tom   15   60.50  100


In [79]:
print('返回最大值\n', df.nlargest(2, columns=['score', 'age']))

返回最大值
     name  age   score   id
3    bob   20  100.00  300
4  allen   26   76.32  400
