In [1]:
import pandas as pd

# 创建DataFrame对象

In [2]:
data = [[110, 105, 99],
        [105, 88, 115],
        [109, 120, 130]]
index = [0, 1, 2]
columns = ['语文', '数学', '英语']

In [4]:
df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,语文,数学,英语
0,110,105,99
1,105,88,115
2,109,120,130


# 遍历DataFrame每列

In [6]:
type(df['英语'])
# pandas.core.series.Series

pandas.core.series.Series

In [7]:
df.columns

Index(['语文', '数学', '英语'], dtype='object')

In [8]:
for col in df.columns:
    series = df[col]
    print(type(series))

<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


# 通过字典创建DataFrame
- value为多个元素

In [9]:
dct = {
    '语文': [110, 105, 99],
    '数学': [105, 88, 115],
    '英语': [109, 120, 130]}

In [10]:
df = pd.DataFrame(data=dct, index=[1, 2, 3])
df

Unnamed: 0,语文,数学,英语
1,110,105,109
2,105,88,120
3,99,115,130


# 通过字典创建DataFrame
- value为一个元素

In [18]:
dct = {
    '语文': [110],
    '数学': [105],
    '英语': [109]}
df = pd.DataFrame(data=dct)
df

Unnamed: 0,语文,数学,英语
0,110,105,109


In [19]:
dct = {
    '语文': 110,
    '数学': 105,
    '英语': 109}
df = pd.DataFrame(data=dct,index=[0])
df

Unnamed: 0,语文,数学,英语
0,110,105,109


# DataFrame的重要属性

In [88]:
data = [[110, 105, 99],
        [105, 88, 115],
        [109, 120, 130]]
index = [1, 2, 3]
columns = ['语文', '数学', '英语']
df = pd.DataFrame(data=data, index=index, columns=columns)
df

Unnamed: 0,语文,数学,英语
1,110,105,99
2,105,88,115
3,109,120,130


## 查看所有元素的值

In [89]:
df.values

array([[110, 105,  99],
       [105,  88, 115],
       [109, 120, 130]], dtype=int64)

## 查看某列的唯一值

In [90]:
df['英语'].unique()

array([ 99, 115, 130], dtype=int64)

## 查看所有元素的类型

In [91]:
df.dtypes

语文    int64
数学    int64
英语    int64
dtype: object

## 查看所有行名

In [92]:
df.index

Int64Index([1, 2, 3], dtype='int64')

## 重命名行名

In [93]:
df.index = ['张三', '李四', '王五']
df

Unnamed: 0,语文,数学,英语
张三,110,105,99
李四,105,88,115
王五,109,120,130


## 查看所有列名

In [94]:
df.columns

Index(['语文', '数学', '英语'], dtype='object')

## 重命名列名

In [95]:
df.columns = ['语', '数', '英']
df

Unnamed: 0,语,数,英
张三,110,105,99
李四,105,88,115
王五,109,120,130


## 行列转置

In [96]:
df.T

Unnamed: 0,张三,李四,王五
语,110,105,109
数,105,88,120
英,99,115,130


## 查看前n条数据
- 默认5条

In [97]:
df.head()

Unnamed: 0,语,数,英
张三,110,105,99
李四,105,88,115
王五,109,120,130


## 查看前10条数据

In [98]:
df.head(10)

Unnamed: 0,语,数,英
张三,110,105,99
李四,105,88,115
王五,109,120,130


## 查看后n条数据
- 默认5条

In [99]:
df.tail()

Unnamed: 0,语,数,英
张三,110,105,99
李四,105,88,115
王五,109,120,130


## 查看后10条数据

In [100]:
df.tail(10)

Unnamed: 0,语,数,英
张三,110,105,99
李四,105,88,115
王五,109,120,130


## 查看行数
- 0表示行

In [101]:
df.shape[0]

3

## 查看列数
- 1表示列

In [102]:
df.shape[1]

3

## 查看基本信息
- 索引、数据类型、非空值数量和内存信息

In [103]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, 张三 to 王五
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   语       3 non-null      int64
 1   数       3 non-null      int64
 2   英       3 non-null      int64
dtypes: int64(3)
memory usage: 204.0+ bytes


# DataFrame的重要函数

## 查看每列的描述统计信息
- 返回DataFrame类型

In [104]:
df.describe().round(2)

Unnamed: 0,语,数,英
count,3.0,3.0,3.0
mean,108.0,104.33,114.67
std,2.65,16.01,15.5
min,105.0,88.0,99.0
25%,107.0,96.5,107.0
50%,109.0,105.0,115.0
75%,109.5,112.5,122.5
max,110.0,120.0,130.0


## 返回每列非空值数量

In [105]:
df.count()

语    3
数    3
英    3
dtype: int64

## 返回每列的合计
- 无法计算返回空值

In [106]:
df.sum()

语    324
数    313
英    344
dtype: int64

## 返回每列的最大值

In [107]:
df.max()

语    110
数    120
英    130
dtype: int64

## 返回每列的最小值

In [108]:
df.min()

语    105
数     88
英     99
dtype: int64

## 返回最大值的索引号
- 原始的数字索引

In [109]:
df

Unnamed: 0,语,数,英
张三,110,105,99
李四,105,88,115
王五,109,120,130


In [110]:
df['数'].argmax()

2

## 返回最小值的索引号
- 原始的数字索引

In [111]:
df['数'].argmin()

1

## 返回最大值的索引名
- 自定义的索引

In [112]:
df['数'].idxmax()

'王五'

## 返回最小值的索引名
- 自定义的索引

In [113]:
df['数'].idxmin()

'李四'

## 返回每列的平均值

In [114]:
df.mean()

语    108.000000
数    104.333333
英    114.666667
dtype: float64

## 返回每列的中位数
- 中位数又称中值，按顺序排列后处于中间位置的数值

In [115]:
df.median()

语    109.0
数    105.0
英    115.0
dtype: float64

## 返回每列的方差
- 用于衡量一组数据的离散程度

In [116]:
df.var()

语      7.000000
数    256.333333
英    240.333333
dtype: float64

##  返回每列的标准差
- 标准差是方差的算术平方根
- 也用于衡量一组数据的离散程度

In [117]:
df.std()

语     2.645751
数    16.010413
英    15.502688
dtype: float64

## 检查df中的空值
- 空值为True，否则为False，返回布尔型数组

In [119]:
df.isnull()

Unnamed: 0,语,数,英
张三,False,False,False
李四,False,False,False
王五,False,False,False


## 检查df中的非空值
- 非空值为True，否则为False，返回布尔型数组

In [121]:
df.notnull()

Unnamed: 0,语,数,英
张三,True,True,True
李四,True,True,True
王五,True,True,True
