# 3.2 DataFrame数据及常用操作

In [1]:
from pandas import Series,DataFrame
import pandas as pd
import numpy as np

## 3.2.1 创建DataFrame对象

### （1）用二维数组生成

In [2]:
arr_2d = np.arange(6).reshape(2,3)
arr_2d

array([[0, 1, 2],
       [3, 4, 5]])

In [3]:
d1 = DataFrame(arr_2d)
d1

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5


In [4]:
d2 = DataFrame(arr_2d,index = ['row_1','row_2'],columns = ['col_1','col_2','col_3'])
d2

Unnamed: 0,col_1,col_2,col_3
row_1,0,1,2
row_2,3,4,5


# -----以下为本节课笔记-----

## 2.用字典生成DataFrame对象

In [5]:
dict = {
    'name': ['小陈', '小王', '小刘', '小马'],
    'sex': ['男', '女', '女', '男'],
    'year': [2000, 2001, 1999, 2002],
    'city': ['武汉', '云南', '广州', '上海']
}
df = DataFrame(dict)
df

Unnamed: 0,name,sex,year,city
0,小陈,男,2000,武汉
1,小王,女,2001,云南
2,小刘,女,1999,广州
3,小马,男,2002,上海


In [6]:
df = DataFrame(dict, columns=['name', 'sex', 'year']) # 用字典中部分列来创建DataFrame对象
df

Unnamed: 0,name,sex,year
0,小陈,男,2000
1,小王,女,2001
2,小刘,女,1999
3,小马,男,2002


In [7]:
df = DataFrame(dict, columns=['name', 'sex', 'year'], index=['a', 'b', 'c', 'd']) # 用标签作为行索引
df

Unnamed: 0,name,sex,year
a,小陈,男,2000
b,小王,女,2001
c,小刘,女,1999
d,小马,男,2002


用嵌套字典创建DataFrame对象

In [8]:
dict = {
    'sex': {'小张':'女', '小李':'男', '小王':'男', '小马':'女'},
    'city': {'小张':'安徽', '小李':'江苏', '小王':'上海', '小马':'浙江'}
}
df = DataFrame(dict) # 把外面的键作为列索引, 内部键作为行索引, 若有元素缺失, 用NaN填充
df

Unnamed: 0,sex,city
小张,女,安徽
小李,男,江苏
小王,男,上海
小马,女,浙江


## 3.用Series对象组成的字典去生成DataFrame对象

In [9]:
dict = {
    '课程名称': Series(['Python', 'Java', 'C+']),
    '学分': Series([4, 6])
}
df = DataFrame(dict)
df

Unnamed: 0,课程名称,学分
0,Python,4.0
1,Java,6.0
2,C+,


# 二. DataFrame对象元素的索引

### 1.选取所有索引名称和索引列表信息

In [10]:
dict = {
    '课程名称': Series(['Python', 'Java', 'C+', 'PHP']),
    '学分': Series([4, 6, 6, 4])
}
df = DataFrame(dict)
df

Unnamed: 0,课程名称,学分
0,Python,4
1,Java,6
2,C+,6
3,PHP,4


In [11]:
df.index # 行

RangeIndex(start=0, stop=4, step=1)

In [12]:
df.columns # 列

Index(['课程名称', '学分'], dtype='object')

In [13]:
df.values # 数据 二维数组

array([['Python', 4],
       ['Java', 6],
       ['C+', 6],
       ['PHP', 4]], dtype=object)

## 2.选取一行数据

In [14]:
df.iloc[0] # 第一行数据 返回一个Series对象, 其中原DataFrame对象中的列索引变成Series对象索引, DataFrame对象一行作为Series对象数据

课程名称    Python
学分           4
Name: 0, dtype: object

In [15]:
type(df.iloc[0]) # Series对象

pandas.core.series.Series

## 3.选取一列数据

In [16]:
dict = {
    '课程名称': Series(['Python', 'Java', 'C+', 'PHP']),
    '学分': Series([4, 6, 6, 4])
}
df = DataFrame(dict)
df

Unnamed: 0,课程名称,学分
0,Python,4
1,Java,6
2,C+,6
3,PHP,4


In [17]:
df['课程名称'] # 返回一个Series对象

0    Python
1      Java
2        C+
3       PHP
Name: 课程名称, dtype: object

## 4.获取多行数据

In [18]:
df.iloc[[0, 2]]

Unnamed: 0,课程名称,学分
0,Python,4
2,C+,6


In [19]:
df.iloc[::2] # 使用切片 [0:3:2] / [0:4:2]

Unnamed: 0,课程名称,学分
0,Python,4
2,C+,6


## 5.获取任意一个元素或一定范围内的元素

In [20]:
dict = {
    '课程名称': Series(['Python', 'Java', 'C+', 'PHP']),
    '学分': Series([4, 6, 6, 4]),
    '课程性质': Series(['专业课', '核心课', '核心课', '核心课'])
}
df = DataFrame(dict)
df

Unnamed: 0,课程名称,学分,课程性质
0,Python,4,专业课
1,Java,6,核心课
2,C+,6,核心课
3,PHP,4,核心课


In [21]:
df['课程名称'][1] # 先确定列, 再确定行

'Java'

In [22]:
df['课程名称'][1::2] # 返回Series对象

1    Java
3     PHP
Name: 课程名称, dtype: object

In [23]:
df['课程性质'] == '专业课'

0     True
1    False
2    False
3    False
Name: 课程性质, dtype: bool

In [24]:
df[df['课程性质'] == '专业课']

Unnamed: 0,课程名称,学分,课程性质
0,Python,4,专业课


In [25]:
df[df['学分'] == 6]

Unnamed: 0,课程名称,学分,课程性质
1,Java,6,核心课
2,C+,6,核心课


In [26]:
dict = {
    '课程名称': Series(['Python', 'Java', 'C+', 'PHP']),
    '学分': Series([4, 6, 6, 4]),
    '课程性质': Series(['专业课', '核心课', '核心课', '核心课']),
    '学时': Series([90, 60, 90, 60])
}
df = DataFrame(dict)
df

Unnamed: 0,课程名称,学分,课程性质,学时
0,Python,4,专业课,90
1,Java,6,核心课,60
2,C+,6,核心课,90
3,PHP,4,核心课,60


In [27]:
df[df['学时'] == 60]['课程性质'] == '核心课'

1    True
3    True
Name: 课程性质, dtype: bool

In [28]:
df[(df['学时'] == 60)&(df['课程性质'] == '核心课')]

Unnamed: 0,课程名称,学分,课程性质,学时
1,Java,6,核心课,60
3,PHP,4,核心课,60
