# pandas 的核心数据结构：Series 和 DataFrame

pandas 中的三个最常见的概念：index、Series 和 DataFrame。其中 Series 和 DataFrame 是 pandas 中的**两个核心的数据结构**。

## 1 数据的目录 index

数据的“目录” index：index 也叫索引，索引是计算机科学中非常常见的概念，你可能听起来会有点陌生，但其实应该很早之前就打过交道了。比如看一本书，书的目录就是书本内容的索引。所以通俗意义上，索引可以理解为就是存储了如何访问某块数据方式的数据。比如我们通过列表的下标访问列表的某个元素，比如 `a[5]` ，这个 5 也叫列表的索引。字典的场景中，我们通过 key 来访问字典中的某个元素，比如: `student["name"]`，这个 "name" 的字符串，也属于字典的索引。

## 2 一维数据序列 Series

一维数据序列 Series：Series 本身是一种数据类型，很像我们之前打过交道的列表，是存储多个数据元素的容器。事实上，我们也可以直接使用一个列表来创建一个 Series。但与列表不同的是，Series 一般由两部分组成：index 和 values。

- values 容易理解，顾名思义就是存储了 Series 里面的所有元素的值，所以 values 部分可以认为就是和列表是等价的。
- index 部分代表代表 Series 的索引。根据上面对于索引的定义，index 部分的数据就是为了能方便地定位到 values 里面的数据。

Series 有一个单独的索引项，这就使得它既支持类似列表一样的数字索引，也支持类似字典一样的用字符串或者其他 Python 对象来做索引。对于 Series，可以简单理解成是一个列表和字典的集合体。

下面演示 Series 的相关操作：

In [1]:
import pandas as pd

series_1 = pd.Series([1, 3, 5, 7])
series_1

0    1
1    3
2    5
3    7
dtype: int64

输出有两列，第一列是 index，第二列是 values， values 就是我们传入的列表，而 index 则是对应的序号。当我们只使用列表来创建 Series 对象时，会生成默认的索引。即类似列表那样，每一个元素的位置作为索引。Series 对象也具备 index 和 values 属性，这样我们可以单独访问这两个部分。

In [2]:
print("values:", series_1.values)
print("index:", series_1.index)

values: [1 3 5 7]
index: RangeIndex(start=0, stop=4, step=1)


Series 还支持我们在创建的时候指定对应的索引。

In [4]:
import pandas as pd

series_1 = pd.Series([1, 3, 5, 7], index=["a", "b", "c", "d"])
series_1

a    1
b    3
c    5
d    7
dtype: int64

Series 通过将 index 和 values 分别存储的机制，实现了列表和字典的结合。

## 3 二维数据表：DataFrame

DataFrame 是一个由行和列组成的二维表格。它由 Series 组成，DataFrame 的某一行，或者某一列都是一个 Series。

In [3]:
import pandas as pd

df_rating = pd.read_csv("../02-ExtractContent/kj.csv")

# 输出 rating 列
ser_rating = df_rating["rating"]
print(ser_rating)
print("type of ser_rating:", type(ser_rating))

print("---------------------------------------------------")

# 除了输出某一列，我们还可以用行索引，来单独输出某一行。
row1 = df_rating.loc[1]
print(row1)
print("type of row1:", type(row1))

0       7.9分
1       8.8分
2       9.2分
3       9.3分
4       7.9分
        ... 
3795    5.9分
3796    7.0分
3797    6.0分
3798    7.7分
3799    7.0分
Name: rating, Length: 3800, dtype: object
type of ser_rating: <class 'pandas.core.series.Series'>
---------------------------------------------------
title               家有儿女
rating              8.8分
stars     宋丹丹,高亚麟,张一山,杨紫
Name: 1, dtype: object
type of row1: <class 'pandas.core.series.Series'>


### DataFrame 的创建

既然 DataFrame 是一个个 Series 组成的，那自然我们可以用 Series 来构造出 DataFrame。构造 DataFrame 最常见的方式是用多个行 Series 的形式来创建，不同的行 Series 的长度应该是一致的（因为表格中每一行的元素个数都需要相等）。

In [4]:
import pandas as pd

index_array = ["姓名", "年龄", "籍贯", "部门"]
series_xm = pd.Series(["小明", "22", "河北", "IT部"], index=index_array)
series_xl = pd.Series(["小亮", "25", "广东", "IT部"], index=index_array)
series_xw = pd.Series(["小王", "23", "四川", "财务部"], index=index_array)

df = pd.DataFrame([series_xm, series_xl, series_xw])
df

Unnamed: 0,姓名,年龄,籍贯,部门
0,小明,22,河北,IT部
1,小亮,25,广东,IT部
2,小王,23,四川,财务部


### DataFrame 的基本操作

In [5]:
# 添加一个新的 Series
series_xh = pd.Series(["小红", 28, "福建", "财务部"], index=index_array)
# 设置 ignore_index 的含义是让 DataFrame 自动生成行索引，append 的返回值就是新生成的 DataFrame。
df = df.append(series_xh, ignore_index=True)
df

  df = df.append(series_xh, ignore_index=True)


Unnamed: 0,姓名,年龄,籍贯,部门
0,小明,22,河北,IT部
1,小亮,25,广东,IT部
2,小王,23,四川,财务部
3,小红,28,福建,财务部


In [6]:
# 添加一列一般有两种情况，如果我们要添加的列，所有行的值都相同的话，我们可以直接以单个值赋值给新添加的列 Series 即可。如下所示：
df["考核结果"] = "合格"
df

Unnamed: 0,姓名,年龄,籍贯,部门,考核结果
0,小明,22,河北,IT部,合格
1,小亮,25,广东,IT部,合格
2,小王,23,四川,财务部,合格
3,小红,28,福建,财务部,合格


In [7]:
# 如果新添加的列，每一行的内容不是完全一样时，就需要我们将一个新的 Series 赋值给 DataFrame 针对新列名的列 Series。
df["奖金"] = pd.Series(["三个月", "四个月", "一个月", "一个月"])
df

Unnamed: 0,姓名,年龄,籍贯,部门,考核结果,奖金
0,小明,22,河北,IT部,合格,三个月
1,小亮,25,广东,IT部,合格,四个月
2,小王,23,四川,财务部,合格,一个月
3,小红,28,福建,财务部,合格,一个月


In [8]:
# 删除”考核结果“：axis = 1 代表要删除的是列，inplace = True 代表删除直接在 df_info 中生效。
df.drop(labels="考核结果", axis=1, inplace=True)
df

Unnamed: 0,姓名,年龄,籍贯,部门,奖金
0,小明,22,河北,IT部,三个月
1,小亮,25,广东,IT部,四个月
2,小王,23,四川,财务部,一个月
3,小红,28,福建,财务部,一个月


In [9]:
# 删除某一个行
# 删除”考核结果“：axis = 0 代表要删除的是行，inplace = True 代表删除直接在 df_info 中生效。
df.drop(labels=2, axis=0, inplace=True)
df

Unnamed: 0,姓名,年龄,籍贯,部门,奖金
0,小明,22,河北,IT部,三个月
1,小亮,25,广东,IT部,四个月
3,小红,28,福建,财务部,一个月


In [10]:
# 查看单元格：loc 属性后面跟着中括号，中括号里面第一个元素是行索引，第二个元素是列索引
df.loc[1, "籍贯"]

'广东'

In [11]:
# 修改就是直接赋值
df.loc[1, "籍贯"] = "湖南"
df.loc[1, "籍贯"]

'湖南'

### 对 DataFrame 进行排序和获取部分数据

In [12]:
import pandas as pd

df_rating = pd.read_csv("../02-ExtractContent/kj.csv")
df_rating.sort_values(by="rating", inplace=True, ascending=False)
df_rating

Unnamed: 0,title,rating,stars
1210,一起同过窗第一季,9分,"武雨泽,徐晓璐,庞瀚辰,李若嘉,于翔,桑砚,应岱臻,丁翔南,李川,陈汛,李栋,刘轩,俞思远,..."
1273,大盛魁,9分,"于震,乔振宇,吴连生,周显欣,午马,王绘春,郑玉"
879,大明宫词,9分,"陈红,归亚蕾,周迅,赵文瑄,傅彪,申军谊,贾妮,刘栋,吴军忱,孙斌,李昊翰,高冬平,李冰冰,杨雨婷"
653,龙年档案,9分,"张丰毅,潘雨辰,戈治均,谭希和,朱恒"
65,与卿书,9.8分,"黄羿,王弘毅,柯颖,刘胤君,周子悦,张浩哲,潘毅鸿"
...,...,...,...
1226,飞虎队大营救,2.5分,"李梦男,海顿,郑晓宁,宋笠娜,杨峰,习雪,杜旭东,赵恒煊,李琦"
1589,重耳传奇,2.5分,"王龙华,张含韵,麦迪娜,谭凯,王艳,翁虹,龚蓓苾,买红妹,贺刚,郭晓然,蒲巴甲,张一山,沈梦..."
954,游击英雄,2.5分,"林江国,王珂"
3117,家庭秘密,2.4分,"荣蓉,陈锐,姜析源"


In [13]:
# 取前 N 个
df_rating.head(20)

Unnamed: 0,title,rating,stars
1210,一起同过窗第一季,9分,"武雨泽,徐晓璐,庞瀚辰,李若嘉,于翔,桑砚,应岱臻,丁翔南,李川,陈汛,李栋,刘轩,俞思远,..."
1273,大盛魁,9分,"于震,乔振宇,吴连生,周显欣,午马,王绘春,郑玉"
879,大明宫词,9分,"陈红,归亚蕾,周迅,赵文瑄,傅彪,申军谊,贾妮,刘栋,吴军忱,孙斌,李昊翰,高冬平,李冰冰,杨雨婷"
653,龙年档案,9分,"张丰毅,潘雨辰,戈治均,谭希和,朱恒"
65,与卿书,9.8分,"黄羿,王弘毅,柯颖,刘胤君,周子悦,张浩哲,潘毅鸿"
1946,毛骗终结篇,9.7分,"杨羽,邵庄,安宁,邢冬冬"
1509,大明王朝1566,9.7分,"陈宝国,黄志忠,王庆祥,倪大红,祝希娟,徐光明,张志坚,郭广平,闫妮,郭东文,郑玉,张子健,..."
2111,请回答1988,9.7分,"成东日,李一花,罗美兰,金成钧,崔武成,金善映,柳慧英,李惠利,柳俊烈,高庚杓,朴宝剑,安宰..."
1582,两个人的小森林,9.6分,"虞书欣,张彬彬,厉嘉琪,丁冠森,吴迪飞,安戈,崔奕,李晔,刘杰毅,李文玲"
64,女士的品格,9.6分,"万茜,刘敏涛,邢菲,白客,高一仁,王勉,温峥嵘,师铭泽,海一天,蒲巴甲,徐立,刘金山,姚安濂"


In [14]:
# 取后 N 个
df_rating.tail(20)

Unnamed: 0,title,rating,stars
970,地雷英雄传,3.1分,"王新军,宁静,韩张,郑媛元"
581,擒狼,3.1分,"蒲巴甲,刘萌萌,孙大川,刘波（演员）,徐鹏凯,王佳宁,王九胜,邵桐,吕卓燃"
578,上古情歌,3.1分,"黄晓明,宋茜,盛一伦,张俪,翟天临,罗云熙,吴倩,沈泰,张双利,席与立,侯长荣,李进荣,林静..."
1638,后妈的春天,3.1分,"李彩桦,贺刚,张永刚,小刘佳,曾龙,陶思源"
172,推手,3.1分,"贾乃亮,王鸥,刘欢,边潇潇,王劲松,李天柱,吴昕,万思维,戴春荣"
974,俺娘田小草,2.9分,"闫学晶,胡亚捷,王丽云,韩童生,金巧巧,舒耀瑄,雷恪生,张明健,何翯,王天泽,王沐霖,杜鹤,..."
3665,木兰妈妈,2.8分,"陈小艺,范雷,刘之冰,刘琳,徐黄丽,王天泽,于莉红"
171,我怕来不及,2.8分,"唐曾,徐小飒,王丽云,梅婷,王沐霖,李云飞"
2707,殊死七日,2.8分,"吴健,田璐菡,严俊里,彭梓洋"
1387,猛犸敢死队,2.8分,"姚居德,刘思梦"


In [15]:
# 获取 DataFrame 的行数和列数
shape = df_rating.shape
print("行数：", shape[0])
print("列数：", shape[1])

行数： 3800
列数： 3
