# 1. Series对象的创建

## 1.1 numpy的ndarray => Series对象

In [None]:
# 导包
import numpy as np
import pandas as pd

In [None]:
# 1. 创建ndarray对象.
arr = np.array([1, 2, 3, 4, 5])
print(arr)
print(type(arr))    # <class 'numpy.ndarray'>

In [None]:
# 2. 将上述的 ndarray对象 转成 Series对象
s1 = pd.Series(data=arr)
print(s1)
print(type(s1))     # <class 'pandas.core.series.Series'>

## 1.2 直接传入Python列表, 构建Series对象

In [None]:
# 这种方式可以创建Series对象, 但是没有指定 行索引值, 默认是: 0 ~ n
# s2 = pd.Series(data=['乔峰', '男', 33])
s2 = pd.Series(['乔峰', '男', 33])         # data参数名可以省略不写.
print(s2)
print(type(s2))     # <class 'pandas.core.series.Series'>

## 1.3 传入Python列表,构建Series对象, 并指定行索引

In [None]:
# s3 = pd.Series(data=['乔峰', '男', 33], index=['name', 'gender', 'age'])         # data参数名可以省略不写.
s3 = pd.Series(['乔峰', '男', 33], index=['name', 'gender', 'age'])         # data参数名可以省略不写.
# s3 = pd.Series(['乔峰', '男', 33], ['name', 'gender', 'age'])         # 参数名可以省略不写.
print(s3)
print(type(s3))     # <class 'pandas.core.series.Series'>

## 1.4 通过元组的方式创建Series对象

In [None]:
s4 = pd.Series(('乔峰', '男', 33), index=['name', 'gender', 'age'])         # data参数名可以省略不写.
print(s4)
print(type(s4))     # <class 'pandas.core.series.Series'>

## 1.5 通过字典的方式创建Series对象

In [None]:
# 字典方式创建Series对象, 字典的键会作为: 行索引(index), 字典的值: 会作为 内容.
s5 = pd.Series({'name':'乔峰', 'gender':'男', 'age':33})        
print(s5)
print(type(s5))     # <class 'pandas.core.series.Series'>

In [None]:
s5.to_frame()

# 2. 创建DataFrame对象

## 2.1 字典方式构建df对象

In [None]:
# 1. 创建字典, 记录数据.
dict_data = {
    'id': [1, 2, 3],
    'name': ['乔峰', '虚竹', '段誉'],
    'age': [33, 29, 21]
}
# 2. 基于上述的字典, 构建df对象.
# df1 = pd.DataFrame(dict_data)  
# df1 = pd.DataFrame(dict_data, index=['A', 'B', 'C'])   # 指定行索引
# index:指定行索引,  columns:指定列名(的顺序), 如果写的列名不存在, 则该列值为 NaN
df1 = pd.DataFrame(dict_data, index=['A', 'B', 'C'], columns=['id', 'age', 'name'])   
# 3. 打印结果.
print(df1)
print(type(df1))    # <class 'pandas.core.frame.DataFrame'>

## 2.2 列表 + 元组方式构建df对象

In [None]:
# 1. 基于列表 + 元组, 构建数据集.  一个元组 = 一行数据
list_data = [(1, '乔峰', 33), (2, '虚竹', 29), (3, '段誉', 21)]
# 2. 构建df对象.
# df2 = pd.DataFrame(list_data, index=['X', 'Y', 'Z'], columns=['id', 'age', 'name'])  # 以行的方式传入数据, columns是设置: 列名.
df2 = pd.DataFrame(list_data, index=['X', 'Y', 'Z'], columns=['id', 'name', 'age'])  # 以行的方式传入数据, columns是设置: 列名.
# 3. 打印结果.
print(df2)
print(type(df2))

# 3. Series的常用属性介绍

In [None]:
# Series的常用属性, 如下:
# loc               根据 行索引 获取某行数据, 这个是属于: DF的对象
# iloc              根据 行号 获取某行数据, 这个是属于: DF的对象
# dtype或者dtypes    获取Series的元素类型
# T                 转置函数, 后续详解
# shape             维度
# size              大小(元素的个数)
# values            获取所有的值
# index             获取所有的索引, 功能类似于keys()方法

In [None]:
# 铺垫动作, 你容易做错的地方, 即: 你用Linux虚拟机的Jupyter Notebook 和 你用本地的环境, 相对路径是不一样的. 
import os
os.getcwd()     # get current work directory: 获取当前的工作目录, 即: 你的相对路径, 就是相对于这路径来讲的. 

In [None]:
# 1. 读取 nobel_prizes.csv 文件的内容, 获取df对象.
df = pd.read_csv('data/nobel_prizes.csv', index_col='id')   # index_col: 设置表中的某列为 索引列.
df.head()       # 默认获取前 5 条数据

In [None]:
# 2. 从上述的df对象中, 获取到 第一行数据, 即: Series对象.
# loc 属性: 根据 行索引 获取的.
# first_row = df.loc[941]
# print(first_row)
# print(type(first_row))

# iloc 属性: 根据 行号 获取的.
first_row = df.iloc[0]
print(first_row)
print(type(first_row))      # <class 'pandas.core.series.Series'>

In [None]:
# 3. 演示Series对象的属性
print(first_row.dtype)                  # 打印Series对象的元素类型, object(表示字符串)
print(first_row.dtypes)                 # 打印Series对象的元素类型, object(表示字符串)
print(first_row['year'].dtype)          # int64
# print(first_row['firstname'].dtype)     # 报错, str(字符串)没有 dtype这个属性

print(first_row.shape)                  # 维度: (7, )
print(first_row.size)                   # 长度: 7

print(first_row.values)                 # 获取所有的值
print(first_row.index)                  # 获取所有的索引
print(first_row.keys())                 # 获取所有的索引, 效果同上

# 4. Series对象的常用方法介绍

In [None]:
# 1. 构建Series对象.
s1 = pd.Series([1, 2, 3, 4, 2, 3], index=['A', 'B', 'C', 'D', 'E', 'F'])
print(s1)

In [None]:
# 2. 演示Series对象的 常用方法. 
print(len(s1))              # 长度: 6
print(s1.size)              # 长度: 6
print(s1.head())            # 默认获取前 5 条
print(s1.head(n=2))         # 指定, 获取前2条

print(s1.tail())            # 默认获取后 5条
print(s1.tail(n=3))         # 指定, 获取后3条

print(s1.keys())            # 获取Series的索引
print(s1.index)             # 获取Series的索引

print(s1.tolist())          # 转列表
print(s1.to_list())         # 效果同上
print(type(s1.tolist()))    # <class 'list'>

print(s1.to_frame())        # 转成df对象
print(type(s1.to_frame()))  # <class 'pandas.core.frame.DataFrame'>

print(s1.describe())        # 查看Series的详细信息, 例如: 最大值, 最小值, 平均值, 标准差等...
print(s1.max())
print(s1.min())
print(s1.mean())
print(s1.std())             # 标准差

print(s1.drop_duplicates()) # 去重, 返回Series对象
print(s1.unique())          # 去重, 返回数组, <class 'numpy.ndarray'>

print(s1.sort_values())                    # 根据 值 排序, 默认: 升序(ascending=True)
print(s1.sort_values(ascending=False))     # 根据 值 排序, 降序

print(s1.sort_index())                     # 根据 索引 排序, 默认: 升序
print(s1.sort_index(ascending=False))      # 根据 索引 排序, 降序

print(s1.value_counts())                   # 统计每个值出现的次数, 类似于: SQL的 group by + count()
s1.hist()                                  # 绘制: 直方图(柱状图)

# 5. 电影案例_回顾上述的Series的常用方法

In [None]:
# 1. 加载数据源, 获取df对象.
movie_df = pd.read_csv('data/movie.csv')
movie_df.head()

In [None]:
# 2. 从df对象中, 获取到 Seires对象.
# direcctor = movie_df.director_name    # 获取: 导演名字
direcctor = movie_df['director_name']   # 效果同上. 
print(direcctor)        

actor_1_fb_likes = movie_df.actor_1_facebook_likes      # 获取主演的facebook点赞数
print(actor_1_fb_likes)

In [None]:
# 3. 统计不同导演指导的电影数量, 即: 各导演的总数. 
direcctor.value_counts()

# 4. 统计主演各个点赞数 数量. 即: 1000点赞有几个, 10000点赞有几个
# actor_1_fb_likes.value_counts()

In [None]:
# 5. 统计有多少空值. 
# direcctor.count()       # 4814, 统计所有的非空值
# direcctor.shape         # (4916, ), 总量
len(direcctor.shape)      # 4916

In [None]:
# 6. 打印描述信息
actor_1_fb_likes.describe()     # 查看描述信息, 例如: 最大值, 最小值, 平均值, 标准差...
direcctor.describe()            # 查看描述信息, 因为是: object(字符串类型), 所以信息没那么多.

# 6. Series的布尔值的操作

In [None]:
# 1. 读取数据源, 获取 df对象.
df = pd.read_csv('data/scientists.csv')
df

In [None]:
# 2. 手动传入布尔值, 获取内容.
bool_list = [True, False, False, True, False, False, True, True]  # 个数要和df的数据条数保持一致.
df[bool_list]   # 即: 获取索引为 0, 3, 6, 7的数据

In [None]:
# 3. 根据条件传入布尔值, 筛选数据. 
# 需求: 筛选出 年龄 大于 平均年龄的科学家. 
# 3.1 获取年龄列的数据.
# ages_series = df.Age
ages_series = df['Age']     # 区分大小写.
ages_series

In [None]:
# 3.2 计算平均年龄
avg_age = ages_series.mean()
avg_age

In [None]:
# 3.3 判断当前年龄 是否大于 平均年龄, 生成: 布尔列表. 
ages_series > avg_age

In [None]:
# 3.4 获取 当前年龄 大于平均年龄的数据. 
ages_series[ages_series > avg_age]      

In [None]:
# 3.5 上述格式简化版, 一行写完. 
# 参考: ages_series[ages_series > avg_age]   
# df['Age'][df['Age'] > df['Age'].mean()]   # 只获取符合条件的年龄, 即: Series数据
df.Age[df.Age > df.Age.mean()]   # 只获取符合条件的年龄, 即: Series数据

# df[df['Age'] > df['Age'].mean()]            # 扩展, 去df中筛选符合条件的数据, 结果还是: df对象
# df[df.Age > df.Age.mean()]            # 扩展, 去df中筛选符合条件的数据, 结果还是: df对象

# 7. Series的计算

## 7.1 Series和数值运算, 数值会和Series的每个值进行运算.

In [101]:
 ages_series + 10
ages_series * 2

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

## 7.2 两个Series之间计算, 如果长度一致, 会按照对应的元素进行逐个计算

In [103]:
ages_series + ages_series

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64

## 7.3 两个Series之间计算, 如果长度不一致, 则对应元素计算, 不匹配的元素用NaN填充

In [106]:
ages_series + pd.Series([1, 10])

0    38.0
1    71.0
2     NaN
3     NaN
4     NaN
5     NaN
6     NaN
7     NaN
dtype: float64

## 7.4 Series之间进行计算, 会尽可能依据 索引来计算, 即: 优先计算索引一样的数据. 

In [110]:
# 1. 对 源数据(ages_series), 按照 年龄 降序排列, 获取新的Series对象.
rev_series = ages_series.sort_values(ascending=False)
rev_series

2    90
7    77
3    66
1    61
4    56
5    45
6    41
0    37
Name: Age, dtype: int64

In [113]:
# 2. 查看原始Series对象
ages_series

0    37
1    61
2    90
3    66
4    56
5    45
6    41
7    77
Name: Age, dtype: int64

In [115]:
# 3. 具体的计算过程
ages_series + rev_series

0     74
1    122
2    180
3    132
4    112
5     90
6     82
7    154
Name: Age, dtype: int64