In [None]:
# 导包
import numpy as np
import pandas as pd

# 1. DataFrame的常用属性

In [None]:
# 1. 加载数据源, 获取 df 对象.
df = pd.read_csv('data/scientists.csv')
df

In [None]:
# 2. 演示df对象的常用属性.
print(df.ndim)  # 轴(几位数组, 轴就是几),  2
print(df.shape)  # 维度(几行几列), (8, 5)
print(df.size)  # 40, 行数 * 列表, 包括 NaN值. 
print(df.index)  # 获取df对象的 索引列(的值), RangeIndex(start=0, stop=8, step=1)
print(df.columns)  # 获取df对象的 列名, Index(['Name', 'Born', 'Died', 'Age', 'Occupation'], dtype='object')
print(df.values)  # 获取df对象的 列值.

# 2.DataFrame对象的常用函数

In [None]:
print(len(df))  # 8, 行数
df.head()  # 默认获取前5行. 
df.head(n=3)  # 获取前3行 
df.tail()  # 默认获取后5行. 
df.tail(n=2)  # 获取后2行 
df.keys()  # 获取所有的列名, 等价于: df.columns
df.info()  # 查看df对象各列的基本信息.
df.describe()  # 查看df对象的统计信息, 只能看到 数值类型的统计信息. 
df.describe(exclude=['int', 'float'])  # 查看df对象的统计信息, 除了整型, 浮点型外所有的统计信息. 
df.describe(include='all')  # 查看df对象的统计信息, 所有类型都看. 
df.mean()  # 各列的平均值.
df.max()  # 各列的最大值.
df.count()  # 统计各列的 非空值.

# 3. DataFrame对象的布尔索引操作

In [None]:
# 需求: 查找 movie.csv文件中, 电影时长 > 平均时长的 电影信息.
# 1. 读取数据源文件, 获取 df对象
movie_df = pd.read_csv('data/movie.csv')
movie_df.head()

In [None]:
# 2. 获取符合条件的数据, 即: 电影时长 > 平均时长的. 
movie_df[movie_df.duration > movie_df.duration.mean()]

In [None]:
# 3. df对象, 也支持 手动传参的方式, 直接传入布尔值.
movie_df.head()[[True, False, True, True, False]]

# 4.DataFrame对象的计算

In [None]:
# 1. DataFrame对象和数值运算, 就是把该数值作用到 每个DataFrame身上. 
df * 2

In [None]:
# 2. df 和 df运算, 则对应元素直接运算即可.
df + df

In [None]:
# 3. df 和 df运算, 如果索引不匹配, 则用NaN填充, 索引匹配的直接计算
df + df[:4]

# 5. 更改Series和DataFrame对象的 行索引, 列名

## 5.1 读取文件后, 设置行索引

In [None]:
# 1. 读取数据源文件, 获取 df对象
movie = pd.read_csv('data/movie.csv')
movie.head()

In [None]:
# 2. 设置 movie_tiltle(电影名) 为 行索引
# 在Pandas中, 90%以上的函数, 都是在源数据拷贝一份进行修改, 并返回副本. 而这类函数都有一个特点, 即: 有 inplace参数. 
# 默认 inplace=False, 即: 返回副本, 不修改源数据.   如果inplace=True, 则是直接修改 源数据.
# new_movie = movie.set_index('movie_title')
# new_movie.head()

movie.set_index('movie_title', inplace=True)

In [None]:
# 3. 查看设置后的 movie这个df对象.
movie.head()

## 5.2 读取文件时, 设置行索引

In [None]:
# 1. 读取数据源文件, 获取 df对象, 指定 电影名为 行索引
movie2 = pd.read_csv('data/movie.csv', index_col='movie_title')
movie2.head()

## 5.3 取消设置的行索引, 归为: 系统自动提供的 0 ~ n

In [None]:
movie2.reset_index(inplace=True)  # 取消设置的 行索引
movie2.head()

# 5.4 修改DataFrame对象的 行索引 和 列名

In [None]:
# 1. 读取数据源文件, 获取 df对象, 指定 电影名为 行索引
movie = pd.read_csv('data/movie.csv', index_col='movie_title')
movie.head()

### 5.4.1 思路1: rename()函数直接修改

In [None]:
# 2. 获取 前5个列名, 方便稍后修改.
# ['Avatar', 'Pirates of the Caribbean: At World's End', 'Spectre', 'The Dark Knight Rises', 'Star Wars: Episode VII - The Force Awakens']
movie.index[:5]

# 3. 获取 前5个行索引值, 方便稍后修改.
movie.columns[:5]  # ['color', 'director_name', 'num_critic_for_reviews', 'duration', 'director_facebook_likes']

# 4. 具体的修改 列名 和 行索引的动作.
idx_name = {'Avatar': '阿凡达', "Pirates of the Caribbean: At World's End": '加勒比海盗: 直到世界尽头'}
col_name = {'color': '颜色', 'director_name': '导演名'}

movie.rename(index=idx_name, columns=col_name, inplace=True)

# 5. 查看修改后的数据
movie.head()

### 5.4.2 思路2: 将 index 和 column属性提取出来, 修改之后, 再放回去. 

In [None]:
# 1. 从 df中获取 行索引 和 列名的信息, 并转成列表.
idx_list = movie.index.tolist()  # 行索引信息, ['Avatar', "Pirates of the Caribbean: At World's End", 'Spectre', ...]       
col_list = movie.columns.tolist()  # 列名, ['color', 'director_name', 'num_critic_for_reviews', ...]

# 2. 修改上述的 列表(即: 行索引, 列名)信息.
idx_list[0] = '阿凡达'
idx_list[2] = '007幽灵'

col_list[0] = '颜色'
col_list[1] = '导演名'

# 3. 把上述修改后的内容, 当做新的 行索引 和 列名. 
movie.index = idx_list
movie.columns = col_list

# 4. 查看结果.
movie.head()

# 5.5 添加, 删除, 插入列 

In [None]:
# 1. 添加列, 格式为: df['列名'] = 列值
# 新增1列, has_seen = 0, 表示是否看过这个电影. 0: 没看过, 1:看过
movie['has_seen'] = 0

# 新增1列, 总点赞量 = 导演 + 演员的 脸书点赞量
movie['director_actor_facebook_likes'] = movie['director_facebook_likes'] + movie['actor_3_facebook_likes'] + movie[
    'actor_2_facebook_likes'] + movie['actor_1_facebook_likes']

# 2. 查看结果.
movie.head()

In [None]:
# 需求: 删除 has_seen 列的内容.
# movie.drop('has_seen')      # 报错, 因为没有指定删除方式, 按行删除, 还是按列删.
# movie.drop('has_seen', axis='columns')

# movie.drop('director_actor_facebook_likes', axis=1)     # 0: rows, 行,  1: columns:列

# movie.drop('Avatar', axis='rows')
movie.drop('Avatar', axis=0)

In [None]:
# 需求: 插入列, 在索引1的位置插入 profit 列, 它的值 = gross - budget, 即: 总盈利 = 总收入 - 总预算.
# insert()函数 不是返回副本, 而是在 源数据上直接修改. 
movie.insert(loc=1, column='profit', value=movie['gross'] - movie.budget)
movie.head()

# 6. 导入和导出数据

## 6.1 导出数据

In [111]:
# 需求: 导出数据到 /root/output/...
# 细节: 要导出到的目的地目录, 必须存在, 即:  output目录必须存在.
# 格式:  df.to_后缀名(路径)
# 1. 准备原始df对象.
df = pd.read_csv('data/scientists.csv')
df

Unnamed: 0,Name,Born,Died,Age,Occupation
0,Rosaline Franklin,1920-07-25,1958-04-16,37,Chemist
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
4,Rachel Carson,1907-05-27,1964-04-14,56,Biologist
5,John Snow,1813-03-15,1858-06-16,45,Physician
6,Alan Turing,1912-06-23,1954-06-07,41,Computer Scientist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [117]:
# 2. 对上述的df做操作, 模拟: 实际开发中, 对df对象做处理. 
# 需求: 筛选出 年龄 大于 平均年龄的数据.
new_df = df[df.Age > df.Age.mean()]
new_df 

Unnamed: 0,Name,Born,Died,Age,Occupation
1,William Gosset,1876-06-13,1937-10-16,61,Statistician
2,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
3,Marie Curie,1867-11-07,1934-07-04,66,Chemist
7,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician


In [122]:
# 3. 把上述的df对象, 写出到目的地中. 
# pickle: 比较适合 存储中间的df数据, 即: 后续要频繁使用的df对象, 可以存储下来. 
# new_df.to_pickle('output/scientists_pickle.pkl')      # pickle文件的后缀名可以是: .p, .pkl, .pickle

# excel, csv等文件, 适合于: 存储最终结果. 
# 注意: 有三个包需要安装一下, 如果你读写excel文件, 但如果你用的是Anaconda, 已经有了, 无需安装.
# new_df.to_excel('output/scientists.xls')                                 # 会把索引列也当做数据, 写出. 
# new_df.to_excel('output/scientists_noindex.xls', index=False, sheet_name='ai20')   # 不导出索引列, 且设置表名. 

# csv(用逗号隔开), tsv(用\t隔开), 适用于 数据共享, 整合等操作. 
# new_df.to_csv('output/scientists.csv')                        # 会把索引列也当做数据, 写出. 
# new_df.to_csv('output/scientists_noindex.csv', index=False)     # 不导出索引列

# 如果每行数据的 各列值之间用逗号隔开是 csv, 用\t隔开是 tsv
new_df.to_csv('output/scientists_noindex.tsv', index=False, sep='\t')     # 不导出索引列

print('导出成功!')

导出成功!


In [132]:
# 演示导入

# pickle文件
# pd.read_pickle('output/scientists_pickle.pkl') 

# excel文件
# pd.read_excel('output/scientists.xls')              # 多一列
# pd.read_excel('output/scientists_noindex.xls')      # 正常

# csv文件
# pd.read_csv('output/scientists.csv')                  # 多一列
# pd.read_csv('output/scientists_noindex.csv')          # 正常

pd.read_csv('output/scientists_noindex.tsv', sep='\t')  # 正常


Unnamed: 0,Name,Born,Died,Age,Occupation
0,William Gosset,1876-06-13,1937-10-16,61,Statistician
1,Florence Nightingale,1820-05-12,1910-08-13,90,Nurse
2,Marie Curie,1867-11-07,1934-07-04,66,Chemist
3,Johann Gauss,1777-04-30,1855-02-23,77,Mathematician
