# 第1章 Pandas基础

In [5]:
# 导包
import pandas as pd
import numpy as np

#### 查看Pandas版本

In [6]:
pd.__version__

'1.4.4'

## 一、文件读取与写入
### 1. 读取
#### （a）csv格式

In [7]:
df = pd.read_csv('data/students.csv')
df.head()

Unnamed: 0,学号,姓名,性别,年龄,邮箱,组名
0,0,崔昊元,女,18,258431067@qq.com,萝卜
1,1,贾靖程,女,18,067538124@qq.com,黑马
2,2,吴俊岳,男,18,748106352@qq.com,萝卜
3,3,王浩羽,男,18,806357142@qq.com,叶原枫
4,4,吕梦丽,女,18,508467231@qq.com,黑马


#### （b）txt格式

In [8]:
df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt

FileNotFoundError: [Errno 2] No such file or directory: 'data/table.txt'

#### （c）xls或xlsx格式

In [None]:
#需要安装xlrd包
# df_excel = pd.read_excel('data/table.xlsx')
# df_excel.head()

### 2. 写入

#### （a）csv格式

In [None]:
df.to_csv('data/new_table.csv')
#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引

#### （b）xls或xlsx格式

In [None]:
#需要安装openpyxl
df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')

## 二、基本数据结构
### 1. Series
#### （a）创建一个Series

#### 对于一个Series，其中最常用的属性为值（values），索引（index），名字（name），类型（dtype）

In [None]:
s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='Series1',dtype='float64')
s

#### （b）访问Series属性

In [None]:
s.values

In [None]:
s.name

In [None]:
s.index

In [None]:
s.dtype

#### （c）取出某一个元素
#### 将在第2章详细讨论索引的应用，这里先大致了解

In [None]:
# s['a']
s[0:9]

#### （d）调用方法

In [None]:
s.mean() # 平均值

In [None]:
dir(s)

#### Series有相当多的方法可以调用：

In [None]:
print([attr for attr in dir(s) if not attr.startswith('_')])

### 2. DataFrame
#### （a）创建一个DataFrame

In [None]:
dic = {'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]}
df = pd.DataFrame(dic,index=list('一二三四五'))
df

#### （b）从DataFrame取出一列为Series

In [None]:
df['col1']

In [None]:
type(df)

In [None]:
type(df['col1'])

#### （c）修改行或列名

In [None]:
df.rename(index={'一':'one'},columns={'col1':'new_col1'})

#### （d）调用属性和方法

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.values

In [None]:
df.shape

In [None]:
df.mean()  # 求平均值

#### （e）索引对齐特性
#### 这是Pandas中非常强大的特性，简单理解就是“索引相同的元素进行操作”

In [None]:
# 索引相同的元素进行操作
df1 = pd.DataFrame({"A":[1,2,3]},index=[1,2,3])
df2 = pd.DataFrame({"A":[4,5,6]},index=[1,2,3])
print(df1-df2)

df3 = pd.DataFrame({"A":[4,5,6]},index=[3,2,1])
df3-df1


#### （f）列的删除与添加
#### 对于删除而言，可以使用drop函数或del或pop

In [None]:
df

In [None]:
df.drop(index='五') #删除第五行，设置inplace=True后会直接在原DataFrame中改动

In [None]:
df

In [None]:
df.drop(columns='col1') # 删除第1列

In [None]:
df.drop(index='一',columns='col2')  # 删除第一行和第2列

In [None]:
df['col1']=[1,2,3,4,5]
del df['col1']
df

In [None]:
a = 1
print(a)
del a
# print(a)

#### pop方法直接在原来的DataFrame上操作，且返回被删除的列，与python中的pop函数类似

In [None]:
df['col1']=[2,3,4,5,6]
df.pop('col1')

In [None]:
df

In [None]:
df1=pd.DataFrame([1,2,3], columns=['A'],index=[1,2,3])
df1

#### 可以直接增加新的列，也可以使用assign方法

In [None]:
df1['B']=list('abc')
df1

In [None]:
import pandas as pd
new_c = pd.Series(list('def'))
print(new_c)
# assign:分配，指派
df1.assign(C=new_c)
# 思考：为什么会出现NaN？

In [None]:
# df3 = pd.DataFrame({"a":[1,2,3]},index=[0,1,2])
df3 = pd.DataFrame({"A":[1,2,3]},index=[1,2,3])
df3

In [None]:
df3.assign(B=pd.Series(list('abc')))  # a的索引是0，b的索引是1，c的索引是2

#### （g）根据类型选择列

In [None]:
df

In [None]:
df.select_dtypes(include=['number']).head()

In [None]:
df.select_dtypes(include=['float']).head()

In [None]:
df.select_dtypes(include=['int'])
df.select_dtypes(include=['int']).head()

#### （h）将Series转换为DataFrame

In [None]:
s = pd.Series([1,2,3,4])
s

In [None]:
s2 = s.to_frame()
type(s2)

#### 使用T符号可以转置

In [None]:
s2.T

## 三、常用基本函数

In [None]:
df = pd.read_csv('data/table.csv')
df

### 1. head和tail

In [None]:
df.head()  # 默认获取前5条数据
df.head(8)  # 前8条数据

In [None]:
df.tail()  # 后5条数据
df.tail(8)  # 后8条数据

### 2. unique和nunique

#### nunique显示有多少个唯一值

In [None]:
# nunber of unique   ->   n-unique   ->   nunique
df['物理成绩'].nunique()

#### unique显示所有的唯一值

In [None]:
df['物理成绩'].unique()

### 3. count和value_counts

#### count返回非缺失值元素个数

In [None]:
df['物理成绩'].count()

In [None]:
# 问：count和size的区别？
# 答：count()计算的是value数值（非缺失值），size计算的是个数
import pandas as pd
s1 = pd.Series([1,2,3,4], index=[1,2,3,4])
s2 = pd.Series([1,2,3,4], index=[2,3,4,5])
s3 = s1 + s2
# s3
# 对比以下结果
s3.count(),s3.size


#### value_counts返回每个元素有多少个

In [None]:
df['物理成绩'].value_counts()

### 4. info和describe

#### info函数返回有哪些列、每列的类型、有多少非缺失值

In [None]:
df.info()

#### describe默认统计数值型数据的各个统计量

In [None]:
df.describe()

In [None]:
s = pd.Series([0,1,2,3,4])
s.to_frame().describe()

#### 可以自行选择分位数

In [None]:
# 查看个数、平均值、样本标准差、最小值、
df.describe(percentiles=[.05, .25, .75, .95])

#### 对于非数值型也可以用describe函数

In [None]:
# 查看物理成绩的总个数（非空）、去重后的个数、什么等级的人最多、有多少个
# freq - frequency
df['物理成绩'].describe()


### 5. idxmax和nlargest
#### idxmax函数返回最大值所在索引，在某些情况下特别适用，idxmin功能类似

In [None]:
# 数学成绩最高的人的id是多少？
df['数学成绩'].idxmax()

#### nlargest函数返回前几个大的元素值，nsmallest功能类似

In [None]:
# 查看数学成绩最高的三个人
df['数学成绩'].nlargest(3)  # 取前三个最大的值，以及它们的索引

### 6. clip和replace

#### clip和replace是两类替换函数
#### clip是对超过或者低于某些值的数进行截断

In [None]:
df['数学成绩'].head(10)

In [None]:
# 如果成绩小于33则设为33，大于70则设为70
# clip：剪去;修剪
df['数学成绩'].head(10).clip(33,70)

#### replace是对某些值进行替换

In [None]:
df['地址'].head()

In [None]:
# 单独更换
df['地址'].replace('street_1','one').head()
# 多个一起更换
df['地址'].replace(['street_1','street_2'],['one','two']).head()
# 也可以直接在表中更换，但此种方式（没有指定列）不如下面的使用字典方式更合适
df.replace(['street_1','street_2'],['one','two']).head()
# 使用字典格式直接在表中更换
df.replace({'地址':{'street_1':'one','street_2':'two'}}).head()

### 7. apply函数
#### apply是一个自由度很高的函数，后续还要提到
#### 对于Series，它可以迭代每一列的值操作：

In [None]:
# 将所有数学成绩变成字符串，在加上感叹号
df['数学成绩'].apply(lambda x:str(x)+'!').head() # 可以使用lambda表达式，也可以使用函数

#### 对于DataFrame，它在默认axis=0下可以迭代每一个列操作：

In [None]:
df.apply(lambda x:x.apply(lambda y:str(y)+'!')).head()

## 四、排序

### 1. 索引排序

In [None]:
# 将数学成绩这一列设置为索引
df.set_index('数学成绩') #set_index函数可以设置索引，将在下一章详细介绍

In [None]:
# 对数学成绩排序，默认升序排序，ascending=False为降序
df.set_index('数学成绩').sort_index().head(10)

In [None]:
# 降序排序
df.set_index('数学成绩').sort_index(ascending=False).head(10)

### 2. 值排序

In [None]:
# 在不更改索引的情况下，按照数学成绩升序排序
df.sort_values(by='数学成绩').head(10)

In [None]:
df

#### 多个值排序，即先对第一层排，在第一层相同的情况下对第二层排序

In [None]:
# df.sort_values(by=['Height'])
df.sort_values(by=['Address','Height']).head(10)

#### 【练习一】 现有一份关于美剧《权力的游戏》剧本的数据集，请解决以下问题：
#### （a）在所有的数据中，一共出现了多少人物？
#### （b）以单元格计数（即简单把一个单元格视作一句），谁说了最多的话？
#### （c）以单词计数，谁说了最多的单词？（不是单句单词最多，是指每人说过单词的总数最多，为了简便，只以空格为单词分界点，不考虑其他情况）

In [None]:
df = pd.read_csv('data/Game_of_Thrones_Script.csv')
df.head()

In [None]:
df['Name'].nunique()

In [None]:
# （b）谁说的话最多？
# df['Name'].value_counts()
df['Name'].value_counts().index[0]