# 第1章 Pandas基础

In [1]:
# 导包
import pandas as pd
import numpy as np

#### 查看Pandas版本

In [2]:
pd.__version__

'1.2.4'

## 一、文件读取与写入
### 1. 读取
#### （a）csv格式

In [2]:
df = pd.read_csv('data/students.csv')
df.head()

Unnamed: 0.2,Unnamed: 0,Unnamed: 0.1,序号,姓名,性别,年龄,邮箱,组名
0,0,0,1,贾靖程,女,18,410107304610@qq.com,黑马
1,1,1,2,吴俊岳,男,18,5105963415@qq.com,琼玉
2,2,2,3,王浩羽,男,18,10661018936@qq.com,第一组
3,3,3,4,吕梦丽,女,18,4078518108@qq.com,黑马
4,4,4,5,牛皓冬,男,18,10279694101@qq.com,style


#### （b）txt格式

In [4]:
df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt

Unnamed: 0,col1,col2,col3,col4
0,2,a,1.4,apple
1,3,b,3.4,banana
2,6,c,2.5,orange
3,5,d,3.2,lemon


#### （c）xls或xlsx格式

In [5]:
#需要安装xlrd包
df_excel = pd.read_excel('data/table.xlsx')
df_excel.head()

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
1,S_1,C_1,1102,F,street_2,192,73,32.5,B+
2,S_1,C_1,1103,M,street_2,186,82,87.2,B+
3,S_1,C_1,1104,F,street_2,167,81,80.4,B-
4,S_1,C_1,1105,F,street_4,159,64,84.8,B+


### 2. 写入

#### （a）csv格式

In [6]:
df.to_csv('data/new_table.csv')
#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引

#### （b）xls或xlsx格式

In [7]:
#需要安装openpyxl
df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')

## 二、基本数据结构
### 1. Series
#### （a）创建一个Series

#### 对于一个Series，其中最常用的属性为值（values），索引（index），名字（name），类型（dtype）

In [6]:
s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='Series1',dtype='float64')
s

a    1.537463
b    0.280665
c    1.493251
d   -0.343471
e   -0.108443
Name: Series1, dtype: float64

#### （b）访问Series属性

In [9]:
s.values

array([ 0.83787452, -2.2331825 ,  0.01737016, -1.77662522,  1.33546943])

In [7]:
s.name

'Series1'

In [11]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [12]:
s.dtype

dtype('float64')

#### （c）取出某一个元素
#### 将在第2章详细讨论索引的应用，这里先大致了解

In [13]:
s['a']
s[0:9]

0.837874516241799

#### （d）调用方法

In [14]:
s.mean() # 平均值

-0.3638187233888834

In [8]:
dir(s)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_REVERSED',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__array_wrap__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__float__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__int__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__long__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pos__',
 '__pow__',
 '__radd__',
 '__rand__',
 '__r

#### Series有相当多的方法可以调用：

In [15]:
print([attr for attr in dir(s) if not attr.startswith('_')])

['T', 'a', 'abs', 'add', 'add_prefix', 'add_suffix', 'agg', 'aggregate', 'align', 'all', 'any', 'append', 'apply', 'argmax', 'argmin', 'argsort', 'array', 'asfreq', 'asof', 'astype', 'at', 'at_time', 'attrs', 'autocorr', 'axes', 'b', 'backfill', 'between', 'between_time', 'bfill', 'bool', 'c', 'clip', 'combine', 'combine_first', 'compare', 'convert_dtypes', 'copy', 'corr', 'count', 'cov', 'cummax', 'cummin', 'cumprod', 'cumsum', 'd', 'describe', 'diff', 'div', 'divide', 'divmod', 'dot', 'drop', 'drop_duplicates', 'droplevel', 'dropna', 'dtype', 'dtypes', 'duplicated', 'e', 'empty', 'eq', 'equals', 'ewm', 'expanding', 'explode', 'factorize', 'ffill', 'fillna', 'filter', 'first', 'first_valid_index', 'flags', 'floordiv', 'ge', 'get', 'groupby', 'gt', 'hasnans', 'head', 'hist', 'iat', 'idxmax', 'idxmin', 'iloc', 'index', 'infer_objects', 'interpolate', 'is_monotonic', 'is_monotonic_decreasing', 'is_monotonic_increasing', 'is_unique', 'isin', 'isna', 'isnull', 'item', 'items', 'iteritems',

### 2. DataFrame
#### （a）创建一个DataFrame

In [25]:
dic = {'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]}
df = pd.DataFrame(dic,index=list('一二三四五'))
df

Unnamed: 0,col1,col2,col3
一,a,5,1.3
二,b,6,2.5
三,c,7,3.6
四,d,8,4.6
五,e,9,5.8


#### （b）从DataFrame取出一列为Series

In [17]:
df['col1']

一    a
二    b
三    c
四    d
五    e
Name: col1, dtype: object

In [18]:
type(df)

pandas.core.frame.DataFrame

In [19]:
type(df['col1'])

pandas.core.series.Series

#### （c）修改行或列名

In [20]:
df.rename(index={'一':'one'},columns={'col1':'new_col1'})

Unnamed: 0,new_col1,col2,col3
one,a,5,1.3
二,b,6,2.5
三,c,7,3.6
四,d,8,4.6
五,e,9,5.8


#### （d）调用属性和方法

In [21]:
df.index

Index(['一', '二', '三', '四', '五'], dtype='object')

In [22]:
df.columns

Index(['col1', 'col2', 'col3'], dtype='object')

In [23]:
df.values

array([['a', 5, 1.3],
       ['b', 6, 2.5],
       ['c', 7, 3.6],
       ['d', 8, 4.6],
       ['e', 9, 5.8]], dtype=object)

In [24]:
df.shape

(5, 3)

In [25]:
df.mean()  # 求平均值

col2    7.00
col3    3.56
dtype: float64

#### （e）索引对齐特性
#### 这是Pandas中非常强大的特性，简单理解就是“索引相同的元素进行操作”

In [11]:
# 索引相同的元素进行操作
df1 = pd.DataFrame({"A":[1,2,3]},index=[1,2,3])
df2 = pd.DataFrame({"A":[4,5,6]},index=[1,2,3])
print(df1-df2)

df3 = pd.DataFrame({"A":[4,5,6]},index=[3,2,1])
df3-df1


   A
1 -3
2 -3
3 -3


Unnamed: 0,A
1,5
2,3
3,1


#### （f）列的删除与添加
#### 对于删除而言，可以使用drop函数或del或pop

In [15]:
df

Unnamed: 0,col1,col2,col3
一,a,5,1.3
二,b,6,2.5
三,c,7,3.6
四,d,8,4.6
五,e,9,5.8


In [18]:
df.drop(index='五') #删除第五行，设置inplace=True后会直接在原DataFrame中改动

In [19]:
df

Unnamed: 0,col1,col2,col3
一,a,5,1.3
二,b,6,2.5
三,c,7,3.6
四,d,8,4.6


In [20]:
df.drop(columns='col1') # 删除第1列

Unnamed: 0,col2,col3
一,5,1.3
二,6,2.5
三,7,3.6
四,8,4.6


In [23]:
df.drop(index='一',columns='col2')  # 删除第一行和第2列

Unnamed: 0,col1,col3
二,b,2.5
三,c,3.6
四,d,4.6


In [26]:
df['col1']=[1,2,3,4,5]
del df['col1']
df

Unnamed: 0,col2,col3
一,5,1.3
二,6,2.5
三,7,3.6
四,8,4.6
五,9,5.8


In [28]:
a = 1
print(a)
del a
print(a)

1


NameError: name 'a' is not defined

#### pop方法直接在原来的DataFrame上操作，且返回被删除的列，与python中的pop函数类似

In [32]:
df['col1']=[2,3,4,5,6]
df.pop('col1')

一    2
二    3
三    4
四    5
五    6
Name: col1, dtype: int64

In [33]:
df

Unnamed: 0,col2,col3
一,5,1.3
二,6,2.5
三,7,3.6
四,8,4.6
五,9,5.8


In [3]:
df1=pd.DataFrame([1,2,3], columns=['A'],index=[1,2,3])
df1

Unnamed: 0,A
1,1
2,2
3,3


#### 可以直接增加新的列，也可以使用assign方法

In [2]:
df1['B']=list('abc')
df1


NameError: name 'df1' is not defined

In [1]:
import pandas as pd
new_c = pd.Series(list('def'))
print(new_c)
# assign:分配，指派
df1.assign(C=new_c)
#思考：为什么会出现NaN？

0    d
1    e
2    f
dtype: object


NameError: name 'df1' is not defined

In [28]:
# df3 = pd.DataFrame({"a":[1,2,3]},index=[0,1,2])
df3 = pd.DataFrame({"A":[1,2,3]},index=[1,2,3])
df3

Unnamed: 0,A
1,1
2,2
3,3


In [29]:
df3.assign(B=pd.Series(list('abc')))  # a的索引是0，b的索引是1，c的索引是2

Unnamed: 0,A,B
1,1,b
2,2,c
3,3,


#### 但assign方法不会对原DataFrame做修改

In [39]:
df1

Unnamed: 0,A,B
1,1,a
2,2,b
3,3,c


#### （g）根据类型选择列

In [40]:
df

Unnamed: 0,col2,col3
一,5,1.3
二,6,2.5
三,7,3.6
四,8,4.6
五,9,5.8


In [41]:
df.select_dtypes(include=['number']).head()

Unnamed: 0,col2,col3
一,5,1.3
二,6,2.5
三,7,3.6
四,8,4.6
五,9,5.8


In [1]:
df.select_dtypes(include=['float']).head()

NameError: name 'df' is not defined

In [43]:
df.select_dtypes(include=['int'])
df.select_dtypes(include=['int']).head()

Unnamed: 0,col2
一,5
二,6
三,7
四,8
五,9


#### （h）将Series转换为DataFrame

In [31]:
s = df.mean()
s.name='A'
s

col2    7.00
col3    3.56
Name: A, dtype: float64

In [32]:
s.to_frame()  # 转为DataFrame

Unnamed: 0,A
col2,7.0
col3,3.56


#### 使用T符号可以转置

In [46]:
s.to_frame().T

Unnamed: 0,col2,col3
to_DataFrame,7.0,3.56


## 三、常用基本函数

In [33]:
df = pd.read_csv('data/table.csv')
df

Unnamed: 0,学校,班级,编号,性别,地址,身高,体重,数学成绩,物理成绩
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
1,S_1,C_1,1102,F,street_2,192,73,32.5,B+
2,S_1,C_1,1103,M,street_2,186,82,87.2,B+
3,S_1,C_1,1104,F,street_2,167,81,80.4,B-
4,S_1,C_1,1105,F,street_4,159,64,84.8,B+
5,S_1,C_2,1201,M,street_5,188,68,97.0,A-
6,S_1,C_2,1202,F,street_4,176,94,63.5,B-
7,S_1,C_2,1203,M,street_6,160,53,58.8,A+
8,S_1,C_2,1204,F,street_5,162,63,33.8,B
9,S_1,C_2,1205,F,street_6,167,63,68.4,B-


### 1. head和tail

In [48]:
df.head()  # 默认获取前5条数据
df.head(8)  # 前8条数据

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
1,S_1,C_1,1102,F,street_2,192,73,32.5,B+
2,S_1,C_1,1103,M,street_2,186,82,87.2,B+
3,S_1,C_1,1104,F,street_2,167,81,80.4,B-
4,S_1,C_1,1105,F,street_4,159,64,84.8,B+
5,S_1,C_2,1201,M,street_5,188,68,97.0,A-
6,S_1,C_2,1202,F,street_4,176,94,63.5,B-
7,S_1,C_2,1203,M,street_6,160,53,58.8,A+


In [49]:
df.tail()  # 后5条数据
df.tail(8)  # 后8条数据

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
27,S_2,C_3,2303,F,street_7,190,99,65.9,C
28,S_2,C_3,2304,F,street_6,164,81,95.5,A-
29,S_2,C_3,2305,M,street_4,187,73,48.9,B
30,S_2,C_4,2401,F,,192,62,45.3,A
31,S_2,C_4,2402,M,street_7,166,82,48.7,B
32,S_2,C_4,2403,F,street_6,158,60,59.7,B+
33,S_2,C_4,2404,F,street_2,160,84,97.0,B
34,S_2,C_4,2405,F,,193,54,-47.6,B


#### 可以指定n参数显示多少行

In [50]:
df

Unnamed: 0,School,Class,ID,Gender,Address,Height,Weight,Math,Physics
0,S_1,C_1,1101,M,street_1,173,63,34.0,A+
1,S_1,C_1,1102,F,street_2,192,73,32.5,B+
2,S_1,C_1,1103,M,street_2,186,82,87.2,B+
3,S_1,C_1,1104,F,street_2,167,81,80.4,B-
4,S_1,C_1,1105,F,street_4,159,64,84.8,B+
5,S_1,C_2,1201,M,street_5,188,68,97.0,A-
6,S_1,C_2,1202,F,street_4,176,94,63.5,B-
7,S_1,C_2,1203,M,street_6,160,53,58.8,A+
8,S_1,C_2,1204,F,street_5,162,63,33.8,B
9,S_1,C_2,1205,F,street_6,167,63,68.4,B-
