## Pandas简介

In [13]:
'''
Pandas是Python用于数据处理和数据分析的第三方库，它擅长于处理数字型数据、时间序列数据、文本型数据
Pandas适合处理一个归正的一维和二维数据，类似于SQL执行后的产出，或者无合并单元格的excel表格这样的数据。
它可以将多个文件合并在一起，即使文件结构不一样，也能通过处理进行合并

'''
# Pandas是基于numpy数组构建的，但二者最大的不同是
# pandas是专门为处理表格和混杂数据设计的，比较契合统计分析中的表结构，
# 而numpy更适合处理统一的数值数组数据。
# pandas数组结构有一维Series和二维DataFrame。

'\nPandas是Python用于数据处理和数据分析的第三方库，它擅长于处理数字型数据、时间序列数据、文本型数据\nPandas适合处理一个归正的一维和二维数据，类似于SQL执行后的产出，或者无合并单元格的excel表格这样的数据。\n它可以将多个文件合并在一起，即使文件结构不一样，也能通过处理进行合并\n\n'

In [14]:
# Numpy有以下限制，Pandas再次基础上做了功能扩展

# 不支持列名。
# 所有元素的数据类型必须相同。
# 没有用于常见分析任务的预构建方法。
# Pandas可以轻松处理大量数据!

## Pandas的强大之处

In [15]:
# 直接用Python基础语言读、写csv文件
import csv

def read_csv(file_name, mode='r', encoding='UTF-8', newline='', quotechar='"', dialect='excel'):
    """ 读取逗号分隔文本文件, 返回rows = [[row1], [row2], [row3], [row4], ...]"""
    rows = []
    if encoding is not None:
        csv_file = open(file_name, mode=mode, newline=newline, encoding=encoding)
        csvreader = csv.reader(csv_file, dialect=dialect, quotechar=quotechar)
        rows = [row for row in csvreader]
        csv_file.close()
    else:
        for encoding in ['UTF-8', 'UTF-8-sig', 'default', 'GB2312']:
            if encoding == 'default':
                csv_file = open(file_name, mode=mode, newline=newline)
            else:
                csv_file = open(file_name, mode=mode, newline=newline, encoding=encoding)
            try:
                csvreader = csv.reader(csv_file, dialect=dialect, quotechar=quotechar)
                rows = [row for row in csvreader]
                csv_file.close()
                logger.info(f'csv file encoding: {encoding}')
                break
            except UnicodeDecodeError:
                continue
    return rows

def write_csv(rows, file_name, mode='a', encoding='UTF-8'):
    """写入逗号分隔文本文件,输入rows为二维数组"""
    with open(file_name, mode=mode, encoding=encoding, newline='') as csvfile:
        csvwriter = csv.writer(csvfile, dialect='excel', quotechar='"')
        for row in rows:
            csvwriter.writerow(row)
            
read_csv('GDP-China.csv')

[['年份', '国民总收入', '国内生产总值', '第一产业增加值', '第二产业增加值', '第三产业增加值', '人均国内生产总值'],
 ['2018', '896915.6', '900309.5', '64734', '366000.9', '469574.6', '64644'],
 ['2017', '820099.5', '820754.3', '62099.5', '332742.7', '425912.1', '59201'],
 ['2016', '737074', '740060.8', '60139.2', '296547.7', '383373.9', '53680'],
 ['2015', '683390.5', '685992.9', '57774.6', '282040.3', '346178', '50028'],
 ['2014', '642097.6', '641280.6', '55626.3', '277571.8', '308082.5', '47005'],
 ['2013', '588141.2', '592963.2', '53028.1', '261956.1', '277979.1', '43684'],
 ['2012', '537329', '538580', '49084.5', '244643.3', '244852.2', '39874'],
 ['2011', '483392.8', '487940.2', '44781.4', '227038.8', '216120', '36302'],
 ['2010', '410354.1', '412119.3', '38430.8', '191629.8', '182058.6', '30808'],
 ['2009', '347934.9', '348517.7', '33583.8', '160171.7', '154762.2', '26180'],
 ['2008', '321229.5', '319244.6', '32464.1', '149956.6', '136823.9', '24100'],
 ['2007', '270704', '270092.3', '27674.1', '126633.6', '115784.6', '20

In [16]:
# pandas方法
import pandas as pd
pd.read_csv('GDP-China.csv')

Unnamed: 0,年份,国民总收入,国内生产总值,第一产业增加值,第二产业增加值,第三产业增加值,人均国内生产总值
0,2018,896915.6,900309.5,64734.0,366000.9,469574.6,64644
1,2017,820099.5,820754.3,62099.5,332742.7,425912.1,59201
2,2016,737074.0,740060.8,60139.2,296547.7,383373.9,53680
3,2015,683390.5,685992.9,57774.6,282040.3,346178.0,50028
4,2014,642097.6,641280.6,55626.3,277571.8,308082.5,47005
...,...,...,...,...,...,...,...
62,1956,1030.7,1030.7,443.9,280.4,306.4,166
63,1955,911.6,911.6,421.0,221.5,269.1,150
64,1954,859.8,859.8,392.0,210.8,257.0,144
65,1953,824.4,824.4,378.0,191.6,254.8,142


In [17]:
import numpy as np
import pandas as pd
import os

## Pandas文件数据的读取与导出

### 创建s/df

In [18]:
# series
import pandas as pd
s1 = pd.Series(['a','b'])
s2 = pd.Series(['c','d'])

# 数组array->Series
array = ['a','b']
s1 = pd.Series(array, index = [1,2])
s1

1    a
2    b
dtype: object

In [19]:
# dataframe
df = pd.DataFrame({'A': [1, 2, 3],    # A列
                   'B': [4, 5, 6]},   # B列
                  index=['x', 'y', 'z']  # 行索引
                 )

# 数组array->DataFrame
df = pd.DataFrame(np.arange(12).reshape(3,4),
                 columns=['A','B','C','D'])
array = np.arange(12).reshape(3,4)
df = pd.DataFrame(array, columns=['A','B','C','D'])
df

# 字典dict->DataFrame
my_dirt = {'A': [1, 2, 3],
          'B': [4, 5, 6]}
df = pd.DataFrame(my_dirt, 
                 index = ['x', 'y', 'z'])
df

Unnamed: 0,A,B
x,1,4
y,2,5
z,3,6


### csv文件

In [20]:
data = 'GDP-China.csv'
pd.read_csv(data)
# 或者
pd.read_csv('GDP-China.csv')

Unnamed: 0,年份,国民总收入,国内生产总值,第一产业增加值,第二产业增加值,第三产业增加值,人均国内生产总值
0,2018,896915.6,900309.5,64734.0,366000.9,469574.6,64644
1,2017,820099.5,820754.3,62099.5,332742.7,425912.1,59201
2,2016,737074.0,740060.8,60139.2,296547.7,383373.9,53680
3,2015,683390.5,685992.9,57774.6,282040.3,346178.0,50028
4,2014,642097.6,641280.6,55626.3,277571.8,308082.5,47005
...,...,...,...,...,...,...,...
62,1956,1030.7,1030.7,443.9,280.4,306.4,166
63,1955,911.6,911.6,421.0,221.5,269.1,150
64,1954,859.8,859.8,392.0,210.8,257.0,144
65,1953,824.4,824.4,378.0,191.6,254.8,142


In [21]:
# 查看当前文档所在目录
print(os.path.abspath('.')) 
# 使用绝对路径进行文件的读取
pd.read_csv('D:\Ipython\PythonLibDoc\Pandas\GDP-China.csv')

D:\Ipython\PythonLibDoc\Pandas


Unnamed: 0,年份,国民总收入,国内生产总值,第一产业增加值,第二产业增加值,第三产业增加值,人均国内生产总值
0,2018,896915.6,900309.5,64734.0,366000.9,469574.6,64644
1,2017,820099.5,820754.3,62099.5,332742.7,425912.1,59201
2,2016,737074.0,740060.8,60139.2,296547.7,383373.9,53680
3,2015,683390.5,685992.9,57774.6,282040.3,346178.0,50028
4,2014,642097.6,641280.6,55626.3,277571.8,308082.5,47005
...,...,...,...,...,...,...,...
62,1956,1030.7,1030.7,443.9,280.4,306.4,166
63,1955,911.6,911.6,421.0,221.5,269.1,150
64,1954,859.8,859.8,392.0,210.8,257.0,144
65,1953,824.4,824.4,378.0,191.6,254.8,142


In [22]:
# 指定分隔符号
data = 'GDP-China.csv'
pd.read_csv(data, sep= '\t') # 使用制表符进行分隔
# 或者使用read_table，默认制表符是tab
pd.read_table(data)

Unnamed: 0,"年份,国民总收入,国内生产总值,第一产业增加值,第二产业增加值,第三产业增加值,人均国内生产总值"
0,"2018,896915.6,900309.5,64734,366000.9,469574.6..."
1,"2017,820099.5,820754.3,62099.5,332742.7,425912..."
2,"2016,737074,740060.8,60139.2,296547.7,383373.9..."
3,"2015,683390.5,685992.9,57774.6,282040.3,346178..."
4,"2014,642097.6,641280.6,55626.3,277571.8,308082..."
...,...
62,"1956,1030.7,1030.7,443.9,280.4,306.4,166"
63,"1955,911.6,911.6,421,221.5,269.1,150"
64,"1954,859.8,859.8,392,210.8,257,144"
65,"1953,824.4,824.4,378,191.6,254.8,142"


In [23]:
# 指定列，指定索引，指定名称， 调整列的顺序

pd.read_csv(data, header=None) # 默认不带Header参数，如将header参数设置为None，表示删除表头

pd.read_csv(data, names=['年份', '国民总收入']) # 指定列名，列表

pd.read_csv(data, usecols=['年份', '国民总收入']) # 只读取指定列，其实就是筛选功能

pd.read_csv(data, usecols=['年份', '国民总收入'])[ ['国民总收入', '年份'] ]#  调整列的顺序

Unnamed: 0,国民总收入,年份
0,896915.6,2018
1,820099.5,2017
2,737074.0,2016
3,683390.5,2015
4,642097.6,2014
...,...,...
62,1030.7,1956
63,911.6,1955
64,859.8,1954
65,824.4,1953


In [24]:
# 指定数据类型
pd.read_csv(data, dtype=np.float64) # 所有数据均改为float64数据类型
# pd.read_csv(data, dtype={'国民总收入':np.float64, '国内生产总值':np.float64}) # 指定列，设置数据类型

Unnamed: 0,年份,国民总收入,国内生产总值,第一产业增加值,第二产业增加值,第三产业增加值,人均国内生产总值
0,2018.0,896915.6,900309.5,64734.0,366000.9,469574.6,64644.0
1,2017.0,820099.5,820754.3,62099.5,332742.7,425912.1,59201.0
2,2016.0,737074.0,740060.8,60139.2,296547.7,383373.9,53680.0
3,2015.0,683390.5,685992.9,57774.6,282040.3,346178.0,50028.0
4,2014.0,642097.6,641280.6,55626.3,277571.8,308082.5,47005.0
...,...,...,...,...,...,...,...
62,1956.0,1030.7,1030.7,443.9,280.4,306.4,166.0
63,1955.0,911.6,911.6,421.0,221.5,269.1,150.0
64,1954.0,859.8,859.8,392.0,210.8,257.0,144.0
65,1953.0,824.4,824.4,378.0,191.6,254.8,142.0


In [25]:
# 导出文件
# df.to_csv('new.csv') 
df.to_csv('new.csv, index = False')  # 删除索引，第一列不会出现 0，1，2，3等等索引列

### xlsx文件

In [28]:
# 读取文件
pd.read_excel('team.xlsx', sheet_name= 'Sheet1') # 指定sheet
pd.read_excel(r'D:\Ipython\PythonLibDoc\Pandas\team.xlsx', sheet_name= 'Sheet1')# 如果读取window系统的文件,需要加r
pd.read_excel('team.xlsx', sheet_name = ['Sheet1', 'Sheet2']) # 读取多个sheet

{'Sheet1':         name team  Q1  Q2  Q3  Q4
 0      Liver    E  89  21  24  64
 1       Arry    C  36  37  37  57
 2        Ack    A  57  60  18  84
 3      Eorge    C  93  96  71  78
 4        Oah    D  65  49  61  86
 ..       ...  ...  ..  ..  ..  ..
 95   Gabriel    C  48  59  87  74
 96   Austin7    C  21  31  30  43
 97  Lincoln4    C  98  93   1  20
 98       Eli    E  11  74  58  91
 99       Ben    E  21  43  41  74
 
 [100 rows x 6 columns],
 'Sheet2':     name team  Q1  Q2  Q3  Q4
 0  Liver    E  89  21  24  64}

In [29]:
# 导出xlsx
df.to_excel('new.xlsx')

### 数据库文件

In [30]:
# 详见： python处理mysql，Python处理大数据hive数据仓库

### 总结

In [31]:
'''
Pandas一般用于数据清洗， 
Pandas的输出结果常作为Pyechart，sklearn等库的数据源，

但是， Pandas的输出结果为Dataframe或者Series，
Pyechart，sklearn等库所需的数据类型为list，

通过DataFrame-Series-list进行一系列的转换
'''

# 下面我们来看下
# 读取数据
data = 'GDP-China.csv'
df = pd.read_csv(data)
# df 
type(df)  # pandas.core.series.Series

# 获取数据中的有用列
df['年份']
type(df['年份']) # pandas.core.series.Series

# 将array转换成list
year = df['年份'].tolist()
type(year)


# array数组也是一种， 一些情况下，可以将数据转换成array
year = np.array(df['年份'])
type(year)  # numpy.ndarray  数组

numpy.ndarray

##  Pandas和Numpy之间的互相转换

In [32]:
# 1. 将Pandas类型转换为numpy类型，通过.values来转换：
np = pd.values

# 2. 将numpy类型转换为list类型,通过.tolist()方法转换：
list = np.tolist()

AttributeError: module 'pandas' has no attribute 'values'

## Pandas数据信息查看

### 查看数据的列头

In [33]:
data = 'team.xlsx'
df = pd.read_excel(data, sheet_name= 'Sheet1')

df.columns  # 查看列头


Index(['name', 'team', 'Q1', 'Q2', 'Q3', 'Q4'], dtype='object')

### 查看数据样本

In [34]:
data = 'team.xlsx'
df = pd.read_excel(data, sheet_name= 'Sheet1')

# 取部分数据（头、尾、随机）
df.head() # 查看前五条数据
df.head(10) # 查看前10条数据
df.tail() # 查看后五条数据
df.tail(10) # 查看后十条数据
df.sample() # 随机查看一条数据
df.sample(3) # 随机查看三条数据
df.sample(10, ignore_index=True) # 随机查看数据并重置索引


Unnamed: 0,name,team,Q1,Q2,Q3,Q4
0,Kai,B,66,45,13,48
1,Michael,B,89,21,59,92
2,Elijah,B,97,89,15,46
3,Dylan,A,86,87,65,20
4,Leo,B,17,4,33,79
5,Jamie0,B,39,97,84,55
6,Archie,C,83,89,59,68
7,Lfie,A,9,10,99,37
8,Oscar,A,77,9,26,67
9,David,B,21,47,99,2


In [35]:
# 取指定列数据
data = 'team.xlsx'
df = pd.read_excel(data, sheet_name= 'Sheet1')
s = df.Q1
s = df['Q1']
s

0     89
1     36
2     57
3     93
4     65
      ..
95    48
96    21
97    98
98    11
99    21
Name: Q1, Length: 100, dtype: int64

### 查看数据形状

In [36]:
# 查看数据形状
df.shape # dataframe数据形状是（x,y）
s.shape # series数据形状是（x,）

(100,)

In [37]:
# 查看数据维数
df.ndim
s.ndim

1

### 查看基本信息

In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   name    100 non-null    object
 1   team    100 non-null    object
 2   Q1      100 non-null    int64 
 3   Q2      100 non-null    int64 
 4   Q3      100 non-null    int64 
 5   Q4      100 non-null    int64 
dtypes: int64(4), object(2)
memory usage: 4.8+ KB


### 数据类型 

In [39]:
df.dtypes  # dataframe使用dtypes

name    object
team    object
Q1       int64
Q2       int64
Q3       int64
Q4       int64
dtype: object

In [40]:
s.dtype # Series使用dtype

dtype('int64')

### 行列索引内容

In [41]:
df.axes   # 列索引+ 行索引

[RangeIndex(start=0, stop=100, step=1),
 Index(['name', 'team', 'Q1', 'Q2', 'Q3', 'Q4'], dtype='object')]

In [42]:
s.axes # 列索引

[RangeIndex(start=0, stop=100, step=1)]

### 数据转成列表矩阵

In [43]:
df.to_numpy()

array([['Liver', 'E', 89, 21, 24, 64],
       ['Arry', 'C', 36, 37, 37, 57],
       ['Ack', 'A', 57, 60, 18, 84],
       ['Eorge', 'C', 93, 96, 71, 78],
       ['Oah', 'D', 65, 49, 61, 86],
       ['Harlie', 'C', 24, 13, 87, 43],
       ['Acob', 'B', 61, 95, 94, 8],
       ['Lfie', 'A', 9, 10, 99, 37],
       ['Reddie', 'D', 64, 93, 57, 72],
       ['Oscar', 'A', 77, 9, 26, 67],
       ['Leo', 'B', 17, 4, 33, 79],
       ['Logan', 'B', 9, 89, 35, 65],
       ['Archie', 'C', 83, 89, 59, 68],
       ['Theo', 'C', 51, 86, 87, 27],
       ['Thomas', 'B', 80, 48, 56, 41],
       ['James', 'E', 48, 77, 52, 11],
       ['Joshua', 'A', 63, 4, 80, 30],
       ['Henry', 'A', 91, 15, 75, 17],
       ['William', 'C', 80, 68, 3, 26],
       ['Max', 'E', 97, 75, 41, 3],
       ['Lucas', 'A', 60, 41, 77, 62],
       ['Ethan', 'D', 79, 45, 89, 88],
       ['Arthur', 'A', 44, 53, 42, 40],
       ['Mason', 'D', 80, 96, 26, 49],
       ['Isaac', 'E', 74, 23, 28, 65],
       ['Harrison', 'B', 89, 13, 18, 

## Pandas数学统计

In [44]:
# Pandas可以对Series和Dataframe进行快速的描述性统计，比如求和、平均数、最大值、方差等

### 数据概况 

In [45]:
df.describe()
# s.describe()

Unnamed: 0,Q1,Q2,Q3,Q4
count,100.0,100.0,100.0,100.0
mean,49.2,52.55,52.67,52.78
std,29.962603,29.845181,26.543677,27.818524
min,1.0,1.0,1.0,2.0
25%,19.5,26.75,29.5,29.5
50%,51.5,49.5,55.0,53.0
75%,74.25,77.75,76.25,75.25
max,98.0,99.0,99.0,99.0


### 数学统计

In [46]:
df.mean()  # 每列的平均数
df.mean(1).head()  # 每行的平均数
s.mean()

  df.mean()  # 每列的平均数
  df.mean(1).head()  # 每行的平均数


49.2

### 统计函数

In [47]:
'''
Pandas 内置很多数学计算方法：

df.mean() # 返回所有列的均值
df.mean(1) # 返回所有行的均值，下同
df.corr() # 返回列与列之间的相关系数
df.count() # 返回每一列中的非空值的个数
df.max() # 返回每一列的最大值
df.min() # 返回每一列的最小值
df.abs() # 绝对值
df.median() # 返回每一列的中位数
df.std() # 返回每一列的标准差, 贝塞尔校正的样本标准偏差
df.var() # 无偏方差
df.sem() # 平均值的标准误差
df.mode() # 众数
df.prod() # 连乘
df.mad() # 平均绝对偏差
df.cumprod() # 累积连乘,累乘
df.cumsum(axis=0) # 累积连加,累加
df.nunique() # 去重数量，不同值的数量
df.drop_duplicates() # 去重数量，不同值的清单
df.idxmax() # 每列最大的值的索引名
df.idxmin() # 最小
df.cummax() # 累积最大值
df.cummin() # 累积最小值
df.skew() # 样本偏度 (第三阶)
df.kurt() # 样本峰度 (第四阶)
df.quantile() # 样本分位数 (不同 % 的值)
'''

'\nPandas 内置很多数学计算方法：\n\ndf.mean() # 返回所有列的均值\ndf.mean(1) # 返回所有行的均值，下同\ndf.corr() # 返回列与列之间的相关系数\ndf.count() # 返回每一列中的非空值的个数\ndf.max() # 返回每一列的最大值\ndf.min() # 返回每一列的最小值\ndf.abs() # 绝对值\ndf.median() # 返回每一列的中位数\ndf.std() # 返回每一列的标准差, 贝塞尔校正的样本标准偏差\ndf.var() # 无偏方差\ndf.sem() # 平均值的标准误差\ndf.mode() # 众数\ndf.prod() # 连乘\ndf.mad() # 平均绝对偏差\ndf.cumprod() # 累积连乘,累乘\ndf.cumsum(axis=0) # 累积连加,累加\ndf.nunique() # 去重数量，不同值的数量\ndf.drop_duplicates() # 去重数量，不同值的清单\ndf.idxmax() # 每列最大的值的索引名\ndf.idxmin() # 最小\ndf.cummax() # 累积最大值\ndf.cummin() # 累积最小值\ndf.skew() # 样本偏度 (第三阶)\ndf.kurt() # 样本峰度 (第四阶)\ndf.quantile() # 样本分位数 (不同 % 的值)\n'

## Pandas求值计算

In [48]:
# 除了简单的数学统计外，我们往往对数据还需要做非统计性计算，比如去重、格式化等。

In [49]:
# 列的加减乘除
df.eval('Q2Q3 = Q2+Q3')  # 列的加减乘除
df.eval('Q2Q3 = Q2+Q3', inplace= True) # 替换

In [50]:
# 数据指定保留小数位
df.round(2) # 指定保留小数位数
df.round({'Q1':2, 'Q2':2})

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
0,Liver,E,89,21,24,64,45
1,Arry,C,36,37,37,57,74
2,Ack,A,57,60,18,84,78
3,Eorge,C,93,96,71,78,167
4,Oah,D,65,49,61,86,110
...,...,...,...,...,...,...,...
95,Gabriel,C,48,59,87,74,146
96,Austin7,C,21,31,30,43,61
97,Lincoln4,C,98,93,1,20,94
98,Eli,E,11,74,58,91,132


In [51]:
# 去除重复值
df.nunique()
s.unique()

array([89, 36, 57, 93, 65, 24, 61,  9, 64, 77, 17, 83, 51, 80, 48, 63, 91,
       97, 60, 79, 44, 74, 71, 62, 50, 35, 67, 90, 30, 88,  1,  2, 52, 86,
        8, 15, 29, 69, 66, 28, 18, 10, 12, 21,  4,  5, 53,  6, 14, 43, 70,
       38, 87, 78, 73, 75, 92, 34, 85, 13, 96, 16, 59, 39, 20, 98, 11],
      dtype=int64)

In [52]:
# df整体所有元素做加减乘除等计算
'''
df + 1 # 等运算
df.add() # 加
df.sub() # 减
df.mul() # 乘
df.div() # 除
df.divmod() # 返回 (a // b, a % b)
df.truediv() # Divide DataFrames (float division).
df.floordiv() # Divide DataFrames (integer division).
df.mod() # 模，除后的余数
df.pow() # 指数幂
df.dot(df2) # 矩阵运算
'''

'\ndf + 1 # 等运算\ndf.add() # 加\ndf.sub() # 减\ndf.mul() # 乘\ndf.div() # 除\ndf.divmod() # 返回 (a // b, a % b)\ndf.truediv() # Divide DataFrames (float division).\ndf.floordiv() # Divide DataFrames (integer division).\ndf.mod() # 模，除后的余数\ndf.pow() # 指数幂\ndf.dot(df2) # 矩阵运算\n'

## Pandas查询筛选数据

### 数据检查

In [53]:
df.head()
df.tail()
df.sample()

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
22,Arthur,A,44,53,42,40,95


### 操作列

In [69]:
df.head()

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
0,Liver,E,89,21,24,64,45
1,Arry,C,36,37,37,57,74
2,Ack,A,57,60,18,84,78
3,Eorge,C,93,96,71,78,167
4,Oah,D,65,49,61,86,110


In [70]:
df['name']   # 查看指定列，会返回该列的Series
df.name

0        Liver
1         Arry
2          Ack
3        Eorge
4          Oah
        ...   
95     Gabriel
96     Austin7
97    Lincoln4
98         Eli
99         Ben
Name: name, Length: 100, dtype: object

### 选择部分行列

In [71]:
'''
操作	语法	返回结果
选择列	df[col]	Series
按索引选择行	df.loc[label]	Series
按数字索引选择行	df.iloc[loc]	Series
使用切片选择行	df[5:10]	DataFrame
用表达式筛选行	df[bool_vec]	DataFrame
'''

'\n操作\t语法\t返回结果\n选择列\tdf[col]\tSeries\n按索引选择行\tdf.loc[label]\tSeries\n按数字索引选择行\tdf.iloc[loc]\tSeries\n使用切片选择行\tdf[5:10]\tDataFrame\n用表达式筛选行\tdf[bool_vec]\tDataFrame\n'

#### 按列切片

In [72]:
df['name']  # 返回series
df[['name']]  # 返回dataframe
df[['name', 'Q1']] # 返回多列

Unnamed: 0,name,Q1
0,Liver,89
1,Arry,36
2,Ack,57
3,Eorge,93
4,Oah,65
...,...,...
95,Gabriel,48
96,Austin7,21
97,Lincoln4,98
98,Eli,11


#### 按行切片.loc

In [73]:
df[:2]  # 返回前两行的数据
df[0:2]
df[4:10] # 返回4-9行的数据
df[:] # 返回所有数据，一般不这么用
df[0:10:2] # 第0到9行，按步长为2进行读取

s[::-1] # 反转顺序

99    21
98    11
97    98
96    21
95    48
      ..
4     65
3     93
2     57
1     36
0     89
Name: Q1, Length: 100, dtype: int64

In [74]:
# df.loc[<索引表达式>, <列表达式>]
df.loc[[8]] # 索引单行，选择索引为8的行
df.loc[[0,5,10]] # 索引多行，选择索引为0，5，10的行
df.loc[0:5] # 索引连续的多行，选择0，1，2，3，4行
df.loc[np.r_[0:10, 15:20]]  # 索引不连续的多行 0-9， 15-19

# 一行隔一行显示,为真的行显示
df.loc[[False,True]*50]  # 显示1，3，5，7，9.....
df.loc[[True,False]*50]  # 显示0，2，4，6，8....

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
0,Liver,E,89,21,24,64,45
2,Ack,A,57,60,18,84,78
4,Oah,D,65,49,61,86,110
6,Acob,B,61,95,94,8,189
8,Reddie,D,64,93,57,72,150
10,Leo,B,17,4,33,79,37
12,Archie,C,83,89,59,68,148
14,Thomas,B,80,48,56,41,104
16,Joshua,A,63,4,80,30,84
18,William,C,80,68,3,26,71


In [75]:
# 如果索引是name，
# df.loc[['Liver','Arry']]
# df.loc[['Liver': 'Oah']]

#### 按行和列切片.loc

In [76]:
df.loc[:,['Q1','Q2']]   # Q1,Q2列，所有行
df.loc[:,'Q1':'Q4']   # Q1,Q2,Q3,Q4列，所有行
df.loc[0:10,['Q1','Q4']]   # Q1,Q4列，0到10行
df.loc[0:10,'Q1':'Q4']   # Q1,Q2,Q3,Q4列，0到10行

Unnamed: 0,Q1,Q2,Q3,Q4
0,89,21,24,64
1,36,37,37,57
2,57,60,18,84
3,93,96,71,78
4,65,49,61,86
5,24,13,87,43
6,61,95,94,8
7,9,10,99,37
8,64,93,57,72
9,77,9,26,67


In [77]:
df.loc[np.r_[0:10, 15:20]]

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
0,Liver,E,89,21,24,64,45
1,Arry,C,36,37,37,57,74
2,Ack,A,57,60,18,84,78
3,Eorge,C,93,96,71,78,167
4,Oah,D,65,49,61,86,110
5,Harlie,C,24,13,87,43,100
6,Acob,B,61,95,94,8,189
7,Lfie,A,9,10,99,37,109
8,Reddie,D,64,93,57,72,150
9,Oscar,A,77,9,26,67,35


### 取具体某一个值

In [78]:
# .at[<索引>,<列名>]

In [79]:
df.at[4,'Q1']   # 索引为4， Q1列
# df.at['lily','Q1'] # 假设索引为name， 取lily行，Q1列

# .loc和.at联合使用
df.loc[0].at['name']  # 0行，name列

# index, .at联合使用
df.set_index('name').at['Eorge','team']  # 设置name为索引，取（Rorge, team）值
df.set_index('name').team.at['Eorge'] 

# 指定列，根据索引取值
df.team.at[3]  # 指定team列，取索引3

'C'

In [80]:
# .iat
# .iat和iloc一样，只支持数字索引

### 表达式筛选

In [81]:
# [] 切片里使用表达式进行筛选
# 等于
df[df['Q1']==8]  #筛选Q1=8 的行
df[df.Q1==8] #筛选Q1=8 的行

#不等于
df[~(df['Q1']==8)]  # 筛选Q1=！8的行

# 大于
df[df['Q1']>90]  # 取Q1大于90的所有列
df.loc[df['Q1']>90,'Q1':] # 取Q1大于90， 列Q1之后所有的列

# &和|
df.loc[(df['Q1']>80) & (df['Q2']<15)] #  Q1>80,Q2<15的数据
df.loc[(df['Q1']>90) | (df['Q2']<90)] #  Q1>90,Q2<90的数据

# 两个列进行对比
df[df['Q1']> df['Q2']]

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
0,Liver,E,89,21,24,64,45
4,Oah,D,65,49,61,86,110
5,Harlie,C,24,13,87,43,100
9,Oscar,A,77,9,26,67,35
10,Leo,B,17,4,33,79,37
14,Thomas,B,80,48,56,41,104
16,Joshua,A,63,4,80,30,84
17,Henry,A,91,15,75,17,90
18,William,C,80,68,3,26,71
19,Max,E,97,75,41,3,116


In [83]:
# .loc里的索引部分可以用表达式进行数据筛选

df.loc[df['Q1']==8]

df.loc[df['Q1']>90,'Q1']   # 返回series
df.loc[df['Q1']>90,['Q1']]  # 返回dataframe

# 其他表达式和切片[] 一样

# 也可以使用已定义的逻辑判断和函数进行筛选：
"""
df.eq() # 等于相等 ==
df.ne() # 不等于 !=
df.le() # 小于等于 >=
df.lt() # 小于 <
df.ge() # 大于等于 >=
df.gt() # 大于 >
"""
# 都支持  axis{0 or ‘index’, 1 or ‘columns’}, default ‘columns’
df[df.Q1.ne(89)] # Q1 不等于8
df.loc[df.Q1.gt(90) & df.Q2.lt(90)] # and 关系 Q1>90 Q2<90

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
17,Henry,A,91,15,75,17,90
19,Max,E,97,75,41,3,116
32,Alexander,C,91,76,26,79,102
38,Elijah,B,97,89,15,46,104
80,Ryan,E,92,70,64,31,134
88,Aaron,A,96,75,55,8,130


### 函数筛选

In [84]:
# 函数生成具体的标%alias或者同长度对应的布尔索引，作用于筛选
df[lambda df:df['Q1'] == 8]

df.loc[lambda df:df['Q1'] == 8, 'Q1':'Q2']

Unnamed: 0,Q1,Q2
43,8,45
45,8,12


### 通过条件判断，替换df中的数据，where 和 mask

In [85]:
# s.where(s>90) # 将不满足>90条件的数据替换成NAN
# s.where(s>90,0) # 将不满足>90条件的数据替换成0

# np.where(s>80,True,False) 
# np.where(s>=60,'及格','不及格') 


# s.mask(s>90) # 将满足>90条件的数据替换成NAN
# s.mask(s>90,0) # 将满足>90条件的数据替换成0

# 通过where mask判断，给df重新赋值

# 能被整除的显示，不能的显示相反数
m = df.loc[:,'Q1':'Q4']%3 == 0
df.loc[:,'Q1':'Q4'].where(m, -df.loc[:,'Q1':'Q4'])

Unnamed: 0,Q1,Q2,Q3,Q4
0,-89,21,24,-64
1,36,-37,-37,57
2,57,60,18,84
3,93,96,-71,78
4,-65,-49,-61,-86
...,...,...,...,...
95,48,-59,87,-74
96,21,-31,30,-43
97,-98,93,-1,-20
98,-11,-74,-58,-91


### Query,写SQL里的where查询语言

In [97]:
df.query('Q1 > Q2 > 90') # 直接写类型 sql where 语句
df.query('Q1 + Q2 > 180')
df.query('Q1 == Q2')
df.query('(Q1<50) & (Q2>40) and (Q3>90)')
df.query('Q1 > Q2 > Q3 > Q4')

df.query('team != "C"')
df.query('team in ["A","B"]')
df.query('team not in ("E","A","B")')
df.query('team == ["A","B"]')
df.query('team != ["A","B"]')
df.query('name.str.contains("am")') # 包含 am 字符

# 对于名称中带有空格的列，可以使用反引号引起来 
# df.query('`team name` == B')

# 支持传入变量，如：大于平均分40分的
a = df.Q1.mean()
df.query('Q1 > @a+40')
df.query('Q1 > `Q2`+@a')

# df.eval() 用法与 df.query 类似
df[df.eval("Q1 > 90 > Q3 > 10")]
df[df.eval("Q1 > `Q2`+@a")]

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
0,Liver,E,89,21,24,64,45
9,Oscar,A,77,9,26,67,35
16,Joshua,A,63,4,80,30,84
17,Henry,A,91,15,75,17,90
24,Isaac,E,74,23,28,65,51
25,Harrison,B,89,13,18,75,31
33,Adam,C,90,32,47,39,79
71,Blake,A,78,23,93,9,116
74,Roman,E,73,1,25,44,26
77,Michael,B,89,21,59,92,80


### Filter, 对行名和列名进行筛选

In [98]:
df.filter(items=['Q1','Q2'])  # 等同于df[['Q1','Q2']]


df.filter(regex='Q',axis=1) # 列名包含Q的

# 使用正则表达式
df.filter(regex='e$',axis=1) # 列名以e结尾的
df.filter(regex='1$',axis=0) # 索引中以1结尾的

df.filter(like='2',axis=0) # 索引中包含2的

df.filter(regex='^2',axis=0).filter(like='Q',axis=1)  # 筛选出2开头的行，包含Q的列

Unnamed: 0,Q1,Q2,Q3,Q4,Q2Q3
2,57,60,18,84,78
20,60,41,77,62,118
21,79,45,89,88,134
22,44,53,42,40,95
23,80,96,26,49,122
24,74,23,28,65,51
25,89,13,18,75,31
26,71,91,21,48,112
27,62,73,84,68,157
28,50,50,72,61,122


### take 延轴返回指定数字索引中的元素

In [99]:
df.take([2,21,5])  # 取指定数字索引的行数据，不指定axis，默认是行函数
df.take([2,3],axis=1) # 取指定数字索引的列数据
df.take([-1,-2]) # 索引的反向指定

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
99,Ben,E,21,43,41,74,84
98,Eli,E,11,74,58,91,132


### pd.IndexSlice索引选择器

In [101]:
# pd.IndexSlice 的使用方法类似于df.loc[] 切片中的方法，常用在多层索引中，以及需要指定应用范围（subset 参数）的函数中，特别是在链式方法中。

df.loc[pd.IndexSlice[:, ['Q1', 'Q2']]]
# 变量化使用
idx = pd.IndexSlice
df.loc[idx[:, ['Q1', 'Q2']]]
df.loc[idx[:, 'Q1':'Q4'], :] # 多索引

Unnamed: 0,Q1,Q2
0,89,21
1,36,37
2,57,60
3,93,96
4,65,49
...,...,...
95,48,59
96,21,31
97,98,93
98,11,74


In [102]:
# 复杂的选择：

# 创建复杂条件选择器
selected = df.loc[(df.team=='A') & (df.Q1>90)]
idxs = pd.IndexSlice[selected.index, 'name']
# 应用选择器
df.loc[idxs]
# 选择这部分区域加样式（样式功能见教程后文介绍）
df.style.applymap(style_fun, subset=idxs)

NameError: name 'style_fun' is not defined

### select_dtype 按数据类型筛选

In [None]:
df.select_dtypes(include=['float64'])  # 选择float64型数据
df.select_dtypes(include='bool')
df.select_dtypes(include=['number'])
df.select_dtypes(exclude=['int']) # 排除int类型
df.select_dtypes(exclude=['datetime64'])

### any和all 进行判断

In [103]:
# any 方法如果至少有一个值为 True 是便为 True，all 需要所有值为 True 才为 True。它们可以传入 axis 为 1，会按行检测。
df[(df.loc[:,['Q1','Q2']]>80).all(1)]  # Q1,Q2成绩全>80分的
df[(df.loc[:,['Q1','Q2']]>80).any(1)]  # Q1,Q2成绩任意一门大于80天

Unnamed: 0,name,team,Q1,Q2,Q3,Q4,Q2Q3
0,Liver,E,89,21,24,64,45
3,Eorge,C,93,96,71,78,167
6,Acob,B,61,95,94,8,189
8,Reddie,D,64,93,57,72,150
11,Logan,B,9,89,35,65,124
12,Archie,C,83,89,59,68,148
13,Theo,C,51,86,87,27,173
17,Henry,A,91,15,75,17,90
19,Max,E,97,75,41,3,116
23,Mason,D,80,96,26,49,122


## Pandas数据类型的转换

In [None]:
# 数据分析前，我们需要对数据分配好数据类型，这才能高效的处理数据，不同的数据类型可以用不同的处理方法。

### 数据初始化时指定数据类型

In [115]:
data = [1,2,3]
df = pd.DataFrame(data, dtype='float32') # 对所有字段指定类型
df

data = 'team.xlsx'
df = pd.read_excel(data, sheet_name='Sheet1', dtype={'team': 'string', 'Q1': 'int32'}) # 每个字段分别指定
df

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
0,Liver,E,89,21,24,64
1,Arry,C,36,37,37,57
2,Ack,A,57,60,18,84
3,Eorge,C,93,96,71,78
4,Oah,D,65,49,61,86
...,...,...,...,...,...,...
95,Gabriel,C,48,59,87,74
96,Austin7,C,21,31,30,43
97,Lincoln4,C,98,93,1,20
98,Eli,E,11,74,58,91


### 自动推定类型

In [116]:
df
# 自动转换合适的数据类型
df.convert_dtypes() # 推荐！新的方法，支持 string 类型
df.infer_objects()

# 按大体类型推定
m = ['1', 2, 3]
s = pd.to_numeric(s) # 转成数字
pd.to_datetime(m) # 转成时间
pd.to_timedelta(m) # 转成时差
pd.to_datetime(m, errors='coerce') # 错误处理
pd.to_numeric(m, errors='ignore')
pd.to_numeric(m errors='coerce').fillna(0) # 兜底填充
pd.to_datetime(df[['year', 'month', 'day']]) # 组合成日期

# 最低期望
pd.to_numeric(m, downcast='integer') # smallest signed int dtype
# array([1, 2, 3], dtype=int8)
pd.to_numeric(m, downcast='signed') # same as 'integer'
# array([1, 2, 3], dtype=int8)
pd.to_numeric(m, downcast='unsigned') # smallest unsigned int dtype
# array([1, 2, 3], dtype=uint8)
pd.to_numeric(m, downcast='float') # smallest float dtype
# array([1., 2., 3.], dtype=float32)

# 应用函数
df.apply(pd.to_timedelta)

SyntaxError: invalid syntax (231699413.py, line 13)

### astype() 类型转换

In [122]:
df

Unnamed: 0,name,team,Q1,Q2,Q3,Q4
0,Liver,E,89,21,24,64
1,Arry,C,36,37,37,57
2,Ack,A,57,60,18,84
3,Eorge,C,93,96,71,78
4,Oah,D,65,49,61,86
...,...,...,...,...,...,...
95,Gabriel,C,48,59,87,74
96,Austin7,C,21,31,30,43
97,Lincoln4,C,98,93,1,20
98,Eli,E,11,74,58,91


In [134]:
df.dtypes # 查看数据类型
df.index.astype('int64') # 索引类型转换
# df.astype('int32') # 所有数据转换为 int32
df.astype({'Q1': 'float'}) # 指定字段转指定类型
s.astype('int64')
s.astype('int64', copy=False) # 不与原数据关联
s.astype(np.uint8)
df['name'].astype('object')
df['Q4'].astype('float')
s.astype('datetime64[ns]')
df['Q4'].astype('bool')

0     True
1     True
2     True
3     True
4     True
      ... 
95    True
96    True
97    True
98    True
99    True
Name: Q4, Length: 100, dtype: bool

### 索引类型修改

In [None]:
# df.rename() 可以用在链式方法中修改索引的数据类型

df.rename(int)
df.rename(str)
df.rename(str, axis=1) # 修改行
s.rename(int)
# 其他方法
df.index.astype(str)
df.columns.astype(str)

### 转换为时间

In [None]:
# pd.to_datetime() 和 s.astype('datetime64[ns]') 是最简单的时间转换方法。

## 数据的排序

In [None]:
# 排序是数据分析的一种手段，Pandas支持三种排序方式：
# 按索引标签排序
# 按列值排序
# 按索引和列值进行排序

### sort_index()索引排序

In [None]:
# sort_index() 可将索引重新排序，意味着每行数据的位置跟着索引而变化。

s.sort_index() # 升序排列
df.sort_index() # df 也是按索引进行排序
df.team.sort_index()
s.sort_index(ascending=False) # 降序排列
s.sort_index(inplace=True) # 排序后生效，改变原数据
# 索引重新0-(n-1) 排, 很有用，可以得到它的排序号
s.sort_index(ignore_index=True)
s.sort_index(na_position='first') # 空值在前，另 ‘last’
s.sort_index(level=1) # 如果多层，排一级
s.sort_index(level=1, sort_remaining=False) # 这层不排

# 行索引排序，表头排序
df.sort_index(axis=1) # 会把列按列名顺序排列

In [None]:
# df.reindex()指定自己定义顺序的索引，实现行和列的顺序重新定义：

df = pd.DataFrame({
    'A': [1,2,4],
    'B': [3,5,6]
}, index=['a', 'b', 'c']
)
df

# 按要求重新指定索引顺序
df.reindex(['c','b','a'])

# 指定列顺序
df.reindex(['B','A'],axis=1)

### sort_values()数据值排序

In [None]:
# 数据值的排序主要使用sort_values(),数值按大小顺序，字符按字母顺序

# series排序
s.sort_values() # 升序
s.sort_values(ascending=False) # 降序
s.sort_values(inplace = True) # 修改生效
s.sort_values(na_position='first') # 空值在前



In [None]:
# dataframe排序
# df按指定字段排序
data = 'team.xlsx'
df = pd.read_excel(data, sheet_name= 'Sheet1')

df.sort_values(by=['team'])  # 按team排序
df.sort_values('team')

df.sort_values(by=['team','Q1']) # 先按team升序，再按Q1升序
df.sort_values(by=['team','Q1'], ascending=False) # 降序
df.sort_values(by=['team','Q1'], ascending=[True,False]) # team升序，Q1降序

# 索引重新0~（n-1）排序
df.sort_values(by=['team'],ignore_index=True)
 

### 索引和值同时排序

In [None]:
# 有的时候需要索引和值混合排序，比如先按名字排序，再按团队排序

# 分步进行
df.set_index('name', inplace=True)
df.index.names = ['s_name']
df.sort_values(by=['s_name','team'])

# 综合
df.set_index('name').sort_values('team').sort_index()



### nsmallest() nlargest()排序

In [None]:
# 用 nsmallest() 和 nlargest() 来实现排序（只支持数字）：

s.nsmallest(3) # 最小的三个
s.nlargest(3) # 最大的三个
# 指定列
df.nlargest(3, 'Q1')
df.nlargest(5, ['Q1', 'Q2'])
df.nsmallest(5, ['Q1', 'Q2'])

In [None]:
# Series 还有一个 searchsorted 方法，用于假定在一个单调的序列中增加一个值，这个值所处的索引位置：

ser.searchsorted(10)
# 10
ser.searchsorted([0, 4])
# array([0, 3])
ser.searchsorted([1, 3], side='right')
# array([1, 3])

## Pandas修改数据

In [None]:
# 数据分析过程中，对数据的修改调整也是比较多的，最简单的如学生成绩表加一列把总分算出来。
# 根据某一列的数据解析出指定内容，如学生成绩单有个学生家庭地址，然后把所在小区解析出来形成新的一列。

# Pandas 的数据修改是进行赋值，先把要修改的数据筛选出来，然后将同结构或者可解包的数据赋值给它：

df.Q1 = [1, 3, 5, 7, 9] * 20 # 就会把值进行修改
df.loc[1:3, 'Q1':'Q2'] = 99 # 这个范围的数据会全变成 99
df.loc[df.name=='Arry', 'Q1':'Q4'] = [66,77,88,99] # 指定多列
df.loc[df.name.isin(['Arry', 'Ack']), 'Q1'] = (33, 44) # 修改列值

In [None]:
data = 'team.xlsx'
df = pd.read_excel(data, sheet_name= 'Sheet1')
df
# df.columns  # 查看列头

### rename()修改索引名称

In [None]:
df = pd.DataFrame({
    'A': [1,2,4],
    'B': [3,5,6]
}, index=['a', 'b', 'c']
)
df

In [None]:
# 对索引的修改包含行索引和列索引：

# 对索引值进行修改
df.rename(columns={"Q1": "a", "Q2": "b"}) # 对表头进行修改
df.rename(index={0: "x", 1: "y", 2: "z"}) # 对索引进行修改

df.rename(index=str) # 对类型进行修改
df.rename(str.lower, axis='columns') # 传索引类型
df.rename({1: 2, 2: 4}, axis='index')

# 对索引名进行修改
s.rename_axis("animal")
df.rename_axis("animal") # 默认是列索引
df.rename_axis("limbs", axis="columns") # 指定行索引
# 多层索引时可以将type修改为class
df.rename_axis(index={'type': 'class'})

# 可以用 set_axis 进行设置修改
s.set_axis(['a', 'b', 'c'], axis=0)
df.set_axis(['I', 'II'], axis='columns')
df.set_axis(['i', 'ii'], axis='columns', inplace=True)

### replace()修改指定的数据

In [None]:
# 替换数据：
s.replace(0, 5) # 将列数据中 0 换为 5
df.replace(0, 5) # 将数据中所有 0 换为 5
df.replace([0, 1, 2, 3], 4) # 将 0-3 全换成 4
df.replace([0, 1, 2, 3], [4, 3, 2, 1]) # 对应修改
# {‘pad’, ‘ffill’, ‘bfill’, None} 试试
s.replace([1, 2], method='bfill') # 向下填充
df.replace({0: 10, 1: 100}) # 字典对应修改
df.replace({'Q1': 0, 'Q2': 5}, 100) # 指定字段的指定值修改为 100
df.replace({'Q1': {0: 100, 4: 400}}) # 指定列里指定值按指定的值替换
# 使用正则
df.replace(to_replace=r'^ba.$', value='new', regex=True)
df.replace({'A': r'^ba.$'}, {'A': 'new'}, regex=True)
df.replace(regex={r'^ba.$': 'new', 'foo': 'xyz'})
df.replace(regex=[r'^ba.$', 'foo'], value='new')

### dropna空值删除填充

In [None]:
# 删除空值：

df.dropna() # 一行中有一个空NaT就删除
df.dropna(axis='columns') # 只保留全有值的列
df.dropna(how='all') # 行或列全没值才删除
df.dropna(thresh=2) # 至少有两个空值时才删除
df.dropna(inplace=True) # 删除并生效替换

In [None]:
# 填充空值：

df.fillna(0) # 空全修改为 0
# {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
df.fillna(method='ffill') # 都修改为它前一个值
values = {'A': 0, 'B': 1, 'C': 2, 'D': 3}
df.fillna(value=values) # 各列替换空值不同
df.fillna(value=values, limit=1) # 只替换第一个

### 添加行列

#### 添加列

In [None]:
# Pandas 的数据添加修改非常简单，新赋值一个原 df 中没有列名就会产生一个新列：

df['foo'] = 100 # 增加一列 foo, 所有值都是 100
df['foo'] = df.Q1 + df.Q2 # 新列为两列相加
df['foo'] = df['Q1'] + df['Q2'] # 同上

# 把所有为数字的加起来
df['total'] = df.select_dtypes(include=['int']).sum(1)
df['total'] = df.loc[:,'Q1':'Q4'].apply(lambda x: sum(x), axis='columns')
df.loc[:, 'Q10'] = '我是新来的' # 也可以

# 增加一列并赋值，不满足条件的为 NaN
df.loc[df.Q1 >= 60, '成绩'] = '合格'
df.loc[df.Q1 < 60, '成绩'] = '不合格'

In [None]:
# 使用df.assign()指定新列：

df.assign(Q5=[100]*100) # 新增加一列 Q5
df = df.assign(Q5=[100]*100) # 赋值生效
df.assign(Q6=df.Q2/df.Q1) # 计算并增加 Q6
df.assign(Q7=lambda x: x.Q1 * 9 / 5 + 32) # 使用 lambda
# 添加一列，值为表达式结果 True or False
df.assign(tag=df.Q1>df.Q2)
# True 为1 False 为 0
df.assign(tag=(df.Q1>df.Q2).astype(int))
# 映射文案
df.assign(tag=(df.Q1>60).map({True:'及格',False:'不及格'}))
# 增加多个
df.assign(Q8=lambda x: x.Q1*5,
         Q9=lambda x: x.Q8+1) # 注 Q8没生效不能直接 df.Q8

In [None]:
# 使用 df.insert() 插入新的行，会立即生效：

# 一般格式 df.insert(新列索引位, 名字, 数据)
df.insert(len(df.columns), 'Qx',
          pd.Series(np.random.randn(100), index=df.index))

#### 添加行

In [None]:
# 最简单的办法利用新索引，按位置给出新数据的列表：

df.loc[101] = ['tom', 'A', 88, 88, 88, 88]
df.loc[101]={'Q1':88,'Q2':99} # 指定列，无数据列值为NaN
df.loc[df.shape[0]+1] = {'Q1':88,'Q2':99} # df.shape[0] 计算出索引最大值，自动增加索引
df.loc[len(df)+1] = {'Q1':88,'Q2':99}

In [None]:
# 如果需要批量操作，可以使用迭代的办法
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
rows = [[1,2],[3,4],[5,6]]
for row in rows:
    df.loc[len(df)] = row
df

In [None]:
# df.append() 可以追加一个新行
df = pd.DataFrame([[1, 2], [3, 4]], columns=list('AB'))
df2 = pd.DataFrame([[5, 6], [7, 8]], columns=list('AB'))
df.append(df2)

#### 连接两个df/s

In [None]:
# pd.concat([s1,s2]) 将两个dataframe/series连接起来
# series
s1 = pd.Series(['a','b'])
s2 = pd.Series(['c','d'])
pd.concat([s1,s2])
pd.concat([s1,s2], ignore_index=True) # 忽略索引，重新编排索引

pd.concat([s1,s2],keys=['s1','s2'])  # 原数据索引不变，增加一个一层索引（keys里的内容），变成多层索引
pd.concat([s1, s2], keys=['s1', 's2'],
          names=['Series name', 'Row ID']) # 给索引命名

In [None]:
# dataframe
pd.concat([df1,df2])
pd.concat([df1,df2], sort=True) # 结果排序
pd.concat([df1, df3], join="inner") # 只连相同列
pd.concat([df1, df4], axis=1) # 连接列

#### 删除行列 pop()

In [None]:
# pop()
df.pop('Q1') # 删除Q1列
s.pop(3)  # 删除索引为3的行
# 也可以把想要的列筛选出来，赋值给新的df，达到删除的目的


#### df.update() 进行修改

In [None]:
# 创建df
df = pd.DataFrame({'A': [1, 2, 3],
                   'B': [4, 5, 6]},
                  index=['x', 'y', 'z']
                 )
# 修改(y,B) 的值为99
df.update(pd.Series([99],index=['y'], name='B'))

### 删除数据

In [None]:
# df.drop()语法
'''
df.drop(labels = None, axis = 0,
        index= None, columns=None,
        level= None, inplace=False,
        errors='raise'
       )
'''
# labels：要删除的列或者行，多个传入列表
# axis：轴的方向，0为行，1为列，默认为0
# index：指定的一个行或者多个行，
# column：指定的一个列或者多个列
# level：索引层级，将删除此层级
# inplace：布尔值，是否生效
# errors：ignore或者raise，默认raise，如果为ignore，则抑制错误并仅删除现有标签

df = pd.DataFrame(np.arange(12).reshape(3,4),
                 columns=['A','B','C','D'])
df

#### 删除列

In [None]:
df.drop(['B','C'],axis=1) # 删除B C列
df.drop(columns=['B','C']) # 同上


#### 删除行

In [None]:
df.drop([0])   # 删除索引0
df.drop([0,1])  # 删除索引0，1

#### 多层索引删除

In [None]:
midx = pd.MultiIndex(levels=[['lama', 'cow', 'falcon'],
                             ['speed', 'weight', 'length']],
                     codes=[[0, 0, 0, 1, 1, 1, 2, 2, 2],
                            [0, 1, 2, 0, 1, 2, 0, 1, 2]])

# midx

df = pd.DataFrame(index=midx, columns=['big', 'small'],
                  data=[[45, 30], [200, 100], [1.5, 1], [30, 20],
                        [250, 150], [1.5, 0.8], [320, 250],
                        [1, 0.8], [0.3, 0.2]])
df

In [None]:
# 删除行
df.drop(index='cow')
# 删除列
df.drop(columns='small')
# 删除行和列
df.drop(index='cow', columns='small')

# 指定层级进行删除
df.drop(index='length', level=1)

## Pandas 的数据遍历

In [135]:
# 创建数据
data = 'team.xlsx'
df = pd.read_excel(data, sheet_name= 'Sheet1')

df.columns  # 查看列头

Index(['name', 'team', 'Q1', 'Q2', 'Q3', 'Q4'], dtype='object')

### DF按行遍历

In [136]:

for index,row in df.iterrows():
    print(index, row['name'], row['team'])
    
for index,row in df.iterrows():
    print(index, row.name, row.team)    
# 注意：  row.name 和 row['name']是不一样的； row.team 和 row['team']是一样的

0 Liver E
1 Arry C
2 Ack A
3 Eorge C
4 Oah D
5 Harlie C
6 Acob B
7 Lfie A
8 Reddie D
9 Oscar A
10 Leo B
11 Logan B
12 Archie C
13 Theo C
14 Thomas B
15 James E
16 Joshua A
17 Henry A
18 William C
19 Max E
20 Lucas A
21 Ethan D
22 Arthur A
23 Mason D
24 Isaac E
25 Harrison B
26 Teddy E
27 Finley D
28 Daniel C
29 Riley E
30 Edward B
31 Joseph E
32 Alexander C
33 Adam C
34 Reggie1 A
35 Samuel B
36 Jaxon E
37 Sebastian C
38 Elijah B
39 Harley B
40 Toby A
41 Arlo8 E
42 Dylan A
43 Jude E
44 Benjamin D
45 Rory9 E
46 Tommy C
47 Jake3 C
48 Louie D
49 Carter7 D
50 Jenson B
51 Hugo0 A
52 Bobby1 D
53 Frankie B
54 Ollie3 C
55 Zachary E
56 David B
57 Albie1 D
58 Lewis B
59 Luca D
60 Ronnie B
61 Jackson5 E
62 Matthew C
63 Alex D
64 Harvey2 B
65 Reuben D
66 Jayden6 D
67 Caleb A
68 Hunter3 D
69 Theodore3 D
70 Nathan A
71 Blake A
72 Luke6 D
73 Elliot C
74 Roman E
75 Stanley A
76 Dexter E
77 Michael B
78 Elliott B
79 Tyler A
80 Ryan E
81 Ellis C
82 Finn E
83 Albert0 B
84 Kai B
85 Liam B
86 Calum C
87 Lou

In [137]:
# 按行遍历
for row in df.itertuples():
    print(row)
# 去除index索引
for row in df.itertuples(index = False): 
    print(row)
# 指定name=Gairuo 进行索引
for row in df.itertuples(index=False, name='TEST'):
    print(row)
    
for row in df.itertuples():
    print(row.Index, row.Q1)

Pandas(Index=0, name='Liver', team='E', Q1=89, Q2=21, Q3=24, Q4=64)
Pandas(Index=1, name='Arry', team='C', Q1=36, Q2=37, Q3=37, Q4=57)
Pandas(Index=2, name='Ack', team='A', Q1=57, Q2=60, Q3=18, Q4=84)
Pandas(Index=3, name='Eorge', team='C', Q1=93, Q2=96, Q3=71, Q4=78)
Pandas(Index=4, name='Oah', team='D', Q1=65, Q2=49, Q3=61, Q4=86)
Pandas(Index=5, name='Harlie', team='C', Q1=24, Q2=13, Q3=87, Q4=43)
Pandas(Index=6, name='Acob', team='B', Q1=61, Q2=95, Q3=94, Q4=8)
Pandas(Index=7, name='Lfie', team='A', Q1=9, Q2=10, Q3=99, Q4=37)
Pandas(Index=8, name='Reddie', team='D', Q1=64, Q2=93, Q3=57, Q4=72)
Pandas(Index=9, name='Oscar', team='A', Q1=77, Q2=9, Q3=26, Q4=67)
Pandas(Index=10, name='Leo', team='B', Q1=17, Q2=4, Q3=33, Q4=79)
Pandas(Index=11, name='Logan', team='B', Q1=9, Q2=89, Q3=35, Q4=65)
Pandas(Index=12, name='Archie', team='C', Q1=83, Q2=89, Q3=59, Q4=68)
Pandas(Index=13, name='Theo', team='C', Q1=51, Q2=86, Q3=87, Q4=27)
Pandas(Index=14, name='Thomas', team='B', Q1=80, Q2=48, 

### DF按列遍历

In [138]:
# df.items()Iterate over (column name, Series) pairs，和df.iteritems()有相同的功能。


for label, ser in df.loc[1].items():
    print(label,ser)

name Arry
team C
Q1 36
Q2 37
Q3 37
Q4 57


In [139]:
# 依次取出每一列
for name in df: 
    print(df['name'])
    
for i in df['name']: 
    print(i)
    
# 对每个列的内容进行迭代
for name in df: 
    for i in df['name']:
        print(i)
        


0        Liver
1         Arry
2          Ack
3        Eorge
4          Oah
        ...   
95     Gabriel
96     Austin7
97    Lincoln4
98         Eli
99         Ben
Name: name, Length: 100, dtype: object
0        Liver
1         Arry
2          Ack
3        Eorge
4          Oah
        ...   
95     Gabriel
96     Austin7
97    Lincoln4
98         Eli
99         Ben
Name: name, Length: 100, dtype: object
0        Liver
1         Arry
2          Ack
3        Eorge
4          Oah
        ...   
95     Gabriel
96     Austin7
97    Lincoln4
98         Eli
99         Ben
Name: name, Length: 100, dtype: object
0        Liver
1         Arry
2          Ack
3        Eorge
4          Oah
        ...   
95     Gabriel
96     Austin7
97    Lincoln4
98         Eli
99         Ben
Name: name, Length: 100, dtype: object
0        Liver
1         Arry
2          Ack
3        Eorge
4          Oah
        ...   
95     Gabriel
96     Austin7
97    Lincoln4
98         Eli
99         Ben
Name: name, Length:

### Series的迭代

In [140]:
# 定义Series
s = df['name']

# 遍历Series
for i in s:
    print(i)
    
# 按(索引，值)进行索引
for i in s.items(): 
    print(i)

Liver
Arry
Ack
Eorge
Oah
Harlie
Acob
Lfie
Reddie
Oscar
Leo
Logan
Archie
Theo
Thomas
James
Joshua
Henry
William
Max
Lucas
Ethan
Arthur
Mason
Isaac
Harrison
Teddy
Finley
Daniel
Riley
Edward
Joseph
Alexander
Adam
Reggie1
Samuel
Jaxon
Sebastian
Elijah
Harley
Toby
Arlo8
Dylan
Jude
Benjamin
Rory9
Tommy
Jake3
Louie
Carter7
Jenson
Hugo0
Bobby1
Frankie
Ollie3
Zachary
David
Albie1
Lewis
Luca
Ronnie
Jackson5
Matthew
Alex
Harvey2
Reuben
Jayden6
Caleb
Hunter3
Theodore3
Nathan
Blake
Luke6
Elliot
Roman
Stanley
Dexter
Michael
Elliott
Tyler
Ryan
Ellis
Finn
Albert0
Kai
Liam
Calum
Louis2
Aaron
Ezra
Leon
Connor
Grayson7
Jamie0
Aiden
Gabriel
Austin7
Lincoln4
Eli
Ben
(0, 'Liver')
(1, 'Arry')
(2, 'Ack')
(3, 'Eorge')
(4, 'Oah')
(5, 'Harlie')
(6, 'Acob')
(7, 'Lfie')
(8, 'Reddie')
(9, 'Oscar')
(10, 'Leo')
(11, 'Logan')
(12, 'Archie')
(13, 'Theo')
(14, 'Thomas')
(15, 'James')
(16, 'Joshua')
(17, 'Henry')
(18, 'William')
(19, 'Max')
(20, 'Lucas')
(21, 'Ethan')
(22, 'Arthur')
(23, 'Mason')
(24, 'Isaac')
(25, 'Harr

## Pandas的函数

In [141]:
# 创建数据
data = 'team.xlsx'
df = pd.read_excel(data, sheet_name= 'Sheet1')

df.columns  # 查看列头

Index(['name', 'team', 'Q1', 'Q2', 'Q3', 'Q4'], dtype='object')

### pip()管道方法

In [143]:
# 分析过程标准化、流水线化，达到复用。
# 语法结构
# df.pipe(<函数名>, <传给函数的参数表>)

# 对 df 多重应用多个函数, f函数-g函数-h函数
f(g(h(df), arg1=a), arg2=b, arg3=c)

# 用pipe()可以将他们连接起来
(df.pipe(h)
   .pipe(g, arg1=a)
   .pipe(f, arg2=b, arg3=c)
)
# 以下是将 'arg2' 参数给函数 f 然后作为函数整体授受后边的参数
(df.pipe(h)
   .pipe(g, arg1=a)
   .pipe((f, 'arg2'), arg1=a, arg3=c)
 )

NameError: name 'f' is not defined

In [144]:
# 示例
# 定义一个函数，给所有Q的成绩加n，然后增加平均数， 其中n为要加的值

def add_mean(rdf, n): 
    df = rdf.copy()
    df = df.loc[:, 'Q1':'Q4'].applymap(lambda x: x+n)  # Q1-Q4每个数值都加n
    df['avg'] = df.loc[:,'Q1':'Q4'].mean(1)    # Q1-Q4均值
    return df
# 调用
df.pipe(add_mean, 100)

    

Unnamed: 0,Q1,Q2,Q3,Q4,avg
0,189,121,124,164,149.50
1,136,137,137,157,141.75
2,157,160,118,184,154.75
3,193,196,171,178,184.50
4,165,149,161,186,165.25
...,...,...,...,...,...
95,148,159,187,174,167.00
96,121,131,130,143,131.25
97,198,193,101,120,153.00
98,111,174,158,191,158.50


### apply() 对DataFrame中按行和列进行函数处理

In [145]:
df.apply(max)  # 最大值
df.apply(lambda x: x*2)  # 每一列乘以2
df.Q1.apply(lambda x: x+10 if type(x) is int else x)  # 取Q1列， 当数值类型为int， 返回x+10， 否则，返回x

# 将df数据，每个人成绩都加10分
df.info() # 查看基本信息，发现Q1-Q4数据类型为int
df.apply(lambda x: x+10 if type(x) is int else x)  # 将结果中int类型数据全加1


df.loc[:,'Q1':'Q4'].apply(sum)  # 每列求和
df.loc[:,'Q1':'Q4'].apply(sum, axis = 1)  # 每行求和


# 执行定义的函数
df mymax(x): 
    return x.max()
df.apply(lambda x : mymax(x))

# 判断一个值是否在另一个类似列表的列中
df.apply(lambda x : x.s in x.s_list, axis = 1) # 布尔序列
df.apply(lambda x : x.s in x.s_list, axis = 1).astype(int) # 将布尔序列转换成0和1序列

SyntaxError: invalid syntax (3113542440.py, line 15)

In [146]:
# 一个常用的根据条件输出结果的案例

func = lambda x : np.where(x.team == 'A' and x.Q1>80, 'Good','Other')
df.apply(func, axis=1)

df.apply(lambda x:x.team=='A' and x.Q1>90, axis=1).map({True:'good', False:'other'})

df.apply(lambda x: 'good' if x.team=='A' and x.Q1>90 else 'other', axis=1)


0     other
1     other
2     other
3     other
4     other
      ...  
95    other
96    other
97    other
98    other
99    other
Length: 100, dtype: object

In [147]:
# 总结，apply 可以应用的函数类型包括：

df.apply(func) # 自定义
df.apply(max) # python 内置函数
df.apply(lambda x: x*2) # lambda
df.apply(np.mean) # numpy 等其他库的函数
df.apply(pd.Series.first_valid_index) # Pandas 自己的函数
df.apply('count') # Pandas 自己的函数方法
# 多个函数
df.apply([sum, 'count']) # 相当于 .aggregate, 即.agg
df.apply({'Q1':sum, 'Q2':'count'}) # 同上

# 特别要说明的如果函数参数传的是字符串，先会尝试当前对象的同名方法（如 DataFrame 就是 DataFrame 的，Series 就是 Series 的），
# 如没有会尝试 NumPy 有没有这个同名 ufunc （NumPy 中的通用函数），以上有会应用，如均没有就会报错。

AttributeError: 'Series' object has no attribute 'team'

### applymap()

In [None]:
# 可以做到元素级的函数应用，就是对df中所有元素（不包含索引）应用函数

df.applymap(lambda x : x*2)
df.applymap(lambda x : x+10 if type(x) is int else x)
df.applymap(lambda x : len(str(x)))

# 自定义
df mylen(x):
    return len(str(x))
df.applymap(mylen)

# 对空值不使用函数
df.applymap(mylen, na_action= 'ignore')


### map()

In [None]:
# 根据输入对应关系映射值修改内容，用于Series或者DataFrame对象的一列

# dataframe
df.team.map({'A':'一班','B':'二班','C':'三班','D':'四班',})  # 枚举替换
df.team.map('I am a {}'.format)
df.team.map('I am a {}'.format, na_action= 'ignore')

# series
t = pd.Series({'six': 6., 'seven': 7.})
s.map(t)



In [None]:
# 应用函数
# 定义函数
def f(x): 
    return len(str(x))
# 调用函数
df['name'].map(f)


# 三种情况的判断
func= lambda x: (x>60 and '及格') or (x == 60 and '60分') or (x<60 and '不及格')
df.Q1.map(func)

# 利用np.sign 判断值为正、负 、0 的情况，并映射
label = {0:'平', 1:'涨', -1:'跌' }
ser.map(np.sign).map(label)

### agg(）

In [None]:
# 使用指定轴上的一项或者多项操作进行汇总


df.agg('max')  # 每列的最大值
df.agg(['sum','min'])  # 每列的sum 和min
df.agg({'Q1':['sum','min'],'Q2':['sum','min']})  # 指定列 Q1,Q2


# 分组后按列聚合
df.groupby('team').agg('max')  # 类似于SQL的group by


# 定义函数
df.Q1.agg(['sum', 'mean'])

def mymean(x): 
    return x.mean()
df.Q1.agg(['sum', mymean])

# 每一列使用不同的方法进行汇聚
df.agg(a = ('Q1', max)
      b = ('Q2', 'min')
      c = ('Q3', np.mean)
        d= ('Q4', lambda s: s.sum()+1)
      )


# 按行聚类
df.loc[:,'Q1':].agg('mean', axis = 'columns')

# 利用 pd.Series.add 方法对所有数据加分
# other 是 add 方法的参数
df.loc[:,'Q1':].agg(pd.Series.add, other=10)

    


### transform()

In [None]:
# 自身调用函数并返回一个dataframe

df.transform(lambda x : x*2) # 单个函数
df.transform([np.sqrt, np.exp]) # 多个函数

df.transform(np.abs, lambda x: x+1)
df.transform('abs')
df.transform(lambda x: x.abs())


In [None]:
# 可以对比下下两个操作：

# 聚合后按组显示合计
df.groupby('team').sum()
# 聚合后按原数据结构显示数据，但在指定位置上显示聚合计算后的结果
df.groupby('team').transform(sum)

### copy()

In [148]:
# 类似于Python中的copy()函数，可以返回一个新的对象，这个新的对象就与原对象断绝关系了
s = pd.Series([1,2], index=['a','b'])
s_1 = s

s_copy = s.copy()

# 验证 = 和 copy()的区别
s_1 is s  # True
s_copy = s # False

