# pandas数据处理

## 读取文本数据

1. read_csv()和read_table函数可以从文件、url、文件型对象中获取数据转为DataFrame对象；
   * read_csv()默认分隔符为,    read_table()默认分隔符为\t

In [34]:
import pandas as pd
df = pd.read_csv('examples/ex1.csv')
print(df)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo


2. read_csv和read_table函数中常用关键参数
   * sep或者delimiter：分隔符或者正则表达式
   * header:用作列名的行号，默认为0（即第一行），如果没有header，应该设置为None

In [35]:
# sep参数示例
import pandas as pd
df = pd.read_table('examples/ex1.csv',sep = ',')
print(df)
print("--" * 10)
df = pd.read_table('examples/ex2.csv',delimiter='\s+')  # 使用正则表达式匹配分隔符
print(df)
print("--" * 10)
# header参数示例
df = pd.read_csv('examples/ex1.csv', header=0)  # 第一行作为表头
print(df)
print("--" * 10)
df = pd.read_csv('examples/ex3.csv', header=None)  # 没有表头,使用默认的整数索引作为列名
print(df)

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
--------------------
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
--------------------
   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
--------------------
   0   1   2   3      4
0  1   2   3   4  hello
1  5   6   7   8  world
2  9  10  11  12    foo


2. 关键参数
   * names :结合header = None，配置列名，也可修改原有列名
   * index_col:用作行索引的列编号或者列名，可以是单个数字/名称或列表，如果是列表则为层次索引

In [36]:
import pandas as pd

#names参数示例
names = ['A', 'B', 'C', 'D', 'Message'] # 自定义列名
df = pd.read_csv('examples/ex3.csv', header=None,names=names)  # 没有表头,使用自定义的列名
print(df)
print("--" * 10)
df = pd.read_csv('examples/ex1.csv', names=names)  # 使用默认的列名
print(df)  # 此时会覆盖原有的表头
print("--" * 10)

#index_col参数示例
df = pd.read_csv('examples/ex3.csv', names=names, index_col='Message')
print(df)   #此时Message列已经变成了索引，Message成为了索引名
print("--" * 10)
#层次化索引
df = pd.read_csv('examples/ex4.csv', index_col=[0, 1])  # 使用多列作为索引
print(df)  # 此时第一列和第二列已经变成了索引

   A   B   C   D Message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
--------------------
   A   B   C   D  Message
0  a   b   c   d  message
1  1   2   3   4    hello
2  5   6   7   8    world
3  9  10  11  12      foo
--------------------
         A   B   C   D
Message               
hello    1   2   3   4
world    5   6   7   8
foo      9  10  11  12
--------------------
           value1  value2
key1 key2                
one  a          1       2
     b          3       4
     c          5       6
     d          7       8
two  a          9      10
     b         11      12
     c         13      14
     d         15      16


2. 关键参数
   * skiprows:需要忽略的行数
   * na_values:用于指定哪些字符串应该被识别为缺失值

In [37]:
import pandas as pd
# skiprows参数示例
# 跳过前3行
df = pd.read_csv('examples/ex5.csv', skiprows=[0, 2, 3])  # 跳过第0,2，3行 
print(df)
print("--" * 10)

#na_values参数示例
df = pd.read_csv('examples/ex6.csv') # 默认会将空字符串、'NA'、'NaN'等识别为缺失值，以NaN显示
print(df)
print("--" * 10)

result = pd.read_csv('examples/ex6.csv',na_values=['one'])
print(result)  # 除默认的外，将'one'也识别为缺失值
print("--" * 10)

sentinels = {'message': ['foo', 'NA'], 'something': ['two']}
# 使用字典指定不同列的缺失值
result = pd.read_csv('examples/ex6.csv', na_values=sentinels)
print(result)  # 除默认的外，将message列中的'foo'和'NA'，something列中的'two'也识别为缺失值

   a   b   c   d message
0  1   2   3   4   hello
1  5   6   7   8   world
2  9  10  11  12     foo
--------------------
  something   a   b     c   d message
0       one   1   2   3.0   4     NaN
1       two   5   6   NaN   8   world
2     three   9  10  11.0  12     foo
3      four  13  14  15.0  16     bar
4      five  17  18  19.0  20     baz
--------------------
  something   a   b     c   d message
0       NaN   1   2   3.0   4     NaN
1       two   5   6   NaN   8   world
2     three   9  10  11.0  12     foo
3      four  13  14  15.0  16     bar
4      five  17  18  19.0  20     baz
--------------------
  something   a   b     c   d message
0       one   1   2   3.0   4     NaN
1       NaN   5   6   NaN   8   world
2     three   9  10  11.0  12     NaN
3      four  13  14  15.0  16     bar
4      five  17  18  19.0  20     baz


2. 关键参数
   * nrows:需要读取的行数
   * chunksize： 文件块的大小（用于迭代）

In [38]:
import pandas as pd
# nrows参数示例
# 只读取前3行
df = pd.read_csv('examples/ex6.csv', nrows=3)  # 只读取前3行
print(df)  # 只显示前3行
print("--" * 10)

# chunksize参数示例
# 逐块读取数据，每块1000行
chunkReader = pd.read_csv('examples/ex6.csv', chunksize=1000)
for piece in chunkReader:  # chunker是一个迭代器，每次迭代返回1000行
    print("Chunk shape:", piece.shape)  # 打印当前块的形状
    # 可以在这里对每个块进行处理，例如计算某些统计信息等
    # 这里只打印块的形状，实际使用中可以根据需求进行处理

  something  a   b     c   d message
0       one  1   2   3.0   4     NaN
1       two  5   6   NaN   8   world
2     three  9  10  11.0  12     foo
--------------------
Chunk shape: (5, 6)


## 将DataFrame对象写出到文件

* to_csv()方法写出到csv文件中，默认为逗号分隔符可以使用sep进行定义分隔符

In [39]:
import pandas as pd
import sys
data = pd.read_csv('examples/ex1.csv')
# 使用to_csv方法将DataFrame保存为CSV文件
data.to_csv('examples/output.csv', index=False)  # 保存为CSV文件，不包含索引

data.to_csv(sys.stdout, sep='|') # 将DataFrame输出到标准输出，使用'|'作为分隔符

|a|b|c|d|message
0|1|2|3|4|hello
1|5|6|7|8|world
2|9|10|11|12|foo


1. to_csv()等相关参数
   * sep：定义分隔符
   * na_rep：缺失值替换值
   * header:是否写出标题行
   * columns:需要输出的列和顺序

In [40]:
from email import header
import pandas as pd
import sys

#na_rep参数示例
data = pd.read_csv('examples/ex6.csv') #含有缺失值
data.to_csv(sys.stdout, na_rep='NULL',index = False)  # 将缺失值替换为'NULL'并保存为CSV文件,默认为空字符串
print("--" * 10)

#header参数示例
data.to_csv(sys.stdout, na_rep='NULL',index = False,header=False)  # 不输出表头
print("--" * 10)

#columns参数示例
data.to_csv(sys.stdout, na_rep='NaN', index=False, columns=['a', 'b', 'd', 'c'])  # 按顺序输出a, b, d, c列

something,a,b,c,d,message
one,1,2,3.0,4,NULL
two,5,6,NULL,8,world
three,9,10,11.0,12,foo
four,13,14,15.0,16,bar
five,17,18,19.0,20,baz
--------------------
one,1,2,3.0,4,NULL
two,5,6,NULL,8,world
three,9,10,11.0,12,foo
four,13,14,15.0,16,bar
five,17,18,19.0,20,baz
--------------------
a,b,d,c
1,2,4,3.0
5,6,8,NaN
9,10,12,11.0
13,14,16,15.0
17,18,20,19.0


## 读取JSON数据

1. JSON简介
   * json.loads方法可以将json对象转为python对象
   * json.dumps则将Python对象转换成JSON格式：

In [41]:
import pandas as pd
import json

obj = """
{"name": "Wes",
 "places_lived": ["United States", "Spain", "Germany"],
 "pet": null,
 "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]},
              {"name": "Katie", "age": 38,
               "pets": ["Sixes", "Stache", "Cisco"]}]
}
"""

result = json.loads(obj)
print(result)  # 将JSON字符串解析为Python字典
print("--" * 10)
asjson = json.dumps(result)
print(asjson)  # 将Python字典转换为JSON字符串

{'name': 'Wes', 'places_lived': ['United States', 'Spain', 'Germany'], 'pet': None, 'siblings': [{'name': 'Scott', 'age': 30, 'pets': ['Zeus', 'Zuko']}, {'name': 'Katie', 'age': 38, 'pets': ['Sixes', 'Stache', 'Cisco']}]}
--------------------
{"name": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, "siblings": [{"name": "Scott", "age": 30, "pets": ["Zeus", "Zuko"]}, {"name": "Katie", "age": 38, "pets": ["Sixes", "Stache", "Cisco"]}]}


2. 使用pandas的read_json加载json对象为DataFrame  
   使用to_json方法将DataFrame对象转为json

In [42]:
import pandas as pd
import json
data = pd.read_json('examples/ex7.json')
print(data)  # 将JSON文件解析为DataFrame
print("--" * 10)
json_str = data.to_json()  # 将DataFrame转换为JSON字符串
print(json_str)

   a  b  c
0  1  2  3
1  4  5  6
2  7  8  9
--------------------
{"a":{"0":1,"1":4,"2":7},"b":{"0":2,"1":5,"2":8},"c":{"0":3,"1":6,"2":9}}


## 缺失值处理

### pandas中处理缺失数据的方法

属性方法：
1. dropna(axis = 0/1):若axis为0，则删除有缺失值的行，若axis为1，则删除有缺失值的列,默认为0；
2. fillna(value=,axis=);value为填充值
   1. 变种方法 ffill()为前向填充，bfill()为后向填充
3. isnull():返回布尔类型DataFrame
4. notnull():与isnull相反

In [43]:
import pandas as pd
import numpy as np

data = {'col1': [1, 2, np.nan, 4], 
        'col2': [5, np.nan, 7, 8], 
        'col3': [np.nan, np.nan, np.nan, 9]}
df = pd.DataFrame(data)

df_dropna_rows = df.dropna()  # 删除包含缺失值的行
print(df_dropna_rows)  # 打印删除缺失值后的DataFrame
print("--" * 10)

df_dropna_cols = df.dropna(axis=1)  # 删除包含缺失值的列
print(df_dropna_cols)  # 打印删除缺失值后的DataFrame



   col1  col2  col3
3   4.0   8.0   9.0
--------------------
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]


In [44]:
import pandas as pd
import numpy as np

data = {'col1': [1, 2, np.nan, 4], 
        'col2': [5, np.nan, 7, 8], 
        'col3': [np.nan, np.nan, np.nan, 9]}
df = pd.DataFrame(data)
df_fillna_value = df.fillna(0)  # 用0填充缺失值
print(df_fillna_value)  # 打印填充缺失值后的DataFrame
print("--" * 10)
#如果传入一个字典，则可以指定不同列的填充值
df_fillna_dict = df.fillna({'col1': 0, 'col2': 1})  # 用字典指定不同列的填充值
print(df_fillna_dict)  # 打印填充缺失值后的DataFrame
print("--" * 10)
df_ffill = df.ffill()  # 用前一个值填充缺失值
print(df_ffill)  # 打印填充缺失值后的DataFrame

   col1  col2  col3
0   1.0   5.0   0.0
1   2.0   0.0   0.0
2   0.0   7.0   0.0
3   4.0   8.0   9.0
--------------------
   col1  col2  col3
0   1.0   5.0   NaN
1   2.0   1.0   NaN
2   0.0   7.0   NaN
3   4.0   8.0   9.0
--------------------
   col1  col2  col3
0   1.0   5.0   NaN
1   2.0   5.0   NaN
2   2.0   7.0   NaN
3   4.0   8.0   9.0


In [45]:
import pandas as pd
import numpy as np

data = {'col1': [1, 2, np.nan, 4], 
        'col2': [5, np.nan, 7, 8], 
        'col3': [np.nan, np.nan, np.nan, 9]}
df = pd.DataFrame(data)

print(df.isnull())  # 检查缺失值
print("--" * 10)
print(df.notnull())  # 检查非缺失值

    col1   col2   col3
0  False  False   True
1  False   True   True
2   True  False   True
3  False  False  False
--------------------
    col1   col2   col3
0   True   True  False
1   True  False  False
2  False   True  False
3   True   True   True


## 数据转换

### 移除重复数据
1. 属性方法duplicated，返回一个布尔Series，可以判断各行是否是重复行
2. 属性方法drop_duplicates()返回一个DataFrame对象，删除重复的行

In [46]:
import pandas as pd
import numpy as np

data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                   'k2': [1, 1, 2, 1, 3, 4, 4]})
print(data)  # 打印原始数据
print("--" * 10)

print(data.duplicated())  # 检查重复行

    k1  k2
0  one   1
1  two   1
2  one   2
3  two   1
4  one   3
5  two   4
6  two   4
--------------------
0    False
1    False
2    False
3     True
4    False
5    False
6     True
dtype: bool


In [47]:
import pandas as pd
import numpy as np

data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                   'k2': [1, 1, 2, 1, 3, 4, 4]})
print(data)  # 打印原始数据
print("--" * 10)

print(data.drop_duplicates())  # 删除重复行

    k1  k2
0  one   1
1  two   1
2  one   2
3  two   1
4  one   3
5  two   4
6  two   4
--------------------
    k1  k2
0  one   1
1  two   1
2  one   2
4  one   3
5  two   4


* duplicated()和drop_duplicates()默认判断全部列是否重复（即只有全部列的值都相同的行才会被判定为相同）
* 可以指定需要判断的列

In [48]:
import pandas as pd
import numpy as np

data = pd.DataFrame({'k1': ['one', 'two'] * 3 + ['two'],
                   'k2': [1, 1, 2, 1, 3, 4, 4]})
print(data)  # 打印原始数据
print("--" * 10)

print(data.drop_duplicates(['k1']))  # 删除重复行

    k1  k2
0  one   1
1  two   1
2  one   2
3  two   1
4  one   3
5  two   4
6  two   4
--------------------
    k1  k2
0  one   1
1  two   1


### 利用函数或映射进行数据转换

* 考虑以下情形：如果我们要添加一列表示肉类的来源。我们可定义一个映射或者函数，来实现。
* 对某列使用属性方法map()，传入映射字典或者函数即可完成。

In [49]:
import pandas as pd
import numpy as np
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 'pastrami', 'corned beef', 'bacon', 'pastrami'],
                     'ounces': [4, 3, 12, 6, 4, 5, 10]})

print(data)  # 打印原始数据
print("--" * 10)

#定义一个字典，将食物名称映射到动物名称
meat_to_animal = {
  'bacon': 'pig',
  'pulled pork': 'pig',
  'pastrami': 'cow',
  'corned beef': 'cow',
  'honey ham': 'pig',
  'nova lox': 'salmon'
}
# 使用map方法将食物名称映射到动物名称
data['animal'] = data['food'].map(meat_to_animal)  # 添加新列'animal'
print(data)  # 打印添加新列后的数据

          food  ounces
0        bacon       4
1  pulled pork       3
2        bacon      12
3     pastrami       6
4  corned beef       4
5        bacon       5
6     pastrami      10
--------------------
          food  ounces animal
0        bacon       4    pig
1  pulled pork       3    pig
2        bacon      12    pig
3     pastrami       6    cow
4  corned beef       4    cow
5        bacon       5    pig
6     pastrami      10    cow


### 替换值
* 使用属性方法replace()完成对DataFrame中值的替换

In [50]:
from math import nan
import pandas as pd
import numpy as np

data = pd.Series([1., -999., 2., -999., -1000., 3.])
print(data)  # 打印原始数据
print("--" * 10)

# 使用replace方法替换值
data1 = data.replace(-999,np.nan)  # 将-999替换为NaN    如果定义关键字inplace=True可以直接在原数据上进行替换
print(data1)  # 打印替换后的数据
print("--" * 10)

data2 = data.replace([-999, -1000], [np.nan, 0])  # 也可以传递列表，一一对应转换将-999替换为NaN，-1000替换为0
print(data2)  # 打印替换后的数据
print("--" * 10)

data3 = data.replace({-999: np.nan, -1000: 0})  # 也可以传递字典，指定要替换的值和对应的替换值
print(data3)  # 打印替换后的数据

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64
--------------------
0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64
--------------------
0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64
--------------------
0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64


In [51]:
import pandas as pd
import numpy as np
data = pd.DataFrame({'food': ['bacon', 'pulled pork', 'bacon', 'pastrami', 'corned beef', 'bacon', 'pastrami'],
                     'ounces': [4, 3, 12, 6, 4, 5, 10]})

data1 = data.replace('bacon1', 'beef')  # 将所有'bacon'替换为'beef'
print(data1)  # 打印替换后的数据
print("--" * 10)

data2 = data.replace({'food': 'bacon'}, 'beef')  # 如果只想对某一列进行替换，可以传入一个字典将'food'列中的'bacon'替换为'beef'
print(data2)  # 打印替换后的数据

          food  ounces
0        bacon       4
1  pulled pork       3
2        bacon      12
3     pastrami       6
4  corned beef       4
5        bacon       5
6     pastrami      10
--------------------
          food  ounces
0         beef       4
1  pulled pork       3
2         beef      12
3     pastrami       6
4  corned beef       4
5         beef       5
6     pastrami      10


### 重命名轴索引
* 用data.index获取索引后，可以用之前的map方法进行映射

In [52]:
import pandas as pd
import numpy as np
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                     index=['Ohio', 'Colorado', 'New York'],
                     columns=['one', 'two', 'three', 'four'])
print(data)  # 打印原始数据
print("--" * 10)
transform = lambda x: x[:4].upper()
data.index = data.index.map(transform)
print(data)  # 打印转换后的数据


          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11
--------------------
      one  two  three  four
OHIO    0    1      2     3
COLO    4    5      6     7
NEW     8    9     10    11


* 使用上述方法会使原始数据被修改，可以用属性方法rename()进行修改，会返回新的对象而不修改源数据

In [53]:
import pandas as pd
import numpy as np
data = pd.DataFrame(np.arange(12).reshape((3, 4)),
                     index=['Ohio', 'Colorado', 'New York'],
                     columns=['one', 'two', 'three', 'four'])
print(data)  # 打印原始数据
print("--" * 10)

data2 = data.rename(index=str.title, columns=str.upper) #index和columns参数都可以传入函数，函数会作用于索引名或者列名
# 这里使用str.title函数将索引名转换为标题格式，使用str.upper函数将列名转换为大写
print(data2)  # 打印转换后的数据
print("--" * 10)

data3 = data.rename(index={'Ohio': 'OHIO', 'Colorado': 'COLORADO'}, columns={'one': 'ONE', 'two': 'TWO'}) #也可以传入字典，实现对索引名或者列名的部分替换
print(data3)  # 打印转换后的数据

          one  two  three  four
Ohio        0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11
--------------------
          ONE  TWO  THREE  FOUR
Ohio        0    1      2     3
Colorado    4    5      6     7
New York    8    9     10    11
--------------------
          ONE  TWO  three  four
OHIO        0    1      2     3
COLORADO    4    5      6     7
New York    8    9     10    11


### 离散化和面元划分
* 即：将数据拆分分组


1. 用pandas方法cut()将数据进行分组，返回一个特殊对象categories，展示每个数据的分组情况
* cut()方法默认左开右闭，若要将分组改为左闭右开，可以使用right关键字

In [54]:
import pandas as pd
import numpy as np
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]#五个数，四个分组
#分组为18-25, 26-35, 36-60, 61-100,默认左开右闭

cats = pd.cut(ages, bins)
print(cats)  # 打印分组结果
print("--" * 10)

cats = pd.cut(ages, bins,right=False) #左闭右开，False表示右开
print(cats)  # 打印分组结果

[(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], ..., (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]]
Length: 12
Categories (4, interval[int64, right]): [(18, 25] < (25, 35] < (35, 60] < (60, 100]]
--------------------
[[18, 25), [18, 25), [25, 35), [25, 35), [18, 25), ..., [25, 35), [60, 100), [35, 60), [35, 60), [25, 35)]
Length: 12
Categories (4, interval[int64, left]): [[18, 25) < [25, 35) < [35, 60) < [60, 100)]


* 若要对分组的结果进行统计数据，可以使用pandas.Series方法value_counts(),传入一个categories对象

In [55]:
import pandas as pd
import numpy as np
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]
#分组为18-25, 26-35, 36-60, 61-100
cats = pd.cut(ages, bins)
print(pd.Series.value_counts(cats))

(18, 25]     5
(25, 35]     3
(35, 60]     3
(60, 100]    1
Name: count, dtype: int64


* 如果想要为每个区间设置一个名称，可以使用labels关键字传入一个列表

In [56]:
import pandas as pd
import numpy as np
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
bins = [18, 25, 35, 60, 100]    #五个数，四个分组
#分组为18-25, 26-35, 36-60, 61-100,默认左开右闭
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']   #列表个数一定要和分组个数一致
cats = pd.cut(ages, bins,labels=group_names) #  
print(pd.Series.value_counts(cats))  # 打印分组结果

Youth         5
YoungAdult    3
MiddleAged    3
Senior        1
Name: count, dtype: int64


* 如果传入cut的不是分组列表，而是一个数x，则会根据数据最值自动计算并分成x个分组

In [57]:
import pandas as pd
import numpy as np
data = np.random.rand(20)
cats = pd.cut(data, 4,precision=2)  # 将数据分为4组 选项precision=2，限定小数只有两位。
print(cats)  # 打印分组结果

[(0.27, 0.5], (0.72, 0.95], (0.27, 0.5], (0.27, 0.5], (0.048, 0.27], ..., (0.72, 0.95], (0.72, 0.95], (0.5, 0.72], (0.72, 0.95], (0.72, 0.95]]
Length: 20
Categories (4, interval[float64, right]): [(0.048, 0.27] < (0.27, 0.5] < (0.5, 0.72] < (0.72, 0.95]]


2. qcut()函数可以根据分位数将数据分组  
    cut可能无法使各个分组中含有相同数量的数据点。而qcut由于使用的是样本分位数，因此可以得到大小基本相等的分组：

In [58]:
import pandas as pd
import numpy as np

data = np.random.randn(1000)

cats = pd.qcut(data, 4, labels=['Q1', 'Q2', 'Q3', 'Q4'])  # 将数据分为4组，并指定标签
print(cats)  # 打印分组结果
print("--" * 10)
print(pd.Series.value_counts(cats))

['Q3', 'Q1', 'Q3', 'Q3', 'Q3', ..., 'Q2', 'Q1', 'Q2', 'Q4', 'Q1']
Length: 1000
Categories (4, object): ['Q1' < 'Q2' < 'Q3' < 'Q4']
--------------------
Q1    250
Q2    250
Q3    250
Q4    250
Name: count, dtype: int64


### 检测和过滤异常值

* 过滤或变换异常值（outlier）在很大程度上就是运用数组运算。对数据进行处理

In [59]:
import pandas as pd
import numpy as np
data = pd.DataFrame(np.random.randn(1000, 4))

data[np.abs(data) > 3] = np.sign(data) * 3 #将大于3的值替换为3，小于-3的值替换为-3
#根据数据的值是正还是负，np.sign(data)可以生成1和-1

### 排列和随机采样

1. 重排列
* 利用numpy.random.permutation函数，传入一个数，可以返回一个表示新顺序的整数数组
* 随后使用属性方法take进行重排列
2. 随机采样
   * 使用属性方法sample函数进行随机采样，传入一个整数x，获得随机x行数据

In [60]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(5 * 4).reshape((5, 4)))

sampler = np.random.permutation(5)  # 随机排列0-4的整数
print(sampler)  # 打印随机排列的整数
print("--" * 10)

print(df)
print("--" * 10)

df1 = df.take(sampler) #take函数返回给定位置的元素的方法。
print(df1)  # 打印原始数据
print("--" * 10)

df2 = df.sample(n=3)  # 随机抽取3行
print(df2)  # 打印随机抽取的3行

[0 3 1 4 2]
--------------------
    0   1   2   3
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
4  16  17  18  19
--------------------
    0   1   2   3
0   0   1   2   3
3  12  13  14  15
1   4   5   6   7
4  16  17  18  19
2   8   9  10  11
--------------------
   0  1   2   3
0  0  1   2   3
1  4  5   6   7
2  8  9  10  11


### pandas独热编码

* 机器学习中常将分类变量转换为哑变量/指标矩阵(独热编码)
* 如果DataFrame的某一列中含有k个不同的值，则可以派生出一个k列矩阵或DataFrame
* pandas方法get_dummies可以实现，用于对某一列转换为独热编码

In [61]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                     'value': range(6)})

df1 = pd.get_dummies(df['key'])  # 使用get_dummies方法进行独热编码，可以传入DataFrame或者Series
print(df1)  # 打印独热编码后的数据

       a      b      c
0  False   True  False
1  False   True  False
2   True  False  False
3  False  False   True
4   True  False  False
5  False   True  False


In [62]:
import pandas as pd
import numpy as np
data = {'颜色': ['红色', '蓝色', '绿色', '红色'],
        '尺寸': ['大', '小', '中', '大']}
df = pd.DataFrame(data)
print(df)
print("--" * 10)
# 使用 get_dummies 进行独热编码
df_dummies = pd.get_dummies(df).astype(int) # 将独热编码后的数据转换为整数类型
print(df_dummies)

   颜色 尺寸
0  红色  大
1  蓝色  小
2  绿色  中
3  红色  大
--------------------
   颜色_红色  颜色_绿色  颜色_蓝色  尺寸_中  尺寸_大  尺寸_小
0      1      0      0     0     1     0
1      0      0      1     0     0     1
2      0      1      0     1     0     0
3      1      0      0     0     1     0


## 字符串操作

### 字符串对象方法

### 正则表达式

### pandas矢量化字符串函数