# 1. 处理缺失数据
- 对于数值数据，用浮点值NaN表示缺失数据，称为哨兵值；
- 缺失值表示为NA，python内置的None值在对象数组中也可作为NA；
- 处理NA的函数：
    - dropna：根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍度；
    - fillna：用指定值或插值方法填充缺失数据；
    - isnull：返回一个判断缺失值的布尔型对象；
    - notnull：isnull的否定式。

## 滤除缺失数据（data.dropna()）
- 可通过isnull、布尔索引、dropna方法；
- 对于Series，dropna返回一个仅含非空数据和索引值的Series；
- 对于DataFrame，可设置dropna丢弃含NA的行或列或全部
    - 默认丢弃所有含NA的行；
    - 指定how='all'，只丢弃全为NA的行；
    - 指定axis=1，丢弃所有含NA的列；
    - 指定axis=1, how='all'，只丢弃全为NA的列；
- 对于DataFrame，指定thresh=参数，按照NA数量从大到小删除数据；

## 填充缺失数据（data.fillna(x)）
- 以x填补NA；
- 通过字典调用fillna，可实现对不同列填充不同值：df.fillna({col1: x1, col2: x2}) col是列索引；
- fillna默认返回新对象，指定inplace=True可以对现有对象就地修改；
- 对reindex有效的那些插值方法也可用于fillna；
- 参数limit=2，表示可连续填充的最大数量为3行；

# 2. 数据转移
## 移出重复数据（data.drop_duplicates()）
- DataFrame的duplicated方法，返回一个布尔型Series，表示各行是否是重复行，即前面出现过的行；
- frame.drop_duplicates()方法，返回删除重复行后的DataFrame；
- 默认判断全部列，可以指定对部分列进行重复项判断，只需传入需要判断的列标签列表；
- 默认保留第一个出现的值组合，传入keep='last'则保留最后一个；

## 利用函数或映射进行数据转换（map）
- a.map(b)：将b与a相同标签的元素一一对应，无论数量。

## 替换值（replace(x1, x2)）
- 以x2替换x1，x1、x2可以是标量、列表、字典；
- 指定inplace=True，就地替换；

## 重命名轴索引（index.map与rename）
- data.index.map(lambda x: ...)
- data.rename(index= , columns= )
    - 可传入字典型对象，实现对部分轴标签的更新：index={old_index: new_index}, columns={old_col: new_col}；
    - 指定inplace=True，就地修改；

## 离散化和面元划分（pd.cut）
- 为了便于分析，连续数据常常被离散化或拆分为面元（bin）；
- pd.cut(a, bins)，返回一个特殊的Categorical对象，展示a中每个元素所属的面元，可看做一组表示面元名称的字符串；
    - result.codes属性：各元素属于第几个面元的数组；
    - result.categories属性：所有面元种类，默认左不包括右包括，指定right=False，则左包括右不包括；
    - pd.value_counts(result)：各面元计数；
- cut函数：传递一个列表或数组到labels=，设置面元名称
- cut函数：若传入的是面元数量而不是面元边界，则会根据最值计算等长面元；
- precision=2：限定2位有效小数；
- pd.qcut(a, n)：根据样本分位数对数据进行面元划分，得到大小基本相等的面元；
    - 可传入自定义的分位数（0-1），即n换成分位数列表，也是默认左不包括右包括

## 检测和过滤异常值
- 很大程度上就是运用数组运算

## 排列和随机采样
- np.random.permutation(需排列的轴的长度)函数可实现对Series或DataFrame列的随机重排（效果是行变换），返回一个表示每行的新顺序的整数数组；
- frame.take(new_order)或frame.iloc[new_order]：返回重排后的DataFrame，永久替换；
- frame.sample(n=)：返回随机选取且随机排列的n行子集，若指定replace=True，则允许重复选择，即n可以大于frame的总行数；

## 计算指标/哑变量（pd.get_dummies）
- 若DataFrame的某一列含有k个不同值，则可以派生出一个k列矩阵或DataFrame，以1和0表示有和无。
- 一个对统计应用有用的秘诀是：结合get_dummies和诸如cut之类的离散化函数。

# 3. 字符串操作
## 内置字符串方法
- s.lower()、s.upper()：大小写转换；
- s.split('分隔符')：将字符串根据分隔符拆分；
- s.strip()：删除空白符；rstrip/lstrip
- s1 + s2：字符串合并；
- s1.join(s2)：将整个s1插入到s2中每两个字符之间；
- 子串定位：
    - 'xx' in s
    - s.index('xx')：返回第一个xx的第一个字符位置，若s中不存在xx，则会报错ValueError
    - s.find('xx')：返回第一个xx的第一个字符的位置，若s中不存在xx，则返回-1
    - s.rfind('xx')：返回最后一个xx的第一个字符的位置，若s中不存在xx，则返回-1
- s.count('xx')：xx在s中出现次数；
- s.replace('x1', 'x2')：将s中的x1替换成x2；
- s.ljust/rjust：用空格或其他字符填充字符串的空白侧以返回符合最低宽度的字符串。

## 正则表达式
- 提供了一种在文本中搜索或匹配字符串模式的方式。正则表达式，常称作regex，是根据正则表达式语言编写的字符串。python内置的re模块负责对字符串应用正则表达式。
- re模块的函数可分为三大类：模式匹配、替换和拆分。
- re.split('\s+', text)：拆分字符串，分隔符为数量不定的一组空白符（制表符、空格、换行符等），描述一个或多个空白符的regex是\s+；
    - 调用re.split('\s+', text)时，正则表达式会先被编译，然后再在text上调用split方法；
    - 也可以先自行编译regex：>>regex=re.complie('\s+') >>regex.split(text)。
- 若需要对许多字符串应用同一条正则表达式，则建议通过re.compile创建regex对象；
- regex.findall(text)：返回regex的所有匹配模式
- m = regex.search(text)：只返回第一个匹配项，且以特殊的匹配项对象形式返回；text[m.start():m.end()]则以正常形式返回。（匹配项可位于字符串任意位置，不限于起始处）
- regex.match(text)：从字符串起始位置匹配模式，若成功匹配，则返回匹配项，否则返回None；
- regex.sub('NewStr', text)：将text中匹配到的模式替换为NewStr，并返回新字符串；
- 分组功能模式：将待分段的模式的各部分用圆括号包起来即可
    - m.groups()：返回由模式各段组成的元组；
    - findall会返回一个元组列表；
    - sub能通过特殊符号访问各匹配项中的分组。

## pandas的矢量化字符串函数

# 4. 层次化索引
- 一个轴上有多个索引级别；
- 可使用部分索引，即选取数据外层或内层子集；
- data.unstack()可将数据安排到DataFrame中，stack是逆运算；
- data.swaplevel('编号或名称1', '编号或名称2')：返回互换了级别的新对象；
- data.sort_index(level=)：根据单个级别中的值对数据进行排序；
- 许多对DataFrame和Series的描述和汇总统计都有一个level选项，用于指定在某条轴上求和的级别；
- frame.set_index(['col1', 'col2'])：将frame中的col1和col2当作行索引来用，默认这些列从frame中移除，drop=False则可保留；frame2.reset_index()是逆运算。

# 5. 合并数据集
## pd.merge(df1, df2)
- 通过键将DataFrame的行连接起来；
- 默认将重叠列的列名当作键，on='指定键'；若需根据多个键进行合并，则传入一个由列名组成的列表，on=['key1', 'key2']；
- 若2个对象的列名不同，则需分别指定,left_on=, right_on=；
- 默认内连接how='inner'，即返回结果中仅包含键的交集；指定how='outer/left/right'，返回键的并集/df1中的所有键/df2中的所有键；
- 多对多连接产生的是行的笛卡尔积；
- 对于重复列名，默认加后缀‘_x/y...’，可指定suffixes=('_后缀1', '_后缀2')；
- 若想将索引用作连接键，则传入left_index=True或right_index=True；

## df1.join(df2)
- 要求没有重叠的列；
- 默认左连接（即返回df1的所有键），可指定how=；
- 支持根据调用的df1的列名和df2的索引，无需指定参数；
- 可连接一组DataFrame，即df1.join([df2, df3, ...])；

## pd.concat([d1, d2, d3])
- 类似np.concatenate([data1, data2], axis=)；
- 可传入列表或字典；
- 默认axis=0，即垂直拼接；可设置axis=1，则水平拼接，返回的是DataFrame；
- 默认返回并集（即join='outer'）；传入join='inner'，返回交集；
- 传入join_axes=[['a', 'c']]，指定返回的索引；
- 传入keys=['one', 'two', 'three']，通过创建层次化索引，标记出参与拼接的各个片段；若沿着axis=1合并，则keys为返回的DataFrame的列头；若传入的是字典，则字典的键被当做keys；
- 若DataFrame的行索引不包含任何相关数据，则传入ignore_index=True，不保留连接轴上的索引，产生一组新索引range。

## data1.combine_first(data2)
- 类比np.where(condition, a, b)；
- 效果：用传递对象data2中的数据为调用对象data1的缺失数据“打补丁”。


# 6. 重塑和轴向旋转
## 重塑层次化索引
- df.stack()：将DataFrame的列转换成行，返回一个层次化Series；
- ser.unstack()：将层次化Series转换成DataFrame。
- 默认对最内层操作，可传入分层级别的编号或名称，对其他级别进行操作；
- 若不是所有的级别值都能在各分组中找到，则unstack操作会引入NaN；stack默认滤除NaN，与unstack可逆；
- 对DataFrame进行unstack操作时，作为旋转轴的界别将会成为结果中的最低级别（即内层列名）； 

## 将“长格式”旋转为“宽格式”
- 多个时间序列数据通常是以所谓的“长格式”或“堆叠格式”存储；
- data.pivot('d1', 'd2', 'd3')：d1和d2传递的值分别用作行和列索引，d3用于填充DataFrame的数据列，若省略d3，得到的DataFrame就会带有层次化的列；
- 等效于先用set_index创建层次化索引，再用unstack重塑；

## 将“宽格式”旋转为“长格式”
- pd.melt(df, ['分组指标'])：pivot的逆运算，合并多个列，返回一个长DataFrame；
- 可指定列的子集作为值的列，id_vars=[], value_vars=[]；
- 也可不用分组指标，直接传入value_vars=

In [48]:
import numpy as np
import pandas as pd
from pandas import Series as Ser, DataFrame as DF

data = DF(np.arange(6).reshape((2, 3)),
          index=pd.Index(['Ohio', 'LA'], name='state'),
          columns=pd.Index(['one', 'two', 'three'], name='number'))
#print(data)

result = data.stack()
#print(result)

result.unstack()

#data.stack(0)
result.unstack(0)
result.unstack(1)
result.unstack('state')
result.unstack('number')


data2 = Ser(range(7), index=[['one', 'one', 'one', 'one', 'two', 'two', 'two'], list('abcdcde')])
data2.unstack()
data2.unstack().stack()


data3 = DF({'left': result, 'right': result + 5}, 
            columns=pd.Index(['left', 'right'], name='side'))
data3.unstack('state')
data3.unstack('number')

data3.unstack('state').stack('side')


df = DF({'key': ['foo', 'bar', 'baz'],
         'A': [1, 2, 3],
         'B': [4, 5, 6],
         'C': [7, 8, 9]})
melted = pd.melt(df, ['key'])
reshaped = melted.pivot('key', 'variable', 'value')
melted.pivot('key', 'variable')
reshaped.reset_index()

pd.melt(df, id_vars=['key'], value_vars=['A', 'B'])
pd.melt(df, value_vars=['A', 'B', 'C'])
pd.melt(df, value_vars=['key', 'A', 'B'])

Unnamed: 0,variable,value
0,key,foo
1,key,bar
2,key,baz
3,A,1
4,A,2
5,A,3
6,B,4
7,B,5
8,B,6


In [7]:
import numpy as np
import pandas as pd
from pandas import Series as Ser, DataFrame as DF

s1 = Ser([np.nan, 2, np.nan, 3, 4, np.nan],
         index=list('fedcba'))
s2 = Ser(np.arange(len(s1)), index=list('fedcba'))
s2[:-2].combine_first(s1[2:])


df1 = DF({'a': [1, np.nan, 5, np.nan],
          'b': [np.nan, 2, np.nan, 6],
          'c': range(2, 18, 4)})
df2 = DF({'a': [5, 4, np.nan, 3, 7],
          'b': [np.nan, 3, 4, 6, 8]})
df1.combine_first(df2)

Unnamed: 0,a,b,c
0,1.0,,2.0
1,4.0,2.0,6.0
2,5.0,4.0,10.0
3,3.0,6.0,14.0
4,7.0,8.0,


In [4]:
import numpy as np
import pandas as pd
from pandas import Series as Ser, DataFrame as DF

arr = np.arange(12).reshape((3, 4))
np.concatenate([arr, arr])
np.concatenate([arr, arr], axis=1)

s1 = Ser([0, 1], index=['a', 'b'])
s2 = Ser([2, 3, 4], index=['c', 'd', 'e'])
s3 = Ser([5, 6], index=['f', 'g'])
pd.concat([s1, s2, s3])
pd.concat([s1, s2, s3], axis=1)

s4 = pd.concat([s1, s3])
pd.concat([s1, s4], axis=1)
pd.concat([s1, s4], axis=1, join='inner')
pd.concat([s1, s4], axis=1, join_axes=[['a', 'c', 'b', 'e']])
#pd.concat([s1, s4], axis=1, join='left') join没有left/right选项

pd.concat([s1, s1, s3], keys=['one', 'two', 'three'])

df1 = DF(np.arange(6).reshape((3, 2)), index=['a', 'b', 'c'],
         columns=['one', 'two'])
df2 = DF(5 + np.arange(4).reshape((2, 2)), index=['a', 'c'],
         columns=['three', 'four'])
pd.concat([df1, df2], axis=1, keys=['level1', 'level2'])

pd.concat({'level1': df1, 'level2': df2}, axis=1)



df3 = DF(np.random.randn(3, 4), columns=['a', 'b', 'c', 'd'])
df4 = DF(np.random.randn(2, 3), columns=['b', 'd', 'a'])
pd.concat([df3, df4])
pd.concat([df3, df4], ignore_index=True)
pd.concat([df3, df4], axis=1, ignore_index=True)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  del sys.path[0]
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  app.launch_new_instance()
of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.




Unnamed: 0,0,1,2,3,4,5,6
0,0.732004,-0.221717,-0.952558,0.647053,-0.560678,0.88247,-0.391139
1,0.627402,0.401804,1.14131,-0.231527,-1.975413,-0.65512,0.557477
2,0.971174,0.830066,0.728442,0.927612,,,


In [24]:
df1 = DF(np.arange(6).reshape((3, 2)),
         index=['a', 'c', 'e'],
         columns=['Ohio', 'LA'])
df2 = DF(np.linspace(7, 14, 8).reshape((4, 2)),
         index=['b', 'c', 'd', 'e'],
         columns=['Missouri', 'Alabama'])
df1.join(df2)
df1.join(df2, how='outer')


left1 = DF({'key': list('abaabc'),
            'value': range(6)})
right1 = DF({'group_val': [3, 7]},
             index=['a', 'b'])
left1.join(right1)
left1.join(right1, on='key')

Unnamed: 0,key,value,group_val
0,a,0,3.0
1,b,1,7.0
2,a,2,3.0
3,a,3,3.0
4,b,4,7.0
5,c,5,


In [16]:
import pandas as pd
from pandas import DataFrame as DF
import numpy as np

df1 = DF({'key': list('bbacaab'),
          'data1': range(7)})
df2 = DF({'key': ['a', 'b', 'd'],
          'data2': range(3)})
pd.merge(df1, df2)
pd.merge(df1, df2, how='inner')
pd.merge(df1, df2, how='outer')
pd.merge(df1, df2, how='left')
pd.merge(df1, df2, how='right')

df3 = DF({'key': list('ababd'),
          'data3': range(5)})
pd.merge(df1, df3, on='key')


left = DF({'key1': ['foo', 'foo', 'bar'],
           'key2': ['one', 'two', 'one'],
           'lval': [1, 2, 3]})
right = DF({'key1': ['foo', 'foo', 'bar', 'bar'],
            'key2': ['one', 'one', 'one', 'two'],
            'rval': [4, 5, 6, 7]})
pd.merge(left, right, on=['key1', 'key2'])

pd.merge(left, right, on='key1')
pd.merge(left, right, on='key1', suffixes=('_left', '_right'))


left1 = DF({'key': list('abaabc'),
            'value': range(6)})
right1 = DF({'group_val': [3, 7]},
             index=['a', 'b'])
pd.merge(left1, right1, left_on='key', right_index=True)


left2 = DF({'key1': ['Ohio', 'Ohio', 'Ohio', 'LA', 'LA'],
            'key2': [2000, 2001, 2002, 2001, 2002],
            'data': range(5)})
right2 = DF(np.arange(12).reshape((6, 2)),
            index=[['LA', 'LA', 'Ohio', 'Ohio', 'Ohio', 'Ohio'],
                   [2001, 2000, 2000, 2000, 2001, 2002]],
            columns=['event1', 'event2']) 
pd.merge(left2, right2, left_on=['key1', 'key2'], right_index=True)



Unnamed: 0,key1,key2,data,event1,event2
0,Ohio,2000,0,4,5
0,Ohio,2000,0,6,7
1,Ohio,2001,1,8,9
2,Ohio,2002,2,10,11
3,LA,2001,3,0,1


In [22]:
from pandas import Series as Ser, DataFrame as DF
import numpy as np

data = Ser(np.random.randn(9),
           index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                  [1, 2, 3, 1, 3, 1, 2, 2, 3]])
print(data)

data.index
data['b']
data['b':'c']
data.loc[:, 2]

data.unstack()
data.unstack().stack()


frame = DF(np.arange(12).reshape((4, 3)),
           index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
           columns=[['Ohio', 'Ohio', 'LA'], ['green', 'red', 'green']])

frame.index.names = ['key1', 'key2']
frame.columns.names = ['state', 'color']
#print(frame)

frame['Ohio']


#MultiIndex.from_arrays([['Ohio', 'Ohio', 'LA'], ['green', 'red', 'green']],
#                       names=['state', 'color'])

frame.swaplevel('key1', 'key2')
frame.swaplevel(0, 1)
frame.sort_index(level=1)
frame.swaplevel('key1', 'key2').sort_index(level=0)

frame.sum(level='key2')
frame.sum(level='color', axis=1)


frame2 = DF({'a': range(7), 'b': range(7, 0, -1),
             'c': ['one', 'one', 'one', 'two', 'two', 'two', 'two'],
             'd': [0, 1, 2, 0, 1, 2, 3]})
print(frame2)
frame3 = frame2.set_index(['c', 'd'])
frame2.set_index(['c', 'd'], drop=False)
frame3.reset_index()

a  1    0.016594
   2   -0.495185
   3    0.093308
b  1   -1.436512
   3    2.024904
c  1    1.290797
   2    1.085404
d  2   -0.555377
   3   -1.525750
dtype: float64
   a  b    c  d
0  0  7  one  0
1  1  6  one  1
2  2  5  one  2
3  3  4  two  0
4  4  3  two  1
5  5  2  two  2
6  6  1  two  3


Unnamed: 0,c,d,a,b
0,one,0,0,7
1,one,1,1,6
2,one,2,2,5
3,two,0,3,4
4,two,1,4,3
5,two,2,5,2
6,two,3,6,1


In [1]:
from pandas import Series as Ser
import numpy as np
import re

data = {'Dave': 'dave@google.com', 'Steve': 'steve@gmail.com',
        'Rob': 'rob@gmail.com', 'Wes': np.nan}
data = Ser(data)
print(data)
data.isnull()

data.str.contains('gmail')
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
data.str.findall(pattern, flags=re.IGNORECASE)

m = data.str.match(pattern, flags=re.IGNORECASE)

Dave     dave@google.com
Steve    steve@gmail.com
Rob        rob@gmail.com
Wes                  NaN
dtype: object


In [46]:
import re

text = 'foo   bar\t baz  \tqux'
re.split('\s+', text)

regex = re.compile('\s+')
regex.split(text)

regex.findall(text)
s = regex.search(text)
text[s.start():s.end()]
print(regex.match(text))

mail = """Dave dave@google.com
Steve steve@gmail.com
Tom tom@yahoo.com
"""
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'
regex2 = re.compile(pattern, flags=re.IGNORECASE)
regex2.findall(mail)
m = regex2.search(mail)
mail[m.start():m.end()]
print(regex2.match(mail))

print(regex2.sub('REDACTED', mail))

pattern2 = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex3 = re.compile(pattern2, flags=re.IGNORECASE)
regex3.findall(mail)
m2 = regex3.match('wesm@bright.net')
m2.groups()

regex3.findall(mail)

regex3.sub(r'username: \1, domain: \2, suffix: \3', mail)

None
None
Dave REDACTED
Steve REDACTED
Tom REDACTED



'Dave username: dave, domain: google, suffix: com\nSteve username: steve, domain: gmail, suffix: com\nTom username: tom, domain: yahoo, suffix: com\n'

In [16]:
val = 'a,b, gu'
val.split(',')

val2 = 'ac/b/ gub'
p = [x.strip() for x in val2.split('/')]

first, second, third = p
first + second

'::'.join(p)

first.join(third)

'gu' in val2

val2.index('/')
val2.find('/')
val2.find(',')   #返回-1表示不存在   
#val2.index(',')  报错

-1

In [12]:
import pandas as pd
import numpy as np
from pandas import DataFrame as DF

frame = DF({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
            'data1': range(6)})
print(frame)

pd.get_dummies(frame['key'])

dummies = pd.get_dummies(frame['key'], prefix='key')

df_with_dummy = frame[['data1']].join(dummies)
df_with_dummy


data = np.random.rand(10)
bins = [0, 0.2, 0.4, 0.6, 0.8, 1]
pd.get_dummies(pd.cut(data, bins))

  key  data1
0   b      0
1   b      1
2   a      2
3   c      3
4   a      4
5   b      5


Unnamed: 0,"(0.0, 0.2]","(0.2, 0.4]","(0.4, 0.6]","(0.6, 0.8]","(0.8, 1.0]"
0,1,0,0,0,0
1,0,0,0,1,0
2,1,0,0,0,0
3,0,0,0,1,0
4,0,0,0,1,0
5,0,0,0,1,0
6,0,1,0,0,0
7,1,0,0,0,0
8,1,0,0,0,0
9,0,0,0,0,1


In [138]:
data = DF(np.random.randn(1000, 4))
data.describe()
col = data[2]
col[np.abs(col) > 3]

data[(np.abs(data) > 3).any(1)]

np.sign(-2)
p = data[np.abs(data) > 3]

frame = DF(np.arange(20).reshape((5, 4)))
print(frame)
new_order = np.random.permutation(5)
print(new_order)
frame.take(new_order)
frame.iloc[new_order]

frame.sample(n=3)
#frame.sample(n=10, replace=True)

    0   1   2   3
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15
4  16  17  18  19
[1 4 2 0 3]


Unnamed: 0,0,1,2,3
1,4,5,6,7
3,12,13,14,15
2,8,9,10,11


In [105]:
import pandas as pd

ages = [20, 22, 25, 27, 21, 36, 31, 45, 60, 62]
bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)
cats
cats.codes
cats.categories
pd.value_counts(cats)

pd.cut(ages, bins, labels=['Youth', 'YoungAdult', 'MiddleAged', 'Senior'])

data2 = np.arange(20)
print(data2)

pd.cut(data2, 4, precision=1)

data3 = np.random.randn(1000)
c1 = pd.qcut(data3, 4)
pd.value_counts(c1)

c2 = pd.cut(data3, 4)
pd.value_counts(c2)

c3 = pd.qcut(data3, [0, 0.1, 0.4, 0.8, 1])
pd.value_counts(c3)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]


(-0.271, 0.842]     400
(-1.369, -0.271]    300
(0.842, 3.069]      200
(-2.903, -1.369]    100
dtype: int64

In [88]:
data = DF(np.arange(12).reshape((3, 4)),
          index=['ohio', 'colorado', 'New York'],
          columns=['one', 'two', 'three', 'four'])
transform = lambda x: x[:4].upper()
#data.index = data.index.map(transform)
data

data.rename(index=str.title, columns=str.upper)

Unnamed: 0,ONE,TWO,THREE,FOUR
Ohio,0,1,2,3
Colorado,4,5,6,7
New York,8,9,10,11


In [80]:
data = Ser([1, -999, 2, -999, -1000])
data.replace(-999, NA)
data.replace([-999, -1000], [NA, 0])
data.replace({-999: NA, -1000: 0})

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
dtype: float64

In [77]:
from pandas import Series as Ser, DataFrame as DF

data = DF({'k1': ['one', 'two'] * 3 + ['two'],
           'k2': [1, 1, 2, 3, 3, 4, 4]})
data.duplicated()
data.drop_duplicates()
data.drop_duplicates(['k1'])
data.drop_duplicates(['k2'])
data.drop_duplicates(['k1', 'k2'])
data.drop_duplicates(keep='last')

data2 = DF({'food': ['bacon', 'pulled pork', 'Pastrami',
                     'corned beef', 'honey ham', 'Bacon',
                     'nova lox'],
            'ounces': [4, 3, 6, 7, 5, 6, 8]})
print(data2)
meat_to_animal = {
    'bacon': 'pig',
    'pulled pork': 'pig',
    'pastrami': 'cow',
    'corned beef': 'cow',
    'honey ham': 'pig',
    'nova lox': 'salmon'
}
lowercased = data2['food'].str.lower()
data2['animal'] = lowercased.map(meat_to_animal)
data2

data2['food'].map(lambda x: meat_to_animal[x.lower()])

          food  ounces
0        bacon       4
1  pulled pork       3
2     Pastrami       6
3  corned beef       7
4    honey ham       5
5        Bacon       6
6     nova lox       8


0       pig
1       pig
2       cow
3       cow
4       pig
5       pig
6    salmon
Name: food, dtype: object

In [59]:
from pandas import Series as Ser, DataFrame as DF
from numpy import nan as NA
import numpy as np

data = Ser([1, NA, 3.5, NA, 7])
data.dropna()
data[data.notnull()]

data2 = DF([[1, 6.5, 3], [1, NA, NA], [NA, NA, NA], [NA, 4, 2]])
data2.dropna()
data2.dropna(how='all')
data2.dropna(axis=1)
data2.dropna(axis=1, how='all')

data3 = DF(np.random.randn(7, 3))
data3.iloc[:4, 1] = NA
data3.iloc[:2, 2] = NA
data3.iloc[0, 0] = NA
data3.iloc[5, :] = NA
print(data3)
data3.dropna(thresh=3)

data3.fillna(0)
data3.fillna({1: 0.5, 2: 0})

data3.fillna(method='ffill')
data3.fillna(method='bfill')
data3.fillna(method='bfill', limit=2)  #连续填充3行

          0         1         2
0       NaN       NaN       NaN
1  0.164176       NaN       NaN
2  0.399944       NaN -2.118219
3  0.920723       NaN -1.483677
4 -0.170993 -1.066219  2.121152
5       NaN       NaN       NaN
6 -2.154655 -1.387825 -1.388724


Unnamed: 0,0,1,2
0,0.164176,,-2.118219
1,0.164176,,-2.118219
2,0.399944,-1.066219,-2.118219
3,0.920723,-1.066219,-1.483677
4,-0.170993,-1.066219,2.121152
5,-2.154655,-1.387825,-1.388724
6,-2.154655,-1.387825,-1.388724
