In [1]:
'''
    文本数据

    Pandas针对字符串配备的一套方法，使其易于对数组的每个元素进行操作
'''


'\n    文本数据\n\n    Pandas针对字符串配备的一套方法，使其易于对数组的每个元素进行操作\n'

In [4]:
import numpy as np
import pandas as pd

In [13]:
# 通过str访问，且自动排除丢失/ NA值
# 直接通过.str调用字符串方法
# 可以对Series、Dataframe使用
# 自动过滤NaN值

s = pd.Series(['A','B','C','bbhello','123',np.nan,'hj'])
df = pd.DataFrame({'key1':list('abcdef'),
                  'key2':['hee','fv','w','hija','123',np.nan]})
print('s:',s,sep='\n')
print('df:',df,sep='\n')
print('-----------------------')

# 统计字母b出现的次数
print('统计字母b出现的次数',s.str.count('b'),sep='\n')
# df中key2列的字母都大写
print('df中key2列的字母都大写:',df['key2'].str.upper(),sep='\n')
# df的列名称都大写
df.columns = df.columns.str.upper()
print('df的列名称都大写:',df,sep='\n')
# df.columns是一个Index对象，也可使用.str

s:
0          A
1          B
2          C
3    bbhello
4        123
5        NaN
6         hj
dtype: object
df:
  key1  key2
0    a   hee
1    b    fv
2    c     w
3    d  hija
4    e   123
5    f   NaN
-----------------------
统计字母b出现的次数
0    0.0
1    0.0
2    0.0
3    2.0
4    0.0
5    NaN
6    0.0
dtype: float64
df中key2列的字母都大写:
0     HEE
1      FV
2       W
3    HIJA
4     123
5     NaN
Name: key2, dtype: object
df的列名称都大写:
  KEY1  KEY2
0    a   hee
1    b    fv
2    c     w
3    d  hija
4    e   123
5    f   NaN


In [15]:
# 字符串常用方法（1） - lower，upper，len，startswith，endswith

s = pd.Series(['A','b','bbhello','123',np.nan])

print(s.str.lower(),'→ lower小写\n')
print(s.str.upper(),'→ upper大写\n')
print(s.str.len(),'→ len字符长度\n')
print(s.str.startswith('b'),'→ 判断起始是否为b\n')
print(s.str.endswith('3'),'→ 判断结束是否为3\n')


0          a
1          b
2    bbhello
3        123
4        NaN
dtype: object → lower小写

0          A
1          B
2    BBHELLO
3        123
4        NaN
dtype: object → upper大写

0    1.0
1    1.0
2    7.0
3    3.0
4    NaN
dtype: float64 → len字符长度

0    False
1     True
2     True
3    False
4      NaN
dtype: object → 判断起始是否为b

0    False
1    False
2    False
3     True
4      NaN
dtype: object → 判断结束是否为3



In [34]:
# 字符串常用方法（2） - strip 去除字符串中的空格(不包括中间空格)

s = pd.Series([' jack', 'jill ', ' jes se ', 'fr ank'])
df = pd.DataFrame(np.random.randn(3, 2), columns=['   Column A ', '             Column B    '],
                  index=range(3))
print('s:',s,sep='\n')
print('df:',df,sep='\n')

print('去除字符串中的空格(不包括中间空格):',s.str.strip(),sep='\n')  
print('去除字符串中的左空格(不包括中间空格):',s.str.lstrip(),sep='\n')  
print('去除字符串中的右空格(不包括中间空格):',s.str.rstrip(),sep='\n')  

df.columns = df.columns.str.strip()
print(df)
# 这里去掉了columns的前后空格，但没有去掉中间空格

s:
0        jack
1       jill 
2     jes se 
3      fr ank
dtype: object
df:
      Column A                Column B    
0     -0.018366                   0.019211
1     -1.745238                  -0.562363
2      1.203093                  -0.473534
去除字符串中的空格(不包括中间空格):
0      jack
1      jill
2    jes se
3    fr ank
dtype: object
去除字符串中的左空格(不包括中间空格):
0       jack
1      jill 
2    jes se 
3     fr ank
dtype: object
去除字符串中的右空格(不包括中间空格):
0       jack
1       jill
2     jes se
3     fr ank
dtype: object
   Column A  Column B
0 -0.018366  0.019211
1 -1.745238 -0.562363
2  1.203093 -0.473534


In [50]:
# 字符串常用方法（3） - replace  替换  Series无此方法  DataFrame有
s = pd.Series([' jack', 'jill ', ' jes se ', 'fr ank'])
df = pd.DataFrame(np.random.randn(3, 2), columns=[' Column A ', ' Column B '],
                  index=range(3))
s.str.replace('j','+++')  # 无效
print('将空格替换成+++',s,sep='\n')

# DataFrame的列名称,空格被替换
df.columns = df.columns.str.replace(' ','-')
print('df名称改变:',df,sep='\n')

# 参数n：替换个数
df.columns = df.columns.str.replace('-','R',n=2)  # 替换2个'-' 为R
print('df名称替换字符串增加个数限制:',df,sep='\n')

将空格替换成+++
0        jack
1       jill 
2     jes se 
3      fr ank
dtype: object
df名称改变:
   -Column-A-  -Column-B-
0   -0.243746   -0.074930
1   -0.548231   -0.844910
2   -2.446569    0.005277
df名称替换字符串增加个数限制:
   RColumnRA-  RColumnRB-
0   -0.243746   -0.074930
1   -0.548231   -0.844910
2   -2.446569    0.005277


In [79]:
# 字符串常用方法（4） - split、rsplit

s = pd.Series(['a,b,c','1,2,3',['a,,,c'],np.nan])
print('s:',s,sep='\n')

str_sp = s.str.split(',')
print("s.str.split(','):",str_sp,sep='\n')

# 可以使用get或[]符号访问拆分列表中的元素
print('获取拆分后列表中下标为1的元素:',str_sp.str[1],sep='\n')
print('获取拆分后列表中下标为2的元素:',str_sp.str.get(2),sep='\n')


# 使用expand参数可以轻松扩展此操作以返回DataFrame
print('使用expand=True获取DataFrame:',s.str.split(',', expand=True),sep='\n')
# n参数限制分割数
print('使用expand=True获取DataFrame,限制分割一次:',s.str.split(',', expand=True,n = 1),sep='\n')
# rsplit类似于split，反向工作，即从字符串的末尾到字符串的开头
print('使用expand=True获取DataFrame,限制分割一次(反向分割):',s.str.rsplit(',', expand=True,n = 1),sep='\n')

# Dataframe使用split

df = pd.DataFrame({'key1':['a,b,c','1,2,3',[':,., ']],
                  'key2':['a-b-c','1-2-3',[':-.- ']]})
print('df:',df,sep='\n')
result = df['key2'].str.split('-')
print('DataFrame操作第二列数据:',result,sep='\n')

result = df.columns.str.split('k')  
print('DataFrame操作列名称数据:',result,sep='\n')  #  应用场景少,好奇尝试下
print(type(result))

s:
0      a,b,c
1      1,2,3
2    [a,,,c]
3        NaN
dtype: object
s.str.split(','):
0    [a, b, c]
1    [1, 2, 3]
2          NaN
3          NaN
dtype: object
获取拆分后列表中下标为1的元素:
0      b
1      2
2    NaN
3    NaN
dtype: object
获取拆分后列表中下标为2的元素:
0      c
1      3
2    NaN
3    NaN
dtype: object
使用expand=True获取DataFrame:
     0    1    2
0    a    b    c
1    1    2    3
2  NaN  NaN  NaN
3  NaN  NaN  NaN
使用expand=True获取DataFrame,限制分割一次:
     0    1
0    a  b,c
1    1  2,3
2  NaN  NaN
3  NaN  NaN
使用expand=True获取DataFrame,限制分割一次(反向分割):
     0    1
0  a,b    c
1  1,2    3
2  NaN  NaN
3  NaN  NaN
df:
      key1     key2
0    a,b,c    a-b-c
1    1,2,3    1-2-3
2  [:,., ]  [:-.- ]
DataFrame操作第二列数据:
0    [a, b, c]
1    [1, 2, 3]
2          NaN
Name: key2, dtype: object
DataFrame操作列名称数据:
Index([['', 'ey1'], ['', 'ey2']], dtype='object')
<class 'pandas.core.indexes.base.Index'>


In [82]:
# 字符串索引

s = pd.Series(['A','b','C','bbhello','123',np.nan,'hj'])
df = pd.DataFrame({'key1':list('abcdef'),
                  'key2':['hee','fv','w','hija','123',np.nan]})
print('s:',s,sep='\n')
print('df:',df,sep='\n')
print('--------------------------')
print('s取第一个字符:',s.str[0],sep='\n')  # 取第一个字符
print('s取前两个字符:',s.str[:2],sep='\n')  # 取前两个字符
print('df取列名称为key2的值得第一个字符',df['key2'].str[0],sep='\n')  # 
# str之后和字符串本身索引方式相同


s:
0          A
1          b
2          C
3    bbhello
4        123
5        NaN
6         hj
dtype: object
df:
  key1  key2
0    a   hee
1    b    fv
2    c     w
3    d  hija
4    e   123
5    f   NaN
--------------------------
s取第一个字符:
0      A
1      b
2      C
3      b
4      1
5    NaN
6      h
dtype: object
s取前两个字符:
0      A
1      b
2      C
3     bb
4     12
5    NaN
6     hj
dtype: object
df去列名称为key2的值得第一个字符
0      h
1      f
2      w
3      h
4      1
5    NaN
Name: key2, dtype: object
