# Методы для работы с текстом

Для стандартных строк (strings) Python доступно много методов для обработки текста:

In [1]:
mystring = 'hello'

In [2]:
mystring.capitalize()

'Hello'

In [3]:
mystring.isdigit()

False

# Pandas и текст

## Методы Pandas для работы с текстом в строковой (текстовой) колонке

In [4]:
import pandas as pd

In [5]:
names = pd.Series(['andrew','bobo','claire','david','4'])

In [6]:
names

0    andrew
1      bobo
2    claire
3     david
4         4
dtype: object

In [7]:
names.str.capitalize()

0    Andrew
1      Bobo
2    Claire
3     David
4         4
dtype: object

In [8]:
names.str.isdigit()

0    False
1    False
2    False
3    False
4     True
dtype: bool

## Разбиение строки на части, извлечение отдельных частей из строки (string)

In [9]:
tech_finance = ['GOOG,APPL,AMZN','JPM,BAC,GS']

In [10]:
len(tech_finance)

2

In [11]:
tickers = pd.Series(tech_finance)

In [12]:
tickers

0    GOOG,APPL,AMZN
1        JPM,BAC,GS
dtype: object

In [13]:
tickers.str.split(',')

0    [GOOG, APPL, AMZN]
1        [JPM, BAC, GS]
dtype: object

In [14]:
tickers.str.split(',').str[0]

0    GOOG
1     JPM
dtype: object

In [15]:
tickers.str.split(',',expand=True)

Unnamed: 0,0,1,2
0,GOOG,APPL,AMZN
1,JPM,BAC,GS


## Очистка и редактирование строк

In [16]:
messy_names = pd.Series(["andrew  ","bo;bo","  claire  "])

In [17]:
# Обратите внимание на "сдвиги строк" из-за дополнителных пробелов 
# в значениях "andrew  " и "  claire  "
messy_names

0      andrew  
1         bo;bo
2      claire  
dtype: object

In [18]:
messy_names.str.replace(";","")

0      andrew  
1          bobo
2      claire  
dtype: object

In [19]:
messy_names.str.strip()

0    andrew
1     bo;bo
2    claire
dtype: object

In [20]:
messy_names.str.replace(";","").str.strip()

0    andrew
1      bobo
2    claire
dtype: object

In [21]:
messy_names.str.replace(";","").str.strip().str.capitalize()

0    Andrew
1      Bobo
2    Claire
dtype: object

## Альтернатива - использование apply() со своей собственной функцией

In [22]:
def cleanup(name):
    name = name.replace(";","")
    name = name.strip()
    name = name.capitalize()
    return name

In [23]:
messy_names

0      andrew  
1         bo;bo
2      claire  
dtype: object

In [24]:
messy_names.apply(cleanup)

0    Andrew
1      Bobo
2    Claire
dtype: object

## Какой вариант более эффективен?

In [25]:
import timeit 
  
# Этот фрагмент кода запускается только один раз
setup = '''
import pandas as pd
import numpy as np
messy_names = pd.Series(["andrew  ","bo;bo","  claire  "])
def cleanup(name):
    name = name.replace(";","")
    name = name.strip()
    name = name.capitalize()
    return name
'''
  
# Это фрагменты кода, для которых мы будем измерять время выполнения
# (они запускаются много раз)
stmt_pandas_str = ''' 
messy_names.str.replace(";","").str.strip().str.capitalize()
'''

stmt_pandas_apply = '''
messy_names.apply(cleanup)
'''

stmt_pandas_vectorize='''
np.vectorize(cleanup)(messy_names)
'''

In [26]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_str, 
                    number = 10000) 

1.2433261999999985

In [27]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_apply, 
                    number = 10000) 

0.43391489999999777

In [28]:
timeit.timeit(setup = setup, 
                    stmt = stmt_pandas_vectorize, 
                    number = 10000) 

0.0819650999999979