# Работа с текстовыми данными

Часто в ячейке хранится текст, из которого нужно получить необходимую информацию. Для работы с текстом в Excel используется множество функций, аналоги которых есть в Pandas:

* [.str.replace](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.replace.html) - Заменяет одну подстроку на другую в каждой ячейке столбца (в Excel `ЗАМЕНИТЬ`)
* [.str.split](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.split.html) - Делит строку на сколько подстрок с использованием разделителя (в Excel `ПОДСТРОКА`)
* [.str.strip](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.strip.html) - Удаляет пробелы в начале и в конце каждой строки (в Excel `СЖПРОБЕЛЫ`)
* [.str.len](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.len.html) - Выводит длину текста в каждой из ячеек столбца (в Excel `ДЛСТР`)
* [.str.contains](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.contains.html) - Проверяет наличие подстроки в каждой из ячеек столбца (в Excel `ДЛСТР`)
* [.str.upper](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.upper.html) - Переводит текст в верхний регистр (ПРивет -> ПРИВЕТ, в Excel `ПРОПИСН`)
* [.str.lower](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.lower.html) - Переводит текст в нижний регистр (ПРивет -> привет, в Excel `СТРОЧН`)
* [.str.capitalize](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.capitalize.html) - Первая буква большая, остальные маленькие (ПРивет -> Привет, в Excel `ПРОПНАЧ`)
* [.str.cat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.cat.html) - Позволяет соеденить 2 строки из разных столбцов в один (в Excel `ОБЪЕДИНИТЬ`)
* [.str.count](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.count.html) - Считает число вхождений подстроки в каждой из ячеек столбца
* [.str.startswith](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.startswith.html) - Проверяет для каждой из ячеек столбца, начинается ли текст с подстроки
* [.str.endswith](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.endswith.html) - Проверяет для каждой из ячеек столбца, заканчивается ли текст с подстрокой
* [.str.slice](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.slice.html) - Позволяет получить буквы из каждой строки с некоторой позиции, до некоторой позиции и с определенным шагом
Остальные функции для обработки строк вы можете посмотреть [на сайте](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.html) в левом меню.

Эти функции могут быть применены только к колонке!

In [2]:
import pandas as pd
orders = pd.read_excel('Superstore.xls')
orders.head(1)

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
0,1,CA-2017-152156,2017-11-08,2017-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,42420.0,South,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136


In [6]:
# Пример использования строковой функции
# Получим длину имени покупателя
orders.loc[:, 'Customer Name'].str.len()

0       11
1       11
2       15
3       14
4       14
        ..
9989    16
9990    11
9991    11
9992    11
9993    12
Name: Customer Name, Length: 9994, dtype: int64

Код продукта (Product ID) формируется как категория-подкатегория-артикул товара. По коду продукта найдем все стулья:

In [7]:
orders.loc[:, 'Product ID'].str.startswith('FUR-CH')

0       False
1        True
2       False
3       False
4       False
        ...  
9989    False
9990    False
9991    False
9992    False
9993    False
Name: Product ID, Length: 9994, dtype: bool

Удаление символов `-` из строки кода товара можно реализовать с использованием метода `replace(<что заменить>, <на что>)`:

In [13]:
orders.loc[:, 'Product ID'] = orders.loc[:, 'Product ID'].str.replace('-','')
orders['Product ID']

0       FURBO10001798
1       FURCH10000454
2       OFFLA10000240
3       FURTA10000577
4       OFFST10000760
            ...      
9989    FURFU10001889
9990    FURFU10000747
9991    TECPH10003645
9992    OFFPA10004041
9993    OFFAP10002684
Name: Product ID, Length: 9994, dtype: object

Для получения каких-либо символов из строки по их индексу используется метод `slice(<с какой позиции>, <по какую>, <шаг>)`:

In [14]:
orders.loc[:, 'Product ID'].str.slice(0, 5)

0       FURBO
1       FURCH
2       OFFLA
3       FURTA
4       OFFST
        ...  
9989    FURFU
9990    FURFU
9991    TECPH
9992    OFFPA
9993    OFFAP
Name: Product ID, Length: 9994, dtype: object

Попробуйте сами найти среди продуктов книжные шкафы (Bookcase) с полками (Shelf).

In [28]:
orders[orders.loc[:, 'Sub-Category'].str.contains('Bookcases') & orders.loc[:, 'Product Name'].str.contains('Shelf')]

Unnamed: 0,Row ID,Order ID,Order Date,Ship Date,Ship Mode,Customer ID,Customer Name,Segment,Country,City,...,Postal Code,Region,Product ID,Category,Sub-Category,Product Name,Sales,Quantity,Discount,Profit
38,39,CA-2016-117415,2016-12-27,2016-12-31,Standard Class,SN-20710,Steve Nguyen,Home Office,United States,Houston,...,77041.0,Central,FURBO10002545,Furniture,Bookcases,"Atlantic Metals Mobile 3-Shelf Bookcases, Cust...",532.3992,3,0.32,-46.9764
189,190,CA-2016-102281,2016-10-12,2016-10-14,First Class,MP-17470,Mark Packer,Home Office,United States,New York City,...,10035.0,East,FURBO10002613,Furniture,Bookcases,"Atlantic Metals Mobile 4-Shelf Bookcases, Cust...",899.1360,4,0.20,112.3920
192,193,CA-2016-102281,2016-10-12,2016-10-14,First Class,MP-17470,Mark Packer,Home Office,United States,New York City,...,10035.0,East,FURBO10002545,Furniture,Bookcases,"Atlantic Metals Mobile 3-Shelf Bookcases, Cust...",626.3520,3,0.20,46.9764
369,370,CA-2017-155516,2017-10-21,2017-10-21,Same Day,MK-17905,Michael Kennedy,Corporate,United States,Manchester,...,6040.0,East,FURBO10002545,Furniture,Bookcases,"Atlantic Metals Mobile 3-Shelf Bookcases, Cust...",1043.9200,4,0.00,271.4192
412,413,CA-2018-117457,2018-12-08,2018-12-12,Standard Class,KH-16510,Keith Herrera,Consumer,United States,San Francisco,...,94110.0,West,FURBO10001972,Furniture,Bookcases,O'Sullivan 4-Shelf Bookcase in Odessa Pine,1336.8290,13,0.15,31.4548
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9537,9538,CA-2017-148747,2017-09-25,2017-09-27,First Class,AS-10045,Aaron Smayling,Corporate,United States,San Francisco,...,94110.0,West,FURBO10002613,Furniture,Bookcases,"Atlantic Metals Mobile 4-Shelf Bookcases, Cust...",477.6660,2,0.15,84.2940
9691,9692,CA-2016-130183,2016-11-13,2016-11-17,Standard Class,PO-18850,Patrick O'Brill,Consumer,United States,Houston,...,77041.0,Central,FURBO10001811,Furniture,Bookcases,"Atlantic Metals Mobile 5-Shelf Bookcases, Cust...",613.9992,3,0.32,-18.0588
9787,9788,CA-2018-144491,2018-03-27,2018-04-01,Standard Class,CJ-12010,Caroline Jumper,Consumer,United States,Houston,...,77070.0,Central,FURBO10001811,Furniture,Bookcases,"Atlantic Metals Mobile 5-Shelf Bookcases, Cust...",1023.3320,5,0.32,-30.0980
9931,9932,CA-2016-104948,2016-11-13,2016-11-17,Standard Class,KH-16510,Keith Herrera,Consumer,United States,San Bernardino,...,92404.0,West,FURBO10004357,Furniture,Bookcases,O'Sullivan Living Dimensions 3-Shelf Bookcases,683.3320,4,0.15,-40.1960
