<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/19-strings.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Работа со строками
#### [Ссылка на видео](https://youtu.be/XxMtQPDesjQ)

In [None]:
import pandas as pd
import os

Читаем таблицы

In [None]:
path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'
path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

goods_descr = pd.read_parquet(path_goods_descr)
empl = pd.read_parquet(path_empl)
goods_descr['description']

#### Чтобы посмотреть строки полностью, можно преобразовать колонку в список

In [None]:
goods_descr['description'].head(10).tolist()

#### Приведение строк к нижнему регистру

In [None]:
goods_descr['description'].str.lower()

#### Приведение строк к верхнему регистру

In [None]:
goods_descr['description'].str.upper()

#### Первая буква - заглавная, а остальные строчные

In [None]:
goods_descr['description'].str.capitalize()

#### Первая буква в каждом слове - заглавная, а остальные строчные

In [None]:
goods_descr['description'].str.title()

#### Заглавные и строчные буквы меняются

In [None]:
goods_descr['description'].str.swapcase()

#### Срезы строк
Берем первые я символов в каждой строке

In [None]:
goods_descr['description'].str[:5]

In [None]:
goods_descr['description'].str[7:18]

In [None]:
goods_descr['description'].str[-10:]

#### Убираем строку из начала или конца строки если она есть

In [None]:
goods_descr['description']

In [None]:
goods_descr['description'].str.removeprefix('Shirts')

In [None]:
goods_descr['description'].iloc[-10:].tolist()

In [None]:
goods_descr['description'].str.removesuffix('fit').iloc[-10:].tolist()

#### strip удаляет указанные символы из начала и конца строки 

lstrip удаляет символы из начала строки

rstrip удаляет символы из конца строки

In [None]:
goods_descr['description'].head(7).tolist()

In [None]:
goods_descr['description'].head(7).str.strip('SLht').tolist()

#### Расчет длинны строки

In [None]:
goods_descr['description'].str.len()

#### Поиск первой подстроки в строке
Метод find возващает индекс первого символа подстроки в строке

Если подстрока не нашлась возвращается -1

In [None]:
empl['fio']

In [None]:
empl['fio'].str.find('Андрей')

#### На основе этого можно фильтровать строки таблицы

In [None]:
empl.query('fio.str.find("Андрей") >= 0').head()

In [None]:
empl.query('fio.str.contains("Андрей")').head()

Такая запись работать не будет

In [None]:
empl.query('"Андрей" in fio').head()

#### Замены внутри строк

In [None]:
empl['fio']

In [None]:
empl['fio'].str.replace('Максимович', '______________')

В отличие от str.replace, обычный метод replace смотрит на всю строку целиком

In [None]:
empl['fio'].replace({'Максимович': '___________'})

#### Разделение строк

In [None]:
empl['fio'].str.split()

In [None]:
empl['fio'].str.split('Надежда')

Выбор элементов списка

In [None]:
empl['fio'].str.split().str[0]

In [None]:
empl['fio'].str.split().str[1:]

Такой список можно разделить на колонки

In [None]:
empl['fio'].str.split(expand=True)

Присоединение новых колонок

In [None]:
(empl
    .join(empl['fio']
          .str
          .split(expand=True)
          .set_axis(['Фамилия', 'Имя', 'Отчество'], axis=1)
         )
    .head()
)

#### Создание для каждого элемента списка своей строки

In [None]:
empl.assign(fio_list = lambda x: x['fio'].str.split()).explode('fio_list')

#### Можно узнасть длинну списка

In [None]:
empl['fio'].str.split().str.len()

#### Соединение списков в одну строку

In [None]:
empl['fio'].str.split()

In [None]:
empl['fio'].str.split().str.join('___')

#### Список всех методов

In [None]:
dir(goods_descr['description'].str)[44:]

### Apply

In [None]:
goods_descr.apply(lambda x: x['description'].replace(x['brand'], ''), axis=1)

In [None]:
stop_words = ["i", "me", "my", "myself", "we", "our", "ours", "ourselves", "you", 'you"re', 'you"ve', 'you"ll', 'you"d', "your", "yours", "yourself", "yourselves", "he", "him", "his", "himself", "she", 'she"s', "her", "hers", "herself", "it", 'it"s', "its", "itself", "they", "them", "their", "theirs", "themselves", "what", "which", "who", "whom", "this", "that", 'that"ll', "these", "those", "am", "is", "are", "was", "were", "be", "been", "being", "have", "has", "had", "having", "do", "does", "did", "doing", "a", "an", "the", "and", "but", "if", "or", "because", "as", "until", "while", "of", "at", "by", "for", "with", "about", "against", "between", "into", "through", "during", "before", "after", "above", "below", "to", "from", "up", "down", "in", "out", "on", "off", "over", "under", "again", "further", "then", "once", "here", "there", "when", "where", "why", "how", "all", "any", "both", "each", "few", "more", "most", "other", "some", "such", "no", "nor", "not", "only", "own", "same", "so", "than", "too", "very", "s", "t", "can", "will", "just", "don", 'don"t', "should", 'should"ve', "now", "d", "ll", "m", "o", "re", "ve", "y", "ain", "aren", 'aren"t', "couldn", 'couldn"t', "didn", 'didn"t', "doesn", 'doesn"t', "hadn", 'hadn"t', "hasn", 'hasn"t', "haven", 'haven"t', "isn", 'isn"t', "ma", "mightn", 'mightn"t', "mustn", 'mustn"t', "needn", 'needn"t', "shan", 'shan"t', "shouldn", 'shouldn"t', "wasn", 'wasn"t', "weren", 'weren"t', "won", 'won"t', "wouldn", 'wouldn"t']

In [None]:
goods_descr['description'].apply(lambda x: ' '.join([i for i in x.lower().split() if i not in stop_words]))

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables#%D0%BE%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

В формулировке некоторых заданий может содержаться вариативность. Если у вас есть сомнения, что требуется в задании, попробуйте решить несколько вариантов. Если вы не понимаете задание, можете написать об этом в комментариях под видео.

В большинстве случаев внешний вид итоговой таблицы не определен. Выведите на экран наиболее адекватный вариант. То есть таблицу, из которой можно будет сделать выводы.

Курс пока находится в разработке. Вы можете помочь другим людям добавив свое решение [сюда](https://docs.google.com/forms/d/1HYTBz_KfssY3Jps2dC3n0YnEqa6WBb5OIhLo1d32Xzw/edit).

Посмотреть решения других людей можно [здесь](https://docs.google.com/spreadsheets/d/1pMDYO-9UneLbPPnEuQ2shig0TOJdQTU-zipifyAnZMk/edit?resourcekey#gid=1998648012)

### Задание 1
Замените все имена в колонке fio с Ольга на Лена

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь

### Задание 2

Замените все имена в колонке fio с Максим на Павел

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь

### Задание 3

Найдите человека с самой длинной фамилией

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь

### Задание 4

Перейдите по одной из ссылок в таблице (поле url)

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# напишите свой код здесь

### Задание 5

Избавьтесь от названия бренда в названии товара (поле product_name)

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# напишите свой код здесь

### Задание 6

Если вы посмотрите, на описание товара внимательно, то в нем сначала идет название категории товара, затем слово by, после чего идет название бренда и описание.

Создайте колонки engl_cat, в которую положите навзание категории товара из описания, и колонку desc_short, в которую положите описание товара без категории и без бренда. 

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# напишите свой код здесь

### Задание 7

В описании часто указывается посадка одежды (Slim fit, tapered fit, Regular-fit)

Давайте попробуем вытащить информацию о ней. Добавьте к концу каждой строки пробел. После чего в отдельную колонку положите слово, которое стоит перед последним словом 'fit ' (с пробелом, чтобы не ловить слова fitting) в строке. Приведите эту строку к нижнему регистру, избавившись от всех лишних значков (- и пробелов)

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# напишите свой код здесь

### Задание 8

Точно так же в описании часто содержится информация о высоте посадки. Для этого из каждой строки вытащите последнее слово перед словом rise

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# напишите свой код здесь

### Задание 9

Если товар представляет из себя набор предметов, вытащите информацию о количестве предметов в наборе. Она содержится в первом слове после фразы pack of. Пердварительно привидите строку к нижнему регистру.

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# напишите свой код здесь

### Задание 10


Удалите дубликаты описаний. После этого посчитайте самые частые слова в описаниях. 

Дополнительно можете сделать это для очищенных описаний, в которых не указан бренд и категория товара. Это поможет вам дальше исследовать описания

In [None]:
import os
import pandas as pd

path_goods_descr = '../tables/goods_description.parquet' if os.path.exists('../tables/goods_description.parquet') else 'https://drive.google.com/uc?id=1YbiD02Rev-X_WWV9nPSG1zZFmEh2JjPh'

goods_descr = pd.read_parquet(path_goods_descr)
goods_descr.head()

In [None]:
# напишите свой код здесь