# Импорты

In [1]:
import subprocess
import sys
import json

import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

IN_COLAB = "google.colab" in sys.modules
if IN_COLAB:
    subprocess.run(["pip", "install", "catboost>=1.2.7"])

# Для более качественных графиков
%config InlineBackend.figure_format='retina'
plt.rcParams["figure.dpi"] = 150

# Форматы данных: csv, json

## Csv

In [None]:
pd.read_csv("data/housing.csv")

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


## Json

In [79]:
with open("addres-book.json", "r") as f:
    text = f.read()

text

'[\n  {\n    "name": "Faina Lee",\n    "email": "faina@mail.ru",\n    "birthday": "22.08.1994",\n    "phones": [\n      {\n        "phone": "232-19-55"\n      },\n      {\n        "phone": "+7 (916) 232-19-55"\n      }\n    ]\n  },\n  {\n    "name": "Robert Lee",\n    "email": "robert@mail.ru",\n    "birthday": "22.08.1994",\n    "phones": [\n      {\n        "phone": "111-19-55"\n      },\n      {\n        "phone": "+7 (916) 445-19-55"\n      }\n    ]\n  },\n  {\n    "name": "Faina Lee",\n    "email": "faina@mail.ru",\n    "birthday": "22.08.1994",\n    "phones": [\n      {\n        "phone": "232-19-55"\n      },\n      {\n        "phone": "+7 (916) 232-19-55"\n      }\n    ]\n  },\n  {\n    "name": "Robert Lee",\n    "email": "robert@mail.ru",\n    "birthday": "22.08.1994",\n    "phones": [\n      {\n        "phone": "111-19-55"\n      },\n      {\n        "phone": "+7 (916) 445-19-55"\n      }\n    ]\n  }\n]'

In [10]:
with open("addres-book.json", "r") as f:
    json_data = json.load(f)

json_data

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]},
 {'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

In [14]:
from datetime import datetime

data = [
    {'name': 'Faina Lee', 'email': 'faina@mail.ru', 'birthday': '22.08.1994', 'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
    {'name': 'Robert Lee', 'email': 'robert@mail.ru', 'birthday': '22.07.1998', 'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]},
    {'name': 'Faina Lee', 'email': 'faina@mail.ru', 'birthday': '22.08.1994', 'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
    {'name': 'Robert Lee', 'email': 'robert@mail.ru', 'birthday': '22.08.1994', 'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}
]

# Преобразуем даты рождения в объекты datetime и находим человека с самым поздним днем рождения
latest_birthday_person = max(data, key=lambda x: datetime.strptime(x['birthday'], '%d.%m.%Y'))

# Возвращаем имя человека с самым поздним днем рождения
print(latest_birthday_person['name'])

Robert Lee


Задача: соберите все уникальные телефоны в этом json

In [18]:
print(list(set(phone['phone'] for entry in data for phone in entry['phones'])))

['+7 (916) 232-19-55', '232-19-55', '111-19-55', '+7 (916) 445-19-55']


## Работа с файловой системой

In [None]:
from pathlib import Path

p = Path()  # очень удобный способ взаимодействовать с файловой системой

# Обогащение, разметка датасетов

## Feature engineering

Для улучшения качества моделей можно придумывать новые признаки на основании уже существующих


Способы создания новых признаков:
- Математические операции (возведение в квадрат, логарифм)
- На основе условий (больше ли этот признак какого-то значения, является ли он максимально возможным)
- Комбинация нескольких признаков
- Агрегация (среднее этого признака, сколько раз в тексте встречалось какое-то слово)

In [32]:
df = pd.read_csv("train.csv")

## Регулярные выражения

Регулярные выражение - формальный язык для составления текстовых шаблонов. При помощи этих шаблонов можно искать и обрабатывать текст

Создать откомпилированный шаблон регулярного выражения позволяет функция `compile()`

In [34]:
import re

# Шаблон, соответствующий строке, начинающейся на 0-6 русских букв
# p = re.compile(r"[а-яё]{0,6}")
# # Найдем в строке "тиквввввtik" подстроку, которая удовлетворяет шаблону
# p.match("тиквввввtik").group(0)

In [65]:
re.sub(r'[a-z]', 'lmao', 'тикикикики[tikфыфыффыф')

'тикикикики[lmaolmaolmaoфыфыффыф'

__Специальные символы регулярных выражений__

Внутри регулярного выражения символы `.   ^   $  *  +  ?   {  } [  ]  \  |  ( ) -` имеют специальное значение.
* Если эти символы требуется выводить как есть, то их следует экранировать с помощью слэша `\`.
* Некоторые сnециальные символы теряют свое особое значение, если их разместить внутри квадратных скобок `[]`. В этом случае экранировать их не нужно.

__Основные методы__

* `re.match()` - Этот метод ищет по заданному шаблону в начале строки. Возвращает первое вхождение подстроки в виде объекта SRE_Match object, из которого:
    * можно получить результирующую подстроку с помощью функции group
    * индексы начальной и конечной позиции с помощью функций start() и end(), соответственно.
* `re.search()` - ищет по заданному шаблону во всей строке
* `re.findall()` - возвращает список всех найденных совпадений (подстрок).
* `re.split()` - разделяет строку по заданному шаблону
* `re.sub()` - заменяет шаблон на указанную подстроку.

В квадратных скобках `[]` можно указать символы, которые могут встречаться на этом месте в строке. Можно перечислять символы подряд или указать их диапазон через тире. Например:
* `[09]` - соответствует цифре 0 или 9 <br>
* `[0-9]` - соответствует одной цифре от 0 до 9 <br>
* `[абв]` - соответствует букве "а", "б" или "в" <br>
* `[а-г]` - соответствует букве "а", "б", "в" или "г" <br>
* `[а-я]` - соответствует любой букве от "а" до "я", кроме буквы "ё" (т.к. "ё" находится вне непрерывного дипаозона символов русского алфавита) <br>
* `[а-яё]` - соответствует любой букве от "а" до "я" <br>
* `[АБВ]` - соответствует букве "А", "Б" или "В" <br>
* `[А-ЯЁ]` - соответствует любой букве от "А" до "Я" <br>
* `[а-яА-ЯёЁ]` - соответствует любой русской букве в любом регистре <br>
* `[0-9а-яА-ЯёЁа-zА-Z]` - любая цифра и любая буква независимо от регистра и языка

Вместо перечисления символов можно использовать стандартные классы: <br>

* . - любой символ, кроме перевода строки (если точка не экранирована и не заключена в квадратные скобки)
* \d - соответствует любой цифре (эквивалентно [0-9]) <br>
* \w - соответствует любой букве, цифре или символу подчеркивания ([a-zA-Zа-яЁА-ЯЁ0-9_]) <br>
* \s - любой пробельный символ (пробел, перевод строки, табуляция и т.д.) <br>
* \D - не цифра (эквивалентно [^0-9]) <br>
* \W - не буква, не цифра и не символ подчеркивания (эквивалентно [^a-zA-Zа-яЁА-ЯЁ0-9_]) <br>
* \S - не пробельный символ <br>
* \b - обозначение левой или правой границы слова (где слово трактуется как последовательность букв или цифр)

С помощью квантификаторов задается количество вхождений символа в строку. Указывается после символа, к которому относится разрешенное количество повторений: <br>

* `{n}` - n вхождений символа в строку. Например. шаблон `r"[0-9]{2}"` соответствует двум вхождениям любой цифры
* `{n,}` - n или более вхождений символа в строку. Например. шаблон `r"[0-9]{2,}"` соответствует двум и более вхождениям любой цифры
* `{n,m}` - не менее n и не более m вхождений символа в строку. Числа указываются через запятую без пробела.
    * Например, шаблон `r"[0-9]{2,4}"` соответствует от двух до четырех вхождениям любой цифры
* `*` - ноль или большее число вхождений символа в строку. Эквивалентно комбинации `{0,}`
* `+` - одно или большее число вхождений символа в строку. Эквивалентно комбинации `{1,}`
* `?` - ни одного или одно вхождение символа в строку. Эквивалентно комбинации `{0,1}`.

Еще полезные символы:

* `^` - привязка к началу строки или подстроки.
* `$` - привязка к концу строки или подстроки.

Задача: сделайте шаблон для нахождения телефонов в формате +7 (xxx) xxx-xx-xx и найдите все такие телефоны в json'e `addres-book.json`, загрузив этот файл как строку

In [80]:
import re

# Регулярное выражение для поиска телефонов в формате +7 (XXX) XXX-XX-XX
pattern = r"\+7\s\(?\d{3}\)?\s\d{3}-\d{2}-\d{2}"

# Находим все совпадения
phones = re.findall(pattern, text)

# Выводим найденные телефоны
print(phones)


['+7 (916) 232-19-55', '+7 (916) 445-19-55', '+7 (916) 232-19-55', '+7 (916) 445-19-55']
