# Импорты

In [6]:
import subprocess
import sys
import json

import pandas as pd
from matplotlib import pyplot as plt

IN_COLAB = "google.colab" in sys.modules
if IN_COLAB:
    subprocess.run(["pip", "install", "catboost>=1.2.7"])

# Для более качественных графиков
%config InlineBackend.figure_format='retina'
plt.rcParams["figure.dpi"] = 150

# Форматы данных: csv, json

## Csv

In [4]:
pd.read_csv("data/housing.csv")

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


## Json

In [None]:
with open("data/addres-book.json", "r") as f:
    lines = f.readlines()

lines

['[\n',
 '  {\n',
 '    "name": "Faina Lee",\n',
 '    "email": "faina@mail.ru",\n',
 '    "birthday": "22.08.1994",\n',
 '    "phones": [\n',
 '      {\n',
 '        "phone": "232-19-55"\n',
 '      },\n',
 '      {\n',
 '        "phone": "+7 (916) 232-19-55"\n',
 '      }\n',
 '    ]\n',
 '  },\n',
 '  {\n',
 '    "name": "Robert Lee",\n',
 '    "email": "robert@mail.ru",\n',
 '    "birthday": "22.08.1994",\n',
 '    "phones": [\n',
 '      {\n',
 '        "phone": "111-19-55"\n',
 '      },\n',
 '      {\n',
 '        "phone": "+7 (916) 445-19-55"\n',
 '      }\n',
 '    ]\n',
 '  },\n',
 '  {\n',
 '    "name": "Faina Lee",\n',
 '    "email": "faina@mail.ru",\n',
 '    "birthday": "22.08.1994",\n',
 '    "phones": [\n',
 '      {\n',
 '        "phone": "232-19-55"\n',
 '      },\n',
 '      {\n',
 '        "phone": "+7 (916) 232-19-55"\n',
 '      }\n',
 '    ]\n',
 '  },\n',
 '  {\n',
 '    "name": "Robert Lee",\n',
 '    "email": "robert@mail.ru",\n',
 '    "birthday": "22.08.1994

In [None]:
with open("data/addres-book.json", "r") as f:
    json_data = json.load(f)

json_data

[{'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]},
 {'name': 'Faina Lee',
  'email': 'faina@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '232-19-55'}, {'phone': '+7 (916) 232-19-55'}]},
 {'name': 'Robert Lee',
  'email': 'robert@mail.ru',
  'birthday': '22.08.1994',
  'phones': [{'phone': '111-19-55'}, {'phone': '+7 (916) 445-19-55'}]}]

Задача: соберите все уникальные телефоны в этом json

## Работа с файловой системой

In [None]:
from pathlib import Path

p = Path()  # очень удобный способ взаимодействовать с файловой системой

# Обогащение, разметка датасетов

## Feature engineering

Для улучшения качества моделей можно придумывать новые признаки на основании уже существующих

Способы создания новых признаков:
- Математические операции (возведение в квадрат, логарифм)
- На основе условий (больше ли этот признак какого-то значения, является ли он максимально возможным)
- Комбинация нескольких признаков
- Агрегация (среднее этого признака, сколько раз в тексте встречалось какое-то слово)

In [None]:
df = pd.read_csv("data/train.csv")
df["речь"]

0       "Hey there! I’m a guy with a solid job and a m...
1       "Hi there! We are a couple with a solid financ...
2       "I'm a male client with a modest income. I wor...
3       "Hello, we’re a working couple enjoying the st...
4       "Greetings, we're Chris and Sam. Both employed...
                              ...                        
7995    "Hello! I’m here to introduce myself. I have a...
7996    "Hello! I’m excited to be here. My income is m...
7997    "I'm just an ordinary guy trying to make ends ...
7998    "Hello! We’re a couple looking to manage our f...
7999    "I'm a successful businesswoman with a dedicat...
Name: речь, Length: 8000, dtype: object

In [14]:
df

Unnamed: 0,лимит_нарушен,пол,тип,цель,кредитоспособность,другие_кредиты,бизнес,сумма,сбор,срок,...,один_платеж,стоимость_имущества,работа,тип_залога,тип_кредита,кредитный_рейтинг,возраст,прямой_залог,дефолт,речь
0,0.0,м,3.0,0.0,1.0,,0.0,174765.264968,normal,245.885949,...,0.0,244488.111841,осн,дом,2.0,709.508335,55-64,1.0,0,"""Hey there! I’m a guy with a solid job and a m..."
1,0.0,,,0.0,1.0,0.0,0.0,,want,365.885949,...,0.0,,осн,дом,1.0,722.508335,55-64,,0,"""Hi there! We are a couple with a solid financ..."
2,0.0,м,3.0,1.0,1.0,0.0,0.0,,regular,365.885949,...,,364488.111841,осн,дом,1.0,785.508335,55-64,1.0,0,"""I'm a male client with a modest income. I wor..."
3,0.0,,3.0,1.0,1.0,0.0,0.0,474765.264968,common,365.885949,...,0.0,894488.111841,осн,дом,,594.508335,35-44,1.0,0,"""Hello, we’re a working couple enjoying the st..."
4,0.0,,3.0,1.0,,0.0,0.0,384765.264968,excessive,365.885949,...,0.0,504488.111841,осн,дом,,589.508335,55-64,,0,"""Greetings, we're Chris and Sam. Both employed..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7995,0.0,,3.0,1.0,,0.0,0.0,,not slight,125.885949,...,0.0,744488.111841,осн,дом,2.0,,35-44,,0,"""Hello! I’m here to introduce myself. I have a..."
7996,,,,1.0,1.0,0.0,1.0,,mean,185.885949,...,0.0,184488.111841,осн,дом,1.0,796.508335,>74,1.0,0,"""Hello! I’m excited to be here. My income is m..."
7997,0.0,м,3.0,3.0,1.0,,0.0,394765.264968,Whole lotta nothin',365.885949,...,0.0,,осн,дом,4.0,584.508335,25-34,1.0,1,"""I'm just an ordinary guy trying to make ends ..."
7998,,,,1.0,1.0,0.0,0.0,594765.264968,Total lack of presence,365.885949,...,0.0,,осн,дом,,873.508335,35-44,1.0,0,"""Hello! We’re a couple looking to manage our f..."


## Регулярные выражения

Регулярные выражение - формальный язык для составления текстовых шаблонов. При помощи этих шаблонов можно искать и обрабатывать текст

Создать откомпилированный шаблон регулярного выражения позволяет функция `compile()`

In [None]:
import re

# Шаблон, соответствующий строке, начинающейся на 0-6 русских букв
p = re.compile(r"[а-яё]{0,6}")
# Найдем в строке "тиквввввtik" подстроку, которая удовлетворяет шаблону
p.match("тиквввввtik").group(0)

'тикввв'

__Специальные символы регулярных выражений__

Внутри регулярного выражения символы `.   ^   $  *  +  ?   {  } [  ]  \  |  ( ) -` имеют специальное значение. 
* Если эти символы требуется выводить как есть, то их следует экранировать с помощью слэша `\`.
* Некоторые сnециальные символы теряют свое особое значение, если их разместить внутри квадратных скобок `[]`. В этом случае экранировать их не нужно. 

__Основные методы__

* `re.match()` - Этот метод ищет по заданному шаблону в начале строки. Возвращает первое вхождение подстроки в виде объекта SRE_Match object, из которого:
    * можно получить результирующую подстроку с помощью функции group
    * индексы начальной и конечной позиции с помощью функций start() и end(), соответственно.
* `re.search()` - ищет по заданному шаблону во всей строке
* `re.findall()` - возвращает список всех найденных совпадений (подстрок).
* `re.split()` - разделяет строку по заданному шаблону
* `re.sub()` - заменяет шаблон на указанную подстроку.

В квадратных скобках `[]` можно указать символы, которые могут встречаться на этом месте в строке. Можно перечислять символы подряд или указать их диапазон через тире. Например:
* `[09]` - соответствует цифре 0 или 9 <br>
* `[0-9]` - соответствует одной цифре от 0 до 9 <br>
* `[абв]` - соответствует букве "а", "б" или "в" <br>
* `[а-г]` - соответствует букве "а", "б", "в" или "г" <br>
* `[а-я]` - соответствует любой букве от "а" до "я", кроме буквы "ё" (т.к. "ё" находится вне непрерывного дипаозона символов русского алфавита) <br>
* `[а-яё]` - соответствует любой букве от "а" до "я" <br>
* `[АБВ]` - соответствует букве "А", "Б" или "В" <br>
* `[А-ЯЁ]` - соответствует любой букве от "А" до "Я" <br>
* `[а-яА-ЯёЁ]` - соответствует любой русской букве в любом регистре <br>
* `[0-9а-яА-ЯёЁа-zА-Z]` - любая цифра и любая буква независимо от регистра и языка

Вместо перечисления символов можно использовать стандартные классы: <br>

* . - любой символ, кроме перевода строки (если точка не экранирована и не заключена в квадратные скобки)
* \d - соответствует любой цифре (эквивалентно [0-9]) <br>
* \w - соответствует любой букве, цифре или символу подчеркивания ([a-zA-Zа-яЁА-ЯЁ0-9_]) <br>
* \s - любой пробельный символ (пробел, перевод строки, табуляция и т.д.) <br>
* \D - не цифра (эквивалентно [^0-9]) <br>
* \W - не буква, не цифра и не символ подчеркивания (эквивалентно [^a-zA-Zа-яЁА-ЯЁ0-9_]) <br>
* \S - не пробельный символ <br>
* \b - обозначение левой или правой границы слова (где слово трактуется как последовательность букв или цифр)

С помощью квантификаторов задается количество вхождений символа в строку. Указывается после символа, к которому относится разрешенное количество повторений: <br>

* `{n}` - n вхождений символа в строку. Например. шаблон `r"[0-9]{2}"` соответствует двум вхождениям любой цифры
* `{n,}` - n или более вхождений символа в строку. Например. шаблон `r"[0-9]{2,}"` соответствует двум и более вхождениям любой цифры
* `{n,m}` - не менее n и не более m вхождений символа в строку. Числа указываются через запятую без пробела. 
    * Например, шаблон `r"[0-9]{2,4}"` соответствует от двух до четырех вхождениям любой цифры
* `*` - ноль или большее число вхождений символа в строку. Эквивалентно комбинации `{0,}`
* `+` - одно или большее число вхождений символа в строку. Эквивалентно комбинации `{1,}`
* `?` - ни одного или одно вхождение символа в строку. Эквивалентно комбинации `{0,1}`. 

Еще полезные символы:

* `^` - привязка к началу строки или подстроки.
* `$` - привязка к концу строки или подстроки.

Задача: сделайте шаблон для нахождения телефонов в формате +7 (xxx) xxx-xx-xx и найдите все такие телефоны в json'e `addres-book.json`, загрузив этот файл как строку