# Технологии искусственного интеллекта. Семестр 1

© Петров М.В., старший преподаватель кафедры суперкомпьютеров и общей информатики, Самарский университет

План:
1. Библиотека Pandas
2. Библиотеки визуализации данных
3. Классификация в scikit-learn (бинарная, многоклассовая)
4. Деревья решений (библиотека scikit-learn)
5. Линейная регрессия в scikit-learn
6. Библиотека CatBoost (классификация, регрессия)
7. Кластеризация
8. Анализ текстов

## Лекция 1. Библиотека Pandas

### Содержание

1. [Введение](#1.1-Введение)
2. [Pandas](#1.2-Pandas)
3. [Предобработка данных](#1.3-Предобработка-данных)

### 1.1 Введение

Что потребуется:
- [Python 3](https://www.python.org/)
- Библиотеки:
  - [NumPy](https://numpy.org/)
  - [SciPy](https://scipy.org/)
  - [Pandas](https://pandas.pydata.org/)
  - [Matplotlib](https://matplotlib.org/)
  - [Plotly](https://plotly.com/python/)
  - [Scikit-learn](https://scikit-learn.org/stable/)
  - [CatBoost](https://catboost.ai/)
  - [Jupyter Notebook или JupyterLab](https://jupyter.org/)

#### Python

`Python` – объектно-ориентированный язык программирования с динамической типизацией.

<div align="center">
  <img src="images/Python_logo_and_wordmark.svg" width="400" title="Python logo"/>
</div>

- [Установка](https://www.python.org/downloads/)
- [Документация](https://docs.python.org/3/library/index.html)
- [Туториал (официальный)](https://docs.python.org/3/tutorial/)

Туториалы:
- [Real Python Tutorials](https://realpython.com/)
- [Python Tutorial @ W3Schools](https://www.w3schools.com/python/)
- [Питонтьютор](https://pythontutor.ru/)
- …
- [StackOverflow](https://stackoverflow.com/questions/tagged/python) :)

<div align="center">
  <img src="images/l1_1.png" width="1000" title="Активные релизы Python"/>
  <p style="text-align: center">
    Рисунок 1 - Активные релизы Python
  </p>
</div>

<div align="center">
  <img src="images/l1_2.png" width="1000" title="Релизы Python определенной версии"/>
  <p style="text-align: center">
    Рисунок 2 - Релизы Python определенной версии
  </p>
</div>

`PyPI` – `Python Package Index` – репозиторий «пакетов» (библиотек), написанных с использованием Python (https://pypi.org/).

<div align="center">
  <img src="images/l1_3.png" width="1000" title="PyPI"/>
  <p style="text-align: center">
    Рисунок 3 - PyPI
  </p>
</div>

`pip` – система управления пакетами, которая используется для установки и управления программными пакетами.

<div align="center">
  <img src="images/l1_4.png" width="1000" title="Описание NumPy в PyPI"/>
  <p style="text-align: center">
    Рисунок 4 - Описание NumPy в PyPI
  </p>
</div>

Установка `NumPy` в Linux:

```bash
pip3 install -U numpy
```

Установка `NumPy` в Windows:

```commandline
pip install -U numpy
```

<div align="center">
  <img src="images/l1_5.png" width="1000" title="Установка пакетов"/>
  <p style="text-align: center">
    Рисунок 5 - Установка пакетов
  </p>
</div>

#### JupyterLab

[Установка](https://jupyter.org/install) JupyterLab:

```commandline
pip install -U jupyterlab
```

<div align="center">
  <img src="images/l1_6.png" width="1000" title="JupyterLab"/>
  <p style="text-align: center">
    Рисунок 6 - JupyterLab
  </p>
</div>

Отдельная IDE - [JupyterLab Desktop](https://github.com/jupyterlab/jupyterlab-desktop/releases).

<div align="center">
  <img src="images/l1_7.png" width="1000" title="JupyterLab Desktop"/>
  <p style="text-align: center">
    Рисунок 7 - JupyterLab Desktop
  </p>
</div>

#### NumPy

NumPy – Numerical Python – библиотека для работы с многомерными массивами.

<div align="center">
  <img src="images/NumPy_logo_2020.svg" width="400" title="NumPy"/>
</div>

- [Документация](https://numpy.org/doc/stable/)
- [API](https://numpy.org/doc/stable/reference/index.html)

[Примеры работы с numpy](numpy_examples.ipynb)

#### SciPy

`SciPy` – библиотека, предназначенная для выполнения научных и инженерных расчётов.

<div align="center">
  <img src="images/SciPy_logo.svg" width="200" title="SciPy"/>
</div>

Ключевые особенности:
- Использует типы данных и функции NumPy
- Модуль `sparse` – работа с разреженными матрицами (плюс линейная алгебра для "sparse" данных)
- Модуль `optimize`– методы оптимизации (поиск минимумов и максимумов функций)
- Модуль `ndimage` – обработка изображений
- Модуль `fft` – БПФ
- Модуль `integrate` – вычисление интегралов
- И т.д.

### 1.2 Pandas
`pandas` — это высокоуровневая Python библиотека для работы с табличными данными.

Гайды:
- [pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html)
- [pandas API reference](https://pandas.pydata.org/docs/reference/index.html)
- [Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas](https://habr.com/company/ods/blog/322626/)

In [1]:
import pandas as pd

In [2]:
from pathlib import Path
# путь к папке с данными
data_path = "data"
# Чтение данных из csv-файла
# датасет: Goodreads Books - 31 Features: https://www.kaggle.com/datasets/austinreese/goodreads-books
data = pd.read_csv(Path(data_path, 'goodreads_books.csv'))
type(data)

pandas.core.frame.DataFrame

> [DataFrame](https://pandas.pydata.org/docs/reference/frame.html) - Two-dimensional, size-mutable, potentially heterogeneous tabular data

In [3]:
# возвращает первые n строк, n=5 по-умолчанию
data.head()

Unnamed: 0,id,title,link,series,cover_link,author,author_link,rating_count,review_count,average_rating,...,isbn13,asin,settings,characters,awards,amazon_redirect_link,worldcat_redirect_link,recommended_books,books_in_series,description
0,630104,Inner Circle,https://www.goodreads.com//book/show/630104.In...,(Private #5),https://i.gr-assets.com/images/S/compressed.ph...,"Kate Brian, Julian Peploe",https://www.goodreads.com/author/show/94091.Ka...,7597,196,4.03,...,9781416950417.0,,,,,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"726458, 726458, 1537534, 3047848, 1651302, 304...","381489, 381501, 352428, 630103, 1783281, 17832...",Reed Brennan arrived at Easton Academy expecti...
1,9487,A Time to Embrace,https://www.goodreads.com//book/show/9487.A_Ti...,(Timeless Love #2),https://i.gr-assets.com/images/S/compressed.ph...,Karen Kingsbury,https://www.goodreads.com/author/show/3159984....,4179,177,4.35,...,9781595542328.0,,,,,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"127352, 127352, 40642197, 127353, 127354, 3891...",115036,"Ideje az Ã¶lelÃ©snek TÃ¶rtÃ©net a remÃ©nyrÅl,..."
2,6050894,Take Two,https://www.goodreads.com//book/show/6050894-t...,(Above the Line #2),https://i.gr-assets.com/images/S/compressed.ph...,Karen Kingsbury,https://www.goodreads.com/author/show/3159984....,6288,218,4.23,...,,,"Bloomington, Indiana(United States)",,,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"706250, 706250, 666481, 11942636, 706241, 1273...","4010795, 40792877, 7306261",Filmmakers Chase Ryan and Keith Ellison have c...
3,39030,Reliquary,https://www.goodreads.com//book/show/39030.Rel...,(Pendergast #2),https://i.gr-assets.com/images/S/compressed.ph...,"Douglas Preston, Lincoln Child",https://www.goodreads.com/author/show/12577.Do...,38382,1424,4.01,...,9780765354952.0,,"New York State(United States) New York City, N...","Aloysius X.L. Pendergast, Margo Green, William...",,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"39026, 39026, 11007668, 3986318, 51887330, 194...","67035, 39031, 39033, 136637, 136638, 30068, 39...",
4,998,The Millionaire Next Door: The Surprising Secr...,https://www.goodreads.com//book/show/998.The_M...,,https://i.gr-assets.com/images/S/compressed.ph...,"Thomas J. Stanley, William D. Danko",https://www.goodreads.com/author/show/659.Thom...,72168,3217,4.04,...,9780671015206.0,,,,Independent Publisher Book Award (IPPY) Nomine...,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"1052, 1052, 763362, 69571, 78427, 30186948, 10...",,The incredible national bestseller that is cha...


[Pandas options and settings](https://pandas.pydata.org/pandas-docs/stable/reference/options.html):  
- `display.max_columnsint`  
    If max_cols is exceeded, switch to truncate view. Depending on large_repr, objects are either centrally truncated or printed as a summary view. ‘None’ value means unlimited.  
    In case python/IPython is running in a terminal and large_repr equals ‘truncate’ this can be set to 0 or None and pandas will auto-detect the width of the terminal and print a truncated object which fits the screen width. The IPython notebook, IPython qtconsole, or IDLE do not run in a terminal and hence it is not possible to do correct auto-detection and defaults to 20.

In [4]:
# set the max columns to none
pd.set_option('display.max_columns', None)

In [5]:
data.head()

Unnamed: 0,id,title,link,series,cover_link,author,author_link,rating_count,review_count,average_rating,five_star_ratings,four_star_ratings,three_star_ratings,two_star_ratings,one_star_ratings,number_of_pages,date_published,publisher,original_title,genre_and_votes,isbn,isbn13,asin,settings,characters,awards,amazon_redirect_link,worldcat_redirect_link,recommended_books,books_in_series,description
0,630104,Inner Circle,https://www.goodreads.com//book/show/630104.In...,(Private #5),https://i.gr-assets.com/images/S/compressed.ph...,"Kate Brian, Julian Peploe",https://www.goodreads.com/author/show/94091.Ka...,7597,196,4.03,3045,2323,1748,389,92,220.0,January 1st 2007,Simon Schuster Books for Young Readers,Inner Circle,"Young Adult 161, Mystery 45, Romance 32",1416950419.0,9781416950417.0,,,,,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"726458, 726458, 1537534, 3047848, 1651302, 304...","381489, 381501, 352428, 630103, 1783281, 17832...",Reed Brennan arrived at Easton Academy expecti...
1,9487,A Time to Embrace,https://www.goodreads.com//book/show/9487.A_Ti...,(Timeless Love #2),https://i.gr-assets.com/images/S/compressed.ph...,Karen Kingsbury,https://www.goodreads.com/author/show/3159984....,4179,177,4.35,2255,1290,518,93,23,400.0,October 29th 2006,Thomas Nelson,,"Christian Fiction 114, Christian 45, Fiction 3...",1595542329.0,9781595542328.0,,,,,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"127352, 127352, 40642197, 127353, 127354, 3891...",115036,"Ideje az Ã¶lelÃ©snek TÃ¶rtÃ©net a remÃ©nyrÅl,..."
2,6050894,Take Two,https://www.goodreads.com//book/show/6050894-t...,(Above the Line #2),https://i.gr-assets.com/images/S/compressed.ph...,Karen Kingsbury,https://www.goodreads.com/author/show/3159984....,6288,218,4.23,3000,2020,1041,183,44,320.0,January 1st 2009,Zondervan,Take Two,"Christian Fiction 174, Christian 81, Fiction 58",,,,"Bloomington, Indiana(United States)",,,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"706250, 706250, 666481, 11942636, 706241, 1273...","4010795, 40792877, 7306261",Filmmakers Chase Ryan and Keith Ellison have c...
3,39030,Reliquary,https://www.goodreads.com//book/show/39030.Rel...,(Pendergast #2),https://i.gr-assets.com/images/S/compressed.ph...,"Douglas Preston, Lincoln Child",https://www.goodreads.com/author/show/12577.Do...,38382,1424,4.01,12711,15407,8511,1429,324,464.0,1997,Tor Books,Reliquary,"Thriller 626, Mystery 493, Horror 432, Fiction...",765354950.0,9780765354952.0,,"New York State(United States) New York City, N...","Aloysius X.L. Pendergast, Margo Green, William...",,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"39026, 39026, 11007668, 3986318, 51887330, 194...","67035, 39031, 39033, 136637, 136638, 30068, 39...",
4,998,The Millionaire Next Door: The Surprising Secr...,https://www.goodreads.com//book/show/998.The_M...,,https://i.gr-assets.com/images/S/compressed.ph...,"Thomas J. Stanley, William D. Danko",https://www.goodreads.com/author/show/659.Thom...,72168,3217,4.04,27594,25219,14855,3414,1086,258.0,October 28th 1995,Gallery Books,The Millionaire Next Door: The Surprising Secr...,"Economics-Finance 1162, Nonfiction 910, Busine...",671015206.0,9780671015206.0,,,,Independent Publisher Book Award (IPPY) Nomine...,https://www.goodreads.com//book_link/follow/17...,https://www.goodreads.com//book_link/follow/8?...,"1052, 1052, 763362, 69571, 78427, 30186948, 10...",,The incredible national bestseller that is cha...


In [6]:
data.shape

(52199, 31)

In [7]:
# информация о данных в DataFrame, тип данных признаков
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52199 entries, 0 to 52198
Data columns (total 31 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   id                      52199 non-null  int64  
 1   title                   52199 non-null  object 
 2   link                    52199 non-null  object 
 3   series                  23319 non-null  object 
 4   cover_link              51592 non-null  object 
 5   author                  52199 non-null  object 
 6   author_link             52199 non-null  object 
 7   rating_count            52199 non-null  int64  
 8   review_count            52199 non-null  int64  
 9   average_rating          52199 non-null  float64
 10  five_star_ratings       52199 non-null  int64  
 11  four_star_ratings       52199 non-null  int64  
 12  three_star_ratings      52199 non-null  int64  
 13  two_star_ratings        52199 non-null  int64  
 14  one_star_ratings        52199 non-null

In [8]:
# статистика по числовым признакам
data.describe()

Unnamed: 0,id,rating_count,review_count,average_rating,five_star_ratings,four_star_ratings,three_star_ratings,two_star_ratings,one_star_ratings,number_of_pages
count,52199.0,52199.0,52199.0,52199.0,52199.0,52199.0,52199.0,52199.0,52199.0,49869.0
mean,10154430.0,18873.61,1012.980881,4.02061,7817.176,6250.785,3456.512424,935.4966,413.640051,328.94273
std,11644430.0,116397.8,4054.802421,0.367161,58763.73,34735.33,18249.298631,5890.077215,3843.3565,252.790119
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,362819.0,340.0,31.0,3.82,117.0,109.0,63.0,15.0,6.0,210.0
50%,6383537.0,2295.0,163.0,4.03,810.0,765.0,452.0,107.0,36.0,304.0
75%,17380600.0,9297.5,622.0,4.23,3375.5,3190.5,1866.0,450.0,151.0,392.0
max,54442990.0,6801077.0,169511.0,5.0,4414877.0,1868421.0,980183.0,529060.0,537793.0,14777.0


In [9]:
data.drop(columns=['settings', 'amazon_redirect_link', 'worldcat_redirect_link', 
                   'recommended_books', 'books_in_series', 'description', 'asin',
                   'link', 'author_link', 'cover_link','original_title'], inplace=True)

In [10]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 52199 entries, 0 to 52198
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  52199 non-null  int64  
 1   title               52199 non-null  object 
 2   series              23319 non-null  object 
 3   author              52199 non-null  object 
 4   rating_count        52199 non-null  int64  
 5   review_count        52199 non-null  int64  
 6   average_rating      52199 non-null  float64
 7   five_star_ratings   52199 non-null  int64  
 8   four_star_ratings   52199 non-null  int64  
 9   three_star_ratings  52199 non-null  int64  
 10  two_star_ratings    52199 non-null  int64  
 11  one_star_ratings    52199 non-null  int64  
 12  number_of_pages     49869 non-null  float64
 13  date_published      51339 non-null  object 
 14  publisher           48563 non-null  object 
 15  genre_and_votes     49359 non-null  object 
 16  isbn

In [11]:
data.describe()

Unnamed: 0,id,rating_count,review_count,average_rating,five_star_ratings,four_star_ratings,three_star_ratings,two_star_ratings,one_star_ratings,number_of_pages
count,52199.0,52199.0,52199.0,52199.0,52199.0,52199.0,52199.0,52199.0,52199.0,49869.0
mean,10154430.0,18873.61,1012.980881,4.02061,7817.176,6250.785,3456.512424,935.4966,413.640051,328.94273
std,11644430.0,116397.8,4054.802421,0.367161,58763.73,34735.33,18249.298631,5890.077215,3843.3565,252.790119
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,362819.0,340.0,31.0,3.82,117.0,109.0,63.0,15.0,6.0,210.0
50%,6383537.0,2295.0,163.0,4.03,810.0,765.0,452.0,107.0,36.0,304.0
75%,17380600.0,9297.5,622.0,4.23,3375.5,3190.5,1866.0,450.0,151.0,392.0
max,54442990.0,6801077.0,169511.0,5.0,4414877.0,1868421.0,980183.0,529060.0,537793.0,14777.0


In [12]:
data['title']

0                                             Inner Circle
1                                        A Time to Embrace
2                                                 Take Two
3                                                Reliquary
4        The Millionaire Next Door: The Surprising Secr...
                               ...                        
52194                               The Stranger I Married
52195       The Opposite of Loneliness: Essays and Stories
52196                                    Sadako will leben
52197                                          Confessions
52198                        Going Rogue: An American Life
Name: title, Length: 52199, dtype: object

In [13]:
type(data['title'])

pandas.core.series.Series

> [Series](https://pandas.pydata.org/docs/reference/series.html) - One-dimensional ndarray with axis labels (including time series).

In [14]:
data['title'].head(3)

0         Inner Circle
1    A Time to Embrace
2             Take Two
Name: title, dtype: object

#### Индексация

In [15]:
# срез с указанием признаков
data.loc[200:204, ['title', 'five_star_ratings']]

Unnamed: 0,title,five_star_ratings
200,This is Falling,3923
201,When My Name Was Keoko,1955
202,Farewell to Manzanar: A True Story of Japanese...,2379
203,Kissing Sin,6263
204,Havemercy,670


In [16]:
# срез numpy-like
data.iloc[200:204, 0:3]

Unnamed: 0,id,title,series
200,22756190,This is Falling,(Falling #1)
201,613218,When My Name Was Keoko,
202,649361,Farewell to Manzanar: A True Story of Japanese...,
203,74043,Kissing Sin,(Riley Jenson Guardian #2)


In [17]:
data['five_star_ratings'] > 2500

0         True
1        False
2         True
3         True
4         True
         ...  
52194     True
52195     True
52196    False
52197     True
52198    False
Name: five_star_ratings, Length: 52199, dtype: bool

In [18]:
data[data['five_star_ratings'] > 2500]

Unnamed: 0,id,title,series,author,rating_count,review_count,average_rating,five_star_ratings,four_star_ratings,three_star_ratings,two_star_ratings,one_star_ratings,number_of_pages,date_published,publisher,genre_and_votes,isbn,isbn13,characters,awards
0,630104,Inner Circle,(Private #5),"Kate Brian, Julian Peploe",7597,196,4.03,3045,2323,1748,389,92,220.0,January 1st 2007,Simon Schuster Books for Young Readers,"Young Adult 161, Mystery 45, Romance 32",1416950419,9781416950417,,
2,6050894,Take Two,(Above the Line #2),Karen Kingsbury,6288,218,4.23,3000,2020,1041,183,44,320.0,January 1st 2009,Zondervan,"Christian Fiction 174, Christian 81, Fiction 58",,,,
3,39030,Reliquary,(Pendergast #2),"Douglas Preston, Lincoln Child",38382,1424,4.01,12711,15407,8511,1429,324,464.0,1997,Tor Books,"Thriller 626, Mystery 493, Horror 432, Fiction...",0765354950,9780765354952,"Aloysius X.L. Pendergast, Margo Green, William...",
4,998,The Millionaire Next Door: The Surprising Secr...,,"Thomas J. Stanley, William D. Danko",72168,3217,4.04,27594,25219,14855,3414,1086,258.0,October 28th 1995,Gallery Books,"Economics-Finance 1162, Nonfiction 910, Busine...",0671015206,9780671015206,,Independent Publisher Book Award (IPPY) Nomine...
5,311164,Black Sheep,,Georgette Heyer,9538,775,4.05,3298,3831,2042,304,63,252.0,March 1st 1966,Arrow,"Romance 550, Historical-Historical Fiction 316...",0099468034,9780099468035,"Abigail Wendover, Miles Calverleigh",
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
52192,15727731,Beauty Awakened,(Angels of the Dark #2),Gena Showalter,11894,793,4.15,5227,4031,2032,453,151,447.0,February 26th 2013,HQN Books,"Romance-Paranormal Romance 405, Fantasy-Parano...",0373777434,9780373777433,"Koldo, Nicola Lane",
52193,1395807,Blue Heaven,,C.J. Box,11284,1096,4.01,3656,4752,2346,423,107,352.0,2007,Minotaur Books,"Mystery 198, Fiction 110, Thriller 96, Suspens...",0312365705,9780312365707,"Monica Taylor, Annie Taylor, Fiona Pritzle, To...",Edgar Award for Best Novel (2009)
52194,15743072,The Stranger I Married,,Sylvia Day,13295,805,3.87,4220,4733,3116,848,378,312.0,2007,Kensington Trade,"Romance-Historical Romance 335, Romance 312, H...",075829039X,9780758290397,"Gerard Faulkner, Isabel Pelham",
52195,18143905,The Opposite of Loneliness: Essays and Stories,,Marina Keegan,42609,4282,3.84,12461,15191,11202,3011,744,208.0,April 8th 2014,Scribner,"Nonfiction 1307, Short Stories 766, Writing-Es...",147675361X,9781476753614,,"Goodreads Choice Award for Nonfiction (2014), ..."


In [19]:
type(data[data['five_star_ratings'] > 2500])

pandas.core.frame.DataFrame

In [20]:
data[data['five_star_ratings'] > 2500]['number_of_pages'].mean()

360.23779152171113

In [21]:
data[data['five_star_ratings'] > 3500]['number_of_pages'].mean()

365.10797158642464

In [22]:
data['date_published']

0         January 1st 2007
1        October 29th 2006
2         January 1st 2009
3                     1997
4        October 28th 1995
               ...        
52194                 2007
52195       April 8th 2014
52196                 1961
52197      April 24th 2007
52198     January 1st 2009
Name: date_published, Length: 52199, dtype: object

In [23]:
data[data['date_published'].str.len() == 3]

Unnamed: 0,id,title,series,author,rating_count,review_count,average_rating,five_star_ratings,four_star_ratings,three_star_ratings,two_star_ratings,one_star_ratings,number_of_pages,date_published,publisher,genre_and_votes,isbn,isbn13,characters,awards
2606,7123161,"The Arabian Nights: Tales of 1001 Nights, Volu...",,"testing testing, Malcolm C. Lyons, Ursula Lyon...",2942,108,4.05,1156,1029,565,131,61,982.0,800,Penguin Classics,"Classics 147, Fiction 73, Fantasy 56, Short St...",0140449388,9780140449389.0,"Shahryar, Scheherazade",
3835,1072113,The HarperCollins Study Bible: Fully Revised &...,,"Anonymous, Wayne A. Meeks, Harold W. Attridge,...",784,48,4.37,457,208,83,21,15,2208.0,393,HarperOne,"Religion 51, Religion-Christianity 17, Christi...",0060786841,9780060786847.0,,
4878,80084,Cupid and Psyche,,"Apuleius, Edward John Kenney",2310,120,4.11,892,888,444,73,13,256.0,170,Cambridge University Press,"Classics 90, Fantasy-Mythology 28, Fiction 22,...",0521278139,9780521278133.0,,
5848,731140,Eusebius: The Church History,,Paul L. Maier,3553,223,4.0,1309,1199,828,165,52,416.0,324,Kregel Academic & Professional,"History 376, Religion 128, Church-Church Histo...",0825433282,9780825433283.0,"IrenÃ¦us, Heraclas, Dionysius the Areopagite, ...",
8272,9699011,Organon,,"Aristotle, Giorgio Colli",210,18,4.0,81,63,53,12,1,1066.0,-40,Adelphi,"Philosophy 61, Classics 6, Philosophy-Logic 5,...",884591755X,9788845917554.0,,
8753,7495363,Ø§ÙØ³ÙØ±Ø© Ø§ÙÙØ¨ÙÙØ©,,"Ø§Ø¨Ù ÙØ´Ø§Ù, ÙØµØ·ÙÙ Ø§ÙØ³ÙØ§",1078,54,4.53,755,198,81,24,20,1109.0,833,Ø¯Ø§Ø± Ø§ÙÙØ¹Ø±ÙØ©,"Religion 22, Religion-Islam 16, History 12",,,,
10679,199707,Holy Bible: The Greek New Testament,,"Anonymous, Barbara Aland, Kurt Aland, B.M. Met...",1806,69,4.54,1267,335,146,35,23,918.0,382,Hendrickso,"Reference 76, Religion 48, Religion-Theology 29",1598561715,9781598561715.0,,
12120,400299,Somnium Scipionis: The Dream of Scipio (Studen...,,"Marcus Tullius Cicero, Gilbert Lawall",111,9,4.02,38,42,26,5,0,96.0,-51,Addison Wesley Publishing Company,"Philosophy 5, History 3",0582367514,9780582367517.0,,
12227,6403740,ÙØ±Ø¢Ù,,"Anonymous, Ø­Ø³ÛÙ ÙØ­ÛâØ§ÙØ¯ÛÙ Ø§ÙÙ...",56834,3053,4.35,41251,4562,4582,2582,3857,800.0,650,,"Religion 1301, Religion-Islam 473, Nonfiction ...",,,"Moses (Bible), Jesus, Mary (mother of Jesus), ...",
12256,12406749,ÙØ±Ø¢Ù Ú©Ø±ÛÙ,,"Anonymous, Ø¹ÙÛ ÙÙØ³ÙÛ Ú¯Ø±ÙØ§Ø±ÙØ¯Û",56836,3053,4.35,41252,4562,4582,2582,3858,,650,,"Religion 1301, Religion-Islam 473, Nonfiction ...",,,"Moses (Bible), Jesus, Mary (mother of Jesus), ...",


In [24]:
len(data[data['date_published'].str.len() == 3])

50

In [25]:
df = data[data['date_published'].str.len() > 3]

In [26]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 51279 entries, 0 to 52198
Data columns (total 20 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  51279 non-null  int64  
 1   title               51279 non-null  object 
 2   series              23051 non-null  object 
 3   author              51279 non-null  object 
 4   rating_count        51279 non-null  int64  
 5   review_count        51279 non-null  int64  
 6   average_rating      51279 non-null  float64
 7   five_star_ratings   51279 non-null  int64  
 8   four_star_ratings   51279 non-null  int64  
 9   three_star_ratings  51279 non-null  int64  
 10  two_star_ratings    51279 non-null  int64  
 11  one_star_ratings    51279 non-null  int64  
 12  number_of_pages     49615 non-null  float64
 13  date_published      51279 non-null  object 
 14  publisher           48330 non-null  object 
 15  genre_and_votes     48647 non-null  object 
 16  isbn

In [27]:
df['date_published'].str.extract(r'(\d{4})')

Unnamed: 0,0
0,2007
1,2006
2,2009
3,1997
4,1995
...,...
52194,2007
52195,2014
52196,1961
52197,2007


In [29]:
df['year_published'] = df['date_published'].str.extract(r'(\d{4})')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['year_published'] = df['date_published'].str.extract(r'(\d{4})')


In [30]:
import numpy as np
df['year_published'].isnull()

0        False
1        False
2        False
3        False
4        False
         ...  
52194    False
52195    False
52196    False
52197    False
52198    False
Name: year_published, Length: 51279, dtype: bool

In [31]:
df[df['year_published'].isna()]

Unnamed: 0,id,title,series,author,rating_count,review_count,average_rating,five_star_ratings,four_star_ratings,three_star_ratings,two_star_ratings,one_star_ratings,number_of_pages,date_published,publisher,genre_and_votes,isbn,isbn13,characters,awards,year_published
163,901111,Tanakh: The Holy Scriptures,,"Anonymous, Jewish Publication Society",2736,100,4.38,1684,598,319,85,50,1624.0,-450,The Jewish Publication Society,"Religion 129, Religion-Judaism 72, Literature-...",0827603665,9780827603660,,,
255,534289,The I Ching or Book of Changes,,"Anonymous, Richard Wilhelm, Cary F. Baynes, C....",17694,352,4.19,8676,4991,3076,698,253,740.0,-850,Princeton University Press,"Philosophy 420, Religion 164, Nonfiction 154, ...",069109750X,9780691097503,,,
475,18008226,Nathaniel's 1st Adventure,(Cosmic Aviators #1),G.E.F. Neilson,42,22,4.33,28,5,6,1,2,332.0,June 14th 1,Buzzword Press,"Childrens 1user, Childrens-Middle Grade 1user,...",,,,,
512,23277468,World Peace: The Voice of a Mountain Bird,,"Amit Ray, Banani Ray",107,9,4.62,79,21,4,0,3,164.0,September 9th 214,Inner Light Publishers,"Inspirational 14, Spirituality 9, Self Help 8,...",,,,,
736,27297,The Analects,,"Confucius, D.C. Lau",17045,660,3.83,5329,5555,4470,1299,392,249.0,-429,Penguin Books Ltd,"Philosophy 1445, Classics 469, Nonfiction 378,...",0140443487,9780140443486,,J. A. Hollon palkinto (2015),
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
49659,159964,The Dhammapada,,"Anonymous, Ananda Maitreya, Thich Nhat Hanh",22062,887,4.28,11751,6167,3136,682,326,114.0,January 30th -400,Parallax Press,"Religion-Buddhism 571, Religion 519, Philosoph...",0938077872,9780938077879,,,
49706,380609,The Bacchae,,"Euripides, Kenneth McLeish, Frederic Raphael",13823,634,3.89,4356,4876,3504,858,229,96.0,-405,Nick Hern Books,"Plays 669, Classics 639, Drama 262, Fantasy-My...",1854594117,9781854594112,"Dionysus (mythology), Pentheus, Cadmus (mythol...",,
49746,4934651,Fe Fi FOE Comes,,William C. Samples,19,8,4.37,11,5,2,1,0,869.0,May 25th 201,Vel North Editions,Philosophy 2,098006810X,9780980068108,,,
49888,821535,The Torah: The Five Books of Moses,,"Anonymous, Harry M. Orlinsky",1587,100,4.18,895,308,224,93,67,394.0,-400,The Jewish Publication Society,"Religion 128, Religion-Judaism 30, Philosophy ...",0827600151,9780827600157,,,


In [32]:
df[df['year_published'].isna()].index

Int64Index([  163,   255,   475,   512,   736,  2692,  3397,  4726,  5335,
             5719,  5973,  6115,  6462,  6909,  7208,  7508,  8340,  8826,
             9226, 10806, 12068, 12484, 12549, 12764, 14486, 14565, 15712,
            16012, 16038, 16634, 17160, 17896, 19630, 21406, 21473, 25820,
            26070, 26879, 28973, 31663, 32484, 32791, 33071, 34517, 34624,
            35620, 36093, 36277, 36449, 37004, 37078, 37432, 38494, 41070,
            41572, 41751, 41918, 42036, 42154, 42194, 42319, 42447, 42457,
            42517, 42812, 43039, 43055, 43095, 43779, 43793, 43883, 44323,
            44734, 45027, 45488, 45545, 45676, 46013, 46480, 47804, 48251,
            48630, 49272, 49323, 49659, 49706, 49746, 49888, 52138],
           dtype='int64')

In [33]:
df = df.drop(df[df['year_published'].isna()].index)

In [34]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 51190 entries, 0 to 52198
Data columns (total 21 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   id                  51190 non-null  int64  
 1   title               51190 non-null  object 
 2   series              23034 non-null  object 
 3   author              51190 non-null  object 
 4   rating_count        51190 non-null  int64  
 5   review_count        51190 non-null  int64  
 6   average_rating      51190 non-null  float64
 7   five_star_ratings   51190 non-null  int64  
 8   four_star_ratings   51190 non-null  int64  
 9   three_star_ratings  51190 non-null  int64  
 10  two_star_ratings    51190 non-null  int64  
 11  one_star_ratings    51190 non-null  int64  
 12  number_of_pages     49530 non-null  float64
 13  date_published      51190 non-null  object 
 14  publisher           48246 non-null  object 
 15  genre_and_votes     48562 non-null  object 
 16  isbn

In [35]:
df['year_published'] = df['year_published'].astype(int)

In [36]:
dfgby = df.groupby('year_published')

In [37]:
type(dfgby)

pandas.core.groupby.generic.DataFrameGroupBy

In [38]:
len(dfgby)

449

In [39]:
for year, sub_df in dfgby:
    if year == 2009:
        print(sub_df)

            id                                              title  \
2      6050894                                           Take Two   
35     6419887  The Boy Who Harnessed the Wind: Creating Curre...   
58     5498077                                  Code of the Clans   
66     6556261                                      Hell's Heroes   
97     3942622                                The Immortal Hunter   
...        ...                                                ...   
52079  4010795                                           Take One   
52088  7145565                                   Flaskepost fra P   
52127  6566616                                    Crocodile Tears   
52153  4067103                                    Ransom My Heart   
52198  6922622                      Going Rogue: An American Life   

                           series                                     author  \
2             (Above the Line #2)                            Karen Kingsbury   
35         

In [40]:
dfgby['three_star_ratings'].mean()

year_published
1000      98.000000
1001      58.000000
1002    1241.000000
1008    2858.500000
1010     343.000000
           ...     
2017    2486.990654
2018    2477.068063
2019    1557.872564
2020     711.016393
2021       2.600000
Name: three_star_ratings, Length: 449, dtype: float64

In [41]:
dfgby['five_star_ratings'].apply(np.sum, axis=0)

year_published
1000       1316
1001        144
1002       4348
1008       5634
1010       2777
         ...   
2017    6936643
2018    5733865
2019    2571860
2020     369304
2021         87
Name: five_star_ratings, Length: 449, dtype: int64

#### Иерархические индексы (MultiIndex)
Иерархические индексы позволяют организовать несколько (два и более) уровней индексирования по одной оси. Другими словави, это способ работать с многомерными данными, представив их в форме с меньшей размерностью.

In [42]:
# сгенерируем series с multiindex
data = pd.Series(np.random.randn(10),
    index= [ ['a', 'a', 'a', 'b', 'b', 'b', 'с', 'с', 'd', 'd'],
             [1, 2, 3, 1, 2, 3, 1, 2, 2, 3] ]
)
data

a  1    1.356692
   2    0.088859
   3   -0.356695
b  1   -0.194693
   2    0.540608
   3    0.411115
с  1   -0.320749
   2   -0.678913
d  2   -0.916482
   3   -0.017339
dtype: float64

In [43]:
# сгенерируем dataframe с multiindex
data = pd.DataFrame(np.random.randn(10,2),
    index= [ ['a', 'a', 'a', 'b', 'b', 'b', 'с', 'с', 'd', 'd'],
             [1, 2, 3, 1, 2, 3, 1, 2, 2, 3] ]
)
data

Unnamed: 0,Unnamed: 1,0,1
a,1,-0.655298,1.006986
a,2,-0.097158,2.533893
a,3,-0.029816,-0.881194
b,1,0.27491,0.030572
b,2,-1.69526,-0.668592
b,3,-0.380139,-1.126129
с,1,-0.583916,0.752118
с,2,-0.839837,0.255941
d,2,1.247775,-0.821145
d,3,-0.166916,-0.078317


In [44]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 2),
            ('b', 3),
            ('с', 1),
            ('с', 2),
            ('d', 2),
            ('d', 3)],
           )

In [45]:
# доступ по частичному значению индекса
data.loc['a']

Unnamed: 0,0,1
1,-0.655298,1.006986
2,-0.097158,2.533893
3,-0.029816,-0.881194


In [46]:
# доступ по полному значению индекса
data.loc[('a', 1)]

0   -0.655298
1    1.006986
Name: (a, 1), dtype: float64

In [47]:
# Можно даже сразу получить значение поля
data.loc[('a', 1), 1]

1.0069857656037364

### 1.3 Предобработка данных

Предобработка данных — это предварительный этап работы с данными, цель которого - почистить данные от ненужного или дополнить их. Может включать в себя центрирование, нормализацию, сдвиг, вращение, обрезку.

#### Виды проблем в данных

- **Неполные данные**  
  Заказчик выслал не все данные, в них есть пропуски, нет данных за определённый период, есть данные только для части задач. Например, есть рейсы только одной авиакомпании, есть суммы покупок с января по март и с июня по декабрь.
- **Грязные данные**
   - данные в плохом или разном формате;
   - в данных есть мусор, например, смешиваются русские и английские буквы, данные в виде шифра;
   - разные меры данных, например, часть в метрах, часть в футах;
   - данные старые, значения признака перемешиваются.
- **Плохая разметка**
   - в данных есть ошибки;
   - разная оценка данных из-за человеческого фактора;
   - разметка не соответствует реальности;
   - размеченных данных очень много — должна быть «золотая середина».
  
> Чем лучше хотите получить разметку, тем больше времени придётся потратить.

- **Данные с утечкой**  
  В данных нужно избегать признаков, от которых явно зависит целевая переменная. Такая ситуация приводит к тому, что во время обучения модель всё предсказывает, но в боевых условиях бесполезна.

#### Работа с пропусками

**Пропуски** — отсутствие значений в данных. Обычно это случается из-за ошибок человека:
- забыли, какие данные не внесли;
- не всё перенесли из другого документа;
- неверно заполнили документ;
- случайно удалили часть данных.

Например, при опросе респонденты отвечали только на часть вопросов, не указывая какие-то данные.

##### Что делать с пропусками?

- **Удалить пропуски**: удалить строки с пропусками, если таких строк немного, или столбцы (признаки) в данных, если их много, и это не повлияет на результат в целом.
- **Заменить пропуски**: заменить на среднее значение (медианой) или на самый часто попадающийся вариант. Например, опрос респондентов проходил в Москве, вероятнее, большинство — жители города, а не туристы. Значит, в графе город можно поставить «Москва». Или же по другим данным в документе можно восстановить пол людей, которые его не указали.
- **Записать новое значение**: например, вместо пропуска в столбце «Пол» указать «не определён».
- **Заменить алгоритмами МО**: признак можно считать целевой переменной и обучать модель, чтобы предсказать пропущенные значения.лезна.

#### Нормализация признаков
Некоторые алгоритмы чувствительны к масштабу признаков: если масштаб разный — алгоритмы хуже сходятся к оптимальным значениям. Один из способов обработки данных — **нормализация** — процесс приведения данных к одному масштабу, обеспечивает лучшие условия выборки, изменения, удаления данных.

Базовые методы нормализации:

- **MinMax** нормализация — приведение данных к масштабу $[0, 1]$.
- **Стандартная** нормализация — данные имеют среднее 0 и стандартное отклонение 1.
Иногда данные лучше удалить, если они не несут пользы. Например, столбец считался по ошибке и содержит мусор, или признак не имеет полезной информации, или столбец содержит всегда одинаковое значение.ачение.

#### Преобразование признаков, имеющих не нормальное распредление

Один из способов визуализации — **гистограмма** — вид диаграммы, показывающий данные в форме столбцов. Демонстрирует распределение данных по выборке внутри столбца и значений в признаке. Позволяет увидеть проблемы или некорректные значения в данных, преобразовать их в наглядную форму и распределить, чтобы облегчить работу.

**Графики Q-Q (квантиль-квантиль)** сравнивают два распределения вероятностей путем построения совместных квантилей. График Q-Q используется для сравнения форм распределений, обеспечивая графическое представление того, насколько подобны или различны положение, масштаб и асимметрия двух распределений.

Многие алгоритмы работают лучше, когда на вход принимают нормально распределённые данные. Один из способов сделать данные «нормальными» — взять **логарифм**. При этом не должно быть значений, равных 0, иначе метод `np.log` выдаст бесконечность.  
Если значения всё-таки начинаются с 0, то перед тем, как взять логарифм, можно прибавить к данным 1.  
Другой способ — взять квадратный корень от данных.

#### Скореллированные признаки

**Correlation plot** — корреляционный график. Признаки в данных могут иметь сильную корреляцию, то есть линейную зависимость. Если зависимость большая, признаки несут избыточную информацию, поэтому скореллированные признаки лучше удалять.

#### Поиск выбросов (outliers)

**Выброс** — результат измерения, который выделяется из общей выборки. Выбросы появляются из-за ошибок в данных и сильно выделяются среди остальных значений. Их нужно искать и удалять, иначе данные будут подстраиваться под них и давать неверный результат.

Как искать выбросы:
- **Поиск и удаление по порогу**
  Способ нахождения выбросов, основанный на здравом смысле и методе пристального взгляда. Посмотреть на данные и поискать невозможные и/или нелогичные значения, например, в столбце «высота здания» стоит 30 км.
- **Поиск с помощью статистики**  
  Поиск с помощью здравого смысла трудно автоматизировать, поэтому эффективнее статистические методы. Например, поиск по отклонению или по распределению IQR (interquartile range, межквартильное расстояние).
- **Поиск с помощью DBSCAN**
  Поиск с помощью методов кластеризации, один из таких методов — DBSCAN, который может автоматически находить шум в данных.  
Разные способы поиска выбросов могут давать разные результаты. Не всегда выделяющееся значение будет являться выбросом, возможно, у нас пока просто не хватает данных.ет данных.

#### Создание новых признаков - feature engineering

**Feature Engineering** — способ создания признаков, техника решения задач МО, которая увеличивает качество разрабатываемых алгоритмов. Превращает специфичные данные в понятные для модели векторы.

Способы:
- **Ручное создание признаков**  
  Новые признаки можно создавать на основе имеющихся, если понятно, что означает тот или иной признак. Техника может значительно улучшить модель, но требуется погружение в предметную область. Например, зная массу и рост человека, можно посчитать индекс массы тела; зная координаты места нарушения ПДД и центра города, можно посчитать расстояние между ними.
- **Полиномиальные признаки**  
  Например, попарное перемножение имеющихся столбцов, чтобы получить нелинейные комбинации признаков. Другой пример — возведение признаков в квадрат или корень из признака, чтобы получить искусственные признаки.
- **Dummy-переменные**  
  Между категориальными признаками не всегда есть порядок, поэтому их следует заменять на dummy-переменные, в виде цифр, чтобы алгоритм подумал, что в данных есть порядок.
  > Например, лев, тигр, медведь лучше записать как 0, 1, 2. Расстояние между «лев» и «тигр» равно 1, а между «лев» и «медведь» — 2, хотя это не так. Решение — создать новые признаки по количеству категорий. Для признака «лев» значение будет 1, если это лев, иначе 0. Теперь расстояния между всеми признаками равны 1.
- **Работа с датой/временем**  
  Обычно дата — это строка, похожая на «2005-06-02». В таком виде признак имеет мало смысла, но его можно разделить на набор других признаков. Модель не принимает текст, поэтому заменяем его на набор других числовых признаков. Например, день, месяц, год или день недели, праздник/выходной.
- **Статистики по наборам признаков**  
  Если в данных есть признаки, описывающие значение в разные моменты времени, то они могут быть полезными. Например, зарплата_2016, зарплата_2017, зарплата_2018. Отсюда можно вытащить среднюю зарплату за 3 года, медианную зарплату, динамику зарплаты, максимальную и минимальную зарплату.ную зарплату.