<a href="https://colab.research.google.com/github/datasciencefefu/course/blob/main/02_Collect%26PrepareData.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Сбор и предобработка данных

### Получение данных

Данные хранят в файлах разных форматов. Из них самый распространённый, простой и лёгкий – **CSV** (от англ. Comma-Separated Values, «значения, разделённые запятой»). Каждая строка такого файла представляет собой одну строку таблицы, где данные разделены запятыми. В первой строке собраны заголовки столбцов (если они есть).


Файлы CSV удобнее всего открывать вызовом метода **read_csv()** из библиотеки Pandas.

In [None]:
import pandas as pd

df = pd.read_csv('https://github.com/datasciencefefu/course/raw/main/data/iris.csv')

Теперь все данные из файла можно напечатать на экране командой print(df), но это не всегда нужно делать — не исключено, что таблица огромна и неудобна для изучения. Для знакомства с данными запрашивают несколько строк из начала или конца таблицы, вызывая специальные методы **head()** и **tail()**. По умолчанию head() возвращает первые 5 строк набора данных, а метод tail() – последние 5 строк. Когда нужно не 5, количество строк передаётся этим методам как аргумент. Например, head(8) вернёт первые 8 строк. 

In [None]:
print(df.head(8)) 

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa
5           5.4          3.9           1.7          0.4  setosa
6           4.6          3.4           1.4          0.3  setosa
7           5.0          3.4           1.5          0.2  setosa


Полученная таблица хранится в структуре данных DataFrame. Давайте подробно разберём, из чего состоит этот объект и какие операции с ним можно выполнять

#### DataFrame

**DataFrame** — это двумерная структура данных Pandas, где у каждого элемента есть две координаты: строка и столбец. Каждая строка — это одно наблюдение, запись об объекте исследования. А столбцы — признаки объектов. 

Для лучшего понимания данных полезно получить доступ к их описанию. Часто описание выполняют в виде документации со сведениями о содержании каждого столбца. 

Для датасета iris.csv есть следующее описание. Имеется набор из данных о 150 экземплярах ириса, по 50 экземпляров из трех следующих видов:

- ирис щетинистый (iris setosa);
- ирис версиколор (iris versicolor);
- ирис виргинский (iris virginica).


Для каждого экземпляра приведены 4 следующие характеристики:

- длина чашелистика (sepal length);
- ширина чашелистика (sepal width);
- длина лепестка (petal length);
- ширина лепестка (petal width).


У DataFrame есть неотъемлемые свойства, значения которых можно запросить. Они называются **атрибуты**. Например, атрибут columns содержит информацию о названиях столбцов в наборе данных.

In [None]:
print(df.columns) 

Index(['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
       'species'],
      dtype='object')


В данном случае атрибут columns вернул список названий столбцов и сообщил, что большинство из них имеет тип данных float64.
Вообще типы данных могут быть разные. Для просмотра типа данных каждого столбца лучше всего использовать атрибут **dtypes**.


In [None]:
print(df.dtypes) 

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object


Типы данных, о которых сообщают атрибуты — это типы данных библиотеки Pandas. Каждому из них соответствует определённый тип данных языка Python.
Так, типу int в Pandas будет соответствовать тип int64. Тип данных object используется, когда данные не подходят ни под одну категорию или соответствуют в Python типу «строка». Приведем таблицу соответствия типов данных Pandas и Python:

Pandas dtype  | Python type |  Описание 
-------------------|------------------|-------------------
object	|str|Строка
int64	|int	|Целые числа
float64	|float	|Вещественные числа
bool	|bool	|Логический тип данных



О размерах таблицы с данными сообщает её атрибут **shape**. В результате получается кортеж (неизменяемый список) из двух чисел: первое – количество строк, второе – количество столбцов.

In [None]:
print(df.shape)

(150, 5)


Всю информацию, которую предоставляют разные атрибуты DataFrame, можно получить вызовом одного-единственного метода **info().** Изучив результаты, которые этот метод возвращает, аналитик выбирает тактику дальнейшей работы с таблицей.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


##### Индексация в DataFrame

К каждой ячейке с данными в DataFrame можно обратиться по её индексу и названию столбца. В зависимости от запроса к DataFrame можно получить различные срезы данных. Этот процесс называется **индексация**. Для DataFrame она проводится разными способами.

Атрибут loc[строка, столбец] даёт доступ к элементу по строке и столбцу.

|Вид|	Реализация
|--------|--------
|Одна ячейка	|.loc[7, 'species']
|Один столбец	|.loc[:, 'species']
|Несколько столбцов	|.loc[:, ['species', 'sepal_length']]
|Несколько столбцов подряд (срез)	|.loc[:, 'species': 'sepal_length']
|Одна строка	|.loc[1]
|Все строки, начиная с заданной	|.loc[1:]
|Все строки до заданной	|.loc[:3]
|Несколько строк подряд (срез)	|.loc[2:5]


Запрос к атрибуту loc[] использует квадратные скобки, это напоминает списки в Python. Индексация здесь очень похожа на индексацию списков.

**Важное замечание:** атрибут .loc[] включает и начало, и конец среза

В то же время нужно уметь подсчитать количество определённых значений в столбце или во всем датасете. В Pandas для этого есть метод **count()**.
Его вызывают для подсчета количества ячеек, соответсвующих определенному условию. Например, необходимо подсчитать количество ячеек столбца species, где значение равно versicolor. Для столбца species таблицы df такие ячейки отвечают логическому условию df.loc[:,'species'] == 'versicolor'. Поскольку в указании, какие именно значения считать, нужен логический оператор, такой доступ к значению ячейки называют **логическая индексация**.


In [None]:
print(df.loc[df.loc[:, 'species'] == 'versicolor'][
          'species'].count())  # используем метод .count() для подсчёта записей, удовлетворяющих условию в столбце species

50


#### Series

Сама таблица представляет собой DataFrame, но каждый столбец сам по себе — вовсе не структура данных DataFrame. Если взять отдельный столбец таблицы, то он представляет собой совсем иную структуру данных — Series - одномерный объект, содержащий набор данных (любого типа, поддерживаемого NumPy) и ассоциированный с ним массив меток, который называется индексом.

In [None]:
type(df['species'])

pandas.core.series.Series

**Series** — одномерная таблица, и обратиться к её элементам можно по индексу. Каждый индекс — это номер отдельного наблюдения, и поэтому несколько различных Series вместе составляют DataFrame. В Series хранятся данные одного типа.

У каждой Series есть имя (Name), информация о количестве данных в столбце (Length) и тип данных, которые хранятся в ней (dtype).

In [None]:
print(df['species']) 

0         setosa
1         setosa
2         setosa
3         setosa
4         setosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: object


Индексация в Series аналогична индексации элементов столбца в DataFrame. 

|Вид	|Реализация	|Сокращённая запись
|-----|-----------|---------|
|Один элемент	|df.loc[7]|	df[7]
Несколько элементов	|df.loc[[5, 7, 10]]|	df[[5, 7, 10]]
|Несколько элементов подряд (срез)	|df.loc[5:10] включая 10	|df[5:10] не включая 10
|Все элементы, начиная с заданного	|df.loc[1:]	|df[1:]
|Все элементы до заданного	|df.loc[:3] включая 3	|df[:3] не включая 3


Для Series также как и для DatFrame возможна и логическая индексация. 

### Регулярные выражения

Из датасетов аналитик извлекает информацию, фильтрует неправдоподобные данные и ищет общие элементы. Здесь в ход идёт мощный инструмент поиска строк — регулярные выражения.
> **Регулярное выражение** — правило для поиска подстрок (фрагментов текста внутри строк).

Например, если небходимо найти сочетание букв «со» в предложении «Считается, что кроме трёх всем известных – мясо, просо, колесо – четвёртого такого слова в русском языке не существует», для Python это поиск подстроки "со" в строке 'Считается, что кроме трёх всем известных – мясо, просо, колесо – четвёртого такого слова в русском языке не существует'.

Регулярные выражения позволяют создавать сложные правила, так что одно выражение вернёт несколько подстрок.

Для работы с регулярными выражениями в Python импортируют библиотеку **re** (от англ. regular expressions — «регулярные выражения»). Дальше поиск ведётся в два этапа.

Сначала создают шаблон регулярного выражения. Это алгоритм, по которому нужно искать строку в тексте.
Затем готовый шаблон передают специальным методам библиотеки re, которые ищут, заменяют и удаляют нужные символы. Таким образом, шаблон определяет, что и как искать, а метод — что с этим потом делать.


В таблице приведены простейшие шаблоны регулярных выражений. Сложные регулярные выражения состоят из их комбинаций.

Регулярное выражение  | Описание | Пример  | Описание 
-------------------|------------------|-------------------|------------------
[]       | Один из символов в скобках |[a-]       | a или - 
[^…]       | Отрицание |[^a]       | любой символ кроме «a»
-|Интервал|[0-9]|интервал: любая цифра от 0 до 9
.	|Один любой символ, кроме перевода строки|	a.|	as, a1, a_ 
\d| (аналог [0-9])	Любая цифра	a\d  |a[0-9]	|a1, a2, a3
\w| 	Любая буква, цифра или _	| a\w	|a_, a1, ab
[A-z]| 	Любая латинская буква|	a[A-z]|	от а до z
[А-я]| 	Любая буква кириллицы|	a[А-я]|	от а до я
?|	Ноль или одно вхождение	|a?	|a или ничего
+	|Одно и более вхождений|	 a+	|a или aa, или aaa
*	|Ноль и более вхождений	|a*	|ничего или a, или aa
^	|Начало строки|	^a	|a1234, abcd
```$```	|Конец строки	|a$	|1a, ba


Самые распространённые задачи с использованием регулярных выражений:
-	найти подстроку в строке
-	разбить строки на подстроки на основании шаблона
-	заменить части строки на другую строку

Вот какие методы библиотеки re для этого понадобятся:


**search(pattern, string)**


(англ. «поиск») ищет шаблон pattern в строке string. Хотя search() ищет шаблон во всей строке, возвращает он только первую найденную подстроку:


In [None]:
import re

string = "«Taxi Driver» 8 февраля 1976 года Нью-Йорк Роберт ДеНиро"
print(re.search('\w+', string))

<re.Match object; span=(1, 5), match='Taxi'>


Метод search() возвращает объект типа **match** (англ. «соответствовать»). Параметр span (англ. «диапазон») указывает диапазон индексов, подходящих под шаблон. В нашем случае открывающая кавычка « не отвечает правилу, которое игнорирует знаки препинания. Вот потому индексы идут с 1 по 8: от буквы «T» до буквы «i». В параметре match указано само значение подстроки.

Шаблону '\w+' соответствует любая подстрока, содержащая одну и более букв, цифр или символ нижнего подчёркивания _ . Метод search() нашёл, что этому шаблону соответствует первое слово в строке. Так как под правило '\w+' не подходит пробел, метод вернул всё, что идёт до первого пробела.
Если нам не нужны дополнительные сведения о диапазоне, выведем только найденную подстроку методом group():


In [None]:
string = "«Taxi Driver» 8 февраля 1976 года Нью-Йорк Роберт ДеНиро"
print(re.search('\w+', string).group())

Taxi


Рассмотрим способ добыть информацию между определенными словами. Извлечем данные, содержащие буквы или пробел между символами "«" и "»"

In [None]:
string = "«Taxi Driver» 8 февраля 1976 года Нью-Йорк Роберт ДеНиро"
print(re.search('«[A-zА-я ]+»', string).group())

«Taxi Driver»


Обратите внимание, что учтены все символы, содержащиеся в нужной подстроке, в том числе — пробел.

**split(pattern, string)** 

(англ. «расщеплять, разбивать») разделяет строку string по границе шаблона pattern.


In [None]:
string = "«Taxi Driver» 8 февраля 1976 года Нью-Йорк Роберт ДеНиро"
print(re.split('\d+', string))

['«Taxi Driver» ', ' февраля ', ' года Нью-Йорк Роберт ДеНиро']


Строка разделена на три части. Границы деления строки проходят там, где метод встретил указанный в аргументе шаблон. В нашем случае шаблону регулярного выражения '\d+' соответствует одна и более цифр. Поэтому строка поделилась натрое в тех местах, где split() обнаружил подстроки из цифр — 8 и 1976.
Количеством делений строки можно управлять. За это отвечает параметр **maxsplit** метода split() (по умолчанию равен 0).


In [None]:
string = "«Taxi Driver» 8 февраля 1976 года Нью-Йорк Роберт ДеНиро"
print(re.split('\d+', string, maxsplit = 1))

['«Taxi Driver» ', ' февраля 1976 года Нью-Йорк Роберт ДеНиро']


Строка разделилась один раз по первому найденному шаблону.

**sub(pattern, repl, string)** (от англ. substring, «подстрока») ищет подстроку pattern в строке string и заменяет его на подстроку repl (от англ. replace — «заменить»).


In [None]:
string = "«Taxi Driver» 8 февраля 1976 года Нью-Йорк Роберт ДеНиро"
print(re.sub('\d+', '', string)) # Ищем числа и заменяем на пустоту

«Taxi Driver»  февраля  года Нью-Йорк Роберт ДеНиро


Все подстроки с числами заменены на пустоту.

Метод **findall(pattern, string)** возвращает список всех подстрок в string, удовлетворяющих шаблону pattern. А не только первую подходящую подстроку, как search(). Найдём все слова, оканчивающиеся на "со":


In [None]:
so = "Считается, что кроме трёх всем известных – мясо, просо, колесо – четвёртого такого слова в русском языке не существует"
print(re.findall('[А-я]+со', so))

['мясо', 'просо', 'колесо']


Метод **findall()** удобен тем, что можно сразу посчитать количество повторяющихся подстрок в строке функцией len():

In [None]:
string = "«Taxi Driver» 8 февраля 1976 года Нью-Йорк Роберт ДеНиро"
print(len(re.findall('\w+', string)))

10


Функция len() вывела результат на единицу больше, чем ожидалось. Так произошло, потому что слово «Нью-Йорк» разбилось на два слова, ведь «-» не подходит под шаблон '\w+'.
Добавим '-' в шаблон регулярного выражения и учтем Нью-Йорк как одно слово.


In [None]:
string = "«Taxi Driver» 8 февраля 1976 года Нью-Йорк Роберт ДеНиро"
print(len(re.findall('[\w-]+', string)))

9


### Web Mining

Если данных мало, то может понадобиться обогащение данных. Это процесс добавления данных в уже готовую выборку. Сперва находят ценные для исследования веб-ресурсы, а затем извлекают из них нужные данные. Этот процесс называют **Web Mining** (от англ. web — «сеть»; mining — «добыча, разработка полезных ископаемых»). В результате удается не только учесть больше факторов, но и выявить новые закономерности, прийти к неожиданным выводам. 


Что добывают в процессе Web Mining:
-	Контент сайтов. Текст, картинки, файлы, таблицы.
-	Структуры сайтов. Ссылки и взаимосвязи веб-страниц — всё, что даёт представление об устройстве сайта.
-	Сведения о пользователях. Характеристики взаимодействия пользователя с сайтом. 

По-другому Web Mining называют парсинг (от англ. parse — «проводить разбор, анализ»). Аналитики на профессиональном жаргоне говорят, что «парсят» сайты.


#### Get-запрос



Для получения данных с сервера понадобится метод **get()**. Для отправления HTTP-запросов подключают библиотеку requests (англ. «запросы»). Импортируем библиотеку:

In [None]:
import requests 

Прежде всего, нужна ссылка на сайт. Сохраним ссылку в переменной URL (от англ. Uniform Resource Locator — «единый указатель ресурса»).

In [None]:
URL='https://datasciencefefu.github.io/course/scorsese.html'

Метод get() библиотеки Requests выступает в роли браузера. Передадим ему ссылку на сайт как аргумент. Метод отправит get-запрос на сервер, обработает полученный оттуда результат и вернёт объект **response** (англ. «ответ») — специальный объект, содержащий ответ сервера на HTTP-запрос:

In [None]:
req = requests.get(URL) 

Объект response содержит ответ сервера: код состояния, содержание запроса и код самой HTML-страницы. Атрибуты объекта Response позволяют возвращать не все данные с сервера, а только нужные для анализа. Например, объект Response c атрибутом text вернет лишь текстовое содержание запроса:

In [None]:
print(req.text) 

<!DOCTYPE HTML>

<html>
	<head>
	<title>Содержимое курса</title>
		<meta charset="utf-8" />
		<meta name="viewport" content="width=device-width, initial-scale=1, user-scalable=no" />
		<link rel="stylesheet" href="assets/css/main.css" />
		<link rel="icon" href="images/pic0.ico" type="image/x-icon">
		<noscript><link rel="stylesheet" href="assets/css/noscript.css" /></noscript>
	</head>
	<body class="is-preload">

		<!-- Page Wrapper -->
			<div id="page-wrapper">

				<!-- Header -->
					<header id="header" class="alt">
						<h1><a href="info.html">Содержимое курса</a></h1>
						<nav>
							<a href="#menu">Навигация</a>
						</nav>
					</header>

				<!-- Menu -->
					<nav id="menu">
						<div class="inner">
							<h2>Навигация</h2>
							<ul class="links">
								<li><a href="index.html">Главная</a></li>
								<li><a href="info.html">О курсе</a></li>
								<li><a href="extrainfo.html">Дополнительные материалы</a></li>
							</ul>
							<a href="#" class="close">Close

Атрибут status_code (от англ. «код состояния») позволяет понять отправил ли сервер ответ или возникла какая-то ошибка.

In [None]:
print(req.status_code) 

200


Не все запросы возвращаются с данными. Иногда результатом запроса бывает ошибка: в зависимости от типа её обозначают специальным кодом. 

Код ошибки	|Название	|Значение
---|---------|------------
200	|ОК	|Всё отлично
302	|Found	|Расположение ресурса изменилось
400	|Bad Request	|Синтаксическая ошибка в запросе
404	|Not Found	|Ресурс не найден
500	|Internal Server Error	|Внутренняя ошибка сервера
502	|Bad Gateway	|Ошибка при обмене данных между серверами
503	|Server Unvailable	|Сервер временно не может обрабатывать запросы


#### Парсинг HTML

После того как мы отправили get-запрос и добыли код страницы, необходимо добыть чистые данные. Вручную это делать достаточно долго и сложно, поэтому следует
обратиться к возможностям библиотеки **BeautifulSoup** (от англ. beautiful soup, «красивый суп»). Имя библиотеки выбрано в противовес tag soup (англ. «суп из тегов»), как уничижительно называют неструктурированный, небрежно написанный код веб-страницы.

Методы библиотеки BeautifulSoup превращают HTML-файл в древовидную структуру. После этого нужный контент легко отыскать по тегам и атрибутам.




Импортируем библиотеку и создадим объект BeautifulSoup:

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(req.text, 'lxml') 

Первый аргумент — это данные, из которых будет собираться древовидная структура. Второй аргумент — синтаксический анализатор, или парсер. Он отвечает за то, как именно из кода веб-страницы получается «дерево». Парсеров много, они создают разные структуры из одного и того же HTML-документа. За высокую скорость работы часто выбирают анализатор lxml. Есть и другие, например, html.parser или xml.

Первый метод поиска называется **find()** (англ. «найти»). В HTML-документе он находит первый элемент, имя которого ему передали в качестве аргумента, и возвращает его весь, с тегами и контентом. Найдём, к примеру, первый заголовок третьего уровня:

In [None]:
heading_3=soup.find('h3')
print(heading_3) 

<h3 class="major">Награды Каннского и Берлинского кинофестивалей</h3>


Чтобы посмотреть контент без тега, вызывают метод **text**. Результат возвращается в виде строки:

In [None]:
print(heading_3.text) 

Награды Каннского и Берлинского кинофестивалей


Существует и другой метод поиска — **find_all** (англ. «найти всё»). В отличие от предыдущего метода, find_all() находит все вхождения определённого элемента в HTML-документе и возвращает список:

In [None]:
paragraph=soup.find_all('p') # напомним, p - это параграф, текст между тегами <p> и </p>
print(paragraph) 

[<p>Мартин Скорсезе - американский кинорежиссёр, продюсер, сценарист и актёр. Фильмам Скорсезе присущи выразительная жестокость и насилие, в кинематографических кругах он известен как мастер гангстерских лент. Скорсезе неоднократно признавался одним из величайших и наиболее влиятельных кинорежиссёров современности. Посмотрим на некоторые награды знаменитого режиссера.</p>]


Методом text вычленим только контент из параграфов:

In [None]:
for paragraph in soup.find_all('p'):
    print(paragraph.text) 

Мартин Скорсезе - американский кинорежиссёр, продюсер, сценарист и актёр. Фильмам Скорсезе присущи выразительная жестокость и насилие, в кинематографических кругах он известен как мастер гангстерских лент. Скорсезе неоднократно признавался одним из величайших и наиболее влиятельных кинорежиссёров современности. Посмотрим на некоторые награды знаменитого режиссера.


У методов **find()** и **find_all()** есть дополнительный фильтр поиска элементов страницы — параметр **attrs** (от англ. attributes, «атрибуты»). Он находит индентификаторы и их классы. 
Параметру attrs передают словарь с именами и значениями атрибутов. Например, найдем элемент с идентификатором 'oscar':

In [None]:
print(soup.find('table',attrs={'id': 'oscar'})) 

<table id="oscar">
<thead>
<tr>
<th>Название фильма</th>
<th>Дата американской премьеры</th>
<th>Основное место съемок</th>
<th>Главный актер</th>
</tr>
</thead>
<tbody>
<tr>
<td>«Raging Bull»</td>
<td>14 ноября 1980 года</td>
<td>Нью-Йорк</td>
<td>Роберт ДеНиро</td>
</tr>
<tr>
<td>«The Last Temptation of Christ»</td>
<td>12 августа 1988 года</td>
<td>Уарзазат</td>
<td>Уиллем Дефо</td>
</tr>
<tr>
<td>«Gangs of New York»</td>
<td>27 марта 2003 года</td>
<td>Студия Чинечитта</td>
<td>Леонардо ДиКаприо</td>
</tr>
<tr>
<td>«The Aviator»</td>
<td>25 декабря 2004 года</td>
<td>Монреаль</td>
<td>Леонардо ДиКаприо</td>
</tr>
<tr>
<td>«Hugo»</td>
<td>5 января 2012 года</td>
<td>Париж</td>
<td>Эйса Баттерфилд</td>
</tr>
<tr>
<td>«The Wolf of Wall Street»</td>
<td>6 февраля 2014 года</td>
<td>Нью-Йорк</td>
<td>Леонардо ДиКаприо</td>
</tr>
<tr>
<td>«The Irishman»</td>
<td>1 ноября 2019 года</td>
<td>Нью-Йорк</td>
<td>Роберт ДеНиро</td>
</tr>
</tbody>
</table>


Усложним задачу. Достанем таблицу с номинациями Мартина Скорсезе на Оскар и превратим её в датафрейм:

In [None]:
table = soup.find('table',attrs={'id': 'oscar'})
# Применим метод find к тегу table
# Укажем атрибут первой таблицы: oscar 
print(table) 

<table id="oscar">
<thead>
<tr>
<th>Название фильма</th>
<th>Дата американской премьеры</th>
<th>Основное место съемок</th>
<th>Главный актер</th>
</tr>
</thead>
<tbody>
<tr>
<td>«Raging Bull»</td>
<td>14 ноября 1980 года</td>
<td>Нью-Йорк</td>
<td>Роберт ДеНиро</td>
</tr>
<tr>
<td>«The Last Temptation of Christ»</td>
<td>12 августа 1988 года</td>
<td>Уарзазат</td>
<td>Уиллем Дефо</td>
</tr>
<tr>
<td>«Gangs of New York»</td>
<td>27 марта 2003 года</td>
<td>Студия Чинечитта</td>
<td>Леонардо ДиКаприо</td>
</tr>
<tr>
<td>«The Aviator»</td>
<td>25 декабря 2004 года</td>
<td>Монреаль</td>
<td>Леонардо ДиКаприо</td>
</tr>
<tr>
<td>«Hugo»</td>
<td>5 января 2012 года</td>
<td>Париж</td>
<td>Эйса Баттерфилд</td>
</tr>
<tr>
<td>«The Wolf of Wall Street»</td>
<td>6 февраля 2014 года</td>
<td>Нью-Йорк</td>
<td>Леонардо ДиКаприо</td>
</tr>
<tr>
<td>«The Irishman»</td>
<td>1 ноября 2019 года</td>
<td>Нью-Йорк</td>
<td>Роберт ДеНиро</td>
</tr>
</tbody>
</table>


Напомним, что открывающий тег `<table>` указывает начало таблицы, а закрывающий `</table>` — её конец. Внутри теги строк — `<tr>`; ячеек — `<td>` и заголовков столбцов — `<th>`.

Создадим пустой список heading_table, где сохраним названия столбцов. В цикле методом find_all() найдём все элементы `th`. Методом text добудем их контент и добавим его в список heading_table:


In [None]:
heading_table = []  # Список, в котором будут храниться названия столбцов
for row in table.find_all('th'):  # Названия столбцов прячутся в элементах th, 
    # поэтому будем искать все элементы th внутри table и пробегать по ним в цикле
    heading_table.append(row.text)  # Добавляем контент из тега th в список heading_table
print(heading_table)

['Название фильма', 'Дата американской премьеры', 'Основное место съемок', 'Главный актер']


Создадим пустой список content, сохраним там данные таблицы. В цикле обратимся к каждой строке по имени элемента tr.

Отдельно отметим, что самая первая строка таблицы с заголовками в тегах `<th> </th>`, нас не интересует. Потому перед тем, как в цикле добавлять значения в пустой список, укажем, что это не касается строки с заголовками: `if not row.find_all('th')`.

Применим метод find_all() к элементам `<td>`. Методом text очистим полученные ячейки от тегов и сложим в список content.


In [None]:
content = []  # Список, в котором будут храниться данные из таблицы
for row in table.find_all('tr'):
    # Каждая строка обрамляется тегом tr, необходимо пробежаться в цикле по всем строкам
    if not row.find_all('th'):
        # Эта проверка необходима, чтобы пропустить первую строку таблицы с заголовками
        content.append([element.text.replace('\xa0', ' ') for element in row.find_all('td')])
        # В каждой строке контент ячейки обрамляется тегами <td> </td>
        # Необходимо пройти в цикле по всем элементам td, вычленить контент из ячеек 
        # и добавить его в список 
        # Затем добавить каждый из списков в список content 
print(content)

[['«Raging Bull»', '14 ноября 1980 года', 'Нью-Йорк', 'Роберт ДеНиро'], ['«The Last Temptation of Christ»', '12 августа 1988 года', 'Уарзазат', 'Уиллем Дефо'], ['«Gangs of New York»', '27 марта 2003 года', 'Студия Чинечитта', 'Леонардо ДиКаприо'], ['«The Aviator»', '25 декабря 2004 года', 'Монреаль', 'Леонардо ДиКаприо'], ['«Hugo»', '5 января 2012 года', 'Париж', 'Эйса Баттерфилд'], ['«The Wolf of Wall Street»', '6 февраля 2014 года', 'Нью-Йорк', 'Леонардо ДиКаприо'], ['«The Irishman»', '1 ноября 2019 года', 'Нью-Йорк', 'Роберт ДеНиро']]


В результате получены 2 списка. В списке heading_table сохранили названия столбцов. В content — наполнение таблицы в виде двумерного массива.

In [None]:
oscar_nomination = pd.DataFrame(content, columns=heading_table) 
# В качестве данных передаем двумерный список content, а в качестве заголовков - heading_table
print(oscar_nomination.head()) 

                   Название фильма  ...      Главный актер
0                    «Raging Bull»  ...      Роберт ДеНиро
1  «The Last Temptation of Christ»  ...        Уиллем Дефо
2              «Gangs of New York»  ...  Леонардо ДиКаприо
3                    «The Aviator»  ...  Леонардо ДиКаприо
4                           «Hugo»  ...    Эйса Баттерфилд

[5 rows x 4 columns]


Теперь таблица с сайта преобразована в удобный для анализа датафрейм. 

#### JSON

Отвечая на запрос, сервер возвращает структурированные данные в одном из специальных форматов. Самый распространённый из них — **JSON**.  

JSON расшифровывается как JavaScript Object Notation (англ. «объектная запись JavaScript»).
Вот так выглядят данные в этом формате:


In [None]:
[
  {
    "Название фильма": "«Taxi Driver»",
    "Дата американской премьеры": "8 февраля 1976 года",
    "Основное место съемок": "Нью-Йорк",
    "Главный актер": "Роберт ДеНиро"
  },
  {
    "Название фильма": "«After Hours»",
    "Дата американской премьеры": "11 сентября 1985 года",
    "Основное место съемок": "Нью-Йорк",
    "Главный актер": "Гриффин Данн"
  },
  {
    "Название фильма": "«Goodfellas»",
    "Дата американской премьеры": "9 сентября 1990 года",
    "Основное место съемок": "Нью-Йорк",
    "Главный актер": "Роберт ДеНиро"
  }
]

[{'Главный актер': 'Роберт ДеНиро',
  'Дата американской премьеры': '8 февраля 1976 года',
  'Название фильма': '«Taxi Driver»',
  'Основное место съемок': 'Нью-Йорк'},
 {'Главный актер': 'Гриффин Данн',
  'Дата американской премьеры': '11 сентября 1985 года',
  'Название фильма': '«After Hours»',
  'Основное место съемок': 'Нью-Йорк'},
 {'Главный актер': 'Роберт ДеНиро',
  'Дата американской премьеры': '9 сентября 1990 года',
  'Название фильма': '«Goodfellas»',
  'Основное место съемок': 'Нью-Йорк'}]

Если JSON содержит несколько элементов, их перечисляют внутри квадратных скобок: `[ ... ]` — как в списках. Каждый элемент JSON похож на словарь — он записан в фигурных скобках, внутри которых пары `ключ : значение.`

Поскольку данные записаны в строго определённой форме, их можно превратить в строку и передать в HTTP-запросе. В этом и заключается смысл JSON: он позволяет собирать данные в объект (список пар `ключ : значение`), затем преобразовывать этот объект в строку для передачи в запросе. Получатель превращает эту строку обратно в объект.

Ключи обрамлены двойными кавычками. Значениями ключей могут быть строки, числа, булевы значения, null, массивы, объекты.


JSON начинается либо с фигурных скобок, если содержит один объект, либо с квадратных — если список объектов. JSON не может содержать функций, переменных или комментариев.

В Python есть встроенный модуль для работы с данными в формате JSON:


In [None]:
import json

Метод **json.loads()** (от англ. loads — «загрузки») конвертирует строки в формате JSON:

In [None]:
x = '{"Название фильма": "«Taxi Driver»", "Дата американской премьеры": "8 февраля 1976 года"}'
y = json.loads(x)

print('Название фильма : {0}, Дата американской премьеры : {1}'.format(y['Название фильма'], y['Дата американской премьеры']))

Название фильма : «Taxi Driver», Дата американской премьеры : 8 февраля 1976 года


Напечатали название фильма и дату премьеры. Метод json.loads() преобразовал строку так, что к значениям 'Название фильма' и 'Дата американской премьеры' теперь возможно обратиться из функции print().

Однако в этом случае в JSON была информация только по одному объекту. Чаще передают целый список:


In [None]:
x = '[{"Название фильма": "«Taxi Driver»", "Дата американской премьеры": "8 февраля 1976 года"}, {"Название фильма": "«After Hours»", "Дата американской премьеры": "11 сентября 1985 года"}, {"Название фильма": "«Goodfellas»", "Дата американской премьеры": "9 сентября 1990 года"}]'
y = json.loads(x)
for i in y:
    print('Название фильма : {0}, Дата американской премьеры : {1}'.format(i['Название фильма'], i['Дата американской премьеры']))

Название фильма : «Taxi Driver», Дата американской премьеры : 8 февраля 1976 года
Название фильма : «After Hours», Дата американской премьеры : 11 сентября 1985 года
Название фильма : «Goodfellas», Дата американской премьеры : 9 сентября 1990 года


Метод **json.dumps()** (от англ. dumps — «разгрузки»), наоборот, конвертирует данные из Python в формат JSON. При работе с буквами кириллицы указывают аргумент ensure_ascii=False (строки запишутся как есть). Если ensure_ascii = True, все не ASCII символы в выводе будут экранированы последовательностями \uXXXX, и результатом будет строка, содержащая только ASCII символы.

In [None]:
out = json.dumps(y, ensure_ascii=False)
print(out)

[{"Название фильма": "«Taxi Driver»", "Дата американской премьеры": "8 февраля 1976 года"}, {"Название фильма": "«After Hours»", "Дата американской премьеры": "11 сентября 1985 года"}, {"Название фильма": "«Goodfellas»", "Дата американской премьеры": "9 сентября 1990 года"}]


## Предобработка данных

Перед тем как приступить к работе над аналитической задачей, следует предварительно подготовить сами данные.
Процесс подготовки данных для дальнейшего анализа называется **предобработка**. Заключается она в поиске проблем, которые могут быть в данных, и в решении этих проблем.

В программировании работает принцип GIGO (от англ. garbage in — garbage out, буквально «мусор на входе — мусор на выходе»). Это значит, что при ошибках во входных данных даже правильный алгоритм работы выдаёт неверные результаты.

Получаемые аналитиком данные не всегда соответствуют ожидаемому уровню качества. Человеческий фактор, ошибки системы или процесса выгрузки могут «испортить» их, то есть сделать непригодными для анализа.

Аналитики всегда готовят данные к дальнейшей работе с ними, так как в исходном виде они практически всегда содержат:
-	ошибки ввода;
-	технические ошибки;
-	пропущенные значения;
-	дубликаты;
-	информационный шум и ненужную информацию.

Такие проблемы не позволят извлечь полезную информацию из данных, поэтому предобработка — важная часть работы аналитиков. Порой подготовка данных занимает больше времени, чем сам анализ.




Изучать методы предобработки данных лучше на практике. Основой для примеров предобратки данных будут две таблицы: ratings.csv и movies.csv.


Зачастую необходимая информация находится не в одной, а в сразу нескольких таблицах и вот почему:
1. Данные формируются в нескольких независимых процессах и хранятся в отдельных таблицах.
Например, у нас есть сеть кинотеатров, которая работает в нескольких городах. Скорее всего, данные по кинотеатрам по каждому отдельному городу будут храниться в разных таблицах, которые будут формироваться независимо друг от друга. И объединять их в единую таблицу придется тебе.
2. Хранить все данные в одной таблице накладно для ёмкости диска.
Например, названия фильмов из наших данных хранятся в отдельной небольшой таблице, а в логах стоит идентификатор фильма. Это делается для того, чтобы уменьшить объем занимаемой памяти на диске. Названия могут растягиваться на миллионы строк, а числовой идентификатор фильма занимает гораздо меньше места. Именно поэтому логи с идентификаторами выигрывают у единой таблицы с названиями.


Подробнее опишем имеющиеся датасеты.

Таблица movies.csv — расшифровка идентификаторов фильмов
 
Описание столбцов:
-	movieId — идентификатор фильма;
-	title — название фильма и год производства;
-	genres — список жанров, к которым относится фильм.


Прочитаем датасеты в формате csv, где все значения разделены точкой с запятой в movies и запятой в ratings. Это наши исходные данные. Чтобы применить к ним все возможности языка Python и библиотеки Pandas, надо импортировать эту библиотеку и сохранить её в переменной. По сокращённому названию панельных данных (panel data), с которых начиналась Pandas, эту переменную принято называть pd:

In [None]:
movies = pd.read_csv('https://raw.githubusercontent.com/datasciencefefu/course/main/data/movies.csv', sep=";")
movies.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Таблица ratings.csv — данные о выставленных фильмам оценках
      
Описание столбцов таблицы:
-	userId — идентификатор пользователя, который поставил фильму оценку;
-	movieId — идентификатор фильма;
-	rating — выставленная оценка;
-	timestamp — время (в формате unix time), когда была выставлена оценка.

In [None]:
ratings = pd.read_csv('https://raw.githubusercontent.com/datasciencefefu/course/main/data/ratings.csv', sep=",")
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


**unix time** — формат описания моментов во времени, определяется как количество секунд, прошедших с полуночи (00:00:00) 1 января 1970 года.
Можно воспользоваться методом to_datetime для приведения времени к стандартному виду. Первый аргумент — это столбик для преобразования, второй — это единицы, в которых указано время (в нашем случае это секунды — “s”):


In [None]:
time = pd.to_datetime(ratings['timestamp'],unit='s')
ratings['timestamp'] = time
ratings.tail()

Unnamed: 0,userId,movieId,rating,timestamp
100831,610,166534,4.0,2017-05-03 21:53:22
100832,610,168248,5.0,2017-05-03 22:21:31
100833,610,168250,5.0,2017-05-08 19:50:47
100834,610,168252,5.0,2017-05-03 21:19:12
100835,610,170875,3.0,2017-05-03 21:20:15


Прежде чем приступить к предобработке данных, изучим общую информацию о датасетах:

In [None]:
movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9757 entries, 0 to 9756
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movieId  9757 non-null   int64 
 1   title    9751 non-null   object
 2   genres   9757 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.8+ KB


Заметим, что количество строк в столбцах различно - значит, в данных есть пропуски. И прежде чем анализировать такие данные, их нужно обработать (см. Работа с пропусками).

In [None]:
ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype         
---  ------     --------------   -----         
 0   userId     100836 non-null  int64         
 1   movieId    100836 non-null  int64         
 2   rating     100836 non-null  float64       
 3   timestamp  100836 non-null  datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2)
memory usage: 3.1 MB


А в таблице ratings.csv количество строк во всех столбцах одинаковое - скорее всего, пропущенных значений нет.

### Работа с пропусками
Аналитикам часто приходится работать с данными, в которых есть пропуски. Пропуски в данных появляются по разным причинам. Некоторые пропуски возникают случайно, например, автоматизированная система сбора информации дала сбой или пользователи забыли внести данные. Другие пропуски остаются в таблицах умышленно - для заполнения спецсимволами.


Способ работы с пропущенными значениями зависит от их типа. В датафрейме pandas столбцы могут содержать **категориальные** или **количественные** данные. Они соотносятся с типами переменных в статистике. Категориальная принимает одно значение из ограниченного набора, а количественная — любое числовое значение в диапазоне (см. Гл. 1).



Посмотрим сколько пропусков в нашем датасете

In [None]:
ratings.isnull().sum()

userId       0
movieId      0
rating       0
timestamp    0
dtype: int64

В данных о выставленных фильмам оценках пропущенных значений нет

In [None]:
movies.isnull().sum()

movieId    0
title      6
genres     0
dtype: int64

Восстановить значения в столбце 'title' не представляется возможным, но так как пропущенных значений мало - то следует удалить с помощью метода .dropna()

In [None]:
movies.dropna(subset=['title'], inplace=True)



---


Чтобы программа правильно интерпретировала пропуски, при чтении файла с помощью метода read_csv можно передать в параметр na_values значение или список значений, которые при чтении будут помечены как пропуски.

### Удаление дубликатов


Посмотрим сколько дубликатов фильмов в таблице movies.

In [None]:
print('Дубликатов в таблице:', movies.duplicated(['movieId']).sum())

Дубликатов в таблице: 9


Для удаления дубликатов используем метод drop_duplicates. Рассмотрим подробнее параметры данного метода: 
- В параметре subset указываем один или несколько столбцов, по комбинации которых хотим удалить дубликаты. 
- С помощью параметра keep указываем, какой из дубликатов оставить (например, первый или последний). 
- Параметр inplace указывает, что изменения нужно сохранить в датафрейме, к которому применяется метод (в нашем случае — в датафрейме movies):

In [None]:
movies.drop_duplicates(subset = 'movieId', keep = 'first', inplace = True)
movies.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Убедимся, что теперь в нашем датасете нет дубликатов:

In [None]:
print('Дубликатов в таблице:', movies.duplicated(['movieId']).sum())

Дубликатов в таблице: 0


### Объединение таблиц
Объединение датафреймов с помощью метода merge имеет особенности: есть ситуации, которые в результате приводят к дублированию строк в объединенном датасете. Поэтому ранее мы избавились от дупликатов.

Метод **merge()** применяют к таблице, к которой присоединяют другую.

```
joined = left_df.merge(right_df, on='', how='')
```

 У метода следующие аргументы:
-	left_df / right_df  — имена объединяемых DataFrame или Series. К "правому" датафрейму присоединяем "левый" (в нашем примере "левый" датафрейм — ratings, "правый" — movies).
-	on — название общего столбца в двух соединяемых таблицах: по нему происходит слияние Для объединения по нескольким столбцам используют ```on = ['col1', 'col2']```
-	how — параметр объединения записей. Он может иметь четыре значения: left, right, inner и outer. Если аргумент how принимает значение left: тогда в итоговую таблицу будут включены id из левой таблицы. Если же how принимает значение right, тогда итоговая таблица включает id из правой таблицы.

Рассмотрим датафреймы внимательнее: у ratings и movies есть общий столбец movieId. Значит, можно объединить эти датафреймы в одну таблицу, используя метод merge.

Объединим таблицы ratings и movies со следующими условиями:
-	ratings — таблица, к которой будем присоединять другую таблицу
-	movies — таблица, которую присоединяем к ratings
-	'movieId' — общий столбец в двух таблицах, по нему будем объединять
-	how='left' — movieId таблицы ratings включены в итоговую таблицу joined




In [None]:
joined = ratings.merge(movies, on='movieId', how='left')
joined.head()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,2000-07-30 18:45:03,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,2000-07-30 18:20:47,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,2000-07-30 18:37:04,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,2000-07-30 19:03:35,"Usual Suspects, The (1995)",Crime|Mystery|Thriller
4,1,50,5.0,2000-07-30 18:48:51,"Big Green, The (1995)",Children|Comedy
