На практике источники данных редко ограничиваются одной таблицей. Например, если мы работаем с базой данных, то данные в ней могут быть представлены в виде нескольких десятков таблиц, каждая из которых несёт отдельную информацию. Если вы делаете выгрузку из базы напрямую, не объединяя таблицы в единую структуру средствами SQL, вам необходимо знать, как работать с такими таблицами средствами Pandas. 



In [1]:
import pandas as pd

melb_df = pd.read_csv('data/melb_data_fe.csv', sep=',')

## С КАКИМИ ДАННЫМИ МЫ РАБОТАЕМ?

В этой части модуля мы будем работать с популярным датасетом MovieLens, в котором собраны логи некоторой рекомендательной системы фильмов.

<code style='background:yellow;color:black'>Наши данные представляют собой четыре таблицы:</code>

> 1. **ratings1** и **ratings2** — таблицы с данными о выставленных пользователями оценках фильмов. Они имеют одинаковую структуру и типы данных — на самом деле это две части одной таблицы с оценками фильмов:
>> - **userId** — уникальный идентификатор пользователя, который выставил оценку;
>> - **movieId** — уникальный идентификатор фильма;
>> - **rating** — рейтинг фильма.
> 2. **dates** — таблица с датами выставления всех оценок:
>> - **date** — дата и время выставления оценки фильму.
> 3. **movies** — таблица с информацией о фильмах.
>> - **movieId** — уникальный идентификатор фильма;
>> - **title** — название фильма и год его выхода;
>> - **genres** — жанры фильма.

> Итак, представим, что нам надо получить единую таблицу, в которой будут собраны рейтинги, даты выставления рейтингов, а также информация о фильмах. Вот как мы будем действовать:
>> 1. Склеим таблицы ratings1 и ratings2 в единую структуру.

Термин «склеить» в данном случае обозначает <code style='background:yellow;color:black'>конкатенацию</code> — присоединение одной таблицы к другой.
>> 2. К полученной таблице с рейтингами подсоединим столбец с датой проставления рейтинга, склеив столбцы таблиц между собой.

>> 3. Присоединим к нашей таблице информацию о названиях и жанрах фильмов.

## ЗАЧЕМ ХРАНИТЬ ДАННЫЕ В РАЗНЫХ ТАБЛИЦАХ?

**Конечно, здорово, если все необходимые данные лежат в одной таблице, но на практике такое случается редко по двум объективным причинам:**

1. Часто данные формируются **несколькими независимыми процессами**, каждый из которых хранит данные в своей таблице.

Например, данные для отчёта по продажам могут состоять из списка банковских транзакций, курсов валют от Центробанка и планов отдела продаж из внутренней CRM. Все эти три таблицы, скорее всего, будут формироваться независимыми друг от друга системами. Объединять их в один отчёт придётся вам.

2. Хранить все данные в одной таблице часто очень **накладно для ёмкости диска.**

Например, названия фильмов в наших данных хранятся в отдельной небольшой таблице. А в логах, которые могут растягиваться на многие миллионы строк, вместо названия фильма стоит его идентификатор. Числовой идентификатор фильма занимает на диске гораздо меньше места, чем длинное название, поэтому логи с идентификаторами будут занимать гораздо меньше места, чем единая таблица с названиями.

In [2]:
import pandas as pd
rating1 = pd.read_csv('data/ratings1.csv', sep=',')
rating2 = pd.read_csv('data/ratings2.csv', sep=',')
movies = pd.read_csv('data/movies.csv', sep=',')
dates_ = pd.read_csv('data/dates.csv')

<code style='background:yellow;color:black'>Задание 5.2</code>

Сколько уникальных фильмов представлено в таблице movies?

In [6]:
movies.describe(include=['object'])

Unnamed: 0,title,genres
count,9742,9742
unique,9737,951
top,Emma (1996),Drama
freq,2,1053


<code style='background:yellow;color:black'>Задание 5.3</code>

Сколько уникальных пользователей в таблице ratings1?

In [8]:
rating1['userId'].describe()

count    40001.000000
mean       134.711282
std         79.664674
min          1.000000
25%         66.000000
50%        132.000000
75%        208.000000
max        274.000000
Name: userId, dtype: float64

<code style='background:yellow;color:black'>Задание 5.4</code>

В каком году было выставлено больше всего оценок?
Для ответа на этот вопрос используйте таблицу dates.

In [14]:
dates_['date'] = pd.to_datetime(dates_['date'])
dates_['date'].dt.year.value_counts()

2000    10061
2017     8198
2007     7114
2016     6703
2015     6616
2018     6418
1996     6040
2005     5813
2012     4656
2008     4351
2009     4158
2006     4059
2003     4014
2001     3922
2002     3478
2004     3279
1999     2439
2010     2301
1997     1916
2011     1690
2013     1664
2014     1439
1998      507
Name: date, dtype: int64