# Datasets links

[MovieLens](https://grouplens.org/datasets/movielens/32m/)

[IMDb Non-Commercial Datasets](https://developer.imdb.com/non-commercial-datasets/)

[TMDB](https://developer.themoviedb.org/docs/daily-id-exports)

# Imports global

In [None]:
import pandas as pd
import zipfile
import gzip
import numpy as np

# Special import for Google Collab with connection to Google Disc

Please comment on these cells if you plan to work in Google Collab:

In [None]:
# import pandas as pd
# from google.colab import drive
# drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
# ratings = pd.read_csv('/content/drive/MyDrive/MovieLens/ratings.csv')
# tags = pd.read_csv('/content/drive/MyDrive/MovieLens/tags.csv')
# movies = pd.read_csv('/content/drive/MyDrive/MovieLens/movies.csv')
# links = pd.read_csv('/content/drive/MyDrive/MovieLens/links.csv')

# MovieLens Dataset Details

## Общая информация
- **Название датасета:** MovieLens 32M  
- **Описание:** Эталонный датасет, содержащий оценки фильмов и пользовательские теги.  
- **Размер:**  
  - 32 000 000 оценок  
  - 2 000 000 пользовательских тегов  
  - 87 585 фильмов  
  - 200 948 пользователей  
- **Дата сбора данных:** октябрь 2023  
- **Дата публикации:** май 2024  

### Особенности:
- Датасет предназначен для тестирования и разработки рекомендательных систем.  
- Пользователи выбраны случайным образом.  
- Каждый пользователь оценил не менее определенного количества фильмов (минимальный порог не указан).  
- Демографическая информация отсутствует.  
- Фильмы включены только при наличии хотя бы одной оценки или тега.  

---

## Файлы в датасете
1. **`ratings.csv`** – данные об оценках  
2. **`tags.csv`** – пользовательские теги  
3. **`movies.csv`** – информация о фильмах  
4. **`links.csv`** – связи с внешними источниками  

---

## Описание полей

### 1. `ratings.csv` (оценки пользователей)
| Поле        | Описание |
|-------------|----------|
| `userId`    | Уникальный идентификатор пользователя |
| `movieId`   | Уникальный идентификатор фильма |
| `rating`    | Оценка фильма пользователем (от 0.5 до 5.0 с шагом 0.5) |
| `timestamp` | Временная метка в секундах с 1 января 1970 года (UTC) |

> **Примечание:** Файл отсортирован по `userId`, затем по `movieId`.

---

### 2. `tags.csv` (пользовательские теги)
| Поле        | Описание |
|-------------|----------|
| `userId`    | Уникальный идентификатор пользователя |
| `movieId`   | Уникальный идентификатор фильма |
| `tag`       | Текст тега (одно слово или короткая фраза) |
| `timestamp` | Временная метка в секундах с 1 января 1970 года (UTC) |

> **Примечание:** Файл отсортирован по `userId`, затем по `movieId`.

---

### 3. `movies.csv` (информация о фильмах)
| Поле      | Описание |
|-----------|----------|
| `movieId` | Уникальный идентификатор фильма |
| `title`   | Название фильма (включая год выпуска) |
| `genres`  | Список жанров фильма, разделенных `|` (например, `Comedy|Drama`) |

---

### 4. `links.csv` (связи с внешними источниками)
| Поле      | Описание |
|-----------|----------|
| `movieId` | Уникальный идентификатор фильма |
| `imdbId`  | Идентификатор фильма на IMDb |
| `tmdbId`  | Идентификатор фильма на TMDb (The Movie Database) |

---

## Дополнительная информация
- **Файлы `ratings.csv` и `tags.csv`** используют одинаковые `userId`, означая, что один пользователь имеет один и тот же идентификатор в обоих файлах.  
- **Файлы `ratings.csv`, `tags.csv`, `movies.csv` и `links.csv`** используют одинаковые `movieId`, связывая данные о фильмах между файлами.  
- **Фильмы с `movieId=1`** соответствуют ссылке [MovieLens ID 1](https://movielens.org/movies/1).


# IMDb Dataset Details

## Описание датасета

Каждый набор данных содержится в сжатом (`.gz`) файле в формате TSV (табличные значения, разделенные табуляцией) с кодировкой UTF-8. Первая строка в каждом файле содержит заголовки, описывающие содержимое каждой колонки. Символ `\N` используется для обозначения отсутствующих или нулевых значений.

## Доступные наборы данных

### `title.akas.tsv.gz`
Содержит альтернативные названия фильмов и сериалов.

| Поле                | Описание |
|----------------------|----------|
| **titleId (string)** | Уникальный буквенно-цифровой идентификатор названия (`tconst`) |
| **ordering (integer)** | Число, уникально идентифицирующее строки для заданного `titleId` |
| **title (string)** | Локализованное название |
| **region (string)** | Регион данной версии названия |
| **language (string)** | Язык данного названия |
| **types (array)** | Перечисленный набор атрибутов для альтернативного названия (например, `"alternative"`, `"dvd"`, `"festival"`, `"tv"`, `"video"`, `"working"`, `"original"`, `"imdbDisplay"`). Возможны новые значения в будущем |
| **attributes (array)** | Дополнительные характеристики, описывающие альтернативное название (не перечислены) |
| **isOriginalTitle (boolean)** | `0` — не оригинальное название; `1` — оригинальное название |

---

### `title.basics.tsv.gz`
Содержит основные сведения о фильмах, сериалах и других видах медиаконтента.

| Поле                | Описание |
|----------------------|----------|
| **tconst (string)** | Уникальный буквенно-цифровой идентификатор названия |
| **titleType (string)** | Тип или формат названия (например, `movie`, `short`, `tvseries`, `tvepisode`, `video` и т. д.) |
| **primaryTitle (string)** | Основное (наиболее известное) название фильма или сериала |
| **originalTitle (string)** | Оригинальное название (на языке оригинала) |
| **isAdult (boolean)** | `0` — не является взрослым контентом; `1` — взрослый контент |
| **startYear (YYYY)** | Год выпуска фильма или начала трансляции сериала |
| **endYear (YYYY)** | Год окончания сериала (`\N` для других типов названий) |
| **runtimeMinutes (integer)** | Основная продолжительность фильма (в минутах) |
| **genres (array of strings)** | До трех жанров, относящихся к названию |

---

### `title.crew.tsv.gz`
Содержит информацию о режиссерах и сценаристах.

| Поле                | Описание |
|----------------------|----------|
| **tconst (string)** | Уникальный буквенно-цифровой идентификатор названия |
| **directors (array of nconsts)** | Список идентификаторов режиссеров |
| **writers (array of nconsts)** | Список идентификаторов сценаристов |

---

### `title.episode.tsv.gz`
Содержит информацию об эпизодах сериалов.

| Поле                | Описание |
|----------------------|----------|
| **tconst (string)** | Уникальный идентификатор эпизода |
| **parentTconst (string)** | Идентификатор родительского сериала |
| **seasonNumber (integer)** | Номер сезона, к которому относится эпизод |
| **episodeNumber (integer)** | Номер эпизода в указанном сезоне |

---

### `title.principals.tsv.gz`
Содержит информацию об основных участниках фильмов и сериалов (актеры, режиссеры, сценаристы и т. д.).

| Поле                | Описание |
|----------------------|----------|
| **tconst (string)** | Уникальный буквенно-цифровой идентификатор названия |
| **ordering (integer)** | Число, уникально идентифицирующее строки для заданного `titleId` |
| **nconst (string)** | Уникальный буквенно-цифровой идентификатор участника (`nconst`) |
| **category (string)** | Категория профессии (например, `actor`, `director`, `producer`) |
| **job (string)** | Конкретная должность (если применимо), иначе `\N` |
| **characters (string)** | Имя персонажа (если применимо), иначе `\N` |

---

### `title.ratings.tsv.gz`
Содержит информацию о пользовательских оценках фильмов и сериалов.

| Поле                | Описание |
|----------------------|----------|
| **tconst (string)** | Уникальный буквенно-цифровой идентификатор названия |
| **averageRating (float)** | Средний рейтинг на основе всех пользовательских оценок |
| **numVotes (integer)** | Количество голосов, полученных данным названием |

---

### `name.basics.tsv.gz`
Содержит информацию о людях, связанных с киноиндустрией (актеры, режиссеры, сценаристы и т. д.).

| Поле                | Описание |
|----------------------|----------|
| **nconst (string)** | Уникальный буквенно-цифровой идентификатор человека |
| **primaryName (string)** | Основное имя, под которым человек чаще всего указывается в титрах |
| **birthYear (YYYY)** | Год рождения |
| **deathYear (YYYY)** | Год смерти (если применимо), иначе `\N` |
| **primaryProfession (array of strings)** | До трех основных профессий человека |
| **knownForTitles (array of tconsts)** | Список идентификаторов фильмов и сериалов, с которыми человек наиболее известен |


# TMDb

## Описание набора данных TMDB ID Exports (актуально на 01.01.2025)

## Общая информация
TMDB публикует ежедневные экспортные файлы идентификаторов (ID). Эти файлы **не являются полными выгрузками данных**, а представляют собой список **валидных идентификаторов** из базы TMDB с некоторыми **дополнительными атрибутами**. В частности, они содержат информацию, полезную для фильтрации, например:
- Флаг **adult** (для контента 18+),
- Флаг **video** (для видеоконтента),
- Значение **popularity** (популярность элемента в базе TMDB).

### Формат данных
- **Каждая строка в файле представляет собой отдельный JSON-объект.**
- **Файл не является единым JSON-объектом**, а содержит множество JSON-строк.
- Такой формат позволяет эффективно **обрабатывать данные построчно**, не загружая весь файл в память.

### Доступность данных
- Все экспортные файлы можно загрузить с **[http://files.tmdb.org](http://files.tmdb.org)**.
- Выгрузка данных выполняется ежедневно:
  - **Начало экспорта:** 07:00 UTC.
  - **Файлы доступны:** к 08:00 UTC.
- Данные хранятся **только 3 месяца**, после чего автоматически удаляются.
- **Аутентификация не требуется**, но в будущем это может измениться. Если возникли проблемы с доступом, следует проверить актуальную документацию.

---

## Доступные файлы экспорта

| Тип данных             | Путь к файлу | Формат имени файла |
|------------------------|-------------|--------------------|
| **Фильмы (Movies)** | `/p/exports/` | `movie_ids_MM_DD_YYYY.json.gz` |
| **Сериалы (TV Series)** | `/p/exports/` | `tv_series_ids_MM_DD_YYYY.json.gz` |
| **Люди (People)** | `/p/exports/` | `person_ids_MM_DD_YYYY.json.gz` |
| **Коллекции (Collections)** | `/p/exports/` | `collection_ids_MM_DD_YYYY.json.gz` |
| **Телеканалы (TV Networks)** | `/p/exports/` | `tv_network_ids_MM_DD_YYYY.json.gz` |
| **Ключевые слова (Keywords)** | `/p/exports/` | `keyword_ids_MM_DD_YYYY.json.gz` |
| **Кинокомпании (Production Companies)** | `/p/exports/` | `production_company_ids_MM_DD_YYYY.json.gz` |

---

## Заключение
Данный набор данных полезен для пользователей TMDB, которым необходимы актуальные **идентификаторы** фильмов, сериалов, актеров, ключевых слов и других сущностей. Файлы обновляются **ежедневно** и доступны в течение **3 месяцев** без необходимости аутентификации.


In [3]:
tsv1 = r'G:\data\name.basics.tsv.gz'
tsv2 = r'G:\data\title.basics.tsv.gz'
tsv3 = r'G:\data\title.akas.tsv.gz'
tsv4 = r'G:\data\title.principals.tsv.gz'
tsv5 = r'G:\data\title.ratings.tsv.gz'
tsv6 = r'G:\data\title.crew.tsv.gz'
tsv7 = r'G:\data\title.episode.tsv.gz'

In [4]:
# Открываем и читаем файл TSV из GZ
with gzip.open(tsv3, "rt", encoding="utf-8") as f:
    akas = pd.read_csv(f, sep="\t")

akas.head()

Unnamed: 0,titleId,ordering,title,region,language,types,attributes,isOriginalTitle
0,tt0000001,1,Carmencita,\N,\N,original,\N,1
1,tt0000001,2,Carmencita,DE,\N,\N,literal title,0
2,tt0000001,3,Carmencita,US,\N,imdbDisplay,\N,0
3,tt0000001,4,Carmencita - spanyol tánc,HU,\N,imdbDisplay,\N,0
4,tt0000001,5,Καρμενσίτα,GR,\N,imdbDisplay,\N,0


In [11]:
with gzip.open(tsv2, "rt", encoding="utf-8") as f:
    bas = pd.read_csv(f, sep="\t", low_memory=False)
bas.head()

Unnamed: 0,tconst,titleType,primaryTitle,originalTitle,isAdult,startYear,endYear,runtimeMinutes,genres
0,tt0000001,short,Carmencita,Carmencita,0,1894,\N,1,"Documentary,Short"
1,tt0000002,short,Le clown et ses chiens,Le clown et ses chiens,0,1892,\N,5,"Animation,Short"
2,tt0000003,short,Poor Pierrot,Pauvre Pierrot,0,1892,\N,5,"Animation,Comedy,Romance"
3,tt0000004,short,Un bon bock,Un bon bock,0,1892,\N,12,"Animation,Short"
4,tt0000005,short,Blacksmith Scene,Blacksmith Scene,0,1893,\N,1,Short


In [6]:
with gzip.open(tsv6, "rt", encoding="utf-8") as f:
    cre = pd.read_csv(f, sep="\t")
cre.head()

Unnamed: 0,tconst,directors,writers
0,tt0000001,nm0005690,\N
1,tt0000002,nm0721526,\N
2,tt0000003,nm0721526,\N
3,tt0000004,nm0721526,\N
4,tt0000005,nm0005690,\N


In [7]:
with gzip.open(tsv7, "rt", encoding="utf-8") as f:
    epi = pd.read_csv(f, sep="\t")
epi.head()

Unnamed: 0,tconst,parentTconst,seasonNumber,episodeNumber
0,tt0031458,tt32857063,\N,\N
1,tt0041951,tt0041038,1,9
2,tt0042816,tt0989125,1,17
3,tt0042889,tt0989125,\N,\N
4,tt0043426,tt0040051,3,42


In [8]:
with gzip.open(tsv4, "rt", encoding="utf-8") as f:
    pri = pd.read_csv(f, sep="\t")
pri.head()

Unnamed: 0,tconst,ordering,nconst,category,job,characters
0,tt0000001,1,nm1588970,self,\N,"[""Self""]"
1,tt0000001,2,nm0005690,director,\N,\N
2,tt0000001,3,nm0005690,producer,producer,\N
3,tt0000001,4,nm0374658,cinematographer,director of photography,\N
4,tt0000002,1,nm0721526,director,\N,\N


In [9]:
with gzip.open(tsv5, "rt", encoding="utf-8") as f:
    rat = pd.read_csv(f, sep="\t")
rat.head()

Unnamed: 0,tconst,averageRating,numVotes
0,tt0000001,5.7,2130
1,tt0000002,5.6,289
2,tt0000003,6.4,2166
3,tt0000004,5.3,184
4,tt0000005,6.2,2892


In [10]:
with gzip.open(tsv1, "rt", encoding="utf-8") as f:
    basi = pd.read_csv(f, sep="\t")
basi.head()

Unnamed: 0,nconst,primaryName,birthYear,deathYear,primaryProfession,knownForTitles
0,nm0000001,Fred Astaire,1899,1987,"actor,miscellaneous,producer","tt0072308,tt0050419,tt0027125,tt0031983"
1,nm0000002,Lauren Bacall,1924,2014,"actress,soundtrack,archive_footage","tt0037382,tt0075213,tt0117057,tt0038355"
2,nm0000003,Brigitte Bardot,1934,\N,"actress,music_department,producer","tt0057345,tt0049189,tt0056404,tt0054452"
3,nm0000004,John Belushi,1949,1982,"actor,writer,music_department","tt0072562,tt0077975,tt0080455,tt0078723"
4,nm0000005,Ingmar Bergman,1918,2007,"writer,director,actor","tt0050986,tt0069467,tt0050976,tt0083922"
