In [5]:
# imports
import sys
import os
from pathlib import Path
import pandas as pd
import numpy as np

# settings view dataframes
pd.set_option('display.max_columns', 50)
pd.set_option('display.width', 120)


# find dataset № 1 - ratings1.csv
data_ratings_1 = [
    Path('data') / 'ratings1.csv',
    Path('..') / 'data' / 'ratings1.csv',
    Path('../..') / 'data' / 'ratings1.csv',
]
for p in data_ratings_1:
    if p.is_file():
        DATA_PATH = p
        break
else:
    raise FileNotFoundError('Не найден ratings1.csv')

print('Использую файл:', DATA_PATH.resolve())

# load dataset
data_ratings_1 = pd.read_csv(DATA_PATH)

# fast sanity-check 1
print('Форма набора данных (кол-во строк и столбцов):', data_ratings_1.shape)
print('Первые столбцы:', list(data_ratings_1.columns[:23]))
data_ratings_1.info()

Использую файл: /Users/kirilltishchenko/lessonsPandas/data/ratings1.csv
Форма набора данных (кол-во строк и столбцов): (40001, 3)
Первые столбцы: ['userId', 'movieId', 'rating']
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40001 entries, 0 to 40000
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   userId   40001 non-null  int64  
 1   movieId  40001 non-null  int64  
 2   rating   40001 non-null  float64
dtypes: float64(1), int64(2)
memory usage: 937.6 KB


In [6]:
# find dataset № 2 - ratings2.csv
data_ratings_2 = [
    Path('data') / 'ratings2.csv',
    Path('..') / 'data' / 'ratings2.csv',
    Path('../..') / 'data' / 'ratings2.csv',
]
for p in data_ratings_2:
    if p.is_file():
        DATA_PATH = p
        break
else:
    raise FileNotFoundError('Не найден ratings2.csv')

print('Использую файл:', DATA_PATH.resolve())

# load dataset
data_ratings_2 = pd.read_csv(DATA_PATH)

# fast sanity-check 2
print('Форма набора данных (кол-во строк и столбцов):', data_ratings_2.shape)
print('Первые столбцы:', list(data_ratings_2.columns[:23]))
data_ratings_2.head()

Использую файл: /Users/kirilltishchenko/lessonsPandas/data/ratings2.csv
Форма набора данных (кол-во строк и столбцов): (60836, 3)
Первые столбцы: ['userId', 'movieId', 'rating']


Unnamed: 0,userId,movieId,rating
0,274,5621,2.0
1,274,5630,3.0
2,274,5667,3.5
3,274,5679,3.5
4,274,5690,3.0


In [25]:
# find dataset № 3 - dates_movies.csv
data_movies = [
    Path('data') / 'dates_movies.csv',
    Path('..') / 'data' / 'dates_movies.csv',
    Path('../..') / 'data' / 'dates_movies.csv',
]
for p in data_movies:
    if p.is_file():
        DATA_PATH = p
        break
else:
    raise FileNotFoundError('Не найден dates_movies.csv')

print('Использую файл:', DATA_PATH.resolve())

# load dataset
data_movies = pd.read_csv(DATA_PATH)

# fast sanity-check 2
print('Форма набора данных (кол-во строк и столбцов):', data_movies.shape)
print('Первые столбцы:', list(data_movies.columns[:23]))
data_movies.head()

Использую файл: /Users/kirilltishchenko/lessonsPandas/data/dates_movies.csv
Форма набора данных (кол-во строк и столбцов): (100836, 1)
Первые столбцы: ['date']


Unnamed: 0,date
0,2000-07-30 18:45:03
1,2000-07-30 18:20:47
2,2000-07-30 18:37:04
3,2000-07-30 19:03:35
4,2000-07-30 18:48:51


In [26]:
# find dataset № 4 - movies.csv
movies = [
    Path('data') / 'movies.csv',
    Path('..') / 'data' / 'movies.csv',
    Path('../..') / 'data' / 'movies.csv',
]
for p in movies:
    if p.is_file():
        DATA_PATH = p
        break
else:
    raise FileNotFoundError('Не найден dates_movies.csv')

print('Использую файл:', DATA_PATH.resolve())

# load dataset
movies = pd.read_csv(DATA_PATH)

# fast sanity-check 2
print('Форма набора данных (кол-во строк и столбцов):', movies.shape)
print('Первые столбцы:', list(movies.columns[:23]))
movies.head()

Использую файл: /Users/kirilltishchenko/lessonsPandas/data/movies.csv
Форма набора данных (кол-во строк и столбцов): (9742, 3)
Первые столбцы: ['movieId', 'title', 'genres']


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


In [27]:
# найти количество уникальных пользователей
unique_users = data_ratings_1['userId'].nunique()        # по умолчанию dropna=True
print('Уникальных пользователей:', unique_users)

Уникальных пользователей: 274


In [28]:
data_movies.head()
#data_ratings_1.head()
#data_ratings_2.head()

Unnamed: 0,date
0,2000-07-30 18:45:03
1,2000-07-30 18:20:47
2,2000-07-30 18:37:04
3,2000-07-30 19:03:35
4,2000-07-30 18:48:51


In [None]:
# Вариант № 1

# 1) Найдите имя колонки с датой в data_movies, например 'timestamp' или 'date'
print(data_movies.columns)

# 2) Приводим к datetime 
data_movies['date'] = pd.to_datetime(data_movies.get('date'),
                                   errors='coerce', dayfirst=False)

# 3) Извлекаем год и считаем
years_counts = data_movies['date'].dt.year.value_counts(dropna=True).sort_index()

# 4) Год с максимальным числом оценок
year_max = years_counts.idxmax()
count_max = years_counts.max()

print('Год с наибольшим числом оценок:', year_max)
print('Число оценок:', int(count_max))

# Для подробного вывода по годам:
display(years_counts.sort_values(ascending=False))

Index(['date'], dtype='object')
Год с наибольшим числом оценок: 2000
Число оценок: 10061


date
2000    10061
2017     8198
2007     7114
2016     6703
2015     6616
2018     6418
1996     6040
2005     5813
2012     4656
2008     4351
2009     4158
2006     4059
2003     4014
2001     3922
2002     3478
2004     3279
1999     2439
2010     2301
1997     1916
2011     1690
2013     1664
2014     1439
1998      507
Name: count, dtype: int64

In [None]:
# Вариант № 2
#Приводим к datetime 
data_movies['date'] = pd.to_datetime(data_movies.get('date'),
                                   errors='coerce', dayfirst=False)
# Делаем выборку по частоте упоменианий  по годам
years = data_movies['date'].dt.year
print(years.value_counts().sort_index().idxmax())

2000
Год с наибольшим числом оценок: 2000


In [None]:
# Вариант № 3
most_common_year = years.value_counts().idxmax()
print('Год с наибольшим числом оценок:', most_common_year)

Год с наибольшим числом оценок: 2000


# Конкатенация

Для корректной конкатенации по строкам объединяемые таблицы должны иметь одинаковую структуру — идентичное число и имена столбцов.

Примечание. Обратите внимание, что concat является функцией библиотеки, а не методом DataFrame. Поэтому её вызов осуществляется как pd.concat(...).

In [None]:
# Склеим таблицы с рейтингами
# ignore_index=True - Обновляет индексы (от 0 до max значения) в результирующем DataFrame
ratings = pd.concat([data_ratings_1, data_ratings_2], ignore_index=True)
display(ratings)

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0
...,...,...,...
100832,610,166534,4.0
100833,610,168248,5.0
100834,610,168250,5.0
100835,610,168252,5.0


In [48]:
# Давайте узнаем количество строк в таблицах ratings и data_movies, ведь нам предстоит вертикально склеить их между собой:
print('Количество строк в таблице ratings:', ratings.shape[0])
print('Количество строк в таблице data_movies:', data_movies.shape[0])

# ответы различаются, возмодны дубликаты

Количество строк в таблице ratings: 100837
Количество строк в таблице data_movies: 100836


In [None]:
# Уберем дубликаты в таблице ratings
ratings = ratings.drop_duplicates(ignore_index=True)
print('Число строк в таблице ratings после удаления дубликатов:', ratings.shape[0])

Число строк в таблице ratings после удаления дубликатов: 100836


In [52]:
# Объединяем таблицы ratings и data_movies
data_concat = pd.concat([ratings, data_movies], axis=1, ignore_index=False)
data_concat

Unnamed: 0,userId,movieId,rating,date
0,1,1,4.0,2000-07-30 18:45:03
1,1,3,4.0,2000-07-30 18:20:47
2,1,6,4.0,2000-07-30 18:37:04
3,1,47,5.0,2000-07-30 19:03:35
4,1,50,5.0,2000-07-30 18:48:51
...,...,...,...,...
100831,610,166534,4.0,2017-05-03 21:53:22
100832,610,168248,5.0,2017-05-03 22:21:31
100833,610,168250,5.0,2017-05-08 19:50:47
100834,610,168252,5.0,2017-05-03 21:19:12


# Объединение таблиц с помощью `join` и `concat`

**Кратко:**

- **`pd.concat()`** — объединяет (склеивает) несколько DataFrame по строкам (`axis=0`) или по столбцам (`axis=1`).  
  Используется для объединения таблиц с одинаковой структурой (например, добавить строки из двух таблиц с одинаковыми столбцами).

- **`.join()`** — метод DataFrame для объединения по индексам (или по столбцу, если указать параметр `on`).  
  Используется для "склеивания" таблиц по ключу, аналогично SQL JOIN (`left join` по умолчанию).

---

**Особенности использования:**

- Для объединения двух таблиц по индексам используется метод DataFrame `.join()`.  
  Однако данный метод можно применить и для объединения таблиц по ключевому столбцу (например, по `movieId`).

- Если использовать `.join()` без указания ключевого столбца (`on`), то объединение произойдёт по индексам двух таблиц согласно выбранному типу объединения.

---

**Основные параметры метода `.join()`:**

- `other` — таблица, которую присоединяем. При объединении она является "правой", а исходная таблица, от имени которой вызывается метод, — "левой".
- `how` — тип объединения: `'inner'`, `'left'` (по умолчанию), `'right'`, `'outer'`.
- `on` — столбец в "левой" таблице, по которому происходит объединение с индексом "правой" таблицы.
- `lsuffix` и `rsuffix` — суффиксы для одинаковых столбцов в "левой" и "правой"