## Импорт библиотек

In [1]:
import pandas as pd

## Обзор данных

#### Чтение датасета

In [2]:
df = pd.read_csv("dataset.csv").dropna(how="all")

In [3]:
df.head(2)

Unnamed: 0,color,Director_Name,num_Critic_for_reviews,duration,director_Facebook_likes,actor_3_Facebook_likes,actor_2_name,Actor_1_Facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes;
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000;
1,Colour,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0;


#### Получение информации о данных в столбцах датафрейма

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5043 entries, 0 to 5042
Data columns (total 28 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   color                       5025 non-null   object 
 1   Director_Name               4872 non-null   object 
 2   num_Critic_for_reviews      4927 non-null   float64
 3   duration                    4959 non-null   float64
 4   director_Facebook_likes     4872 non-null   float64
 5   actor_3_Facebook_likes      4953 non-null   float64
 6   actor_2_name                4963 non-null   object 
 7   Actor_1_Facebook_likes      4968 non-null   float64
 8   gross                       4104 non-null   float64
 9   genres                      4974 non-null   object 
 10  actor_1_name                4968 non-null   object 
 11  movie_Title                 4974 non-null   object 
 12  num_voted_users             4974 non-null   float64
 13   cast_total_facebook_likes  4974 

## Предварительная обработка данных

#### Форматирование заголовков

Удаляем пробелы в начале и конце строки, переводим все символы в нижний регистр и удаляем служебные символы (для последнего столбца).

In [5]:
df.columns = [column.strip().lower().replace(";", "") for column in df.columns]

In [6]:
df.columns

Index(['color', 'director_name', 'num_critic_for_reviews', 'duration',
       'director_facebook_likes', 'actor_3_facebook_likes', 'actor_2_name',
       'actor_1_facebook_likes', 'gross', 'genres', 'actor_1_name',
       'movie_title', 'num_voted_users', 'cast_total_facebook_likes',
       'actor_3_name', 'facenumber_in_poster', 'plot_keywords',
       'movie_imdb_link', 'num_user_for_reviews', 'language', 'country',
       'content_rating', 'budget', 'title_year', 'actor_2_facebook_likes',
       'imdb_score', 'aspect_ratio', 'movie_facebook_likes'],
      dtype='object')

#### Обработка пропущенных значений

Получение данных о пропущенных значениях в каждом столбце

In [7]:
df.isna().sum()

color                         18
director_name                171
num_critic_for_reviews       116
duration                      84
director_facebook_likes      171
actor_3_facebook_likes        90
actor_2_name                  80
actor_1_facebook_likes        75
gross                        939
genres                        69
actor_1_name                  75
movie_title                   69
num_voted_users               69
cast_total_facebook_likes     69
actor_3_name                  90
facenumber_in_poster          82
plot_keywords                216
movie_imdb_link               69
num_user_for_reviews          87
language                      80
country                       72
content_rating               366
budget                       549
title_year                   174
actor_2_facebook_likes        80
imdb_score                    69
aspect_ratio                 389
movie_facebook_likes          69
dtype: int64

В датафрейме все значения принадлежат одному из двух типов - float64 или object. Пропущенные значения буду заменять на `0.0` и `unknown`. 

In [8]:
# Получаем список всех столбцов, где есть пропущенные значения
columns_to_replace = df.columns[df.isna().any()]

# Получаем список всех столбцов по типам
columns_float64 = df.select_dtypes(include="float64").columns
columns_object = df.select_dtypes(include="object").columns

# Искомые столбцы - пересечение множеств столбцов
columns_to_replace_float64 = list(set(columns_to_replace) & set(columns_float64))
columns_to_replace_object = list(set(columns_to_replace) & set(columns_object))

In [9]:
columns_to_replace_float64

['facenumber_in_poster',
 'num_critic_for_reviews',
 'actor_1_facebook_likes',
 'title_year',
 'imdb_score',
 'actor_3_facebook_likes',
 'director_facebook_likes',
 'budget',
 'aspect_ratio',
 'cast_total_facebook_likes',
 'num_user_for_reviews',
 'gross',
 'actor_2_facebook_likes',
 'num_voted_users',
 'duration']

In [10]:
columns_to_replace_object

['actor_1_name',
 'actor_3_name',
 'plot_keywords',
 'color',
 'movie_title',
 'movie_imdb_link',
 'director_name',
 'movie_facebook_likes',
 'country',
 'language',
 'genres',
 'content_rating',
 'actor_2_name']

Заполнение пропущенных значений

In [11]:
for row in columns_to_replace_float64: 
    df[row] = df[row].fillna(0.0)

for row in columns_to_replace_object:
    df[row] = df[row].fillna("unknown")

Проверка правильности решения

In [12]:
df.isna().sum()

color                        0
director_name                0
num_critic_for_reviews       0
duration                     0
director_facebook_likes      0
actor_3_facebook_likes       0
actor_2_name                 0
actor_1_facebook_likes       0
gross                        0
genres                       0
actor_1_name                 0
movie_title                  0
num_voted_users              0
cast_total_facebook_likes    0
actor_3_name                 0
facenumber_in_poster         0
plot_keywords                0
movie_imdb_link              0
num_user_for_reviews         0
language                     0
country                      0
content_rating               0
budget                       0
title_year                   0
actor_2_facebook_likes       0
imdb_score                   0
aspect_ratio                 0
movie_facebook_likes         0
dtype: int64

#### Обработка дубликатов

Получение количества дубликатов в датафрейме

In [13]:
df.duplicated().sum()

45

Удаление дубликатов

In [14]:
df = df.drop_duplicates().reset_index(drop=True)

Проверка правильности решения

In [15]:
df.duplicated().sum()

0

#### Форматирование данных последнего столбца

В последнем столбце датафрейма каждое число оканчивается символом ";", что является ошибкой заполнения. Нижеследующий код исправляет это.

In [16]:
def remove_last_char_and_convert_to_float(number: object) -> float:
    if number == "unknown":
        return float(0.0)
    return float(str(number).strip()[:-1])

In [17]:
df["movie_facebook_likes"] = df["movie_facebook_likes"].apply(remove_last_char_and_convert_to_float)

In [18]:
df["movie_facebook_likes"].dtype

dtype('float64')

## Гипотезы

#### Гипотеза 1. Больше всего фильмов выпустили в США

Чтобы проверить гипотезу, нужно посчитать количество вхождений уникальных элементов в столбец "country".

In [19]:
df["country"].value_counts().to_frame()

Unnamed: 0,country
USA,3729
UK,437
France,153
Canada,121
Germany,95
...,...
Chile,1
Taiwan,1
Cambodia,1
Official site,1


Гипотеза верна.

#### Гипотеза 2. Больше всего фильмов было выпущено после 2010 года

Чтобы проверить гипотезу, нужно посчитать количество фильмов до и после 2010 года.

In [20]:
(df["title_year"] > 2010).sum() > (df["title_year"] <= 2010).sum()

False

Гипотеза неверна.

#### Гипотеза 3. Средняя продолжительность фильма больше 120 минут

Чтобы проверить гипотезу, нужно общую длительность фильмов поделить на их количество.

In [21]:
(df["duration"].sum() / df["duration"].count()) > 120

False

Гипотеза неверна.

## Сохранение обработанного датафрейма

In [22]:
df.to_csv("Lab1_Kurpenov_FIT_222.csv")