# Filmes e Séries: Netflix

## Parte 1: Coleta e Análise Primária dos Dados

In [1]:
# Importando as bibliotecas que serão utilizadas para a realização dos trabalhos:
import pandas as pd
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import re

# Definindo algumas configurações iniciais em relação a estilização e dimensões de gráficos 
# para plotagem posterior:
sns.set(rc={'figure.figsize':(11.7, 8.27)})
sns.set(style='darkgrid')

In [4]:
# Criando o DataFrame:
df_movies = pd.read_csv('data/netflix_movies.csv')

In [5]:
# Visualizando os primeiros 5 registros do DataFrame
df_movies.head()

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes
0,Cobra Kai,(2018– ),TV-14,30 min,"Action, Comedy, Drama",8.5,Decades after their 1984 All Valley Karate Tou...,"['Ralph Macchio, ', 'William Zabka, ', 'Courtn...",177031
1,The Crown,(2016– ),TV-MA,58 min,"Biography, Drama, History",8.7,Follows the political rivalries and romance of...,"['Claire Foy, ', 'Olivia Colman, ', 'Imelda St...",199885
2,Better Call Saul,(2015–2022),TV-MA,46 min,"Crime, Drama",8.9,The trials and tribulations of criminal lawyer...,"['Bob Odenkirk, ', 'Rhea Seehorn, ', 'Jonathan...",501384
3,Devil in Ohio,(2022),TV-MA,356 min,"Drama, Horror, Mystery",5.9,When a psychiatrist shelters a mysterious cult...,"['Emily Deschanel, ', 'Sam Jaeger, ', 'Gerardo...",9773
4,Cyberpunk: Edgerunners,(2022– ),TV-MA,24 min,"Animation, Action, Adventure",8.6,A Street Kid trying to survive in a technology...,"['Zach Aguilar, ', 'Kenichiro Ohashi, ', 'Emi ...",15413


In [8]:
# Visualizando um sample aleatório do DataFrame:
df_movies.sample(5)

Unnamed: 0,title,year,certificate,duration,genre,rating,description,stars,votes
9254,Cannon Busters,(2019– ),TV-MA,,"Animation, Fantasy",6.7,Add a Plot,"['Kenny Blank, ', 'Greg Chun, ', 'Trevor Deval...",41.0
5383,Video Games: The Movie,(2014),Not Rated,101 min,"Documentary, Animation, History",6.1,"Learn how video games are made, marketed, and ...","['Jeremy Snead', '| ', ' Stars:', 'Sean Ast...",5510.0
7740,20 Jobs You Never Knew Existed,(2021 Video),,14 min,"Documentary, Short",,From people who harvest giant blocks of marble...,"['Abby Tang, ', 'Chiako Yamamoto, ', 'Matt Sla...",
5271,The Miracle of Teddy Bear,(2022– ),,,Romance,8.4,Taohu is a giant white teddy bear and has been...,"['Job Thuchapon, ', 'Sarin Inpitar Ronnakiat']",155.0
4167,Gamers!,(2017– ),TV-14,24 min,"Animation, Comedy, Romance",6.7,This is a story that revolves around certain s...,"['Megumi Han, ', 'Brandon McInnis, ', 'Hisako ...",1455.0


In [9]:
# Determinando as dimensões do DataFrame:
df_movies.shape

(9957, 9)

Com essa informação, sabemos que nosso DataFrame é composto por **9957 linhas** e **9 colunas**.

In [12]:
# Coletando mais informações acerca do DataFrame utilizando o comando .info():
df_movies.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9957 entries, 0 to 9956
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   title        9957 non-null   object 
 1   year         9430 non-null   object 
 2   certificate  6504 non-null   object 
 3   duration     7921 non-null   object 
 4   genre        9884 non-null   object 
 5   rating       8784 non-null   float64
 6   description  9957 non-null   object 
 7   stars        9957 non-null   object 
 8   votes        8784 non-null   object 
dtypes: float64(1), object(8)
memory usage: 700.2+ KB


Utilizando o comando .info(), podemos estrair algumas informações iniciais importantes sobre os dados:

- Apenas as colunas **`title`**, **`description`** e **`stars`** possuem registros completos sem valores nulos;

- Das 9 colunas, 8 estão no formato *object* (string), sendo que algumas delas como as colunas `year` e `votes` por exemplo poderiam e deveriam estar em valores numéricos.

A seguir, iremos realizar uma checagem mais focada nos dados faltantes do DataFrame:

In [13]:
# Checando porcentagem de dados faltantes no DataFrame:
(((df_movies.isnull().sum() / df_movies.shape[0]) * 100).sort_values(ascending=False)).round(4)

certificate    34.6791
duration       20.4479
rating         11.7807
votes          11.7807
year            5.2928
genre           0.7332
title           0.0000
description     0.0000
stars           0.0000
dtype: float64

Dos registros presentes nas 9 colunas do DataFrame, as colunas:

- **`certificate`** possui 34.68% de valores nulos;

- **`duration`** possui 20.45% de valores nulos;

- **`rating`** e **`votes`** possuem 11.78% de valores nulos;

- **`year`** possui 5.29% de valores nulos;

- **`genre`** possui 0.73% de valores nulos.

### Dicionário de Variáveis

Para termos uma compreensão ainda maior acerca dos nossos dados, realizaremos uma descrição de cada uma das colunas presentes no DataFrame, entrando em detalhes onde for necessário:

- **`title`** - Título da obra (séries, filmes, etc);

- **`year`** - Tupla que contém duas datas: (ano_de_lançamento - ano de encerramento), tendo uma diferença entre obras "únicas" como filmes e obras "contínuas" como Séries:
    
    - *Séries*: (ano_estreia_primeiro_ep - ano_estreia_útlimo_ep) ou apenas (ano_estreia_primeiro_ep - );
    
    - *Filmes*: (ano_lançamento)

- **`certificate`** - Certificado de classificação, em formatos distintos para cada tipo de mídia e baseados em diferentes métricas de avaliação de conteúdo (essa é a coluna mais complexa do DataFrame, onde as definições a seguir foram baseadas em pesquisas realizadas acerca de cada tipo de certificado):

    - *Programas Televisivos: TV Parental Guidelines*

        - **TV-14**: Não recomendado para menores de 14 anos;
        
        - **TV-MA**: Audiência madura - Não recomendado para menores de 17 anos;
        
        - **TV-PG**: Conteúdos recomendados para serem consumidos com orientação parental;

        - **TV-Y7-FV**: Não recomendado para menores de 7 anos, contém violência fantasiosa;

        - **TV-G**: Recomendado para todos os públicos;

        - **TV-Y7**: Não recomendado para menores de 7 anos;

        - **TV-Y**: Conteúdo infantil.

    - *Filmes: Motion Picture Association film rating system*

        - **NC-17**: Ninguém com 17 anos ou menos admitido;

        - **R**: Menores de 17 anos requerem acompanhamento dos pais ou responsáveis adultos;

        - **PG-13**: Alguns materiais podem ser impróprios para crianças menores de 13 anos;

        - **PG**: Parte do material pode não ser adequado para crianças;

        - **G**: Todas as idades admitidas.

    - *Entertainment Software Rating Board*

        - **M (Mature)**: Não recomendado para menores de 17 anos;

        - **E10+**: Recomendado para públicos a partir de 10 anos.

    - *Outros formatos de avaliação presentes*

        - **Not Rated/Unrated**: Sem classificação. Significa que a mídia específica não foi classificada por meio de um processo de classificação. Isso geralmente implica que um trabalho nunca foi autoclassificado ou submetido a um órgão de classificação por diversos motivos como, por exemplo, devido a natureza do trabalho (como um evento esportivo) ou por motivos orçamentários;

        - **Approved/Passed**: Sob o [Código Hays](https://www.megacurioso.com.br/artes-cultura/123329-codigo-hays-as-regras-que-censuravam-filmes-na-era-de-ouro-de-hollywood.htm), os filmes eram simplesmente aprovados ou reprovados com base no fato de serem considerados "morais" ou "imorais". Esse tipo de avaliação é específico para o recorte histórico durante a década de 1930.

        - **12**: Não recomendado para menores de 12 anos;

        - **MA-17**: Não recomendado para menores de 17 anos.

- **`duration`** - Duração do filme ou duração dos episódios de Séries (em minutos);

- **`genre`** - Gênero(s) da obra;

- **`rating`** - Nota de avaliação [IMDb](https://www.imdb.com/);

- **`description`** - Sinópse da obra;

- **`stars`** - Atores de destaque;

- **`votes`** - Quantidade de votos no IMDb.

