<a href="https://colab.research.google.com/github/TomasValadao/DataVisualization-PUC-Rio/blob/main/data_viz_mvp.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVP: Análise de Dados e Boas Práticas
## Tomás Cavalcante Valadão

# 1. Definição do Problema

O dataset escolhido para a realização deste trabalho é composto por dados de alguns títulos da plataforma de streaming Netflix, juntamente com os profissionais que participaram de sua criação. Dentro desse dataset, podemos encontrar algumas informações quantitativas referentes à percepção da qualidade dessas produções audiovisuais, expressa pela nota na plataforma IMDb.

A plataforma IMDb (Internet Movie Database) é uma das maiores plataformas onlines do mundo cujo tema está relacionado a classificação de produções audiovisuais. Além do IMDb, podemos encontrar notas dessas produções pelo TMDb (The Movie Database).

O trabalho a seguir tem como objetivo fazer uma análise exploratória do dataset em questão e tentar encontrar alguma relação entre profissional e o título ser um sucesso, de acordo com as notas do IMDb, e algum tipo de tendência entre os títulos de sucesso e seus respectivos gêneros.

Os dados utilizados nesse relatório de análise exploratória pode ser encontrado na plataforma [Kaggle](https://www.kaggle.com/datasets/victorsoeiro/netflix-tv-shows-and-movies).

Nesse trabalho, nós temos 2 datasets que seguem um padrão de normalização dos dados, onde o dataset "credits" podem se juntar com o dataset "titles" via chave estrangeira referenciado o identificador único do título.

Dataset Titles:
1. ID = Identificador único do título
2. Title = Nome do título
3. Type = Tipo de produção
4. Description = Descrição do título
5. Release Year = Ano do lançamento
6. Age Certification = Nota do sistema de classificação indicativa
7. Runtime = Duração
8. Genres = Gênero do título
9. Production Countries = Países que fizeram parte da produção do título
10. Seasons = Número de temporadas
11. IMDb ID = Identificador do título no IMDb
12. IMDb Score = Nota do Título no IMDb
13. IMDb Votes = Quantidades de votos no IMDb
14. TMDb Popularity = Métrica de popularidade no TMDb
15. TMDb Score = Nota do Título no TMDb

Dataset Credits:
1. Person ID = Identificador de um profissional
2. ID = Identificador do título
3. Name = Nome do profissional
4. Character = Nome do Personagem
5. Role = Papel do profissional no título

In [1]:
# importando as bibliotecas
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from plotnine import ggplot, aes, geom_line, geom_point, xlim, ylim, geom_jitter, geom_abline, theme_set, theme_bw, geom_histogram, geom_bar, ylab

# 2. Análise inicial dos dados

In [2]:
path_titles = "https://raw.githubusercontent.com/TomasValadao/DataVisualization-PUC-Rio/main/titles.csv"

df_titles = pd.read_csv(path_titles)
df_titles.head(10)

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score
0,ts300399,Five Came Back: The Reference Films,SHOW,This collection includes 12 World War II-era p...,1945,TV-MA,51,['documentation'],['US'],1.0,,,,0.6,
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179
2,tm154986,Deliverance,MOVIE,Intent on seeing the Cahulawassee River before...,1972,R,109,"['drama', 'action', 'thriller', 'european']",['US'],,tt0068473,7.7,107673.0,10.01,7.3
3,tm127384,Monty Python and the Holy Grail,MOVIE,"King Arthur, accompanied by his squire, recrui...",1975,PG,91,"['fantasy', 'action', 'comedy']",['GB'],,tt0071853,8.2,534486.0,15.461,7.811
4,tm120801,The Dirty Dozen,MOVIE,12 American military prisoners in World War II...,1967,,150,"['war', 'action']","['GB', 'US']",,tt0061578,7.7,72662.0,20.398,7.6
5,ts22164,Monty Python's Flying Circus,SHOW,A British sketch comedy series with the shows ...,1969,TV-14,30,"['comedy', 'european']",['GB'],4.0,tt0063929,8.8,73424.0,17.617,8.306
6,tm70993,Life of Brian,MOVIE,"Brian Cohen is an average young Jewish man, bu...",1979,R,94,['comedy'],['GB'],,tt0079470,8.0,395024.0,17.77,7.8
7,tm14873,Dirty Harry,MOVIE,When a madman dubbed 'Scorpio' terrorizes San ...,1971,R,102,"['thriller', 'action', 'crime']",['US'],,tt0066999,7.7,155051.0,12.817,7.5
8,tm119281,Bonnie and Clyde,MOVIE,"In the 1930s, bored waitress Bonnie Parker fal...",1967,R,110,"['crime', 'drama', 'action']",['US'],,tt0061418,7.7,112048.0,15.687,7.5
9,tm98978,The Blue Lagoon,MOVIE,Two small children and a ship's cook survive a...,1980,R,104,"['romance', 'action', 'drama']",['US'],,tt0080453,5.8,69844.0,50.324,6.156


In [3]:
path_credits = "https://raw.githubusercontent.com/TomasValadao/DataVisualization-PUC-Rio/main/credits.csv"

df_credits = pd.read_csv(path_credits)
df_credits.head(10)

Unnamed: 0,person_id,id,name,character,role
0,3748,tm84618,Robert De Niro,Travis Bickle,ACTOR
1,14658,tm84618,Jodie Foster,Iris Steensma,ACTOR
2,7064,tm84618,Albert Brooks,Tom,ACTOR
3,3739,tm84618,Harvey Keitel,Matthew 'Sport' Higgins,ACTOR
4,48933,tm84618,Cybill Shepherd,Betsy,ACTOR
5,32267,tm84618,Peter Boyle,Wizard,ACTOR
6,519612,tm84618,Leonard Harris,Senator Charles Palantine,ACTOR
7,29068,tm84618,Diahnne Abbott,Concession Girl,ACTOR
8,519613,tm84618,Gino Ardito,Policeman at Rally,ACTOR
9,3308,tm84618,Martin Scorsese,Passenger Watching Silhouette,ACTOR


Para não precisarmos ficar manipulando dois DataFrames, nós vamos juntar os 2 conjuntos de dados em um só via operação de Inner Join. (Caso tenha registros que não se conectam, nós iremos jogá-los fora).

In [4]:
df_merged = pd.merge(df_titles, df_credits, on='id', how='inner')
df_merged.head(10)

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score,person_id,name,character,role
0,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,3748,Robert De Niro,Travis Bickle,ACTOR
1,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,14658,Jodie Foster,Iris Steensma,ACTOR
2,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,7064,Albert Brooks,Tom,ACTOR
3,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,3739,Harvey Keitel,Matthew 'Sport' Higgins,ACTOR
4,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,48933,Cybill Shepherd,Betsy,ACTOR
5,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,32267,Peter Boyle,Wizard,ACTOR
6,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,519612,Leonard Harris,Senator Charles Palantine,ACTOR
7,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,29068,Diahnne Abbott,Concession Girl,ACTOR
8,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,519613,Gino Ardito,Policeman at Rally,ACTOR
9,tm84618,Taxi Driver,MOVIE,A mentally unstable Vietnam War veteran works ...,1976,R,114,"['drama', 'crime']",['US'],,tt0075314,8.2,808582.0,40.965,8.179,3308,Martin Scorsese,Passenger Watching Silhouette,ACTOR


In [5]:
# Agora vamos verificar se perdemos alguma informação por falta de conexão entre os 2 DataFrames. Nós esperamos encontrar uma tuple com (Maior Número de Linhas entre os 2, (Colunas 2 + Colunas DF 2) - 1)

print(df_titles.shape)
print(df_credits.shape)
print(df_merged.shape)

(5850, 15)
(77801, 5)
(77801, 19)


Como podemos ver na análise a seguir, nem todas as colunas são preenchidas para todos os 77801 registros desse dataset. Com isso, nós vamos precisar analisar pra ver se essa falta de informação é de fato um erro ou se existe alguma regra que possa aceitar esse tipo de registro.

In [6]:
# Visão geral do dataset utilizado
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 77801 entries, 0 to 77800
Data columns (total 19 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   id                    77801 non-null  object 
 1   title                 77800 non-null  object 
 2   type                  77801 non-null  object 
 3   description           77763 non-null  object 
 4   release_year          77801 non-null  int64  
 5   age_certification     46658 non-null  object 
 6   runtime               77801 non-null  int64  
 7   genres                77801 non-null  object 
 8   production_countries  77801 non-null  object 
 9   seasons               14710 non-null  float64
 10  imdb_id               74302 non-null  object 
 11  imdb_score            73851 non-null  float64
 12  imdb_votes            73764 non-null  float64
 13  tmdb_popularity       77790 non-null  float64
 14  tmdb_score            76664 non-null  float64
 15  person_id          

In [7]:
# Agora vamos checar se temos alguma coluna com valores nulos
print(df_merged.isnull().any())

id                      False
title                    True
type                    False
description              True
release_year            False
age_certification        True
runtime                 False
genres                  False
production_countries    False
seasons                  True
imdb_id                  True
imdb_score               True
imdb_votes               True
tmdb_popularity          True
tmdb_score               True
person_id               False
name                    False
character                True
role                    False
dtype: bool


Como podemos ver, nosso dataset possui valores nulos em algumas colunas; no entanto, temos algumas regras em que o valor nulo pode ser aceito.

Elas são:
1. A coluna Seasons pode ser nula, quando o título em questão for considerado um título do tipo "MOVIE".
2. A coluna Character pode ser nula, quando o profissional em questão tiver uma Role do tipo "DIRECTOR".

No entanto, podemos ver que temos valores que precisam ser tratados. Podemos também destacar que a estatística descritiva não nos ajuda muito em alguns casos de valores não númericos, mas nós faremos uma análise mais aprofundada na seção 3 do relatório


In [8]:
df_merged.describe(include='all')

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score,person_id,name,character,role
count,77801,77800,77801,77763,77801.0,46658,77801.0,77801,77801,14710.0,74302,73851.0,73764.0,77790.0,76664.0,77801.0,77801,68029,77801
unique,5489,5440,2,5478,,11,,1675,447,,5120,,,,,,54314,47274,2
top,tm32982,Les Misérables,MOVIE,An adaptation of the successful stage musical ...,,R,,['comedy'],['US'],,tt1707386,,,,,,Boman Irani,Self,ACTOR
freq,208,208,63091,208,,15524,,4286,28746,,208,,,,,,25,1950,73251
mean,,,,,2015.347502,,95.89333,,,2.041672,,6.464191,65140.68,30.13535,6.713149,529488.8,,,
std,,,,,7.905682,,35.74371,,,2.244178,,1.117023,192434.2,88.656155,1.031912,643016.7,,,
min,,,,,1954.0,,0.0,,,1.0,,1.5,5.0,0.6,1.0,7.0,,,
25%,,,,,2014.0,,82.0,,,1.0,,5.8,1447.0,5.053,6.1,45306.0,,,
50%,,,,,2018.0,,100.0,,,1.0,,6.5,6357.0,11.466,6.751,198358.0,,,
75%,,,,,2020.0,,117.0,,,2.0,,7.3,41508.0,25.254,7.4,888096.0,,,


In [9]:
# Como análise inicial, podemos ver que a maior parte do catálogo da plataforma Netflix é composta por filmes.

type_counts = df_merged['type'].value_counts()
type_percentages = df_merged['type'].value_counts(normalize=True) * 100

df_type_analysis = pd.DataFrame({'Quantidade de Títulos': type_counts, 'Porcentagem (%)': type_percentages})
print(df_type_analysis)

       Quantidade de Títulos  Porcentagem (%)
type                                         
MOVIE                  63091        81.092788
SHOW                   14710        18.907212


In [10]:
# Podemos ver também que o cadastro tem muito mais atores que diretores. Vale lembrar que pode existir repetição, visto que temos vários filmes onde um profissional pode ter trabalhado.

role_counts = df_merged['role'].value_counts()
role_percentages = df_merged['role'].value_counts(normalize=True) * 100

df_role_analysis = pd.DataFrame({'Papel': role_counts, 'Porcentagem (%)': role_percentages})
print(df_role_analysis)

          Papel  Porcentagem (%)
role                            
ACTOR     73251        94.151746
DIRECTOR   4550         5.848254


# 3. Pré-processamento de Dados

Nós vamos remover os valores nulos do dataset para que esses não impactem a análise exploratória. Vamos considerar um registro é inteiramente inválido se ele tiver qualquer coluna nula e que não tenha uma explicação para isso.

In [11]:
# Remove as colunas que foram identificadas com valores nulos, exceto as colunas 'seasons' e a 'character'
df_cleaned = df_merged.dropna(subset=['title', 'description', 'age_certification', 'imdb_id', 'imdb_score', 'imdb_votes', 'tmdb_popularity', 'tmdb_score'])
print(df_cleaned.isnull().any())
print(df_cleaned.shape)

id                      False
title                   False
type                    False
description             False
release_year            False
age_certification       False
runtime                 False
genres                  False
production_countries    False
seasons                  True
imdb_id                 False
imdb_score              False
imdb_votes              False
tmdb_popularity         False
tmdb_score              False
person_id               False
name                    False
character                True
role                    False
dtype: bool
(44560, 19)


In [12]:
# Garantindo que não tem nenhum show sem a marcação de 'seasons'
seasons_validation = df_cleaned[df_cleaned['seasons'].notnull() & (df_cleaned['type'] == 'SHOW')]
movies_validation = df_cleaned[df_cleaned['seasons'].isnull() & (df_cleaned['type'] == 'MOVIE')]

print(seasons_validation.shape)
print(movies_validation.shape)

# Garantindo a consistência dos dados
print(seasons_validation.shape[0] + movies_validation.shape[0] == df_cleaned.shape[0])

(12177, 19)
(32383, 19)
True


In [13]:
# Garantindo que não tem nenhum diretor tem marcação de character

actor_validation = df_cleaned[df_cleaned['character'].notnull() & (df_cleaned['role'] == 'ACTOR')]
director_validation = df_cleaned[df_cleaned['character'].isnull() & (df_cleaned['type'] == 'DIRECTOR')]

print(actor_validation.shape)
print(director_validation.shape)

# Podemos ver que não temos a consistência do cadastro
print(actor_validation.shape[0] + director_validation.shape[0] == df_cleaned.shape[0])

(41122, 19)
(0, 19)
False


In [14]:
# Como tivemos uma validação falsa pra ator, nós vamos remover esses cadastros e considerarmos que o ator não participou do filme.

invalid_actor_participations = df_cleaned[df_cleaned['character'].isnull() & (df_cleaned['role'] == 'ACTOR')]
print(invalid_actor_participations.head(5))

            id                 title   type  \
182    tm70993         Life of Brian  MOVIE   
1032   ts21715      Thomas & Friends   SHOW   
1154  tm142895            Lean On Me  MOVIE   
1155  tm142895            Lean On Me  MOVIE   
2777   ts22193  The Magic School Bus   SHOW   

                                            description  release_year  \
182   Brian Cohen is an average young Jewish man, bu...          1979   
1032  Thomas & Friends is a British children's telev...          1984   
1154  When principal Joe Clark takes over decaying E...          1989   
1155  When principal Joe Clark takes over decaying E...          1989   
2777  An eccentric schoolteacher takes her class on ...          1994   

     age_certification  runtime  \
182                  R       94   
1032              TV-Y       10   
1154             PG-13      105   
1155             PG-13      105   
2777              TV-Y       26   

                                                 genres production_

In [15]:
# O DataFrame limpo vai passar a excluir os registros dos atores sem personagem.
df_cleaned = df_cleaned[~(df_cleaned['character'].isnull() & (df_cleaned['role'] == 'ACTOR'))]
print(df_cleaned.isnull().any())
print(df_cleaned.shape)
print(df_cleaned.head(5))

id                      False
title                   False
type                    False
description             False
release_year            False
age_certification       False
runtime                 False
genres                  False
production_countries    False
seasons                  True
imdb_id                 False
imdb_score              False
imdb_votes              False
tmdb_popularity         False
tmdb_score              False
person_id               False
name                    False
character                True
role                    False
dtype: bool
(42971, 19)
        id        title   type  \
0  tm84618  Taxi Driver  MOVIE   
1  tm84618  Taxi Driver  MOVIE   
2  tm84618  Taxi Driver  MOVIE   
3  tm84618  Taxi Driver  MOVIE   
4  tm84618  Taxi Driver  MOVIE   

                                         description  release_year  \
0  A mentally unstable Vietnam War veteran works ...          1976   
1  A mentally unstable Vietnam War veteran works ...         

In [17]:
# Agora que temos um dataset um pouco mais limpo, nós vamos puxar a estatística descritiva novamente.
df_cleaned.describe(include='all')

Unnamed: 0,id,title,type,description,release_year,age_certification,runtime,genres,production_countries,seasons,imdb_id,imdb_score,imdb_votes,tmdb_popularity,tmdb_score,person_id,name,character,role
count,42971,42971,42971,42971,42971.0,42971,42971.0,42971,42971,11258.0,42971,42971.0,42971.0,42971.0,42971.0,42971.0,42971,41122,42971
unique,2711,2695,2,2711,,11,,1204,233,,2711,,,,,,32587,30960,2
top,tm32982,Les Misérables,MOVIE,An adaptation of the successful stage musical ...,,R,,['comedy'],['US'],,tt1707386,,,,,,Kareena Kapoor Khan,Self,ACTOR
freq,208,208,31713,208,,14804,,1771,20628,,208,,,,,,19,730,41122
mean,,,,,2014.068674,,94.473319,,,2.230414,,6.654153,105622.1,41.250591,6.869382,455831.8,,,
std,,,,,8.249646,,38.384149,,,2.445394,,1.093939,241961.0,108.050113,0.946464,614117.3,,,
min,,,,,1966.0,,0.0,,,1.0,,2.0,5.0,0.6,1.0,7.0,,,
25%,,,,,2012.0,,68.0,,,1.0,,6.0,4145.5,9.595,6.2,24242.5,,,
50%,,,,,2017.0,,100.0,,,1.0,,6.8,21855.0,17.405,6.9,111834.0,,,
75%,,,,,2020.0,,119.0,,,3.0,,7.4,98370.0,35.497,7.5,754131.0,,,


# 4. Análise dos Dados

# 5. Conclusão

# 6. Referências
[Kaggle - Netflix TV Shows](https://www.kaggle.com/datasets/victorsoeiro/netflix-tv-shows-and-movies)
