# 1. Introdução do Projeto e Definição do Escopo

A **Netflix**, atualmente, é uma das maiores plataformas de serviço de streaming do mundo. Lançada inicialmente em 2007, a plataforma oferece milhares de títulos entre filmes, séries e documentários que podem ser consumidos por qualquer indivíduo através do pagamento de uma assinatura mensal ou anual. Com o crescimento exponencial de seu catálogo, torna-se cada vez mais importante **entender padrões de produção e consumo de conteúdo**, bem como **desenvolver sistemas que auxiliem na recomendação personalizada de títulos aos usuários**.

![image.png](https://upload.wikimedia.org/wikipedia/commons/thumb/0/08/Netflix_2015_logo.svg/330px-Netflix_2015_logo.svg.png)

Este projeto acadêmico tem como principal objetivo analisar e modelar um dataset público contendo informações gerais sobre séries/filmes disponíveis na Netflix e, através da utilização de técnicas de ciência de dados e inteligência artificial, **compreender padrões** e **desenvolver um sistema básico de recomendação de títulos baseado em similaridade de conteúdo**. Ademais, os **objetivos específicos** que buscarão ser atingidos durante a realização deste projeto são:

- Realização da limpeza e tratamento dos dados;
- Exploração estatística do dataset;
- Identificação de tendências por gênero, país e ano de lançamento;
- Representação de informações textuais (como gêneros e elenco) em vetores numéricos;
- Desenvolvimento de um sistema básico de recomendação de conteúdo com IA;
- Avaliação e visualização dos resultados obtidos

# 2. Limpeza e Tratamento dos Dados

## 2.1 Introdução dos Dados

In [25]:
# Importação das bibliotecas:

import pandas as pd

In [26]:
# Carregando o dataset:

df = pd.read_csv("netflix_titles.csv")

In [27]:
# Exibindo os cinco (5) primeiros conjuntos de linhas e colunas:

df.head(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [28]:
# Exibindo os cinco (5) últimos conjuntos de linhas e colunas:

df.tail(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,88 min,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,88 min,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."
8806,s8807,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...


In [29]:
# Total de linhas e colunas do dataset:

df.shape

(8807, 12)

In [30]:
# Informações gerais sobre o dataset:

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


## 2.2 Preparação dos Dados

In [31]:
# Transformando a coluna 'show_id' no índice do dataset:

df.set_index('show_id', inplace = True)
df.head()

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [32]:
# Convertendo o tipo de colunas específicas para o tipo correto:

df['type'] = df['type'].astype('category')
df['date_added'] = pd.to_datetime(df['date_added'], format = 'mixed')

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, s1 to s8807
Data columns (total 11 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   type          8807 non-null   category      
 1   title         8807 non-null   object        
 2   director      6173 non-null   object        
 3   cast          7982 non-null   object        
 4   country       7976 non-null   object        
 5   date_added    8797 non-null   datetime64[ns]
 6   release_year  8807 non-null   int64         
 7   rating        8803 non-null   object        
 8   duration      8804 non-null   object        
 9   listed_in     8807 non-null   object        
 10  description   8807 non-null   object        
dtypes: category(1), datetime64[ns](1), int64(1), object(8)
memory usage: 765.6+ KB


## 2.3 Tratamento dos Dados

Antes de tudo, precisamos verificar se nosso dataset possui dados ausentes.

In [33]:
# Verificando a presença de dados ausentes (NaN) nas colunas:

df.isnull().sum()

type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64

Como mostrado acima, nosso dataset **possui** dados ausentes e em **alta** quantidade. Considerando o projeto que será realizado, a melhor abordagem que podemos utilizar é a de preencher os valores das colunas mais afetadas por estas lacunas com "Unknown", visto que, caso simplesmente decidíssimos excluir-los, perderíamos um grande volume de dados, o que não é bom quando estamos pensando em construir um sistema de recomendação de conteúdo.

In [34]:
# Preenchendo as colunas mais afetadas com "Unknown":

df['director'] = df['director'].fillna("Unknown")
df['cast'] = df['cast'].fillna("Unknown")
df['country'] = df['country'].fillna("Unknown")

df.head(2)

Unnamed: 0_level_0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
show_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,Unknown,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
s2,TV Show,Blood & Water,Unknown,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."


In [44]:
# Preenchendo as colunas menos afetadas com seus respectivos tipos de dados:

df.loc[df['rating'].str.contains('min', na = False), 'rating'] = "TV-MA"
df['rating'] = df['rating'].fillna("TV-MA")
df['duration'] = df['duration'].fillna("60 min")
df['date_added'] = df['date_added'].fillna("1900-01-01")

In [45]:
df.isnull().sum()

type            0
title           0
director        0
cast            0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
description     0
dtype: int64