# Como Desenvolver um Projeto de Data Science

## CRISP-DM
<img src='https://miro.medium.com/v2/resize:fit:640/0*tA5OjppLK627FfFo'>

## Preparação dos dados

### Tarefas de preparação dos dados
- a) Limpeza de dados
    - Existem dados nulos, duplicados e inconsistentes?
    - Como os dados serão processados?
    - Como iremos lidar com dados ausentes?
    - Como iremos lidar com dados duplicados?
    - Como iremos lidar com dados inconsistentes?
- b) Integração de dados
    - Existem dados externos para utilizarmos 
    - Existem dados que precisarão ser integrados?
- c) Redução de dados
    - Todos os dados são importantes para análise?
    - Os dados cabem em memória?
- d) Transformação de dados
    - Os dados precisam ser normalizados ou padronizados?
    - Podemos discretizar os dados?    

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

### 1. Leitura de Dados

In [2]:
df = pd.read_csv("../data/netflix_titles.csv")
df

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,81145628,Movie,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,TV-PG,90 min,"Children & Family Movies, Comedies",Before planning an awesome wedding for his gra...
1,80117401,Movie,Jandino: Whatever it Takes,,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,TV-MA,94 min,Stand-Up Comedy,Jandino Asporaat riffs on the challenges of ra...
2,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,80058654,TV Show,Transformers: Robots in Disguise,,"Will Friedle, Darren Criss, Constance Zimmer, ...",United States,"September 8, 2018",2016,TV-Y7,1 Season,Kids' TV,When a prison ship crash unleashes hundreds of...
4,80125979,Movie,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,TV-14,99 min,Comedies,When nerdy high schooler Dani finally attracts...
...,...,...,...,...,...,...,...,...,...,...,...,...
6229,80000063,TV Show,Red vs. Blue,,"Burnie Burns, Jason Saldaña, Gustavo Sorola, G...",United States,,2015,NR,13 Seasons,"TV Action & Adventure, TV Comedies, TV Sci-Fi ...","This parody of first-person shooter games, mil..."
6230,70286564,TV Show,Maron,,"Marc Maron, Judd Hirsch, Josh Brener, Nora Zeh...",United States,,2016,TV-MA,4 Seasons,TV Comedies,"Marc Maron stars as Marc Maron, who interviews..."
6231,80116008,Movie,Little Baby Bum: Nursery Rhyme Friends,,,,,2016,,60 min,Movies,Nursery rhymes and original music for children...
6232,70281022,TV Show,A Young Doctor's Notebook and Other Stories,,"Daniel Radcliffe, Jon Hamm, Adam Godley, Chris...",United Kingdom,,2013,TV-MA,2 Seasons,"British TV Shows, TV Comedies, TV Dramas","Set during the Russian Revolution, this comic ..."


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6234 entries, 0 to 6233
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       6234 non-null   int64 
 1   type          6234 non-null   object
 2   title         6234 non-null   object
 3   director      4265 non-null   object
 4   cast          5664 non-null   object
 5   country       5758 non-null   object
 6   date_added    6223 non-null   object
 7   release_year  6234 non-null   int64 
 8   rating        6224 non-null   object
 9   duration      6234 non-null   object
 10  listed_in     6234 non-null   object
 11  description   6234 non-null   object
dtypes: int64(2), object(10)
memory usage: 584.6+ KB


In [4]:
df.describe(include='all')

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
count,6234.0,6234,6234,4265,5664,5758,6223,6234.0,6224,6234,6234,6234
unique,,2,6172,3301,5469,554,1524,,14,201,461,6226
top,,Movie,The Silence,"Raúl Campos, Jan Suter",David Attenborough,United States,"January 1, 2020",,TV-MA,1 Season,Documentaries,A surly septuagenarian gets another chance at ...
freq,,4265,3,18,18,2032,122,,2027,1321,299,3
mean,76703680.0,,,,,,,2013.35932,,,,
std,10942960.0,,,,,,,8.81162,,,,
min,247747.0,,,,,,,1925.0,,,,
25%,80035800.0,,,,,,,2013.0,,,,
50%,80163370.0,,,,,,,2016.0,,,,
75%,80244890.0,,,,,,,2018.0,,,,


### 2. Preparação dos Dados

**Métodos que você vai aprender**
- `drop()`: deleção de dados
- `duplicated()`: verificação de dados duplicados
- `drop_duplicated`: deleção de dados duplicados
- `dropna()`: método para deleção de dados nulos

- `value_counts`: conta a quantidade de valores únicos para cada categoria
- `explode()`: transforma as colunas listas em linhas do dataframe
- `split()`: método para transformação de string em lista
- `strip()`: método para remoção de espaços vazios em string
- `cut()`: segmenta os dados continuos ou numérico em categorias (discretização)
##### Seleção de dados

Todas as colunas são importantes para análise?

In [5]:
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,81145628,Movie,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,TV-PG,90 min,"Children & Family Movies, Comedies",Before planning an awesome wedding for his gra...
1,80117401,Movie,Jandino: Whatever it Takes,,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,TV-MA,94 min,Stand-Up Comedy,Jandino Asporaat riffs on the challenges of ra...
2,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,TV-Y7-FV,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,80058654,TV Show,Transformers: Robots in Disguise,,"Will Friedle, Darren Criss, Constance Zimmer, ...",United States,"September 8, 2018",2016,TV-Y7,1 Season,Kids' TV,When a prison ship crash unleashes hundreds of...
4,80125979,Movie,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,TV-14,99 min,Comedies,When nerdy high schooler Dani finally attracts...


In [6]:
## senão for importante, você pode dropar usando o drop
df.drop('rating', axis=1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,duration,listed_in,description
0,81145628,Movie,Norm of the North: King Sized Adventure,"Richard Finn, Tim Maltby","Alan Marriott, Andrew Toth, Brian Dobson, Cole...","United States, India, South Korea, China","September 9, 2019",2019,90 min,"Children & Family Movies, Comedies",Before planning an awesome wedding for his gra...
1,80117401,Movie,Jandino: Whatever it Takes,,Jandino Asporaat,United Kingdom,"September 9, 2016",2016,94 min,Stand-Up Comedy,Jandino Asporaat riffs on the challenges of ra...
2,70234439,TV Show,Transformers Prime,,"Peter Cullen, Sumalee Montano, Frank Welker, J...",United States,"September 8, 2018",2013,1 Season,Kids' TV,"With the help of three human allies, the Autob..."
3,80058654,TV Show,Transformers: Robots in Disguise,,"Will Friedle, Darren Criss, Constance Zimmer, ...",United States,"September 8, 2018",2016,1 Season,Kids' TV,When a prison ship crash unleashes hundreds of...
4,80125979,Movie,#realityhigh,Fernando Lebrija,"Nesta Cooper, Kate Walsh, John Michael Higgins...",United States,"September 8, 2017",2017,99 min,Comedies,When nerdy high schooler Dani finally attracts...
...,...,...,...,...,...,...,...,...,...,...,...
6229,80000063,TV Show,Red vs. Blue,,"Burnie Burns, Jason Saldaña, Gustavo Sorola, G...",United States,,2015,13 Seasons,"TV Action & Adventure, TV Comedies, TV Sci-Fi ...","This parody of first-person shooter games, mil..."
6230,70286564,TV Show,Maron,,"Marc Maron, Judd Hirsch, Josh Brener, Nora Zeh...",United States,,2016,4 Seasons,TV Comedies,"Marc Maron stars as Marc Maron, who interviews..."
6231,80116008,Movie,Little Baby Bum: Nursery Rhyme Friends,,,,,2016,60 min,Movies,Nursery rhymes and original music for children...
6232,70281022,TV Show,A Young Doctor's Notebook and Other Stories,,"Daniel Radcliffe, Jon Hamm, Adam Godley, Chris...",United Kingdom,,2013,2 Seasons,"British TV Shows, TV Comedies, TV Dramas","Set during the Russian Revolution, this comic ..."


##### Verificando dados nulos

In [7]:
df.isna().sum()/df.shape[0]*100

show_id          0.000000
type             0.000000
title            0.000000
director        31.584857
cast             9.143407
country          7.635547
date_added       0.176452
release_year     0.000000
rating           0.160411
duration         0.000000
listed_in        0.000000
description      0.000000
dtype: float64

In [8]:
df[df['country'] == '']

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description


##### Verificando dados duplicados usando `duplicated()`

In [None]:
df[df.duplicated()]

In [None]:
## vericando se existem dados com o mesmo show_id
df[df.duplicated(subset='show_id')]

In [None]:
df[df.duplicated(subset=['title', 'director'])]

##### deletando dados duplicados usando `drop_duplicates()`

In [None]:
shape_before = df.shape[0]
df.drop_duplicates(inplace=True)
print('{} dados foram removidos'.format(shape_before-df.shape[0]))

### 2.1 Limpeza e Formatação de Dados - Análise univariada 

##### Analisando o `show_id` - o identificador do filme ou seriado

In [None]:
df['show_id'].nunique()

In [None]:
df['show_id'].info()

- Todos os `show_id` são únicos

##### Analisando o ``type`` - se é filme ou serie

In [None]:
df['type']

In [None]:
df['type'].info()

In [None]:
df['type'].unique()

In [None]:
df['type'].value_counts()

In [None]:
df['type'].value_counts(normalize=True)

##### Analisando o `title` - título do filme ou seriado

In [None]:
df['title'].info()

In [None]:
df['title'].unique()

In [None]:
df['title'].nunique()

In [None]:
df[df.duplicated('title')]['title'].unique()

In [None]:
df[df['title']=='Maniac']
# não é um dado duplicado 

In [None]:
df[df['title']=='Tunnel']
# não é um dado duplicado, porém existem filmes que possuem o mesmo título (é importante validar a informação com algum focal point)

##### Analisando `director` - o diretor do filme

In [None]:
df['director']
#perceba que existem vários diretores em uma mesma linha. Isso irá dificultar nossa análise...

In [None]:
df['director'].info()

##### transformando valoress string de uma coluna para lista usnado `split()`

In [None]:
df['director'] = df['director'].str.split(',')

In [None]:
df['director']

##### transformando valores de lista para linhas de um dataframe usando `explode()`

In [None]:
df = df.explode('director')

In [None]:
df.head()

In [None]:
df['director'].unique()

##### removendo caracteres em branco de string usando `strip()`

In [None]:
df['director'] = df['director'].str.strip()

In [None]:
df['director'].unique()

In [None]:
df.head()

#### vamos resetar o index do dataframe para setar os labels ``[0, 1, 2,..., n]``

In [None]:
df.reset_index(inplace=True, drop=True)

In [None]:
df.head()

##### Analisando `cast` - (elenco) atores envolvidos no filme

Veja que as colunas ``director``, ``cast``, ``country``, e ``listed_in`` também são colunas compostas. Vamos montar uma função para acelerar a preparação destes dados

In [None]:
df.head()

In [None]:
df['cast'] = df['cast'].str.split(',')
df['country'] = df['country'].str.split(',')
df['listed_in'] = df['listed_in'].str.split(',')

In [None]:
df = df.explode('cast', ignore_index=True)
df['cast'] = df['cast'].str.strip()

In [None]:
df['cast'].unique()

In [None]:
df.head()

In [None]:
df = df.explode('country', ignore_index=True)
df['country'] = df['country'].str.strip()

In [None]:
df['country'].unique()

##### note que existem valores em branco na coluna ``country``

Vamos fazer uma verificação?

In [None]:
df[df['country'] == '']

In [None]:
# opção 02
df[df['country'].str.len()==0]

In [None]:
shape_before = df.shape[0]
df.drop(df[df['country'] == ''].index, inplace=True)
print('{} dados foram removidos'.format(shape_before-df.shape[0]))

In [None]:
df.head()

In [None]:
df = df.explode('listed_in', ignore_index=True)
df['listed_in'] = df['listed_in'].str.strip()

In [None]:
df['director'].unique()

In [None]:
# opção 02
df[df['director'].str.len()==0]

In [None]:
df['listed_in'].unique()

In [None]:
df[df['listed_in'].str.len()==0]

#### Como fizemos transformação nos dados, é importante verificar novamente se existem dados nulos

In [None]:
df[df.duplicated()]

In [None]:
shape_before = df.shape[0]
df.drop_duplicates(inplace=True)
print('{} dados foram removidos'.format(shape_before-df.shape[0]))

##### Analisando o `date_added` - data de lançamento da obra

In [None]:
df['date_added'].info()

In [None]:
index = df.sample(10).index

In [None]:
df.loc[index, 'date_added']

In [None]:
df['date_added'] = pd.to_datetime(df['date_added'])

In [None]:
df.loc[index, 'date_added']

##### Analisando o release_year - ano de lançamento da obra

In [None]:
df['release_year'].info()

In [None]:
df['release_year'].unique()

##### Analisando o ``duration``: duração do filme em minutos ou total de temporada das series

In [None]:
df['duration'].info()

In [None]:
df['duration'].unique()

In [None]:
df[df['type']=='Movie']['duration'].unique()

In [None]:
df[df['type']=='TV Show']['duration'].unique()

In [None]:
filter_filmes = df['type']=='Movie'

##### removendo carateres de string usando `replace()`

In [None]:
df[filter_filmes]['duration'].str.replace('min','').str.strip().astype(int)

##### Criando uma nova coluna ```duration_movie`` para duração do filme 

In [None]:
df['duration_movie'] = np.NaN
df

In [None]:
filmes_index = df[filter_filmes].index

In [None]:
df.loc[filmes_index, 'duration_movie'] = df.loc[filmes_index]['duration'].str.replace('min','').str.strip()

In [None]:
### checando dados nulos
df[df['duration_movie'].isna()]['type'].value_counts()

In [None]:
df['duration_movie'].info()

In [None]:
df['duration_movie'] = df['duration_movie'].astype('Int64')

In [None]:
df['duration_movie'].info()

#### Excelente! Agora vamos criar uma coluna para analisar o número de temporadas de uma série

In [None]:
filter_series = df['type']=='TV Show'

In [None]:
df[filter_series]['duration'].unique()

In [None]:
## replace usando dicionários
dic = {'Seasons':'', 'Season':''}
df[filter_series]['duration'].replace(dic, regex=True)

In [None]:
## replace usando lista do mesmo tamanho
df[filter_series]['duration'].replace(to_replace=['Seasons', 'Season'], 
                                          value=['',''],
                                         regex=True)

In [None]:
## replace usando lista do mesmo tamanho
df['qtd_temporada'] = df[filter_series]['duration'].replace(to_replace=['Seasons', 'Season'], 
                                          value=['',''],
                                         regex=True)

In [None]:
df[df['qtd_temporada'].isna()==False]['type'].value_counts()

In [None]:
df['qtd_temporada'].info()

In [None]:
df['qtd_temporada'] = df['qtd_temporada'].astype('Int64')

Nosso dataset contém 6234 elementos, com 12 atributos cada, além de possuir missing data.
Dentre os atributos existentes pra cada elemento do catálogo, vamos focar apenas nos seguintes (uma vez que esse é apenas um exemplo):

* `type` - o tipo da obra (série ou filme)
* `release_year` - ano de lançamento da obra
* `date_added`- data de lançamento da obra
* `director` - diretor da obra

##### Deletando coluna usando ``del``

- ``drop()`` deleta linhas e colunas x ``del`` deleta apenas colunas
- ``drop()`` deleta vários itens de uma vez x ``del`` deleta apenas um item por vez 
- ``drop()`` deleta com inplace opcional x ``del`` sempre usa a operação inplace

In [None]:
df.head()

In [None]:
del df['duration']

In [None]:
df.info()

### 3. Criar dois arquivos: 
- a) uma para os filmes 
- b) outro para as séries

### a) Trabalhando apenas com os filmes

In [None]:
df_filmes = pd.DataFrame(df[filter_filmes])

In [None]:
df_filmes.head()

#### Selecionando apenas dados de filmes

In [None]:
df_filmes.drop(['qtd_temporada', 'type'], axis=1)

In [None]:
df_filmes.drop(['qtd_temporada', 'type'], axis=1, inplace=True)

In [None]:
df_filmes.reset_index(inplace=True, drop=True)

In [None]:
df_filmes.info()

#### verificando dados nulos de filmes

In [None]:
df_filmes.isna().sum()/df_filmes.shape[0]*100

##### Poderíamos descartar todos os dados nulos considerando que a quantidade é pequena. Porém, vamos tentar entender cada dado nulo

In [None]:
df_filmes[df_filmes['director'].isna()]

In [None]:
shape_before = df_filmes.shape[0]
df_filmes.drop(df_filmes[df_filmes['director'].isna()].index, inplace=True)
print('{} dados foram removidos'.format(shape_before-df_filmes.shape[0]))

**Excelente!** deletamos todos os filmes onde os diretores são nulos

In [None]:
df_filmes.isna().sum()/df_filmes.shape[0]*100

In [None]:
df_filmes[df_filmes['cast'].isna()]

In [None]:
df_filmes.drop(df_filmes[df_filmes['cast'].isna()].index, inplace=True)

In [None]:
df_filmes.isna().sum()/df_filmes.shape[0]*100

In [None]:
df_filmes[df_filmes['country'].isna()]

In [None]:
df_filmes.drop(df_filmes[df_filmes['country'].isna()].index, inplace=True)

In [None]:
df_filmes.isna().sum()/df_filmes.shape[0]*100

In [None]:
df_filmes.info()

In [None]:
df_filmes.drop(df_filmes[df_filmes['rating'].isna()].index, inplace=True)

In [None]:
df_filmes.info()

In [None]:
df_filmes['country'].unique()

In [None]:
df_filmes[df_filmes['country'].str.contains('')]

In [None]:
df_filmes.reset_index(inplace=True, drop=True)

In [None]:
df_filmes.isna().sum()

In [None]:
df_filmes[df_filmes['country'] == '']

In [None]:
df_filmes[df_filmes['show_id']==81168347]['country'].unique()

In [None]:
df_filmes

**Transformando dados numericos para categoricos usando `pd.cut()`**

In [None]:
df_filmes['duration_movie'].describe()

In [None]:
pd.cut(df_filmes['duration_movie'], 
                               bins=3, 
                               labels=['baixa', 'media', 'alta'])

In [None]:
df_filmes['duration'] = pd.cut(df_filmes['duration_movie'], 
                               bins=3, 
                               labels=['baixa', 'media', 'alta'])

In [None]:
df_filmes.sort_values(['date_added','show_id','director','cast', 'country', 'listed_in'], inplace=True)

In [None]:
df_filmes.to_csv('../data/netflix_filmes_clear.csv', index=False)

### b) Trabalhando apenas com as series

In [None]:
df_series = pd.DataFrame(df[filter_series])

In [None]:
df_series.isna().sum()/df_series.shape[0]*100

**Veja que não existe ``diretores`` na maiorias das series.** Nesse caso, dado o número alto de dados nulos, é melhor não considerar a coluna ``director`` para as séries. Vamos também deletar a coluna ``duration_movie`` que só faz sentido para filmes

In [None]:
df_series.drop(['director','duration_movie'], axis=1, inplace=True)

In [None]:
df_series.isna().sum()/df_series.shape[0]*100

In [None]:
df_series[df_series['country'].isna()]

In [None]:
#quantas séries não tem o pais?
df_series[df_series['country'].isna()]['show_id'].nunique()

In [None]:
df_series

In [None]:
df_series.dropna(subset=['cast','date_added','rating'], inplace=True)

In [None]:
df_series.isna().sum()/df_series.shape[0]*100

In [None]:
df_series.info()

In [None]:
df_series.isna().sum()/df_series.shape[0]*100

In [None]:
df_series.info()

In [None]:
df_series.sort_values(['date_added','show_id','cast', 'country', 'listed_in'], inplace=True)

In [None]:
df_series.to_csv('../data/netflix_series_clear.csv', index=False)

### Excelente. Agora podemos iniciar a análise exploratória dos dados da netflix