# **README**

Todo conteúdo produzido para esse notebook foi retirado e adaptado por Isaac Pereira da Conceição Araujo, do livro de Wes McKinney, Python para análise de dados. Algumas sintaxes foram revisadas com auxilio da documentação do Pandas (https://pandas.pydata.org/pandas-docs/stable/index.html) e do curso de Limpeza de dados do Kaggle (https://www.kaggle.com/learn/data-cleaning)

# **Introdução**

Durante a análise e a modelagem dos dados, um período
significativo de tempo é gasto em sua preparação: carga,
limpeza, transformação e reorganização. Sabe-se que essas
tarefas em geral ocupam 80°/o ou mais do tempo de um analista. Às vezes, o modo como os dados são armazenados em
arquivos ou em bancos de dados não constituem o formato
correto para uma tarefa em particular. 

Antes de começarmos, é interessante revisar os conteúdos sobre a linguagem Python e a biblioteca Pandas. Utilizaremos os dados **TV Shows and Movies listed on Netflix, retirado do Kaggle**.

In [None]:
import pandas as pd
import numpy as np

In [None]:
nfl = pd.read_csv('/content/netflix_titles.csv')
nfl.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


# **Limpeza e preparação dos dados**

Nesta seção, discutiremos as ferramentas para dados ausentes, dados duplicados, manipulação de strings e outras
transformações de dados para análise. 

## **Tratando dados ausentes**

Dados ausentes são comuns em muitas aplicações de análise de dados. Eles são representados pelo panda pelo valor ponto flutuante ***NaN*** (Not a Number). Os dados ausentes também podem ser representados por ***NA*** e ***None***.

> Podemos verificar a existência de valores nulos num dataset utilizando a função ***isnull()***. Essa função Devolve valores booleanos informando quais valores estão ausentes/são NA. 


In [None]:
# Retornando quais valores estão ausentes.
nfl.isnull()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,False,False,False,True,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...
7782,False,False,False,False,False,False,False,False,False,False,False,False
7783,False,False,False,False,False,False,False,False,False,False,False,False
7784,False,False,False,True,False,True,False,False,False,False,False,False
7785,False,False,False,True,False,False,False,False,False,False,False,False


In [None]:
# Verificando a quantidade total de celulas com valores NA nas primeiras 10 colunas do dataframe.
nfl.isnull().sum()

show_id            0
type               0
title              0
director        2389
cast             718
country          507
date_added        10
release_year       0
rating             7
duration           0
listed_in          0
description        0
dtype: int64

> Também podemos utilizar a negação do isnull, o ***notnull()***.

In [None]:
# Retornando quais valores NÃO estão ausentes.
nfl.notnull()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,True,True,True,False,True,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...,...,...,...,...,...
7782,True,True,True,True,True,True,True,True,True,True,True,True
7783,True,True,True,True,True,True,True,True,True,True,True,True
7784,True,True,True,False,True,False,True,True,True,True,True,True
7785,True,True,True,False,True,True,True,True,True,True,True,True


Bem, precisamos tratar os nossos valores ausentes de algum modo. O pandas nos fornece algumas alternativas para a execução desse tratamento.

> Podemos eliminar todos as linhas/colunas que possuem valores ausentes em suas celulas utilizando a função ***dropna()***. Nos seus argumentos podemos limitar sua ação a colunas específicas e/ou outras caracteristícas.

In [None]:
# Excluindo todas as linhas que possuem valores NaN. Perceba que neste caso não sobrará nenhuma linha.
nfl.dropna()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...
5,s6,TV Show,46,Serdar Akar,"Erdal Beşikçioğlu, Yasemin Allen, Melis Birkan...",Turkey,"July 1, 2017",2016,TV-MA,1 Season,"International TV Shows, TV Dramas, TV Mysteries",A genetics professor experiments with a treatm...
...,...,...,...,...,...,...,...,...,...,...,...,...
7778,s7779,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,88 min,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
7780,s7781,Movie,Zoo,Shlok Sharma,"Shashank Arora, Shweta Tripathi, Rahul Kumar, ...",India,"July 1, 2018",2018,TV-MA,94 min,"Dramas, Independent Movies, International Movies",A drug dealer starts having doubts about his t...
7781,s7782,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,88 min,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...


In [None]:
# Eliminando as linhas com valores ausentes na coluna TwoPointConv.
nfl.dropna(subset=['director'])

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...
5,s6,TV Show,46,Serdar Akar,"Erdal Beşikçioğlu, Yasemin Allen, Melis Birkan...",Turkey,"July 1, 2017",2016,TV-MA,1 Season,"International TV Shows, TV Dramas, TV Mysteries",A genetics professor experiments with a treatm...
...,...,...,...,...,...,...,...,...,...,...,...,...
7780,s7781,Movie,Zoo,Shlok Sharma,"Shashank Arora, Shweta Tripathi, Rahul Kumar, ...",India,"July 1, 2018",2018,TV-MA,94 min,"Dramas, Independent Movies, International Movies",A drug dealer starts having doubts about his t...
7781,s7782,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,88 min,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...


In [None]:
# Eliminando todas as colunas que possuem ao menos um valor NA
nfl.dropna(axis=1)


Unnamed: 0,show_id,type,title,release_year,duration,listed_in,description
0,s1,TV Show,3%,2020,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,2016,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,2011,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,2009,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,2008,123 min,Dramas,A brilliant group of students become card-coun...
...,...,...,...,...,...,...,...
7782,s7783,Movie,Zozo,2005,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,2015,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...
7784,s7785,Movie,Zulu Man in Japan,2019,44 min,"Documentaries, International Movies, Music & M...","In this documentary, South African rapper Nast..."
7785,s7786,TV Show,Zumbo's Just Desserts,2019,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...


> Podemos também, preencher os dados ausentes com valores desejados utilizando a função ***fillna()***, na qual podemos aplicar alguns métodos de interpolação como ***'ffill'*** ou ***'bfill'***.  

In [None]:
# Preenchendo todos os valores nulos do dataset 
nfl.fillna("No information") 

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,No information,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...
...,...,...,...,...,...,...,...,...,...,...,...,...
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...
7784,s7785,Movie,Zulu Man in Japan,No information,Nasty C,No information,"September 25, 2020",2019,TV-MA,44 min,"Documentaries, International Movies, Music & M...","In this documentary, South African rapper Nast..."
7785,s7786,TV Show,Zumbo's Just Desserts,No information,"Adriano Zumbo, Rachel Khoo",Australia,"October 31, 2020",2019,TV-PG,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...


In [None]:
# Preenchendo elementos específicos sem valor em colunas específicas utilizando dict
nfl.fillna({'director': 'Director Not Informed', 'country': 'Country Not Informed'}) 

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,Director Not Informed,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...
...,...,...,...,...,...,...,...,...,...,...,...,...
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...
7784,s7785,Movie,Zulu Man in Japan,Director Not Informed,Nasty C,Country Not Informed,"September 25, 2020",2019,TV-MA,44 min,"Documentaries, International Movies, Music & M...","In this documentary, South African rapper Nast..."
7785,s7786,TV Show,Zumbo's Just Desserts,Director Not Informed,"Adriano Zumbo, Rachel Khoo",Australia,"October 31, 2020",2019,TV-PG,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...


## **Transformação de dados**

Agora partiremos para a aplciação de técnicas Filtragem, limpeza e outras transformações constituem outra classe de operações importantes

**Removendo duplicatas**

> Linhas duplicadas podem ser encontradas em um DataFrame por diversos motivos. O método ***duplicated()*** de DataFrame devolve uma Series booleana informando se cada linha é uma duplicata (foi observada em uma linha anterior) ou não:

In [None]:
# Checando a existência de duplicatas em nosso dataset.
print(nfl.duplicated())
print("\nQuantidade de duplicatas:", nfl.duplicated().sum())

0       False
1       False
2       False
3       False
4       False
        ...  
7782    False
7783    False
7784    False
7785    False
7786    False
Length: 7787, dtype: bool

Quantidade de duplicatas: 0


> No dataset que escolhemos não existem linhas duplicadas. Porém caso queiramos dropar uma possível duplicata, temos método ***drop_duplicates()***, que devolve
um DataFrame com dados em que o array duplicated é False

In [None]:
# Criando uma dataset genérico para demonstrar o funcionamento do drop_duplicates, já que não temos duplicatas em nosso dataset
data = data= pd.DataFrame({'coluna1': ['one', 'one', 'two'] * 2,
                           'coluna2': [ 1, 1, 2, 3, 3, 4]}) 

data.head(n=len(data))

Unnamed: 0,coluna1,coluna2
0,one,1
1,one,1
2,two,2
3,one,3
4,one,3
5,two,4


In [None]:
# Método para dropar duplicatas:
data.drop_duplicates()

Unnamed: 0,coluna1,coluna2
0,one,1
2,two,2
3,one,3
5,two,4


podemos especificar qualquer subconjunto delas na detecção de duplicatas. Suponha que tivéssemos uma coluna adicional de valores e quiséssemos filtrar as duplicatas somente com base na coluna.

In [None]:
# Eliminando as duplicatas de uma coluna específica
data.drop_duplicates(['coluna1'])

Unnamed: 0,coluna1,coluna2
0,one,1
2,two,2


***drop_duplicates()***, por padrão, mantêm a primeira combinação de valores observados. Passar ***keep= 'last'*** devolverá a última: 

In [None]:
# Eliminando as duplicatas de uma coluna específica e deixando a ultima duplicata.
data.drop_duplicates(['coluna1'], keep='last')

Unnamed: 0,coluna1,coluna2
4,one,3
5,two,4


**Transformando dados usando uma função ou um mapeamento**

Usar a função ***map()*** é uma forma conveniente de fazer transformacões ,
em todos os elementos e executar outras operações relacionadas à limpeza de dados. 


In [None]:
nfl.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


In [None]:
# Utilizando a função map com uma função lambda para separar somente o ano que foi adicionado o filme ou série
nfl['date_added'].map(lambda x: str(x).split(',')[-1].strip()) 


0       2020
1       2016
2       2018
3       2017
4       2020
        ... 
7782    2020
7783    2019
7784    2020
7785    2020
7786    2020
Name: date_added, Length: 7787, dtype: object

In [None]:
# Utilizando a função map com uma função lambda para modificar as strings para torná-las maiusculas
nfl['country'].map(lambda x: str(x).upper()) 

0                                                  BRAZIL
1                                                  MEXICO
2                                               SINGAPORE
3                                           UNITED STATES
4                                           UNITED STATES
                              ...                        
7782    SWEDEN, CZECH REPUBLIC, UNITED KINGDOM, DENMAR...
7783                                                INDIA
7784                                                  NAN
7785                                            AUSTRALIA
7786                UNITED KINGDOM, CANADA, UNITED STATES
Name: country, Length: 7787, dtype: object

**Substituindo valores**

Preencher dados ausentes com o método ***fillna()*** é um caso especial da substituição mais genérica de valores. Conforme já vimos, ***map()*** pode ser usado para modificar um subconjunto de valores em um objeto, porém ***replace()*** oferece uma forma mais simples e mais flexível de fazer isso.

In [None]:
# Utilizando o replace para traduzir o nome dos países de forma manual -- Utilizando Listas nos argumentos
nfl.replace(['Brazil', 'United States'], ['Brasil', 'Estados Unidos']).head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brasil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",Estados Unidos,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",Estados Unidos,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


In [None]:
# Utilizando o replace para traduzir o nome dos países de forma manual -- Utilizando dicionários nos argumentos
nfl.replace({'Brazil':'Brasil', 'United States':'Estados Unidos'}).head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brasil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",Estados Unidos,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",Estados Unidos,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


**Renomeando os índices dos eixos**

Assim como os valores em uma Series, os rótulos dos eixos podem ser transformados de modo semelhante por uma função ou alguma forma de mapeamento, a fim de gerar objetos novos com rótulos diferentes. 

In [None]:
# Criando uma cópia de nosso dataframe e modificando o index.
nfl_copy = nfl.copy()
nfl_copy.index = nfl_copy.index.map(lambda x: f'Filme/Série {x}') 
nfl_copy.head()


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
Filme/Série 0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
Filme/Série 1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
Filme/Série 2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
Filme/Série 3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
Filme/Série 4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


In [None]:
# Utilizando uma cópia de nosso dataframe e modificando o index e as colunas.
nfl_copy.rename(index=str.upper, columns=str.upper).head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
Filme/Série 0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
Filme/Série 1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
Filme/Série 2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
Filme/Série 3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
Filme/Série 4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


**Discretização e compartimentalização (binning)**

Dados contínuos com frequência são discretizados ou, de modo alternativo, separados em "compartimentos" (bins) para análise. O objeto devolvido pelo pandas é um objeto ***Categorical*** especial. A saída que vemos descreve os compartimentos calculados pelo pandas ***cut()*** Podemos tratá-la como um array de strings informando o nome do compartimento; internamente, ela contém um array categories que especifica os nomes distintos das categorias.

> O cut e o qcut são funções de discretização que são particularmente úteis para análise de quantis e de grupos. 


In [None]:
cut = pd.cut(nfl.release_year, bins=[1930, 1940, 1950, 1960, 1970, 1980, 1990, 2000, 2010, 2020], labels=['Decada de 30', 'Decada de 40', 'Decada de 50', 'Decada de 60', 'Decada de 70', 'Decada de 80', 'Decada de 90', 'Decada de 2000', 'Decada de 2010']) 
cut.head()

0    Decada de 2010
1    Decada de 2010
2    Decada de 2010
3    Decada de 2000
4    Decada de 2000
Name: release_year, dtype: category
Categories (9, object): ['Decada de 30' < 'Decada de 40' < 'Decada de 50' < 'Decada de 60' < ... <
                         'Decada de 80' < 'Decada de 90' < 'Decada de 2000' < 'Decada de 2010']

**Detectando e filtrando valores discrepantes**

Filtrar ou transformar valores discrepantes (outliers) é, em
boa medida, uma questão de aplicar operações de array. 


In [None]:
nfl.describe()

Unnamed: 0,release_year
count,7787.0
mean,2013.93258
std,8.757395
min,1925.0
25%,2013.0
50%,2017.0
75%,2018.0
max,2021.0


**Permutação e amostragem aleatória**

Permutar (reordenar aleatoriamente) uma Series ou as linhas de um DataFrame é fácil utilizando a função numpy random permutation. Chamar permutation com o tamanho do eixo que você quer permutar gera um array de inteiros informando a nova ordem. Esse array pode então ser usado na indexação baseada em iloc ou na função take equivalente:

In [None]:
# Criando um molde randomico para os indexes
sampler = np.random.permutation(nfl.shape[0]) 
print(sampler)

[2064 1214  979 ...   85 6190 2106]


In [None]:
# Utilizando o molde random para permutar os indexes.
nfl.take(sampler)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
2064,s2065,Movie,Exit Wounds,Andrzej Bartkowiak,"Steven Seagal, DMX, Isaiah Washington, Anthony...",United States,"October 1, 2019",2001,R,101 min,Action & Adventure,Maverick cop Orin Boyd joins forces with an un...
1214,s1215,TV Show,Care Bears: Welcome to Care-a-Lot,,"David Lodge, Patty Mattson, Doug Erholtz, Step...",United States,"August 2, 2019",2012,TV-Y,1 Season,Kids' TV,Nestled in a faraway cloud is a rainbow-colore...
979,s980,Movie,Blind Detective,Johnnie To,"Andy Lau, Sammi Cheng, Gao Yuanyuan, Guo Tao, ...","Hong Kong, China","December 1, 2018",2013,TV-MA,130 min,"Action & Adventure, Comedies, International Mo...","When a cop loses his vision, his detecting ski..."
4796,s4797,Movie,Patton Oswalt: Annihilation,Bobcat Goldthwait,Patton Oswalt,United States,"October 17, 2017",2017,TV-MA,66 min,Stand-Up Comedy,"By turns scathing and candid, Patton Oswalt re..."
1705,s1706,Movie,DeRay Davis: How to Act Black,Marcus Raboy,DeRay Davis,United States,"November 14, 2017",2017,TV-MA,66 min,Stand-Up Comedy,Dynamic comic DeRay Davis hits the stage like ...
...,...,...,...,...,...,...,...,...,...,...,...,...
3240,s3241,TV Show,Julius Jr.,,"Elizabeth Daily, Julie Lemieux, Athena Karkani...",United States,"November 3, 2015",2014,TV-Y,2 Seasons,Kids' TV,Paul Frank's fun artwork comes to life in this...
4022,s4023,Movie,Mehandi Circus,Saravana Rajendran,"Madhampatti Rangaraj, Shweta Tripathi, Vela Ra...",India,"October 30, 2019",2019,TV-MA,126 min,"Dramas, International Movies, Romantic Movies","In the early 1990s, the love between a cassett..."
85,s86,TV Show,21 Again,,Laura Morgan,United Kingdom,"July 1, 2020",2019,TV-MA,1 Season,"British TV Shows, Reality TV","In a social experiment, a group of daughters s..."
6190,s6191,Movie,The Bye Bye Man,Stacy Title,"Douglas Smith, Lucien Laviscount, Cressida Bon...","United States, China","April 1, 2019",2017,PG-13,96 min,"Horror Movies, Thrillers",Three college students move into an off-campus...


> Para selecionar um subconjunto aleatório sem substituição, o método sample le pode ser usado em Series e em DataFrame: 

In [None]:
# Permutando utilizando a função do pandas sample
nfl.sample(n=len(nfl))

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
2718,s2719,Movie,Hidden in Plain Sight,Stacia Crawford,"Victoria Barabas, Gino Anthony Pesi, Jake Ally...",United States,"October 30, 2020",2019,TV-14,87 min,"Dramas, Independent Movies, Thrillers",A woman stages her own suicide but still lives...
2009,s2010,Movie,Enola Holmes,Harry Bradbeer,"Millie Bobby Brown, Henry Cavill, Sam Claflin,...",United Kingdom,"September 23, 2020",2020,PG-13,124 min,"Action & Adventure, Children & Family Movies, ...","While searching for her missing mother, intrep..."
4945,s4946,TV Show,Power Rangers Super Megaforce,,"Andrew M. Gray, Ciara Hanna, John Mark Louderm...",,"January 1, 2016",2014,TV-Y7,1 Season,Kids' TV,Armed with a key that allows them to morph int...
4851,s4852,Movie,Phullu,Abhishek Saxena,"Sharib Hashmi, Nutan Surya, Jyotii Sethi, Inaa...",India,"December 31, 2019",2017,TV-14,96 min,"Dramas, Independent Movies, International Movies",Struck by the lack of clean resources for mens...
7173,s7174,Movie,"Trailer Park Boys: Drunk, High and Unemployed:...","Gary Howsam, Mike Smith, John Paul Tremblay, R...","Mike Smith, John Paul Tremblay, Robb Wells, Jo...",Canada,"December 9, 2015",2015,TV-MA,74 min,"Comedies, International Movies","Ricky, Julian and Bubbles bring their trailer ..."
...,...,...,...,...,...,...,...,...,...,...,...,...
6020,s6021,Movie,Temporada de Caza,Natalia Garagiola,"Germán Palacios, Lautaro Bettoni, Boy Olmi, Ri...","Argentina, France, United States, Germany, Qatar","July 15, 2018",2017,TV-MA,108 min,"Dramas, International Movies",Animosity gives way to love and forgiveness wh...
20,s21,Movie,​​Kuch Bheege Alfaaz,Onir,"Geetanjali Thapa, Zain Khan Durrani, Shray Rai...",India,"September 1, 2018",2018,TV-14,110 min,"Dramas, Independent Movies, International Movies",After accidentally connecting over the Interne...
7091,s7092,Movie,Tim Minchin And The Heritage Orchestra Live,Matt Askem,"Tim Minchin, Jules Buckley",United Kingdom,"December 31, 2018",2011,TV-MA,146 min,"Music & Musicals, Stand-Up Comedy","Flanked by a full orchestra, Tim Minchin takes..."
7387,s7388,TV Show,Vampire Knight,,"Daisuke Kishio, Ezra Weisz, Mamoru Miyano, Vic...",Japan,"October 15, 2016",2008,TV-14,2 Seasons,"Anime Series, International TV Shows, Romantic...","At Cross Academy, two student disciplinary com..."


**Calculando variáveis indicadoras/dummy**

Outro tipo de transformação para modelagem estatística
ou aplicações de aprendizado de máquina (machine learning) consiste em converter uma variável de categorias em uma matriz "dummy" ou "indicadora". Se uma coluna em um DataFrame tiver k valores distintos, poderíamos derivar uma matriz ou um DataFrame com k colunas contendo somente 1s e Os. O pandas tem uma função ***get_dummies*** para isso, embora criar uma função por conta própria não seria difícil.

In [None]:
# Criando uma matriz de variáveis indicadoras para a coluna type
pd.get_dummies(nfl.type) 

Unnamed: 0,Movie,TV Show
0,0,1
1,1,0
2,1,0
3,1,0
4,1,0
...,...,...
7782,1,0
7783,1,0
7784,1,0
7785,0,1


# **Tratamento de dados: junção, combinação e reformatação** 

Em muitas aplicações, os dados podem estar espalhados em
vários arquivos ou bancos de dados, ou podem estar organizados em um formato que não seja fácil de analisar. Estudaremos então as ferramentas que ajudam a combinar, juntar e reorganizar dados.


## **Indexação hierárquica**

A indexação hierárquica é um recurso importante do pandas;
ela permite ter vários níveis de índices (dois ou mais) em
um eixo. De forma, até certo ponto, abstrata, ela oferece
uma maneira de trabalhar com dados de dimensões mais
altas em um formato de dimensões menores.

In [None]:
# Separando algumasa colunas do dataframe original: country, title e ano de lançamento.
nfl_country = pd.DataFrame(data={'País': np.array(nfl.country), 'Título':np.array(nfl.title), 'Ano de Lançamento':np.array(nfl.release_year)})
nfl_country.head()

Unnamed: 0,País,Título,Ano de Lançamento
0,Brazil,3%,2020
1,Mexico,7:19,2016
2,Singapore,23:59,2011
3,United States,9,2009
4,United States,21,2008


In [None]:
# Indexando um segundo nível para nosso dataset. Esse segundo nível (level=1) são oriundos de nossas colunas.
nfl_country = nfl_country.stack()
nfl_country.head(n=12)

0  País                        Brazil
   Título                          3%
   Ano de Lançamento             2020
1  País                        Mexico
   Título                        7:19
   Ano de Lançamento             2016
2  País                     Singapore
   Título                       23:59
   Ano de Lançamento             2011
3  País                 United States
   Título                           9
   Ano de Lançamento             2009
dtype: object

In [None]:
# Retomando os níveis padrão do nosso dataset.
nfl_country.unstack()


Unnamed: 0,País,Título,Ano de Lançamento
0,Brazil,3%,2020
1,Mexico,7:19,2016
2,Singapore,23:59,2011
3,United States,9,2009
4,United States,21,2008
...,...,...,...
7782,"Sweden, Czech Republic, United Kingdom, Denmar...",Zozo,2005
7783,India,Zubaan,2015
7784,,Zulu Man in Japan,2019
7785,Australia,Zumbo's Just Desserts,2019


**Reorganizando e ordenando níveis**

Ocasionalmente precisaremos reorganizar a ordem dos níveis em um eixo ou ordenar os dados de acordo com os valores em um nível específico. O ***swap level*** aceita dois números ou nomes de níveis e devolve um novo objeto com os níveis trocados (os dados, porém, permanecem inalterados):

In [None]:
nfl_country

0     País                                                  Brazil
      Título                                                    3%
      Ano de Lançamento                                       2020
1     País                                                  Mexico
      Título                                                  7:19
                                            ...                   
7785  Título                                 Zumbo's Just Desserts
      Ano de Lançamento                                       2019
7786  País                   United Kingdom, Canada, United States
      Título               ZZ TOP: THAT LITTLE OL' BAND FROM TEXAS
      Ano de Lançamento                                       2019
Length: 22854, dtype: object

In [None]:
# Reordenando os indexes
nfl_country.swaplevel(i=0,j=1)

País               0                                        Brazil
Título             0                                            3%
Ano de Lançamento  0                                          2020
País               1                                        Mexico
Título             1                                          7:19
                                            ...                   
                   7785                      Zumbo's Just Desserts
Ano de Lançamento  7785                                       2019
País               7786      United Kingdom, Canada, United States
Título             7786    ZZ TOP: THAT LITTLE OL' BAND FROM TEXAS
Ano de Lançamento  7786                                       2019
Length: 22854, dtype: object

***sort_index***, por outro lado, ordena os dados usando os valores de um só nível. Ao trocar níveis, não é incomum usar sort_index também para que o resultado seja ordenado em ordem lexicográfica de acordo com o nível indicado

In [None]:
# Ordenando os indexes com base no seu level
nfl_country.sort_index(level=1)

0     País                        Brazil
1     País                        Mexico
2     País                     Singapore
3     País                 United States
4     País                 United States
                               ...      
7782  Ano de Lançamento             2005
7783  Ano de Lançamento             2015
7784  Ano de Lançamento             2019
7785  Ano de Lançamento             2019
7786  Ano de Lançamento             2019
Length: 22854, dtype: object

**Estatísticas de resumo por nível**

Muitas estatísticas descritivas ou de resumo em DataFrame
e em Series têm uma opção level; Com ela, podemos especificar o nível de acordo com o qual queremos fazer uma agregação, em um eixo em particular. 


Internamente, o recurso groupby do pandas foi utilizado
nesse caso;

In [None]:
# Realizando operações de soma com os indexes agrupados
nfl_country.sum(level=1)

País                 BrazilMexicoSingaporeUnited StatesUnited State...
Título               3%7:1923:599214612218770619201922198319942,215...
Ano de Lançamento                                             15682493
dtype: object

## **Combinando e mesclando conjuntos de dados**

Os dados contidos em objetos do pandas podem ser combinados de várias maneiras: 

* ***pandas.merge*** conecta linhas em DataFrames com base em uma ou mais chaves. Essa operação será conhecida dos usuários de SQL ou de outros bancos de dados relacionais, pois ela implementa as operações de junção (join) dos bancos de dados.
* ***pandas.concat*** concatena ou "empilha" objetos ao longo de um eixo.
* O método de instância ***combine_first*** permite combinar dados que se sobrepõem a fim de preencher valores ausentes em um objeto com valores de outro objeto. 

In [None]:
# Dividindo nosso dataframe pela metade atraves das linhas
df_1_rows = nfl.iloc[:len(nfl)//2].copy()
df_2_rows = nfl.iloc[len(nfl)//2:len(nfl)].copy()

# Dividindo nosso dataframe pela metade atraves das colunas
df_1_cols = nfl.loc[:,'show_id':'country'].copy()
df_2_cols = nfl.loc[:,'date_added':].copy()

**Junções no Dataframe no estilo de bancos de dados**

O exemplo a seguir é de uma junção de muitos-para-um
(many-to-one); os dados em **df_1_rows** têm várias linhas de das colunas de nosso dataframe original, enquanto **df_2_rows** tem metade das linhas do dataframe original. Se o ***merge*** for chamado nesses objetos, teremos o
nosso dataframe original:

In [None]:
pd.merge(df_1_rows, df_2_rows, how='outer')

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...
...,...,...,...,...,...,...,...,...,...,...,...,...
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...
7784,s7785,Movie,Zulu Man in Japan,,Nasty C,,"September 25, 2020",2019,TV-MA,44 min,"Documentaries, International Movies, Music & M...","In this documentary, South African rapper Nast..."
7785,s7786,TV Show,Zumbo's Just Desserts,,"Adriano Zumbo, Rachel Khoo",Australia,"October 31, 2020",2019,TV-PG,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...


**Concatenando ao longo de um eixo**

Outro tipo de operação de combinação de dados é chamado,
de forma indistinta, de concatenação, vinculação (binding) ou empilhamento (stacking).

No contexto de objetos do pandas, como Series e DataFrame, ter eixos com rótulos permite generalizar melhor a concatenação de arrays. Em particular, há um número adicional de aspectos nos quais devemos pensar:
* Se os objetos estiverem indexados de modo diferente nos
outros eixos, devemos combinar os elementos distintos
nesses eixos ou usar somente os valores compartilhados
(a intersecção)?
* As porções de dados concatenadas devem ser identificáveis no objeto resultante?
* O "eixo de concatenação" contém dados que devam ser
preservados? Em muitos casos, será melhor que os rótulos inteiros default em um DataFrame sejam descartados
durante a concatenacão.

A função ***concat*** do pandas oferece uma forma consistente
de tratar cada um desses aspectos. 

In [None]:
 pd.concat([df_1_rows, df_2_rows])

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...
...,...,...,...,...,...,...,...,...,...,...,...,...
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...
7784,s7785,Movie,Zulu Man in Japan,,Nasty C,,"September 25, 2020",2019,TV-MA,44 min,"Documentaries, International Movies, Music & M...","In this documentary, South African rapper Nast..."
7785,s7786,TV Show,Zumbo's Just Desserts,,"Adriano Zumbo, Rachel Khoo",Australia,"October 31, 2020",2019,TV-PG,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...


In [None]:
pd.concat([df_1_cols, df_2_cols], axis=1)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...
...,...,...,...,...,...,...,...,...,...,...,...,...
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...
7784,s7785,Movie,Zulu Man in Japan,,Nasty C,,"September 25, 2020",2019,TV-MA,44 min,"Documentaries, International Movies, Music & M...","In this documentary, South African rapper Nast..."
7785,s7786,TV Show,Zumbo's Just Desserts,,"Adriano Zumbo, Rachel Khoo",Australia,"October 31, 2020",2019,TV-PG,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...


In [None]:
pd.concat([df_1_cols, df_2_cols], axis=1, join='outer')

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...
...,...,...,...,...,...,...,...,...,...,...,...,...
7782,s7783,Movie,Zozo,Josef Fares,"Imad Creidi, Antoinette Turk, Elias Gergi, Car...","Sweden, Czech Republic, United Kingdom, Denmar...","October 19, 2020",2005,TV-MA,99 min,"Dramas, International Movies",When Lebanon's Civil War deprives Zozo of his ...
7783,s7784,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...
7784,s7785,Movie,Zulu Man in Japan,,Nasty C,,"September 25, 2020",2019,TV-MA,44 min,"Documentaries, International Movies, Music & M...","In this documentary, South African rapper Nast..."
7785,s7786,TV Show,Zumbo's Just Desserts,,"Adriano Zumbo, Rachel Khoo",Australia,"October 31, 2020",2019,TV-PG,1 Season,"International TV Shows, Reality TV",Dessert wizard Adriano Zumbo looks for the nex...


**Extra: Tratando Datas**

In [None]:
nfl.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,TV Show,3%,,"João Miguel, Bianca Comparato, Michel Gomes, R...",Brazil,"August 14, 2020",2020,TV-MA,4 Seasons,"International TV Shows, TV Dramas, TV Sci-Fi &...",In a future where the elite inhabit an island ...
1,s2,Movie,7:19,Jorge Michel Grau,"Demián Bichir, Héctor Bonilla, Oscar Serrano, ...",Mexico,"December 23, 2016",2016,TV-MA,93 min,"Dramas, International Movies",After a devastating earthquake hits Mexico Cit...
2,s3,Movie,23:59,Gilbert Chan,"Tedd Chan, Stella Chung, Henley Hii, Lawrence ...",Singapore,"December 20, 2018",2011,R,78 min,"Horror Movies, International Movies","When an army recruit is found dead, his fellow..."
3,s4,Movie,9,Shane Acker,"Elijah Wood, John C. Reilly, Jennifer Connelly...",United States,"November 16, 2017",2009,PG-13,80 min,"Action & Adventure, Independent Movies, Sci-Fi...","In a postapocalyptic world, rag-doll robots hi..."
4,s5,Movie,21,Robert Luketic,"Jim Sturgess, Kevin Spacey, Kate Bosworth, Aar...",United States,"January 1, 2020",2008,PG-13,123 min,Dramas,A brilliant group of students become card-coun...


In [None]:
pd.to_datetime(nfl.date_added)

0      NaT
1      NaT
2      NaT
3      NaT
4      NaT
        ..
7782   NaT
7783   NaT
7784   NaT
7785   NaT
7786   NaT
Name: date_added, Length: 7787, dtype: datetime64[ns]