## Hands On - Trabalho final 
### Netflix Movies and TV Shows

#### Grupo de trabalho
1. João Freitas,
2. João Kruschewsky,
3. Vinícius Matos,
4. Vito Magarão


#### Objetivo

Sobre este conjunto de dados: Netflix é uma das plataformas de streaming de mídia e vídeo mais populares. Eles têm mais de 8.000 filmes ou programas de TV disponíveis em sua plataforma. Em meados de 2021, eles têm mais de 200 milhões de assinantes em todo o mundo. Este conjunto de dados tabulares consiste em listas de todos os filmes e programas de TV disponíveis no Netflix, juntamente com detalhes como elenco, diretores, classificações, ano de lançamento, duração, etc.

1. Entender qual conteúdo está disponível em diferentes países.
2. Identificando conteúdo semelhante combinando recursos baseados em texto.
3. Análise de rede de atores/diretores e encontre insights interessantes.
4. A Netflix tem mais foco em programas de TV do que em filmes nos últimos anos?

In [70]:
import pandas as pd
import matplotlib as plt

In [71]:
df = pd.read_csv("https://raw.githubusercontent.com/MasterExecuson/Data-Science-Analytics/main/Data%20Analytics%20Hands%20On/Hands-on%20-%20Final%20Project/Netflix%20Movies%20and%20TV%20Shows%20dataset/netflix_titles.csv")

In [72]:
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [73]:
df.tail()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a..."
8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g..."
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,88 min,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,88 min,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero..."
8806,s8807,Movie,Zubaan,Mozez Singh,"Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanan...",India,"March 2, 2019",2015,TV-14,111 min,"Dramas, International Movies, Music & Musicals",A scrappy but poor boy worms his way into a ty...


In [74]:
df.head()['description'][0]

'As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.'

In [75]:
for column in df.columns:
    print(df[column].unique())

['s1' 's2' 's3' ... 's8805' 's8806' 's8807']
['Movie' 'TV Show']
['Dick Johnson Is Dead' 'Blood & Water' 'Ganglands' ... 'Zombieland'
 'Zoom' 'Zubaan']
['Kirsten Johnson' nan 'Julien Leclercq' ... 'Majid Al Ansari'
 'Peter Hewitt' 'Mozez Singh']
[nan
 'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng'
 'Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabiha Akkari, Sofia Lesaffre, Salim Kechiouche, Noureddine Farihi, Geert Van Rampelberg, Bakary Diombera'
 ...
 'Jesse Eisenberg, Woody Harrelson, Emma Stone, Abigail Breslin, Amber Heard, Bill Murray, Derek Graf'
 'Tim Allen, Courteney Cox, Chevy Chase, Kate Mara, Ryan Newman, Michael Cassidy, Spencer Breslin, Rip Torn, Kevin Zegers'
 'Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanana, Manish Ch

In [76]:
def get_unique_chars(df): 
    text = ''.join(df['comentario'].astype(str).values.flatten())
    unique_chars = list(set(text))
    return unique_chars


# Limpeza de colunas do dataframe para o primeiro parse 
def cleaning_df (df,column_name):
    df_clean = df.copy()
    exclude_chars = ["’", "—", "–",'™']
    for char in exclude_chars:
        # Essa expressão regular remove todos os caracteres que não estão no alfabeto ou que possuem comprimento menor que 2. Ela também removerá "s" e sinais de pontuação.
        df_clean[column_name] = df_clean[column_name].replace(to_replace=r'[^a-zA-Z]|(\b\w{1}\b)', value=' ', regex=True)
    df_clean[column_name] = df_clean[column_name].replace(regex=r' +', value=' ') # remove quaisquer espaços duplicados ou triplicados que foram gerados como resultado da primeira linha.
    df_clean[column_name] = [content.translate(str.maketrans('','', string.punctuation)) for content in df_clean[column_name]]
    df_clean[column_name] = [content.translate(str.maketrans('','', string.digits)) for content in df_clean[column_name]]
    df_clean[column_name] = df_clean[column_name].str.strip()
    return(df_clean)

In [77]:
no_comentario_unique = len(df['description'].unique())
print(f'O dataset apresenta {df.shape[0]} entradas e {df.shape[1]} atributos.')
print(f'A coluna "description", que é a que contem os comentários, possui {no_comentario_unique} entradas únicas.')


O dataset apresenta 8807 entradas e 12 atributos.
A coluna "description", que é a que contem os comentários, possui 8775 entradas únicas.


In [78]:
reated_lines = df.shape[0]-len(df['description'].unique())
print(f'Podemos ver que possuimos {reated_lines} comentários repetidos.')

Podemos ver que possuimos 32 comentários repetidos.


In [79]:
print(f'O dataset apresenta {df.duplicated().sum()} linhas duplicadas.')
print("Podemos ver que apesar de possuirmos descrições iguais, não há linhas idênticas.")

O dataset apresenta 0 linhas duplicadas.
Podemos ver que apesar de possuirmos descrições iguais, não há linhas idênticas.


In [80]:
print("Podemos notar que através da análise que temos viversas linhas repetidas poucas vezes.\
       Se tratam de 27 comentários diferentes com repetições variadas de 4 a 2 instâncias.")
df_grouped = df[['show_id','description']].groupby(by='description').count().sort_values(by='show_id',ascending=False)
repeated_comments = df_grouped[df_grouped['show_id'] > 1]
print(repeated_comments.count())

Podemos notar que através da análise que temos viversas linhas repetidas poucas vezes.       Se tratam de 27 comentários diferentes com repetições variadas de 4 a 2 instâncias.
show_id    27
dtype: int64


In [69]:
repeated_df = df[df['description'].isin(repeated_comments.index)]

In [82]:
print(repeated_df.count())
print("Podemos ver que possuimos 59 shows que possuem a pelo menos uma discrição igual a outro. Essa informação é corroborada pelo title, que possui a mesma cardinalidade.")

show_id         59
type            59
title           59
director        46
cast            52
country         39
date_added      59
release_year    59
rating          59
duration        59
listed_in       59
description     59
dtype: int64
Podemos ver que possuimos 59 shows que possuem a pelo menos uma discrição igual a outro. Essa informação é corroborada pelo title, que possui a mesma cardinalidade.


In [90]:
repeated_df[['title','description']].sort_values(by='description')

Unnamed: 0,title,description
78,Tughlaq Durbar,A budding politician has devious plans to rise...
79,Tughlaq Durbar (Telugu),A budding politician has devious plans to rise...
7022,Hum Saath-Saath Hain,A scheming matriarch plots to cut off her disa...
2969,Together For Eternity,A scheming matriarch plots to cut off her disa...
3492,Oh! Baby (Malayalam),A surly septuagenarian gets another chance at ...
3516,Oh! Baby,A surly septuagenarian gets another chance at ...
3493,Oh! Baby (Tamil),A surly septuagenarian gets another chance at ...
8051,Solo: A Star Wars Story,A young Han Solo tries to settle an old score ...
8052,Solo: A Star Wars Story (Spanish Version),A young Han Solo tries to settle an old score ...
5965,22-Jul,"After devastating terror attacks in Norway, a ..."


Podemos ver através da análise acima que os títulos com descrição repetida realmente é apenas uma outra versão do título original.


In [91]:
repeated_df.sort_values(by='description')

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
78,s79,Movie,Tughlaq Durbar,Delhiprasad Deenadayalan,"Vijay Sethupathi, Parthiban, Raashi Khanna",,"September 11, 2021",2020,TV-14,145 min,"Comedies, Dramas, International Movies",A budding politician has devious plans to rise...
79,s80,Movie,Tughlaq Durbar (Telugu),Delhiprasad Deenadayalan,"Vijay Sethupathi, Parthiban, Raashi Khanna",,"September 11, 2021",2021,TV-14,145 min,"Comedies, Dramas, International Movies",A budding politician has devious plans to rise...
7022,s7023,Movie,Hum Saath-Saath Hain,Sooraj R. Barjatya,"Salman Khan, Karisma Kapoor, Saif Ali Khan, Ta...",India,"January 1, 2018",1999,TV-G,176 min,"Dramas, International Movies, Music & Musicals",A scheming matriarch plots to cut off her disa...
2969,s2970,Movie,Together For Eternity,Sooraj R. Barjatya,"Salman Khan, Karisma Kapoor, Saif Ali Khan, Ta...",India,"February 1, 2020",1999,TV-G,176 min,"Dramas, International Movies, Music & Musicals",A scheming matriarch plots to cut off her disa...
3492,s3493,Movie,Oh! Baby (Malayalam),B. V. Nandini Reddy,"Samantha Ruth Prabhu, Lakshmi, Rajendraprasad,...",,"September 25, 2019",2019,TV-14,146 min,"Comedies, International Movies, Music & Musicals",A surly septuagenarian gets another chance at ...
3516,s3517,Movie,Oh! Baby,B. V. Nandini Reddy,"Samantha Ruth Prabhu, Lakshmi, Rajendraprasad,...",India,"September 14, 2019",2019,TV-14,157 min,"Comedies, International Movies, Music & Musicals",A surly septuagenarian gets another chance at ...
3493,s3494,Movie,Oh! Baby (Tamil),B. V. Nandini Reddy,"Samantha Ruth Prabhu, Lakshmi, Rajendraprasad,...",,"September 25, 2019",2019,TV-14,146 min,"Comedies, International Movies, Music & Musicals",A surly septuagenarian gets another chance at ...
8051,s8052,Movie,Solo: A Star Wars Story,Ron Howard,"Alden Ehrenreich, Woody Harrelson, Emilia Clar...",United States,"January 9, 2019",2018,PG-13,135 min,"Action & Adventure, Children & Family Movies, ...",A young Han Solo tries to settle an old score ...
8052,s8053,Movie,Solo: A Star Wars Story (Spanish Version),Ron Howard,"Alden Ehrenreich, Woody Harrelson, Emilia Clar...",United States,"January 9, 2019",2018,PG-13,135 min,"Action & Adventure, Children & Family Movies, ...",A young Han Solo tries to settle an old score ...
5965,s5966,Movie,22-Jul,Paul Greengrass,"Anders Danielsen Lie, Jon Øigarden, Jonas Stra...","Norway, Iceland, United States","October 10, 2018",2018,R,144 min,"Dramas, Thrillers","After devastating terror attacks in Norway, a ..."


Podemos ver através da análise acima que a maior parte dos dados repetidos possuem a mesma informação, porém alguns títulos possuem informações divergentes como:

- 851	s852	Movie	99 Songs (Tamil)	NaN	NaN	NaN	May 21, 2021	2021	TV-14	131 min	Dramas, International Movies, Music & Musicals	Challenged to compose 100 songs before he can ...
- 850	s851	Movie	99 Songs	Vishwesh Krishnamoorthy	Ehan Bhat, Edilsy Vargas, Manisha Koirala, Lis...	India	May 21, 2021	