#### <font size=10>ANÁLISE EXPLORATÓRIA (PROJETO PARA ESTUDOS)</font>
***

***

O primeiro passo para a análise exploratória é a escolha dos dados. Nesse caso, utilizarei um dataset com os shows da Netflix, um serviço de streaming conhecido mundialmente e possui mais de 220 milhões de assinantes atualmente.
Dessa forma, é importante analisar o que está no seu catálogo e o que os assinantes tem recebido pelo serviço.

Portanto, a análise tem o objetivo de:
- Tratar os dados
- Aplicar medidas descritivas
- Utilizar os conhecimentos de data visualization para responder algumas perguntas:
    - quantidade de filmes e séries disponíveis no catálogo
    - boxplot do ano de lançamento de filmes e séries
    - 10 países que mais produzem conteúdo 
    - duração dos shows
    - em qual ano o volume de implementação do catálogo foi maior?
    - qual gênero é o mais frequente?
    - diretores com mais títulos
    - atores com mais títulos (USA e SK, por exemplo)

## <font color=red>1. Dataset do projeto</font>
***

O dataset foi importado do banco de dados Kaggle, um site que possui uma infinidade de datasets com fins de estudo e pesquisa. Utilizou-se a biblioteca **opendatasets** para o download.

In [None]:
import opendatasets as od
od.download('https://www.kaggle.com/shivamb/netflix-shows')

Importando as bibliotecas que serão utilizadas.

In [1]:
import matplotlib.pyplot as plt
import matplotlib
import numpy as np
import pandas as pd
import seaborn as sns
import squarify

Abrindo o arquivo pela biblioteca **pandas** e salvando em uma variável para começar o seu tratamento.

In [2]:
file_path = 'netflix-shows/'

netflix_shows_data = pd.read_csv(file_path + 'netflix_titles.csv')
netflix_shows_data.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [3]:
netflix_shows_data.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [4]:
netflix_shows_data.duplicated().value_counts()

False    8807
dtype: int64

Informando o número de linhas x colunas e as informações do dataset.

In [5]:
print('O dataset tem {} linhas e {} colunas'.format(netflix_shows_data.shape[0], netflix_shows_data.shape[1]))

O dataset tem 8807 linhas e 12 colunas


In [6]:
netflix_shows_data.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

Vendo as estatísticas básicas do dataset.

In [7]:
netflix_shows_data.describe(include='all')

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
count,8807,8807,8807,6173,7982,7976,8797,8807.0,8803,8804,8807,8807
unique,8807,2,8807,4528,7692,748,1767,,17,220,514,8775
top,s1,Movie,Dick Johnson Is Dead,Rajiv Chilaka,David Attenborough,United States,"January 1, 2020",,TV-MA,1 Season,"Dramas, International Movies","Paranormal activity at a lush, abandoned prope..."
freq,1,6131,1,19,19,2818,109,,3207,1793,362,4
mean,,,,,,,,2014.180198,,,,
std,,,,,,,,8.819312,,,,
min,,,,,,,,1925.0,,,,
25%,,,,,,,,2013.0,,,,
50%,,,,,,,,2017.0,,,,
75%,,,,,,,,2019.0,,,,


## <font color=red>2. Tratando o dataset</font>
***

Observando quantos dados faltantes existem. 

In [8]:
netflix_shows_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


In [9]:
netflix_shows_data.isnull().sum().sort_values(ascending=False)

director        2634
country          831
cast             825
date_added        10
rating             4
duration           3
show_id            0
type               0
title              0
release_year       0
listed_in          0
description        0
dtype: int64

In [10]:
percentual_faltante = (netflix_shows_data.isnull().sum().sort_values(ascending=False)) / netflix_shows_data.shape[0]
percentual_faltante = percentual_faltante * 100
percentual_faltante.round(2)

director        29.91
country          9.44
cast             9.37
date_added       0.11
rating           0.05
duration         0.03
show_id          0.00
type             0.00
title            0.00
release_year     0.00
listed_in        0.00
description      0.00
dtype: float64

Os dados de director, country, cast, date_added, rating e duration não estão informados.
Dessa forma, foi preenchido com "Unavailable" as colunas director, country, cast, date_added e rating de valores faltantes.

In [11]:
netflix_shows_data.country.replace(np.nan,'Unavailable',inplace=True)
netflix_shows_data.director.replace(np.nan,'Unavailable',inplace=True)
netflix_shows_data.cast.replace(np.nan,'Unavailable',inplace=True)
netflix_shows_data.date_added.replace(np.nan,'Unavailable',inplace=True)
netflix_shows_data.rating.replace(np.nan,'Unavailable',inplace=True)

In [12]:
netflix_shows_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      8807 non-null   object
 4   cast          8807 non-null   object
 5   country       8807 non-null   object
 6   date_added    8807 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8807 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


In [13]:
netflix_shows_data[netflix_shows_data.duration.isnull()]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
5541,s5542,Movie,Louis C.K. 2017,Louis C.K.,Louis C.K.,United States,"April 4, 2017",2017,74 min,,Movies,"Louis C.K. muses on religion, eternal love, gi..."
5794,s5795,Movie,Louis C.K.: Hilarious,Louis C.K.,Louis C.K.,United States,"September 16, 2016",2010,84 min,,Movies,Emmy-winning comedy writer Louis C.K. brings h...
5813,s5814,Movie,Louis C.K.: Live at the Comedy Store,Louis C.K.,Louis C.K.,United States,"August 15, 2016",2015,66 min,,Movies,The comic puts his trademark hilarious/thought...


Havia uma duração no meio da coluna rating e percebeu-se que na verdade esses dados eram os faltantes da duration. Então, utilizando a função **loc** foi possível fazer essa alteração.

In [14]:
netflix_shows_data.loc[netflix_shows_data.rating == "66 min", 'duration'] = "66 min"
netflix_shows_data.loc[netflix_shows_data.rating == "74 min", 'duration'] = "74 min"
netflix_shows_data.loc[netflix_shows_data.rating == "84 min", 'duration'] = "84 min"

Criando um dicionário com as classificações dos shows.

In [15]:
netflix_shows_data['rating'].replace(
    {'PG-13':'Above 13 years', 
    'TV-MA':'Adult',
    'PG': 'Parental Guidance: Kids',
    'TV-14':'Above 13 years',
    'TV-PG':'Parental Guidance: Kids',
    'TV-Y': 'Kids',
    'TV-Y7': 'Kids above 7 years',
    'R': 'Adult',
    'TV-G':'Kids',
    'G':'Kids',
    'NC-17':'Adult',
    '74 min':'Adult',
    '84 min':'Adult',
    '66 min':'Adult',
    'UR':'Unrated',
    'NR':'Unrated',
    'TV-Y7-FV':'Kids above 7 years'},
    inplace=True)

In [16]:
netflix_shows_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      8807 non-null   object
 4   cast          8807 non-null   object
 5   country       8807 non-null   object
 6   date_added    8807 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8807 non-null   object
 9   duration      8807 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


## <font color=red>3. Análises</font>
***

Agora que os dados estão tratados é hora de analisar nosso dataset. Primeiro, será feito um novo dataset, pois existem colunas desnecessárias para nossa análise.

In [17]:
netflix = netflix_shows_data.drop(['show_id','description'], axis='columns')

netflix.head()

Unnamed: 0,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,Unavailable,United States,"September 25, 2021",2020,Above 13 years,90 min,Documentaries
1,TV Show,Blood & Water,Unavailable,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,Adult,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries"
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",Unavailable,"September 24, 2021",2021,Adult,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
3,TV Show,Jailbirds New Orleans,Unavailable,Unavailable,Unavailable,"September 24, 2021",2021,Adult,1 Season,"Docuseries, Reality TV"
4,TV Show,Kota Factory,Unavailable,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,Adult,2 Seasons,"International TV Shows, Romantic TV Shows, TV ..."


Observa-se que a data de adição no serviço de streaming está com a data completa, então para nossa análise, vamos colocar apenas o ano.

In [18]:
year = []

for date in netflix.date_added:
    year.append(date.split(', ')[-1])
    
netflix['year_added'] = year
netflix.drop('date_added', axis='columns', inplace=True)
netflix.head()

Unnamed: 0,type,title,director,cast,country,release_year,rating,duration,listed_in,year_added
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,Unavailable,United States,2020,Above 13 years,90 min,Documentaries,2021
1,TV Show,Blood & Water,Unavailable,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021,Adult,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries",2021
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",Unavailable,2021,Adult,1 Season,"Crime TV Shows, International TV Shows, TV Act...",2021
3,TV Show,Jailbirds New Orleans,Unavailable,Unavailable,Unavailable,2021,Adult,1 Season,"Docuseries, Reality TV",2021
4,TV Show,Kota Factory,Unavailable,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021,Adult,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",2021


Agora, o passo é dividir director, cast, country e listed_in, devido ao armazenamento com ',' nessas colunas.

In [19]:
director = netflix.set_index('title').director.str.split(', ',expand=True).stack().reset_index(level=1,drop=True)
cast = netflix.set_index('title').cast.str.split(', ',expand=True).stack().reset_index(level=1, drop=True)
country = netflix.set_index('title').country.str.split(', ',expand=True).stack().reset_index(level=1, drop=True)
genres=netflix.set_index('title').listed_in.str.split(', ',expand=True).stack().reset_index(level=1, drop=True)

Transformando duration para inteiro.

In [20]:
netflix['duration'] = netflix.duration.astype(str).map(lambda x: x.split(' ')[0]).astype(int)

In [21]:
netflix.head()

Unnamed: 0,type,title,director,cast,country,release_year,rating,duration,listed_in,year_added
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,Unavailable,United States,2020,Above 13 years,90,Documentaries,2021
1,TV Show,Blood & Water,Unavailable,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021,Adult,2,"International TV Shows, TV Dramas, TV Mysteries",2021
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",Unavailable,2021,Adult,1,"Crime TV Shows, International TV Shows, TV Act...",2021
3,TV Show,Jailbirds New Orleans,Unavailable,Unavailable,Unavailable,2021,Adult,1,"Docuseries, Reality TV",2021
4,TV Show,Kota Factory,Unavailable,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021,Adult,2,"International TV Shows, Romantic TV Shows, TV ...",2021


Agora com o data cleaning feito, podemos começar com as análises gráficas.

In [22]:
shows = pd.DataFrame(netflix['type'].value_counts())
shows

Unnamed: 0,type
Movie,6131
TV Show,2676


In [23]:
sns.set_theme(style='dark')

- quantidade de filmes e séries disponíveis no catálogo

In [None]:
fig = plt.figure(figsize=(15,10))

ax = sns.barplot(
    x=shows.type,
    y=shows.index,
    orient='h',
    alpha=0.7,
    palette='gist_heat'
)

plt.title('Frequência de Shows', fontfamily='serif',fontsize=20, fontweight='bold')
plt.xticks(fontfamily='serif', fontsize=16)
plt.yticks(fontfamily='serif', fontsize=16)
plt.xlabel('Quantidade', fontfamily='serif', fontsize=16)
plt.ylabel('Tipo', fontfamily='serif', fontsize=16)
plt.xlim(0,6600)

total = len(netflix)
#plotar porcentagem
for p in ax.patches:
    percentage = '{:.1f}%'.format((100 * p.get_width()/total).round(2))
    x = p.get_x() + p.get_width() + 20
    y = p.get_y() + p.get_height() / 2
    ax.annotate(percentage, (x, y), fontfamily='serif', fontsize = 16, fontweight='bold')
#ax.text(3500, 0.8, 'Observa-se que existem mais filmes \ndo que séries no catálogo.', fontfamily='serif',fontsize=16, fontweight='bold')

fig.savefig('netflix-shows/shows-frequency.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()

- boxplot do ano de lançamento de filmes e séries

In [None]:
fig = plt.figure(figsize=(15,10))

ax = sns.boxplot(
    y=netflix.type,
    x=netflix.release_year,
    boxprops={'alpha': 0.7},
    flierprops={'marker': 'x'},
    palette='gist_heat'
    )

plt.title('Ano de lançamento dos shows', fontfamily='serif',fontsize=20, fontweight='bold')
plt.xticks(fontfamily='serif', fontsize=16)
plt.yticks(fontfamily='serif', fontsize=16)
plt.xlim(1980,2022)
plt.xlabel('')
plt.ylabel('Tipo', fontfamily='serif', fontsize=16)
plt.grid()

fig.savefig('netflix-shows/release-year-boxplot.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()

In [26]:
country_10 = pd.DataFrame(country.value_counts()[:11], columns=['quantidade'])
country_10

Unnamed: 0,quantidade
United States,3689
India,1046
Unavailable,831
United Kingdom,804
Canada,445
France,393
Japan,318
Spain,232
South Korea,231
Germany,226


- 10 países que mais produzem conteúdo 

In [None]:
fig = plt.figure(figsize=(20,10))

ax = sns.barplot(
    x=country_10.drop(['Unavailable']).index,
    y=country_10.drop(['Unavailable']).quantidade,
    orient='v',
    alpha=0.8,
    palette='Reds_r'
)


plt.xticks(fontfamily='serif', fontsize=16, rotation=45)
plt.yticks(range(0,4500,500),fontfamily='serif', fontsize=16)

ax.set_title('Top 10 países que mais produzem títulos', fontfamily='serif', fontsize=20, fontweight='bold', pad=10)
ax.set_xlabel('Países', fontfamily='serif', fontsize=16)
ax.set_ylabel('Quantidade', fontfamily='serif', fontsize=16)

fig.savefig('netflix-shows/country-top10.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()

- duração dos shows


In [None]:
plt.rcParams['font.family'] = 'serif'

fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(24,12))


movie = netflix[netflix['type'] == 'Movie']

sns.scatterplot(ax = ax[0],
    x=movie.release_year,
    y=movie.duration,
    s=100,
    hue=movie.duration,
    palette='gist_heat_r'
)

ax[0].tick_params(labelsize=14)
ax[0].set_xlabel('Ano de Lançamento', fontsize = 14, labelpad=10)
ax[0].set_ylabel('Duração', fontsize = 14, labelpad=10)
ax[0].set_title('Duração dos filmes ao longo dos anos', fontsize = 20)
ax[0].legend(title='duração (min)', title_fontsize=15, fontsize=15, frameon=False)


tv_shows = netflix[netflix['type'] == 'TV Show']
tmp = pd.DataFrame(tv_shows.duration.value_counts())

sns.barplot(ax = ax[1],
    x=tmp.index,
    y=tmp.duration,
    palette='Reds_r'
)

ax[1].tick_params(labelsize=14)
ax[1].set_xlabel('N° de Temporadas', fontsize = 14, labelpad=10)
ax[1].set_ylabel('Quantidade', fontsize = 14, labelpad=10)
ax[1].set_title('Frequência de TV Show em relação às temporadas', fontsize = 20)
ax[1].set_ylim(-15)

fig.savefig('netflix-shows/duration.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()

In [29]:
movie[movie.duration >= 240]

Unnamed: 0,type,title,director,cast,country,release_year,rating,duration,listed_in,year_added
717,Movie,Headspace: Unwind Your Mind,Unavailable,"Andy Puddicombe, Evelyn Lewis Prieto, Ginger D...",Unavailable,2021,Kids,273,Documentaries,2021
2491,Movie,The School of Mischief,Houssam El-Din Mustafa,"Suhair El-Babili, Adel Emam, Saeed Saleh, Youn...",Egypt,1973,Above 13 years,253,"Comedies, Dramas, International Movies",2020
4253,Movie,Black Mirror: Bandersnatch,Unavailable,"Fionn Whitehead, Will Poulter, Craig Parkinson...",United States,2018,Adult,312,"Dramas, International Movies, Sci-Fi & Fantasy",2018


obs.: o ano de lançamento das séries está em relação a última temporada lançada, o mesmo vale para o ano que foi adicionada no catálogo, por isso não foi feito um gráfico de dispersão.

In [30]:
adicao = pd.DataFrame(netflix.groupby('year_added').size().rename('quantidade'))

adicao

Unnamed: 0_level_0,quantidade
year_added,Unnamed: 1_level_1
2008,2
2009,2
2010,1
2011,13
2012,3
2013,11
2014,24
2015,82
2016,429
2017,1188


- em qual ano o volume de implementação do catálogo foi maior?

In [None]:
sns.set_theme(style="dark")

fig = plt.figure(figsize=(20,10))

ax = sns.barplot(
    x=adicao.drop(['Unavailable']).index,
    y=adicao.drop(['Unavailable']).quantidade,
    orient='v',
    alpha=0.8,
    palette='Reds'
)

plt.xticks(fontfamily='serif', fontsize=16, rotation=45)
plt.yticks(range(0,2100,200),fontfamily='serif', fontsize=16)

ax.set_title('Quantidade de lançamentos por ano', fontfamily='serif', fontsize=20, fontweight='bold', pad=10)
ax.set_xlabel('Ano', fontfamily='serif', fontsize=16)
ax.set_ylabel('Quantidade', fontfamily='serif', fontsize=16)

fig.savefig('netflix-shows/releases-per-year.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()

Criando datasets para visualização da Treemap de Movies e TV Shows.

In [32]:
treemap_df = pd.DataFrame(genres, columns=['genre']).merge(netflix[['title', 'type']], how='inner', on='title')

tmp_movies = pd.DataFrame(treemap_df[treemap_df['type'] == 'Movie'].genre.value_counts().rename('quantidade').sort_values(ascending=False))
tmp_tvshows = pd.DataFrame(treemap_df[treemap_df['type'] == 'TV Show'].genre.value_counts().rename('quantidade').sort_values(ascending=False))

In [33]:
tmp_tvshows.rename(index={'Stand-Up Comedy & Talk Shows': 'Stand-Up & Talk Shows'}, inplace=True)

In [34]:
norm_movies = matplotlib.colors.Normalize(vmin=min(tmp_movies.quantidade), vmax=max(tmp_movies.quantidade))
colors_movies = [matplotlib.cm.Reds(norm_movies(value)) for value in tmp_movies.quantidade]

norm_tvshows = matplotlib.colors.Normalize(vmin=min(tmp_tvshows.quantidade), vmax=max(tmp_tvshows.quantidade))
colors_tvshows = [matplotlib.cm.Reds(norm_tvshows(value)) for value in tmp_tvshows.quantidade]

- qual gênero é o mais frequente?

In [None]:
plt.rcParams['font.family'] = 'serif'
fig, ax = plt.subplots(nrows=2, ncols=1, figsize=(28,28))

im1 = squarify.plot(ax=ax[0], 
              sizes=tmp_movies.quantidade, 
              label=tmp_movies.index, alpha=.8, 
              color=colors_movies, 
              text_kwargs={'fontsize':12})

ax[0].set_title('Gêneros com mais títulos no catálogo (Filmes)', fontsize = 20)
ax[0].axis('off')

squarify.plot(ax=ax[1], 
              sizes=tmp_tvshows.quantidade, 
              label=tmp_tvshows.index, 
              alpha=.8, 
              color=colors_tvshows, 
              text_kwargs={'fontsize':12})

ax[1].set_title('Gêneros com mais títulos no catálogo (Séries)', fontsize = 20)
ax[1].axis('off')

fig.savefig('netflix-shows/genres-treemap.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()

In [36]:
director_10 = pd.DataFrame(director.value_counts()[:11], columns=['quantidade'])
director_10

Unnamed: 0,quantidade
Unavailable,2634
Rajiv Chilaka,22
Jan Suter,21
Raúl Campos,19
Suhas Kadav,16
Marcus Raboy,16
Jay Karas,15
Cathy Garcia-Molina,13
Martin Scorsese,12
Jay Chapman,12


- diretores com mais títulos

In [None]:
fig = plt.figure(figsize=(20,10))

ax = sns.barplot(
    x=director_10.drop(['Unavailable']).index,
    y=director_10.drop(['Unavailable']).quantidade,
    orient='v',
    alpha=0.8,
    palette='Reds_r'
)


plt.xticks(fontfamily='serif', fontsize=16, rotation=45)
plt.yticks(range(0,30,5),fontfamily='serif', fontsize=16)

ax.set_title('10 diretores com mais títulos no catálogo', fontfamily='serif', fontsize=20, fontweight='bold', pad=10)
ax.set_xlabel('Nomes', fontfamily='serif', fontsize=16)
ax.set_ylabel('Quantidade', fontfamily='serif', fontsize=16)

fig.savefig('netflix-shows/director-top10.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()

In [38]:
cast_df = pd.DataFrame(cast, columns=['cast']).merge(netflix[['title', 'country']], how='inner', on='title')

cast_usa_15 = pd.DataFrame(cast_df[cast_df['country'] == 'United States'].cast.value_counts()[:16].rename('quantidade').sort_values(ascending=False))
cast_sk_15 = pd.DataFrame(cast_df[cast_df['country'] == 'South Korea'].cast.value_counts()[:15].rename('quantidade').sort_values(ascending=False))

- atores com mais títulos (USA e SK, por exemplo)

In [None]:
fig = plt.figure(figsize=(20,10))

ax = sns.barplot(
    x=cast_usa_15.drop(['Unavailable']).index,
    y=cast_usa_15.drop(['Unavailable']).quantidade,
    orient='v',
    alpha=0.8,
    palette='Reds_r'
)


plt.xticks(fontfamily='serif', fontsize=16, rotation=45)
plt.yticks(range(0,30,5),fontfamily='serif', fontsize=16)

ax.set_title('15 atores com mais títulos no catálogo - USA', fontfamily='serif', fontsize=20, fontweight='bold', pad=10)
ax.set_xlabel('Nomes', fontfamily='serif', fontsize=16)
ax.set_ylabel('Quantidade', fontfamily='serif', fontsize=16)

fig.savefig('netflix-shows/cast-usa.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()

In [None]:
fig = plt.figure(figsize=(20,10))

ax = sns.barplot(
    x=cast_sk_15.index,
    y=cast_sk_15.quantidade,
    orient='v',
    alpha=0.8,
    palette='Reds_r'
)


plt.xticks(fontfamily='serif', fontsize=16, rotation=45)
plt.yticks(range(0,11,1),fontfamily='serif', fontsize=16)

ax.set_title('15 atores com mais títulos no catálogo - South Korea', fontfamily='serif', fontsize=20, fontweight='bold', pad=10)
ax.set_xlabel('Nomes', fontfamily='serif', fontsize=16)
ax.set_ylabel('Quantidade', fontfamily='serif', fontsize=16)

fig.savefig('netflix-shows/cast-sk.png', dpi=fig.dpi, bbox_inches='tight')
plt.show()