# Netflix Original Films & IMDB Scores


In [1]:
import pandas as pd
import numpy as np


import plotly 
import plotly.express as px
import plotly.graph_objs as go
import plotly.offline as py
from plotly.offline import iplot
from plotly.subplots import make_subplots
import plotly.figure_factory as ff

In [2]:
df = pd.read_csv('db/NetflixOriginals.csv')
df

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi
...,...,...,...,...,...,...
579,Taylor Swift: Reputation Stadium Tour,Concert Film,"December 31, 2018",125,8.4,English
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English
582,Emicida: AmarElo - It's All For Yesterday,Documentary,"December 8, 2020",89,8.6,Portuguese


## Limpiando los datos

El dataset cuenta con 584 peliculas y con 6 columnas

In [3]:
df.shape

(584, 6)

Es demasiado raro que encontremos datos demasiado limpios, pero nos ayudara a tener un comienzo muy bueno.

In [4]:
df.isnull().sum()

Title         0
Genre         0
Premiere      0
Runtime       0
IMDB Score    0
Language      0
dtype: int64

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 584 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       584 non-null    object 
 1   Genre       584 non-null    object 
 2   Premiere    584 non-null    object 
 3   Runtime     584 non-null    int64  
 4   IMDB Score  584 non-null    float64
 5   Language    584 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 27.5+ KB


El tipo de datos "Premiere" debemos convertirlo a un datetime, porque actualemnte es un objeto.

In [6]:
df['date'] = pd.to_datetime(df['Premiere'])
df['date']

0     2019-08-05
1     2020-08-21
2     2019-12-26
3     2018-01-19
4     2020-10-30
         ...    
579   2018-12-31
580   2015-10-09
581   2018-12-16
582   2020-12-08
583   2020-10-04
Name: date, Length: 584, dtype: datetime64[ns]

Para poder tener un analisis mas sencillo vamos a separar la fecha completa en diferentes columnas.

In [7]:
df['year'] = df['date'].dt.year
df['year_month'] = df['date'].dt.strftime('%Y-%m')
df['month']= df['date'].dt.month
df['day_of_week']=df['date'].dt.dayofweek
df.head(1)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,date,year,year_month,month,day_of_week
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,2019-08-05,2019,2019-08,8,0


# Análisis

## Genero
Existen 115 generos unicos en el data set.

In [8]:
df['Genre'].nunique()

115

Vamos a normalizar los datos esto es muy importante hacerlo, ya que nos ayudara a entender cual es el genero que predomina más.

In [9]:
df['Genre'].value_counts(normalize=True)

Documentary               0.272260
Drama                     0.131849
Comedy                    0.083904
Romantic comedy           0.066781
Thriller                  0.056507
                            ...   
Anthology/Dark comedy     0.001712
Romance drama             0.001712
Action thriller           0.001712
Variety Show              0.001712
Action/Science fiction    0.001712
Name: Genre, Length: 115, dtype: float64

In [10]:
print(df['Genre'].value_counts()[:10])
print('-'*50)
print('Top 5  de generos cuenta con el: ',(df['Genre'].value_counts()[:5].sum()*100)/df['Genre'].value_counts().sum(), '%')
genre = df['Genre'].value_counts()[:20]

Documentary        159
Drama               77
Comedy              49
Romantic comedy     39
Thriller            33
Comedy-drama        14
Crime drama         11
Horror               9
Biopic               9
Action               7
Name: Genre, dtype: int64
--------------------------------------------------
Top 5  de generos cuenta con el:  61.13013698630137 %


- El 27.2% de las peliculas son de Documentales y despues le sigue las peliculas de Drama con 13.1%.
- La mayoria de peliculas provienen de diferentes generos y una gran cantidad de pelicuas estan en el rango del 1%.
- Algo impresionante es el top 5 de los generos simplemente abarca el 61.13% de las peliculas. Y sus generos son Documental, Drama, Comedia romantica, Thriller y comedia dramatica.

In [11]:
fig = px.bar(genre,
    x=genre.index,
    y=genre.values,
    labels={'y':'Numero de peliculas por genero', 'index':'Genre'},
    title='Los 20 generos con mas peliculas'
)
fig.update_layout(xaxis={'categoryorder':'total descending'})
fig.show()

## Idioma
Existen 38 idiomas unicos dentro del data set.

In [12]:
df['Language'].nunique()

38

- El idioma ingles cuenta con el 68.6% de pelicula y el segundo mayor es el idioma Hindi con el 5.6%.

In [13]:
df['Language'].value_counts(normalize=True).head(5)

English    0.686644
Hindi      0.056507
Spanish    0.053082
French     0.034247
Italian    0.023973
Name: Language, dtype: float64

In [14]:
lenguage_count = df['Language'].value_counts()[:10]
lenguage_count

English       401
Hindi          33
Spanish        31
French         20
Italian        14
Portuguese     12
Indonesian      9
Korean          6
Japanese        6
Turkish         5
Name: Language, dtype: int64

In [15]:
fig = px.bar(lenguage_count,
    x=lenguage_count.index,
    y=lenguage_count.values,
    labels={'y':'Total','index':'Idioma'}
)
fig.show()

- Es impresionante como el idioma Ingles tiene una gran cantidad de peliculas.

## Duracion de las peliculas en minutos

In [16]:
df['Runtime'].describe()

count    584.000000
mean      93.577055
std       27.761683
min        4.000000
25%       86.000000
50%       97.000000
75%      108.000000
max      209.000000
Name: Runtime, dtype: float64

- La **duracion** de las peliculas duran entre **93 a 97** minutos.
- Podemos observar que podrian existir **valores atitpicos** tanto de lado **maximo** y **minimo**.
- Algo importante la **media** tiene una puntuacion **mas baja que la mediana**. Esto nos indicaria que puede llegar a estar **sesgada izquierda**, tamnien podremos ver una **gran cantidad** de peliculas en el **lado minimo**.

In [17]:
fig = px.histogram(df,
    x='Runtime',
    title='Duracion de las peliculas en Netflix'
)
fig.show()

In [21]:
fig = px.box(df, x='Runtime', hover_data=df[['Title','Genre']])
fig.update_traces(quartilemethod="inclusive")
fig.show()

- Como habiamos esperado, tenemos una distribucion sesgada con multiples valores atipico mayormente en el lado izquierdo, pero en el lado derecho tiene una menor cantidad.
- La pelicula con la duracion maxima es 'Irishman'.
- Increiblemente la pelicula con la menor duracion fue de 4 minutos y fue la pelicula 'Sol Levante'.

## IMDB Score

In [24]:
df['IMDB Score'].describe()

count    584.000000
mean       6.271747
std        0.979256
min        2.500000
25%        5.700000
50%        6.350000
75%        7.000000
max        9.000000
Name: IMDB Score, dtype: float64

- Las peliculas de Netflix tienen un promedio de calificacion de 6.3, con un maximo de 9 y minimo de 2.5.
- Los valores medios y la mediana estan algo cercano entre si. Dado que la mediana es mayor al promedio. Vamos a poder darnos la idea que existiran varios valores atipicos en lado izquierdo minimo.

In [26]:
fig = px.histogram(df,
    x='IMDB Score',
    title='Puntuacion de IMDB de los programas de Netflix'
)
fig.show()

In [27]:
fig = px.box(df, x='IMDB Score', hover_data=df[['Title','Genre']])
fig.show()

- Enter the Anime fue la calificacion mas baja con 2.5
- David Attenborough es un cocumental que obtuvo la cantidad maxima de puntacion de 9.
- Confirmamos que existen varios valores que estan sesgado a la izquierda.
- Los documentales es el genero que tiene la calificacion mas alta y la mas baja.


In [32]:
df[['IMDB Score','Runtime']].corr()

Unnamed: 0,IMDB Score,Runtime
IMDB Score,1.0,-0.040896
Runtime,-0.040896,1.0


In [36]:
fig = px.scatter(df, x='IMDB Score', y='Runtime')
fig.show()

- Se puede observar claramente que no existe una correlacion cercana entre los dos datos.

## Año

In [57]:
year = df['year'].value_counts()
year

2020    183
2019    125
2018     99
2021     71
2017     66
2016     30
2015      9
2014      1
Name: year, dtype: int64

In [58]:
fig = px.bar(year,
    x=year.index,
    y=year.values,
    labels={'x':'Contador de peliculas por año', 'y':'Año'}
)
fig.show()

- Se puede observar que Netflix tiene un crecimiento claro desde su inicio. 

## Mes

In [59]:
month = df[['month']].value_counts(sort=False)
month

month
1        37
2        39
3        48
4        63
5        53
6        35
7        34
8        37
9        53
10       77
11       57
12       51
dtype: int64

In [60]:
months_name = ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']
fig = px.bar(month,
    x=months_name,
    y=month.values,
    labels={'x':'Contador de peliculas por mes', 'y':'Año'}
)
fig.show()

- Abril y Octubre son los meses con mayor lanzamientos. 
- Junio a Agosto fueron los meses que no tuvieron un crecimiento en sus estrenos.

## Dias

In [66]:
day_of_week = df[['day_of_week']].value_counts(sort=False)
day_of_week

day_of_week
0               17
1               29
2               82
3               59
4              383
5                5
6                9
dtype: int64

In [69]:
day = ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']
fig = px.bar(day_of_week,
    x=day,
    y=day_of_week.values,
    labels={'x':'Contador de peliculas por Dia', 'y':'Año'}
)
fig.show()

- Los viernes claramente son los dias con mayor cantidad de lanzamientos.
- Los sabados y domingos son los dias con menor cantidad de lanzamientos.

## Las 10 calificaciones más bajas por género

In [76]:
bottom_10_ratings_by_genre = df.groupby('Genre')['IMDB Score'].mean().sort_values()[:10]
bottom_10_ratings_by_genre

Genre
Heist film/Thriller        3.700000
Musical/Western/Fantasy    3.900000
Horror anthology           4.300000
Political thriller         4.300000
Superhero-Comedy           4.400000
Science fiction/Drama      4.533333
Romance drama              4.600000
Mystery                    4.650000
Horror thriller            4.700000
Anime / Short              4.700000
Name: IMDB Score, dtype: float64

In [78]:
fig = px.bar(bottom_10_ratings_by_genre,
    x=bottom_10_ratings_by_genre.index,
    y=bottom_10_ratings_by_genre.values,
    labels={'y':'Puntaje de calificación promedio','x':'Genero'}
)
fig.show()

- Los generos de Thriller y Musicales son los generos con menos calificacion.
- Los genero de Terror y Anime son los generos con mayor calificacion.

## Las 20 mejores películas con alta calificación

In [87]:
top_20_high_rating = df[['IMDB Score','Title','Genre','year','Language']].sort_values(['IMDB Score'], ascending=False)[:20]
top_20_high_rating.head(4)

Unnamed: 0,IMDB Score,Title,Genre,year,Language
583,9.0,David Attenborough: A Life on Our Planet,Documentary,2020,English
582,8.6,Emicida: AmarElo - It's All For Yesterday,Documentary,2020,Portuguese
581,8.5,Springsteen on Broadway,One-man show,2018,English
580,8.4,Winter on Fire: Ukraine's Fight for Freedom,Documentary,2015,English/Ukranian/Russian


In [92]:
fig = px.scatter(top_20_high_rating,
    x='IMDB Score',
    y='Title',
    hover_data=top_20_high_rating[['Genre','year','Language']],
    title='Las 20 mejores películas con alta calificación',
    color='Genre'
)
fig.show()

- 16 de las 20 películas mejor calificadas provienen del género documental.

## 20 películas con la calificación más baja

In [100]:
top_20_bottom_rating = df[['IMDB Score','Title','Genre','year','Language']].sort_values(['IMDB Score'])[:20]
top_20_bottom_rating.head(4)

Unnamed: 0,IMDB Score,Title,Genre,year,Language
0,2.5,Enter the Anime,Documentary,2019,English/Japanese
1,2.6,Dark Forces,Thriller,2020,Spanish
2,2.6,The App,Science fiction/Drama,2019,Italian
3,3.2,The Open House,Horror thriller,2018,English


In [101]:
fig = px.scatter(top_20_bottom_rating,
    x='IMDB Score',
    y='Title',
    hover_data=top_20_bottom_rating[['Genre','year','Language']],
    title='Las 20 mejores películas con baja calificación',
    color='Genre'
)
fig.show()

- Es increible que los generos de peliculas con la califiacion mas baja existe una gran diversidad de generos.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=322df7a5-4b18-4ddb-8f91-c142e3bf7671' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>