#Challenge 1 Netflix

Este conjunto de datos consta de todas las películas originales de Netflix lanzadas a partir del 1 de junio de 2021. Además, también incluye todos los documentales y especiales de Netflix. Los datos se extrajeron de Wikipedia, que luego se integró con un conjunto de datos que consta de todas sus puntuaciones IMDB correspondientes. Los miembros de la comunidad votan las puntuaciones de IMDB, y la mayoría de las películas tienen más de 1.000 reseñas.

Contenido:


*   Título de la película
*   Género de la película
*   Fecha de estreno original
*   Tiempo de ejecución en minutos
* Puntuaciones de IMDB (a partir del 01/06/21)
* Idiomas disponibles actualmente (a partir del 01/06/21)



El reto es generar un dashboard interactivo en Dash dónde podamos oberservar lo siguiente: 



1.   Distribución de géneros de película por año de estreno
2.  Distribución de puntuaciones de IMD por año de estreno  
3.   Relación entre tiempo y puntuaciones
4. Relación entre idioma y puntuaciones
5. Top 10 de películas mejores calificadas por año y por idioma (hint: usar filtros interactivos)






In [1]:
!pip install jupyter-dash

Collecting jupyter-dash
  Downloading jupyter_dash-0.4.0-py3-none-any.whl (20 kB)
Collecting ansi2html
  Downloading ansi2html-1.6.0-py3-none-any.whl (14 kB)
Collecting dash
  Downloading dash-2.0.0-py3-none-any.whl (7.3 MB)
[K     |████████████████████████████████| 7.3 MB 5.2 MB/s 
Collecting dash-html-components==2.0.0
  Downloading dash_html_components-2.0.0.tar.gz (3.8 kB)
Collecting plotly>=5.0.0
  Downloading plotly-5.3.1-py2.py3-none-any.whl (23.9 MB)
[K     |████████████████████████████████| 23.9 MB 13 kB/s 
[?25hCollecting dash-table==5.0.0
  Downloading dash_table-5.0.0.tar.gz (3.4 kB)
Collecting flask-compress
  Downloading Flask_Compress-1.10.1-py3-none-any.whl (7.9 kB)
Collecting dash-core-components==2.0.0
  Downloading dash_core_components-2.0.0.tar.gz (3.4 kB)
Collecting tenacity>=6.2.0
  Downloading tenacity-8.0.1-py3-none-any.whl (24 kB)
Collecting brotli
  Downloading Brotli-1.0.9-cp37-cp37m-manylinux1_x86_64.whl (357 kB)
[K     |████████████████████████████████|

In [2]:
import json

from jupyter_dash import JupyterDash # Versión de dash para notebooks
import dash_core_components as dcc # Componentes HTML preconstruidos para dashboards
import dash_html_components as html # Componentes HTML nativos
from dash.dependencies import Input, Output # Clases Input y Output
import plotly.express as px
import pandas as pd

external_stylesheets = ['https://codepen.io/chriddyp/pen/bWLwgP.css']

The dash_core_components package is deprecated. Please replace
`import dash_core_components as dcc` with `from dash import dcc`
  after removing the cwd from sys.path.
The dash_html_components package is deprecated. Please replace
`import dash_html_components as html` with `from dash import html`
  """


In [61]:
df = pd.read_csv('/content/sample_data/NetflixOriginals.csv', encoding='latin-1')
df.tail()


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
579,Taylor Swift: Reputation Stadium Tour,Concert Film,"December 31, 2018",125,8.4,English
580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English
582,Emicida: AmarElo - It's All For Yesterday,Documentary,"December 8, 2020",89,8.6,Portuguese
583,David Attenborough: A Life on Our Planet,Documentary,"October 4, 2020",83,9.0,English


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 584 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       584 non-null    object 
 1   Genre       584 non-null    object 
 2   Premiere    584 non-null    object 
 3   Runtime     584 non-null    int64  
 4   IMDB Score  584 non-null    float64
 5   Language    584 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 27.5+ KB


In [63]:
df['Year'] = df['Premiere'].str[-4:]
print(df)

                                           Title  ...  Year
0                                Enter the Anime  ...  2019
1                                    Dark Forces  ...  2020
2                                        The App  ...  2019
3                                 The Open House  ...  2018
4                                    Kaali Khuhi  ...  2020
..                                           ...  ...   ...
579        Taylor Swift: Reputation Stadium Tour  ...  2018
580  Winter on Fire: Ukraine's Fight for Freedom  ...  2015
581                      Springsteen on Broadway  ...  2018
582    Emicida: AmarElo - It's All For Yesterday  ...  2020
583     David Attenborough: A Life on Our Planet  ...  2020

[584 rows x 7 columns]


In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 584 entries, 0 to 583
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       584 non-null    object 
 1   Genre       584 non-null    object 
 2   Premiere    584 non-null    object 
 3   Runtime     584 non-null    int64  
 4   IMDB Score  584 non-null    float64
 5   Language    584 non-null    object 
 6   Year        584 non-null    object 
dtypes: float64(1), int64(1), object(5)
memory usage: 32.1+ KB


Distribución de géneros de película por año de estreno


In [27]:
count_genre = df['Genre'].value_counts()

print(count_genre)

Documentary                159
Drama                       77
Comedy                      49
Romantic comedy             39
Thriller                    33
                          ... 
Romantic comedy/Holiday      1
Adventure-romance            1
Science fiction/Mystery      1
Family/Comedy-drama          1
Romance drama                1
Name: Genre, Length: 115, dtype: int64


In [44]:
dfg = df.groupby(["Year","Genre"])["Title"].count().reset_index(name="count")

print(dfg)

     Year                     Genre  count
0    2014               Documentary      1
1    2015          Comedy / Musical      1
2    2015               Documentary      6
3    2015                 War drama      1
4    2015                   Western      1
..    ...                       ...    ...
195  2021           Science fiction      1
196  2021  Science fiction thriller      1
197  2021          Superhero-Comedy      1
198  2021                  Thriller      4
199  2021              Zombie/Heist      1

[200 rows x 3 columns]


In [45]:
import plotly.express as px

fig = px.bar(dfg, x="Year", y="count", color="Genre", title="Distribución de géneros de película por año de estreno")
fig.show()


Distribución de puntuaciones de IMDB por año de estreno

In [54]:
import plotly.express as px

Puntuacion=df.groupby(["Year","IMDB Score"])["Title"].count().reset_index(name="count")
Puntuacion

fig = px.box(Puntuacion, x="Year", y="count", color="IMDB Score", title="Distribución de géneros de película por año de estreno")
fig.show()


In [64]:
fig = px.box(df, x="Year", y="IMDB Score")
fig.show()

