<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis exploratorio EDA
1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [792]:
import pandas as pd
import warnings
warnings.filterwarnings("ignore")
pd.set_option('display.max_columns', None) 
import numpy as np

### Parte 1: Análisis Exploratorio de Datos (EDA)

#### 1. **Carga de los datos:**

In [793]:
#`netflix_originals.csv`
df_netflix_original = pd.read_csv("datos/netflix_originals.csv", index_col=[0])

#`netflix_titles.csv`
df_netflix_titulos_totales = pd.read_csv("datos/netflix_titles.csv", index_col=[0])


In [794]:
#Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

#estructura de netflix_original

display(df_netflix_original.head(10))
print(df_netflix_original.shape)


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi
5,Drive,Action,"November 1, 2019",147,3.5,Hindi
6,Leyla Everlasting,Comedy,"December 4, 2020",112,3.7,Turkish
7,The Last Days of American Crime,Heist film/Thriller,"June 5, 2020",149,3.7,English
8,Paradox,Musical/Western/Fantasy,"March 23, 2018",73,3.9,English
9,Sardar Ka Grandson,Comedy,"May 18, 2021",139,4.1,Hindi


(513, 6)


In [795]:
print(f'El número de filas que tenemos es {df_netflix_original.shape[0]} y de columnas {df_netflix_original.shape[1]}')

El número de filas que tenemos es 513 y de columnas 6


In [796]:
#estructura de todos los títulos de Netflix

display(df_netflix_titulos_totales.head(5))
print(df_netflix_titulos_totales.shape)


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


(8807, 12)


In [797]:
print(f'El número de filas que tenemos es {df_netflix_titulos_totales.shape[0]} y de columnas {df_netflix_titulos_totales.shape[1]}')

El número de filas que tenemos es 8807 y de columnas 12


### 2. **Análisis de columnas y consistencia:**

In [798]:
print(df_netflix_original.columns)
print(df_netflix_original.info())

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 28.1+ KB
None


Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados:
- El DF de todos los títulos de netflix se trata de una tabla con 6 columnas: 'Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language'
- Las columnas con formate object, string, son 'Title', 'Genre', 'Premiere', 'Language'
- Las columnas con formato número son 'Runtime', 'IMDB Score'
- No tiene columnas con datos vacios

In [799]:
print(df_netflix_titulos_totales.columns)
print(df_netflix_titulos_totales.info())

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB
None


Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados:
- El DF de todos los títulos de netflix se trata de una tabla con 12 columnas: show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added','release_year', 'rating', 'duration', 'listed_in', 'description'y 8807 filas.
- Las columnas con formate object, string, son show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added', 'rating', 'duration', 'listed_in', 'description'
- La columna con formato número es 'release_year'
- Las columnas con valores nulos son 'director', 'cast', 'country', 'date_added', 'rating' y 'duration'

- ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

In [800]:
#la columna Premiere es formato fecha, pero viene como formato string, lo convierto a formato fecha.
#  Al convertirlo en fecha me da error en algunas filas porque existe un punto en lugar de una coma por lo que corrijo los valores
df_netflix_original.iloc[103, 2] = "October 16, 2019"
df_netflix_original.iloc[283, 2] = "September 15, 2017"
df_netflix_original.iloc[354, 2] = "July 15, 2016"
df_netflix_original.iloc[481, 2] = "October 27, 2017"
df_netflix_original.iloc[483, 2] ="September 16, 2016"

print(f'El formato inicial de la columna Premiere en los datos originales de netflix son:')
print(df_netflix_original.info())

df_netflix_original.Premiere= pd.to_datetime(df_netflix_original.Premiere)
print('------------------------------------------------------------')
print(f'Tras convertir el formato de la columna Premiere a formato fecha, queda del siguiente modo:')
print(df_netflix_original.info())

El formato inicial de la columna Premiere en los datos originales de netflix son:
<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 28.1+ KB
None
------------------------------------------------------------
Tras convertir el formato de la columna Premiere a formato fecha, queda del siguiente modo:
<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   Title       513 non-null    object        
 1   Genre       513 non-nu

In [801]:
#la columna date_added es formato fecha, pero viene como formato string, lo convierto a formato fecha
#Al convertirlo me sale error porque las fechas tienen espacio delante, por lo que creo un bucle for para corregir el fallo:

for indice,valor in enumerate(df_netflix_titulos_totales.date_added):
    #print(indice)
    #print(valor)
    if isinstance(valor, str):
        if valor[0] == " ":
            #print(indice)
            #print(valor)
            df_netflix_titulos_totales.iloc[indice,6] = (df_netflix_titulos_totales.iloc[indice,6]).strip(" ")

print(f'La información inicial de los datos originales de netflix son:')
print(df_netflix_titulos_totales.info())

df_netflix_titulos_totales.date_added= pd.to_datetime(df_netflix_titulos_totales.date_added)
print('------------------------------------------------------------')
print(f'Tras convertir el formato de la columna date_added a formato fecha, queda del siguiente modo:')
print(df_netflix_titulos_totales.info())

La información inicial de los datos originales de netflix son:
<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB
None
------------------------------------------------------------
Tras convertir el formato de la columna date_added a formato fecha, queda del siguiente modo:
<class 'pandas.core.frame.DataFram

¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

In [802]:
#Creación de una función report que me reporte el número de nulos, su % y el tipo de dato para cada columna:

def reporte (df_estudio):

    df_report = pd.DataFrame()

    df_report["tipo_variables"] = pd.DataFrame(df_estudio.dtypes)
    df_report["contador_total"] = pd.DataFrame(df_estudio.count ())
    df_report["numero_nulos"]=df_estudio.isnull().sum()
    df_report["porcentaje_nulos"] = round((df_estudio.isnull().sum()/df_estudio.shape[0])*100,2)
    df_report["valores_unicos"] = pd.DataFrame(df_estudio.nunique ())

    diccionario_duplicados = {}
    for indice in range (0, df_estudio.shape[1]):
        k= df_estudio.columns[indice]
        v= df_estudio.iloc[:,indice].duplicated().sum()
        diccionario_duplicados.update({k:v})
    
    serie_duplicados = pd.Series(diccionario_duplicados)

    df_report["duplicados"] = pd.DataFrame(serie_duplicados)

    print(f'La tabla tiene {df_estudio.duplicated().sum()} filas duplicadas ')

    return df_report

In [803]:
def analisis_descriptivos_categóricas (df_estudio):
    df_categóricas = df_estudio.select_dtypes(include = "object")
    display(df_categóricas.head(5))
    df_estudio_categóricas = df_estudio.describe(include = "object").T
    return df_estudio_categóricas

def analisis_descriptivos_numéricas(df_estudio):
    df_no_categoricas = df_estudio.select_dtypes(exclude = "object")      
    display(df_no_categoricas.head(5))
    df_estudio_numéricas = df_estudio.describe().T
    return df_estudio_numéricas

def recuento_categóricas_menos20valoresunicos(df_estudio):
    df_categóricas = df_estudio.select_dtypes(include = "object")
    columnas_cat = df_categóricas.columns
    df_estudio_categóricas = df_estudio.describe(include = "object").T
    for columna in columnas_cat:
        if df_estudio_categóricas.loc[columna,'unique'] <20:
            print(f" \n----------- ESTAMOS ANALIZANDO LA COLUMNA: '{columna.upper()}' -----------\n")
            print(f"Sus valores únicos son: {df_categóricas[columna].unique()}\n")
            print(f"Las frecuencias de los valores únicos de las categorías son: {df_categóricas[columna].value_counts()} ")


In [804]:
df_report_netflix_originales = reporte(df_netflix_original)
display(df_report_netflix_originales)
df_estudio_categóricas = analisis_descriptivos_categóricas(df_netflix_original)
display(df_estudio_categóricas)
df_estudio_numéricas = analisis_descriptivos_numéricas(df_netflix_original)
display(df_estudio_numéricas)



La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
Title,object,513,0,0.0,513,0
Genre,object,513,0,0.0,106,407
Premiere,datetime64[ns],513,0,0.0,347,166
Runtime,int64,513,0,0.0,113,400
IMDB Score,float64,513,0,0.0,52,461
Language,object,513,0,0.0,37,476


Unnamed: 0,Title,Genre,Language
0,Enter the Anime,Documentary,English/Japanese
1,Dark Forces,Thriller,Spanish
2,The App,Science fiction/Drama,Italian
3,The Open House,Horror thriller,English
4,Kaali Khuhi,Mystery,Hindi


Unnamed: 0,count,unique,top,freq
Title,513,513,David Attenborough: A Life on Our Planet,1
Genre,513,106,Documentary,132
Language,513,37,English,352


Unnamed: 0,Premiere,Runtime,IMDB Score
0,2019-08-05,58,2.5
1,2020-08-21,81,2.6
2,2019-12-26,79,2.6
3,2018-01-19,94,3.2
4,2020-10-30,90,3.4


Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Premiere,513.0,2019-06-16 01:21:24.210526208,2014-12-13 00:00:00,2018-06-08 00:00:00,2019-10-18 00:00:00,2020-09-17 00:00:00,2021-05-27 00:00:00,
Runtime,513.0,94.674464,4.0,87.0,97.0,108.0,209.0,26.648121
IMDB Score,513.0,6.210916,2.5,5.6,6.3,6.9,9.0,0.96885


In [805]:
df_netflix_original.Runtime.median()

np.float64(97.0)

In [806]:
df_netflix_original["IMDB Score"].median()

np.float64(6.3)

In [807]:
recuento_categóricas_menos20valoresunicos(df_netflix_original)

In [808]:
def analisis_individual_categorica_original_netflix (columna_categorica):

    df_columna = pd.DataFrame(df_netflix_original[columna_categorica].value_counts())
    print(f'La categoría {columna_categorica} tiene {df_columna.shape[0]} elementos diferentes: \n')

    print(f'Los elementos de la categoría son:')
    display(df_netflix_original[columna_categorica].unique())

    df_columna["Porcentaje_recuento"] = df_columna['count']/df_estudio_categóricas.loc[columna_categorica, 'count']*100
    print(f'Los 10 {columna_categorica} que MAS aparecen son:')
    display(df_columna.head(10))

    print(f'Los 10 {columna_categorica} que MENOS aparecen son:')
    display(df_columna.tail(10))

    #condicion_generos_1_titulo = df_genre['count'] ==1

    #generos_1_titulo=df_genre[condicion_generos_1_titulo]
    #generos_1_titulo


    #df_genre ['Genero'] =df_genre.index para convertir el índice en una columna más

    #df_genre_inverso = df_genre.set_index('count', drop=True, inplace=False)
    #df_genre_inverso

    df_columna_contador_columnas = pd.DataFrame(df_columna['count'].value_counts())
    df_columna_contador_columnas['% repetición'] =df_columna_contador_columnas['count']/df_columna.shape[0]*100
    print(f' Las distribución de las repeticiones de los {columna_categorica} son:')
    display(df_columna_contador_columnas)

In [809]:
analisis_individual_categorica_original_netflix ('Genre')

La categoría Genre tiene 106 elementos diferentes: 

Los elementos de la categoría son:


array(['Documentary', 'Thriller', 'Science fiction/Drama',
       'Horror thriller', 'Mystery', 'Action', 'Comedy',
       'Heist film/Thriller', 'Musical/Western/Fantasy', 'Drama',
       'Romantic comedy', 'Action comedy', 'Horror anthology',
       'Political thriller', 'Superhero-Comedy', 'Horror',
       'Romance drama', 'Anime / Short', 'Superhero', 'Heist', 'Western',
       'Animation/Superhero', 'Family film', 'Action-thriller',
       'Teen comedy-drama', 'Romantic drama', 'Animation',
       'Aftershow / Interview', 'Science fiction adventure',
       'Science fiction', 'Comedy-drama', 'Comedy/Fantasy/Family',
       'Action/Comedy', 'Action/Science fiction',
       'Romantic teenage drama', 'Comedy / Musical', 'Musical',
       'Variety show', 'Science fiction/Mystery',
       'Psychological thriller drama', 'Adventure/Comedy', 'Black comedy',
       'Romance', 'Horror comedy', 'Christian musical',
       'Romantic teen drama', 'Family', 'Dark comedy', 'Comedy horror',
    

Los 10 Genre que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentary,132,25.730994
Drama,73,14.230019
Comedy,42,8.187135
Romantic comedy,35,6.822612
Thriller,33,6.432749
Comedy-drama,14,2.729045
Crime drama,10,1.949318
Horror,9,1.754386
Biopic,8,1.559454
Action,7,1.364522


Los 10 Genre que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
Genre,Unnamed: 1_level_1,Unnamed: 2_level_1
Christmas/Fantasy/Adventure/Comedy,1,0.194932
Mentalism special,1,0.194932
Drama-Comedy,1,0.194932
Coming-of-age comedy-drama,1,0.194932
Historical drama,1,0.194932
Action-adventure,1,0.194932
Concert Film,1,0.194932
Animation / Science Fiction,1,0.194932
Anthology/Dark comedy,1,0.194932
Animation/Christmas/Comedy/Adventure,1,0.194932


 Las distribución de las repeticiones de los Genre son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,67,63.207547
2,14,13.207547
3,8,7.54717
4,4,3.773585
5,3,2.830189
73,1,0.943396
132,1,0.943396
10,1,0.943396
14,1,0.943396
33,1,0.943396


In [810]:
analisis_individual_categorica_original_netflix ('Language')

La categoría Language tiene 37 elementos diferentes: 

Los elementos de la categoría son:


array(['English/Japanese', 'Spanish', 'Italian', 'English', 'Hindi',
       'Turkish', 'Korean', 'Indonesian', 'Malay', 'Dutch', 'French',
       'English/Spanish', 'Filipino', 'German', 'Polish', 'Portuguese',
       'Norwegian', 'Marathi', 'Thai', 'Swedish', 'Japanese',
       'Spanish/Basque', 'Spanish/Catalan', 'English/Swedish',
       'English/Taiwanese/Mandarin', 'Thia/English', 'Bengali',
       'Khmer/English/French', 'English/Hindi', 'Tamil',
       'Spanish/English', 'English/Korean', 'English/Arabic',
       'English/Mandarin', 'English/Russian', 'English/Akan',
       'English/Ukranian/Russian'], dtype=object)

Los 10 Language que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
Language,Unnamed: 1_level_1,Unnamed: 2_level_1
English,352,68.615984
Hindi,28,5.45809
Spanish,26,5.068226
French,18,3.508772
Italian,14,2.729045
Portuguese,9,1.754386
Indonesian,9,1.754386
Japanese,5,0.974659
English/Spanish,5,0.974659
Korean,5,0.974659


Los 10 Language que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
Language,Unnamed: 1_level_1,Unnamed: 2_level_1
Bengali,1,0.194932
Khmer/English/French,1,0.194932
Tamil,1,0.194932
Spanish/English,1,0.194932
English/Korean,1,0.194932
English/Arabic,1,0.194932
English/Mandarin,1,0.194932
English/Russian,1,0.194932
English/Akan,1,0.194932
English/Ukranian/Russian,1,0.194932


 Las distribución de las repeticiones de los Language son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,18,48.648649
2,5,13.513514
5,3,8.108108
3,2,5.405405
4,2,5.405405
9,2,5.405405
352,1,2.702703
26,1,2.702703
28,1,2.702703
18,1,2.702703


In [811]:
#Corrijo la categoría Spanish/English porque está duplicada con English/Spanish	pero en distinto orden

for indice, valor in enumerate(df_netflix_original.Language):
    if valor == "Spanish/English":
        print(indice)
        print(df_netflix_original.iloc[indice,5])
        df_netflix_original.iloc[indice,5] = "English/Spanish"
        print(df_netflix_original.iloc[indice,5])

452
Spanish/English
English/Spanish


In [812]:
df_report_netflix_originales =reporte(df_netflix_original)
df_report_netflix_originales

La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
Title,object,513,0,0.0,513,0
Genre,object,513,0,0.0,106,407
Premiere,datetime64[ns],513,0,0.0,347,166
Runtime,int64,513,0,0.0,113,400
IMDB Score,float64,513,0,0.0,52,461
Language,object,513,0,0.0,36,477


In [813]:
#reporte netflix totales

df_report_netflix_totales = reporte(df_netflix_titulos_totales)
display(df_report_netflix_totales)
df_estudio_categóricas_netflix_totales = analisis_descriptivos_categóricas(df_netflix_titulos_totales)
display(df_estudio_categóricas_netflix_totales)
df_estudio_numéricas_netflix_totales = analisis_descriptivos_numéricas(df_netflix_titulos_totales)
display(df_estudio_numéricas_netflix_totales)

La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
show_id,object,8807,0,0.0,8807,0
type,object,8807,0,0.0,2,8805
title,object,8807,0,0.0,8807,0
director,object,6173,2634,29.91,4528,4278
cast,object,7982,825,9.37,7692,1114
country,object,7976,831,9.44,748,8058
date_added,datetime64[ns],8797,10,0.11,1714,7092
release_year,int64,8807,0,0.0,74,8733
rating,object,8803,4,0.05,17,8789
duration,object,3994,4813,54.65,185,8621


Unnamed: 0,show_id,type,title,director,cast,country,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s8807,1
type,8807,2,Movie,6131
title,8807,8807,Zubaan,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362
description,8807,8775,"Paranormal activity at a lush, abandoned prope...",4


Unnamed: 0,date_added,release_year
0,2021-09-25,2020
1,2021-09-24,2021
2,2021-09-24,2021
3,2021-09-24,2021
4,2021-09-24,2021


Unnamed: 0,count,mean,min,25%,50%,75%,max,std
date_added,8797.0,2019-05-17 05:59:08.436967168,2008-01-01 00:00:00,2018-04-06 00:00:00,2019-07-02 00:00:00,2020-08-19 00:00:00,2021-09-25 00:00:00,
release_year,8807.0,2014.180198,1925.0,2013.0,2017.0,2019.0,2021.0,8.819312


In [814]:
df_netflix_titulos_totales.date_added.median()

Timestamp('2019-07-02 00:00:00')

In [815]:
df_netflix_titulos_totales.release_year.median()

np.float64(2017.0)

In [816]:
recuento_categóricas_menos20valoresunicos(df_netflix_titulos_totales)

 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'TYPE' -----------

Sus valores únicos son: ['Movie' 'TV Show']

Las frecuencias de los valores únicos de las categorías son: type
Movie      6131
TV Show    2676
Name: count, dtype: int64 
 
----------- ESTAMOS ANALIZANDO LA COLUMNA: 'RATING' -----------

Sus valores únicos son: ['PG-13' 'TV-MA' 'PG' 'TV-14' 'TV-PG' 'TV-Y' 'TV-Y7' 'R' 'TV-G' 'G'
 'NC-17' '74 min' '84 min' '66 min' 'NR' nan 'TV-Y7-FV' 'UR']

Las frecuencias de los valores únicos de las categorías son: rating
TV-MA       3207
TV-14       2160
TV-PG        863
R            799
PG-13        490
TV-Y7        334
TV-Y         307
PG           287
TV-G         220
NR            80
G             41
TV-Y7-FV       6
NC-17          3
UR             3
74 min         1
84 min         1
66 min         1
Name: count, dtype: int64 


In [817]:
def analisis_individual_categorica_netflix_totales (columna_categorica):
    df_columna = pd.DataFrame(df_netflix_titulos_totales[columna_categorica].value_counts())
    print(f'La categoría {columna_categorica} tiene {df_columna.shape[0]} elementos diferentes: \n')

    print(f'Los elementos de la categoría son:')
    display(df_netflix_titulos_totales[columna_categorica].unique())

    df_columna["Porcentaje_recuento"] = df_columna['count']/df_estudio_categóricas_netflix_totales.loc[columna_categorica, 'count']*100
    print(f'Los 10 {columna_categorica} que MAS aparecen son:')
    display(df_columna.head(10))

    print(f'Los 10 {columna_categorica} que MENOS aparecen son:')
    display(df_columna.tail(10))

    df_columna_contador_columnas = pd.DataFrame(df_columna['count'].value_counts())
    df_columna_contador_columnas['% repetición'] =df_columna_contador_columnas['count']/df_columna.shape[0]*100
    print(f' Las distribución de las repeticiones de los {columna_categorica} son:')
    display(df_columna_contador_columnas)

In [818]:
analisis_individual_categorica_netflix_totales('type')

La categoría type tiene 2 elementos diferentes: 

Los elementos de la categoría son:


array(['Movie', 'TV Show'], dtype=object)

Los 10 type que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,6131,69.615079
TV Show,2676,30.384921


Los 10 type que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,6131,69.615079
TV Show,2676,30.384921


 Las distribución de las repeticiones de los type son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
6131,1,50.0
2676,1,50.0


In [819]:
analisis_individual_categorica_netflix_totales('director')

La categoría director tiene 4528 elementos diferentes: 

Los elementos de la categoría son:


array(['Kirsten Johnson', nan, 'Julien Leclercq', ..., 'Majid Al Ansari',
       'Peter Hewitt', 'Mozez Singh'], dtype=object)

Los 10 director que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
director,Unnamed: 1_level_1,Unnamed: 2_level_1
Rajiv Chilaka,19,0.307792
"Raúl Campos, Jan Suter",18,0.291592
Suhas Kadav,16,0.259193
Marcus Raboy,16,0.259193
Jay Karas,14,0.226794
Cathy Garcia-Molina,13,0.210595
Martin Scorsese,12,0.194395
Youssef Chahine,12,0.194395
Jay Chapman,12,0.194395
Steven Spielberg,11,0.178195


Los 10 director que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
director,Unnamed: 1_level_1,Unnamed: 2_level_1
N. Chandra,1,0.0162
Abu Bakr Shawky,1,0.0162
Christian De Vita,1,0.0162
Kirati Nakintanon,1,0.0162
Mark Risley,1,0.0162
James Brown,1,0.0162
Ivona Juka,1,0.0162
Mu Chu,1,0.0162
Chandra Prakash Dwivedi,1,0.0162
Majid Al Ansari,1,0.0162


 Las distribución de las repeticiones de los director son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3661,80.852473
2,518,11.439929
3,189,4.174028
4,68,1.501767
5,39,0.861307
6,18,0.397527
7,12,0.265018
8,11,0.242933
12,3,0.066254
16,2,0.04417


In [820]:
analisis_individual_categorica_netflix_totales('cast')

La categoría cast tiene 7692 elementos diferentes: 

Los elementos de la categoría son:


array([nan,
       'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng',
       'Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabiha Akkari, Sofia Lesaffre, Salim Kechiouche, Noureddine Farihi, Geert Van Rampelberg, Bakary Diombera',
       ...,
       'Jesse Eisenberg, Woody Harrelson, Emma Stone, Abigail Breslin, Amber Heard, Bill Murray, Derek Graf',
       'Tim Allen, Courteney Cox, Chevy Chase, Kate Mara, Ryan Newman, Michael Cassidy, Spencer Breslin, Rip Torn, Kevin Zegers',
       'Vicky Kaushal, Sarah-Jane Dias, Raaghav Chanana, Manish Chaudhary, Meghna Malik, Malkeet Rauni, Anita Shabdish, Chittaranjan Tripathy'],
      dtype=object)

Los 10 cast que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
cast,Unnamed: 1_level_1,Unnamed: 2_level_1
David Attenborough,19,0.238036
"Vatsal Dubey, Julie Tejwani, Rupa Bhimani, Jigna Bhardwaj, Rajesh Kava, Mousam, Swapnil",14,0.175395
Samuel West,10,0.125282
Jeff Dunham,7,0.087697
"Michela Luci, Jamie Watson, Eric Peterson, Anna Claire Bartlam, Nicolas Aqui, Cory Doran, Julie Lemieux, Derek McGrath",6,0.075169
Kevin Hart,6,0.075169
"David Spade, London Hughes, Fortune Feimster",6,0.075169
Craig Sechler,6,0.075169
Iliza Shlesinger,5,0.062641
Bill Burr,5,0.062641


Los 10 cast que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
cast,Unnamed: 1_level_1,Unnamed: 2_level_1
"Gökhan Atalay, Payidar Tüfekçioglu, Baran Akbulut, Mehmet Çepiç, Seda Tosun, Mehmet Ali Tuncer, Asuman Çakır, Müge Uyar, Rüzgar Aksoy, Ergun Taş, Sedat Erdiş, Ahmet Talay, Umut Tanyolu, Murat Ercanlı, Birand Tunca, Atilla Kiliç, Saygin Asan, Emrah Girgin",1,0.012528
"Michael Johnston, Jessica Gee-George, Christine Marie Cabanos, Christopher Smith, Max Mittelman, Reba Buhr, Kyle Hebert",1,0.012528
"Adil Hussain, Mona Singh, K.K. Raina, Sanjay Mishra, Anil Rastogi, Ravi Jhankal, Kulbhushan Kharbanda, Ekavali Khanna, Mukesh Tiwari, Vinod Acharya",1,0.012528
"Santosh Juvekar, Siddharth Chandekar, Sachit Patil, Chinmay Mandlekar, Rajesh Shringarpure, Pushkar Shrotri, Tejashree Pradhan, Neha Joshi",1,0.012528
"Sanam Saeed, Fawad Khan, Ayesha Omer, Mehreen Raheel, Sheheryar Munawar, Samina Peerzada, Waseem Abbas, Javed Sheikh, Hina Khawaja Bayat",1,0.012528
"Ali Suliman, Saleh Bakri, Yasa, Ali Al-Jabri, Mansoor Alfeeli, Ahd",1,0.012528
"Mark Ruffalo, Jake Gyllenhaal, Robert Downey Jr., Anthony Edwards, Brian Cox, Elias Koteas, Donal Logue, John Carroll Lynch, Dermot Mulroney, Chloë Sevigny",1,0.012528
"Jesse Eisenberg, Woody Harrelson, Emma Stone, Abigail Breslin, Amber Heard, Bill Murray, Derek Graf",1,0.012528
"Tim Allen, Courteney Cox, Chevy Chase, Kate Mara, Ryan Newman, Michael Cassidy, Spencer Breslin, Rip Torn, Kevin Zegers",1,0.012528
"Logan Browning, Brandon P. Bell, DeRon Horton, Antoinette Robertson, John Patrick Amedori, Ashley Blaine Featherson, Marque Richardson, Giancarlo Esposito",1,0.012528


 Las distribución de las repeticiones de los cast son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,7526,97.841914
2,112,1.456058
3,29,0.377015
4,14,0.182007
6,4,0.052002
5,3,0.039002
14,1,0.013001
19,1,0.013001
10,1,0.013001
7,1,0.013001


In [821]:
analisis_individual_categorica_netflix_totales('country')

La categoría country tiene 748 elementos diferentes: 

Los elementos de la categoría son:


array(['United States', 'South Africa', nan, 'India',
       'United States, Ghana, Burkina Faso, United Kingdom, Germany, Ethiopia',
       'United Kingdom', 'Germany, Czech Republic', 'Mexico', 'Turkey',
       'Australia', 'United States, India, France', 'Finland',
       'China, Canada, United States',
       'South Africa, United States, Japan', 'Nigeria', 'Japan',
       'Spain, United States', 'France', 'Belgium',
       'United Kingdom, United States', 'United States, United Kingdom',
       'France, United States', 'South Korea', 'Spain',
       'United States, Singapore', 'United Kingdom, Australia, France',
       'United Kingdom, Australia, France, United States',
       'United States, Canada', 'Germany, United States',
       'South Africa, United States', 'United States, Mexico',
       'United States, Italy, France, Japan',
       'United States, Italy, Romania, United Kingdom',
       'Australia, United States', 'Argentina, Venezuela',
       'United States, United Kin

Los 10 country que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
country,Unnamed: 1_level_1,Unnamed: 2_level_1
United States,2818,35.330993
India,972,12.18656
United Kingdom,419,5.25326
Japan,245,3.071715
South Korea,199,2.494985
Canada,181,2.269308
Spain,145,1.817954
France,124,1.554664
Mexico,110,1.379137
Egypt,106,1.328987


Los 10 country que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
country,Unnamed: 1_level_1,Unnamed: 2_level_1
"Germany, United States, United Kingdom, Canada",1,0.012538
"Canada, India, Thailand, United States, United Arab Emirates",1,0.012538
"United States, East Germany, West Germany",1,0.012538
"France, Netherlands, South Africa, Finland",1,0.012538
"Egypt, Austria, United States",1,0.012538
"Russia, Spain",1,0.012538
"Croatia, Slovenia, Serbia, Montenegro",1,0.012538
"Japan, Canada",1,0.012538
"United States, France, South Korea, Indonesia",1,0.012538
"United Arab Emirates, Jordan",1,0.012538


 Las distribución de las repeticiones de los country son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,563,75.26738
2,64,8.55615
3,25,3.342246
4,17,2.272727
5,9,1.203209
13,6,0.802139
8,4,0.534759
14,4,0.534759
6,4,0.534759
16,3,0.40107


In [822]:
analisis_individual_categorica_netflix_totales('rating')

La categoría rating tiene 17 elementos diferentes: 

Los elementos de la categoría son:


array(['PG-13', 'TV-MA', 'PG', 'TV-14', 'TV-PG', 'TV-Y', 'TV-Y7', 'R',
       'TV-G', 'G', 'NC-17', '74 min', '84 min', '66 min', 'NR', nan,
       'TV-Y7-FV', 'UR'], dtype=object)

Los 10 rating que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
rating,Unnamed: 1_level_1,Unnamed: 2_level_1
TV-MA,3207,36.430762
TV-14,2160,24.53709
TV-PG,863,9.803476
R,799,9.076451
PG-13,490,5.566284
TV-Y7,334,3.794161
TV-Y,307,3.487447
PG,287,3.260252
TV-G,220,2.499148
NR,80,0.908781


Los 10 rating que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
rating,Unnamed: 1_level_1,Unnamed: 2_level_1
PG,287,3.260252
TV-G,220,2.499148
NR,80,0.908781
G,41,0.46575
TV-Y7-FV,6,0.068159
NC-17,3,0.034079
UR,3,0.034079
74 min,1,0.01136
84 min,1,0.01136
66 min,1,0.01136


 Las distribución de las repeticiones de los rating son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,3,17.647059
3,2,11.764706
863,1,5.882353
799,1,5.882353
3207,1,5.882353
2160,1,5.882353
334,1,5.882353
490,1,5.882353
307,1,5.882353
287,1,5.882353


In [823]:

for indice,valor in enumerate(df_netflix_titulos_totales.rating):
    valor = str(valor)
    if  valor[-3:]=="min":
        print(df_netflix_titulos_totales.iloc[indice,8])
        print(indice)
        df_netflix_titulos_totales.iloc[indice,8] =None
        print(df_netflix_titulos_totales.iloc[indice,8])

74 min
5541
None
84 min
5794
None
66 min
5813
None


In [824]:
df_report_netflix_totales = reporte(df_netflix_titulos_totales)
df_report_netflix_totales

La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
show_id,object,8807,0,0.0,8807,0
type,object,8807,0,0.0,2,8805
title,object,8807,0,0.0,8807,0
director,object,6173,2634,29.91,4528,4278
cast,object,7982,825,9.37,7692,1114
country,object,7976,831,9.44,748,8058
date_added,datetime64[ns],8797,10,0.11,1714,7092
release_year,int64,8807,0,0.0,74,8733
rating,object,8800,7,0.08,14,8791
duration,object,3994,4813,54.65,185,8621


In [825]:
analisis_individual_categorica_netflix_totales('duration')

La categoría duration tiene 185 elementos diferentes: 

Los elementos de la categoría son:


array(['90 min', '2 Seasons', nan, '125 min', '9 Seasons', '104 min',
       '127 min', '161 min', '61 min', '166 min', '147 min', '111 min',
       '110 min', '124 min', '116 min', '98 min', '23 min', '122 min',
       '85 min', '83 min', '113 min', '13 min', '182 min', '48 min',
       '145 min', '80 min', '117 min', '128 min', '119 min', '143 min',
       '118 min', '63 min', '121 min', '142 min', '154 min', '120 min',
       '82 min', '229 min', '76 min', '156 min', '112 min', '107 min',
       '129 min', '135 min', '136 min', '165 min', '150 min', '133 min',
       '70 min', '84 min', '140 min', '78 min', '7 Seasons', '64 min',
       '59 min', '139 min', '69 min', '148 min', '189 min', '141 min',
       '130 min', '138 min', '81 min', '132 min', '10 Seasons', '123 min',
       '68 min', '66 min', '62 min', '74 min', '131 min', '39 min',
       '46 min', '38 min', '8 Seasons', '17 Seasons', '126 min',
       '155 min', '159 min', '137 min', '12 min', '273 min', '36 min',
       '3

Los 10 duration que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
duration,Unnamed: 1_level_1,Unnamed: 2_level_1
2 Seasons,425,10.640961
90 min,152,3.805709
98 min,120,3.004507
104 min,104,2.603906
107 min,98,2.453681
110 min,97,2.428643
116 min,80,2.003005
112 min,74,1.852779
85 min,73,1.827742
113 min,69,1.727591


Los 10 duration que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
duration,Unnamed: 1_level_1,Unnamed: 2_level_1
43 min,1,0.025038
200 min,1,0.025038
196 min,1,0.025038
167 min,1,0.025038
178 min,1,0.025038
228 min,1,0.025038
18 min,1,0.025038
205 min,1,0.025038
201 min,1,0.025038
191 min,1,0.025038


 Las distribución de las repeticiones de los duration son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,33,17.837838
2,18,9.729730
3,12,6.486486
6,8,4.324324
5,6,3.243243
...,...,...
21,1,0.540541
34,1,0.540541
29,1,0.540541
15,1,0.540541


In [826]:
analisis_individual_categorica_netflix_totales('listed_in')

La categoría listed_in tiene 514 elementos diferentes: 

Los elementos de la categoría son:


array(['Documentaries', 'International TV Shows, TV Dramas, TV Mysteries',
       'Crime TV Shows, International TV Shows, TV Action & Adventure',
       'Docuseries, Reality TV',
       'International TV Shows, Romantic TV Shows, TV Comedies',
       'TV Dramas, TV Horror, TV Mysteries', 'Children & Family Movies',
       'Dramas, Independent Movies, International Movies',
       'British TV Shows, Reality TV', 'Comedies, Dramas',
       'Crime TV Shows, Docuseries, International TV Shows',
       'Dramas, International Movies',
       'Children & Family Movies, Comedies',
       'British TV Shows, Crime TV Shows, Docuseries',
       'TV Comedies, TV Dramas', 'Documentaries, International Movies',
       'Crime TV Shows, Spanish-Language TV Shows, TV Dramas',
       'Thrillers',
       'International TV Shows, Spanish-Language TV Shows, TV Action & Adventure',
       'International TV Shows, TV Action & Adventure, TV Dramas',
       'Comedies, International Movies',
       'Comedies, 

Los 10 listed_in que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
"Dramas, International Movies",362,4.110367
Documentaries,359,4.076303
Stand-Up Comedy,334,3.792438
"Comedies, Dramas, International Movies",274,3.111162
"Dramas, Independent Movies, International Movies",252,2.86136
Kids' TV,220,2.498013
Children & Family Movies,215,2.44124
"Children & Family Movies, Comedies",201,2.282275
"Documentaries, International Movies",186,2.111956
"Dramas, International Movies, Romantic Movies",180,2.043829


Los 10 listed_in que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
"Crime TV Shows, TV Comedies",1,0.011355
"Classic Movies, Cult Movies, Documentaries",1,0.011355
"Classic & Cult TV, Kids' TV, TV Comedies",1,0.011355
"Classic Movies, Dramas, LGBTQ Movies",1,0.011355
"Dramas, Faith & Spirituality, Sports Movies",1,0.011355
"Action & Adventure, Cult Movies",1,0.011355
"Action & Adventure, Comedies, Music & Musicals",1,0.011355
"Classic Movies, Horror Movies, Thrillers",1,0.011355
"Children & Family Movies, Classic Movies, Dramas",1,0.011355
"Cult Movies, Dramas, Thrillers",1,0.011355


 Las distribución de las repeticiones de los listed_in son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,142,27.626459
2,76,14.785992
3,44,8.560311
5,27,5.252918
4,26,5.058366
...,...,...
28,1,0.194553
24,1,0.194553
31,1,0.194553
33,1,0.194553


In [827]:
analisis_individual_categorica_netflix_totales('description')

La categoría description tiene 8775 elementos diferentes: 

Los elementos de la categoría son:


array(['As her father nears the end of his life, filmmaker Kirsten Johnson stages his death in inventive and comical ways to help them both face the inevitable.',
       'After crossing paths at a party, a Cape Town teen sets out to prove whether a private-school swimming star is her sister who was abducted at birth.',
       'To protect his family from a powerful drug lord, skilled thief Mehdi and his expert team of robbers are pulled into a violent and deadly turf war.',
       ...,
       'Looking to survive in a world taken over by zombies, a dorky college student teams with an urban roughneck and a pair of grifter sisters.',
       'Dragged from civilian life, a former superhero must train a new crop of youthful saviors when the military preps for an attack by a familiar villain.',
       "A scrappy but poor boy worms his way into a tycoon's dysfunctional family, while facing his fear of music and the truth about his past."],
      dtype=object)

Los 10 description que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
description,Unnamed: 1_level_1,Unnamed: 2_level_1
"Paranormal activity at a lush, abandoned property alarms a group eager to redevelop the site, but the eerie events may not be as unearthly as they think.",4,0.045418
A surly septuagenarian gets another chance at her 20s after having her photo snapped at a studio that magically takes 50 years off her life.,3,0.034064
"Multiple women report their husbands as missing but when it appears they are looking for the same man, a police officer traces their cryptic connection.",3,0.034064
"Challenged to compose 100 songs before he can marry the girl he loves, a tortured but passionate singer-songwriter embarks on a poignant musical journey.",3,0.034064
"As a woman scours Hyderabad for her missing husband, she becomes entangled in a conspiracy that suggests there’s more to the mystery than meets the eye.",2,0.022709
"With their biggest foe seemingly defeated, InuYasha and his friends return to everyday life. But the peace is soon shattered by an emerging new enemy.",2,0.022709
The Great Dog Demon beaqueathed one of the Three Swords of the Fang to each of his two sons. Now the evil power of the third sword has been awakened.,2,0.022709
Secrets bubble to the surface after a sensual encounter and an unforeseen crime entangle two friends and a woman caught between them.,2,0.022709
"As a blind librarian, dispirited cricketer and desolate psychiatrist each seek retribution and release, their lives overlap under eerie influences.",2,0.022709
This educational series for tiny tots features a toe-tapping spin on nursery rhymes with upbeat tunes and a diverse set of easy-to-follow lessons.,2,0.022709


Los 10 description que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
description,Unnamed: 1_level_1,Unnamed: 2_level_1
"Nate's special Yo-Kai Watch is missing. He travels back in time to meet the watch's inventor, his grandfather. Together, they must restore history!",1,0.011355
"With an all-important high school party at stake, two teen yoga fanatics enlist a man hunter to help fight an army of monsters created by Nazis.",1,0.011355
"Friends Mai, Oto and Vik's games at the park become magical adventures, thanks to Yoko, who can turn playgrounds into spaceships and camping sites.",1,0.011355
"Vik meets new friends in a new city, where they go on exciting adventures together with a magical being. But soon, his family must move again.",1,0.011355
"With the mind of a human being, and the body of whichever animal he chooses to be, a young boy protects the world from danger.",1,0.011355
A gifted young ballet dancer struggles to find her footing in an uptight ballet school that brings her and her family to a brand-new neighborhood.,1,0.011355
"After stepping in to revitalize his family's hotel, a money-minded businessman clashes with the hotel's cheery, Christmas-loving decorator.",1,0.011355
"A soap opera producer, director and makeup artist each face wrenching family turmoil, from teen rebellion and marital infidelity to Alzheimer's.",1,0.011355
"Laida and Miggy think they've found perfect happiness with each other, until their burgeoning careers force them into a long-distance relationship.",1,0.011355
"A scrappy but poor boy worms his way into a tycoon's dysfunctional family, while facing his fear of music and the truth about his past.",1,0.011355


 Las distribución de las repeticiones de los description son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
1,8748,99.692308
2,23,0.262108
3,3,0.034188
4,1,0.011396


In [828]:
#Análisis tipologia movie
filtro_movie = df_netflix_titulos_totales.type == "Movie"
filtro_movie
df_netflix_titulos_totales_movie = df_netflix_titulos_totales[filtro_movie] 
df_netflix_titulos_totales[filtro_movie].head(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s..."
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...


In [829]:
#Análisis tipologia movie
df_report_netflix_totales_movie = reporte(df_netflix_titulos_totales[filtro_movie])
display(df_report_netflix_totales_movie)
df_estudio_categóricas_netflix_totales_movie = analisis_descriptivos_categóricas(df_netflix_titulos_totales[filtro_movie])
display(df_estudio_categóricas_netflix_totales_movie)
df_estudio_numéricas_netflix_totales_movie = analisis_descriptivos_numéricas(df_netflix_titulos_totales[filtro_movie])
display(df_estudio_numéricas_netflix_totales_movie)

La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
show_id,object,6131,0,0.0,6131,0
type,object,6131,0,0.0,1,6130
title,object,6131,0,0.0,6131,0
director,object,5943,188,3.07,4354,1776
cast,object,5656,475,7.75,5445,685
country,object,5691,440,7.18,651,5479
date_added,datetime64[ns],6131,0,0.0,1533,4598
release_year,int64,6131,0,0.0,73,6058
rating,object,6126,5,0.08,14,6115
duration,object,3503,2628,42.86,175,5955


Unnamed: 0,show_id,type,title,director,cast,country,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s..."
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...


Unnamed: 0,count,unique,top,freq
show_id,6131,6131,s8807,1
type,6131,1,Movie,6131
title,6131,6131,Zubaan,1
director,5943,4354,Rajiv Chilaka,19
cast,5656,5445,"Vatsal Dubey, Julie Tejwani, Rupa Bhimani, Jig...",13
country,5691,651,United States,2058
rating,6126,14,TV-MA,2062
duration,3503,175,90 min,152
listed_in,6131,278,"Dramas, International Movies",362
description,6131,6105,"Paranormal activity at a lush, abandoned prope...",4


Unnamed: 0,date_added,release_year
0,2021-09-25,2020
6,2021-09-24,2021
7,2021-09-24,1993
9,2021-09-24,2021
12,2021-09-23,2021


Unnamed: 0,count,mean,min,25%,50%,75%,max,std
date_added,6131.0,2019-05-07 03:32:47.639863040,2008-01-01 00:00:00,2018-04-01 00:00:00,2019-06-19 00:00:00,2020-07-23 12:00:00,2021-09-25 00:00:00,
release_year,6131.0,2013.121514,1942.0,2012.0,2016.0,2018.0,2021.0,9.678169


In [830]:
#Análisis tipologia TV_show
filtro_tv_show = df_netflix_titulos_totales.type != "Movie"
filtro_tv_show
df_netflix_titulos_totales_tv_show = df_netflix_titulos_totales[filtro_tv_show]
df_netflix_titulos_totales[filtro_tv_show].head(5)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,2021-09-24,2021,TV-MA,,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...


In [831]:
df_report_netflix_totales_tv_show = reporte(df_netflix_titulos_totales[filtro_tv_show ])
display(df_report_netflix_totales_tv_show)
df_estudio_categóricas_netflix_totales_tv_show = analisis_descriptivos_categóricas(df_netflix_titulos_totales[filtro_tv_show])
display(df_estudio_categóricas_netflix_totales_tv_show)
df_estudio_numéricas_netflix_totales_tv_show = analisis_descriptivos_numéricas(df_netflix_titulos_totales[filtro_tv_show])
display(df_estudio_numéricas_netflix_totales_tv_show)

La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
show_id,object,2676,0,0.0,2676,0
type,object,2676,0,0.0,1,2675
title,object,2676,0,0.0,2676,0
director,object,230,2446,91.41,222,2453
cast,object,2326,350,13.08,2283,392
country,object,2285,391,14.61,196,2479
date_added,datetime64[ns],2666,10,0.37,1012,1663
release_year,int64,2676,0,0.0,46,2630
rating,object,2674,2,0.07,9,2666
duration,object,491,2185,81.65,10,2665


Unnamed: 0,show_id,type,title,director,cast,country,rating,duration,listed_in,description
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,TV-MA,,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...


Unnamed: 0,count,unique,top,freq
show_id,2676,2676,s8804,1
type,2676,1,TV Show,2676
title,2676,2676,Zombie Dumb,1
director,230,222,Alastair Fothergill,3
cast,2326,2283,David Attenborough,14
country,2285,196,United States,760
rating,2674,9,TV-MA,1145
duration,491,10,2 Seasons,425
listed_in,2676,236,Kids' TV,220
description,2676,2672,"Two quirky cats, Ollie and Moon, and their fri...",2


Unnamed: 0,date_added,release_year
1,2021-09-24,2021
2,2021-09-24,2021
3,2021-09-24,2021
4,2021-09-24,2021
5,2021-09-24,2021


Unnamed: 0,count,mean,min,25%,50%,75%,max,std
date_added,2666.0,2019-06-09 11:31:22.370592768,2008-02-04 00:00:00,2018-04-21 18:00:00,2019-08-16 00:00:00,2020-10-01 00:00:00,2021-09-24 00:00:00,
release_year,2676.0,2016.605755,1925.0,2016.0,2018.0,2020.0,2021.0,5.740138


### Conclusiones de Análisis de columnas y consistencia:

#### Netflix_originales:

   #### 1. Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.
   - Contiene 513 filas y 6 columnas, esta información nos lo da la shape.
   - Las columnas son ['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language']
   - Ninguna columna tiene valores nulos
   - Este conjunto de datos no tiene filas duplicadas en las que todas las columnas sean iguales. No obstante, si miramos por columna de forma individual si que aparecen valores duplicados en todas, excepto en Title:
      - Genre	tiene 407 duplicados
      - Premiere tiene 166 duplicados
      - Runtime tiene 400 duplicados
      - MDB tiene 61 duplicados
      - Language tiene 476 duplicados

#### 2. ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.
   - Las columnas con formate object, string, son 'Title', 'Genre', 'Premiere', 'Language'
   - Realmente la columna 'Premiere' es una fecha, por lo que le cambio el formato a fecha.
   - Las columnas con formato número son 'Runtime', 'IMDB Score'

#### 3.¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.
   - No tiene valores nulos en ninguna columna

#### 4. Análisis variables categóricas

##### a) ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.
   - Existen 513 títulos diferentes, no existe duplicado en esta columna. Es correcto el dato

##### b) ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.
   - Tenemos 106 géneros diferentes, no obstante, el que más peso tiene es 'Documentary' que representa un 25,73% de todas las películas. 
   - Solo 5 géneros representan más del 60% de las películas originales de Netflix: Documentary, Drama, Comedy, Romantic comedy y Thriller.
   - Tenemos muchos géneros que solo aparecen 1 vez, el 67% de los géneros solo aparece una vez. Estas categorías podrían agruparse en un género común, recogido como otros, para facilitar el análisis de los datos.Algunos de ellos son 'Mentalism special', 'Historical drama', entre otros.

##### c) Análisis variable Language
   - Tenemos 37 categorias de lenguajes diferentes, no obstante, el que más peso tiene es 'English' que representa un 68.62% de todas las películas. 
   - Solo 5 géneros representan más del 60% de las películas originales de Netflix: Documentary, Drama, Comedy, Romantic comedy y Thriller.
   - Tenemos muchas combinaciones de idiomas que solo aparecen 1 vez, el 49% de las combinaciones de idiomas solo aparece una vez. Estas categorías podrían agruparse en un género común, recogido como otros, para facilitar el análisis de los datos. La mayoría de ellas son combinaciones de 2 o 3 idiomas que podríamos agrupar como varios y asi facilitamos el análisis de los datos. 
   - Encontramos una categoría que está duplicada pero con el orden inverso: English/Spanish aparece 5 veces y Spanish/English aparece 1 vez, por lo que cambio la última por la primera quedándonos solo con 36 categorías.

#### 5. Análisis variables numéricas

##### a)Columna 'Premiere'
   - Tiene 347 valores únicos, 166 duplicados y 0 nulos
   - Tiene una media de 2019-06-16, su minimo es 2014-12-13 y su máximo 2021-05-27. 
   - El 25% de las peliculas tienen una fecha anterior a 2018-06-08.
   - Tenemos una concentración de valores en 1 año entre 2019-10-18 y 2020-09-17, el 50% de nuestras peliculas está en este rango. 
   - La mediana es 2019-10-18 y es mayor que la media, por lo que tiene asimetría negativa y tenemos valores atípicos bajos que hacen que la media se desplace hacia la izquierda. 
   - El primer cuartil es el más largo, 3 años y medio y el último cuartil es muy cortito solo tiene 8 meses por lo que la distribución está desplazada hacia la derecha.
   - La media no parece muy representativa ya que está lejos de la mediana

##### b)Columna 'Runtime'
   - Tiene 113 valores únicos, 400 duplicados y ningún nulo
   - Tiene una media de 94,68, su minimo es 4 y su máximo 209. 
   - El 25% de las peliculas tienen una duración de menos de 87 minutos. 
   - Tenemos una concentración de valores entre 87 y 108, el 50% de nuestras peliculas está en este rango. 
   - La media no parece muy representativa ya que tenemos una desviación estándar elevada, de 26,65 ninutos.
   - La mediana es 97 y es mayor que la mediana, por lo que tiene asimetría negativa y tenemos valores atípicos bajos que hacen que la media se desplace hacia la izquierda.

##### c)IMDB Score' 
   - Tiene 52 valores únicos, 461 duplicados y ningún nulo
   - Tiene una media de 6,2 su minimo es 2,5 y su máximo 9. 
   - El 25% de las peliculas tienen una puntuación de menos de 5,6
   - Tenemos una concentración de valores entre 5,6 y 6,9, el 50% de nuestras peliculas está en este rango. 
   - La media parece representativa ya que tenemos una desviación estándar de menos de 1 punto y está muy cerca a la mediana que es 6,3.
   - La mediana es 6,3 es mayor que la mediana, por lo que tiene asimetría negativa y tenemos valores atípicos bajos que hacen que la media se desplace hacia la izquierda.

#### Netflix_totales:

   #### 1. Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.
   - Contiene 8807 filas y 12 columnas, esta información nos lo da la shape.
   - Las columnas son 'show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description
   - Las columnas con valores nulos son 'director', 'cast', 'country', 'date_added', 'rating' y 'duration'
   - Este conjunto de datos no tiene filas duplicadas en las que todas las columnas sean iguales. No obstante, si miramos por columna de forma individual si que aparecen valores duplicados en todas, excepto show_id y title:
      - type tiene 8805 duplicados
      - director tiene 4278 duplicados
      - cast	tiene 1114 duplicados
      country	tiene 8058 duplicados
      date_added tiene 7092 duplicados
      release_year tiene 	8733 duplicados
      rating tiene 8789 duplicados
      duration	tiene 8621 duplicados
      listed_in tiene 8293 duplicados
      description	tiene 32 duplicados

#### 2. ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.
   - Las columnas con formate object, string, son show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added', 'rating', 'duration', 'listed_in', 'description'
   - Realmente la columna 'date_added' es una fecha, por lo que le cambio el formato a fecha.
   - La columna con formato número es 'release_year'


#### 3.¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.
   - La columna 'director' tiene  un 29.91% de los valores nulos
   - La columna 'cast' tiene  un 9.37 % de los valores nulos
   - La columna 'country' tiene  un 9,44 % de los valores nulos
   - La columna 'date_added' tiene  un 0.11 % de los valores nulos
   - La columna 'rating' tiene  un 0.05 % de los valores nulos
   - La columna 'duration' tiene  un 54.65 % de los valores nulos

#### 4. Análisis variables categóricas

##### a) ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.
   - Existen 8807 títulos diferentes, no existe duplicado en esta columna. Es correcto el dato

##### b) Análisis variable type

   - Tenemos 2 categorias diferentes, Movie y TV Show, no obstante, el que más peso tiene es 'Movie' que representa un 69.62% de todas las películas.

##### c) Análisis variable director

   - La columna 'director' tiene  un 29.91% de los valores nulos
  - Tenemos 4528 categorias diferentes, no obstante, el que más peso tiene es 'Rajiv Chilaka' que representa un 0,31% de todas las películas.
   - Al haber tantas categorías no merece la pena hacer una análisis profundo de esta variable.

##### d) Análisis variable cast
   - La columna 'cast' tiene  un 9.37 % de los valores nulos
  - Tenemos 7692 categorias diferentes de actores/actrices, no obstante, el que más peso tiene es 'David Attenborough' que representa un 0,24% de todas las películas.
   - Al haber tantas categorías no merece la pena hacer una análisis profundo de esta variable.

##### e) Análisis variable country
   - La columna 'country' tiene  un 9,44 % de los valores nulos
   - Tenemos 748 categorias diferentes, no obstante, el que más peso tiene es 'TV-MA' que representa un 36,43% de todas las películas.
   - Solo 3 paises representan más del 50% de las películas totales de Netflix: United States, India y United Kingdom.
   - Tenemos muchos paises que solo aparecen 1 vez, 75,27% de los paises solo aparece una vez. Estas categorías podrían agruparse en una categoría comun , recogido como otros, para facilitar el análisis de los datos.

##### f) Análisis variable rating
   - La columna 'rating' tiene  un 0.05 % de los valores nulos  
   - Tenemos 17 categorias diferentes, no obstante, el que más peso tiene es 'United States' que representa un 35.33% de todas las películas.
   - Solo 4 categorías representan más del 78% de las películas totales de Netflix: TV-MA, TV-14, TV-PG y R
   - Tenemos 8 categorias que aparecen pocas veces. Estas categorías podrían agruparse en una categoría comun , recogido como otros, para facilitar el análisis de los datos.   Categorias: NR, G, TV-Y7-FV, NC-17, UR
   - Existen tres filas que en lugar de tener el valor del rating tiene el valor de la duración: 74 min, 84 min, 66 min por lo que lo sustituyo por valores nulos.

##### g) Análisis variable duration
   - La columna 'duration' tiene  un 54.65 % de los valores nulos
   - Tenemos 185 categorias diferentes, no obstante, el que más peso tiene es '2 Seasons' que representa un 10,65% de todas los títulos. En realida casi todos los TV_Shows tienen una duración de 2 sesiones. Lo que más frecuencia tiene en las películas es 90 minutos.
   - Tenemos muchos valores nulos y muchas categorías, por lo que no merece la pena profundizar en el análisis de esta columna.

 ##### h) ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis. Análisis variable listed_in
   - Tenemos 514  géneros diferentes, no obstante, el que más peso tiene es 'Documentary' que representa un 4,11% de todas las películas. 
   - No tenemos ningún género muy representativo.
   - Tenemos muchos géneros que solo aparecen 1 vez, el 27,63% de los géneros solo aparece una vez. Estas categorías podrían agruparse en un género común, recogido como otros, para facilitar el análisis de los datos.Algunos de ellos son 'Cult Movies, Dramas, Thrillers	', 'Children & Family Movies, Classic Movies, Dramas', entre otros.

##### i) Análisis variable description
  - Tenemos 8775 categorias diferentes.
   - Al haber tantas categorías no merece la pena hacer una análisis profundo de esta variable.

#### 5. Análisis variables numéricas

##### a) Columna 'date_added'
   - Tiene 1714 valores únicos, 7092 duplicados y 10 nulos
   - Tiene una media de 2019-05-17, su minimo es 2008-01-01 y su máximo 2021-09-25. 
   - El 25% de las canciones tienen una fecha anterior a 2018-04-06.
   - El primer cuartil es muy amplio, ya que tiene una longitud de 10 años, por lo que la distribución está desplazada hacia la derecha.
   - Tenemos una concentración de valores entre 2018-04-06 y 2020-08-19, el 50% de nuestras canciones está en este rango. 
   - La mediana es 2019-07-02 y es mayor que la mediana, por lo que tiene asimetría negativa y tenemos valores atípicos bajos que hacen que la media se desplace hacia la izquierda.
   - La media no parece muy representativa ya que está lejos de la mediana

##### b) Columna 'release_year'
   - Tiene 74 valores únicos, 8733 duplicados y ningún nulo
   - Tiene una media de 2014, su minimo es 1925 y su máximo 2021 
   - El 25% de las canciones tienen una fecha anterior a 2013.
   - El primer cuartil es muy amplio, ya que tiene una longitud de 88 años, por lo que la distribución está muy desplazada hacia la derecha y el último cuartil es muy cortito, solo 2 años.
   - Tenemos una concentración de valores entre 2013 y 2019, el 50% de nuestras canciones está en este rango. 
   - La media no parece muy representativa ya que tenemos una desviación estándar elevada, de 26,65 ninutos.
   - La mediana es 2017 y es mayor que la mediana, por lo que tiene asimetría negativa, hacia la izquierda y tenemos valores atípicos bajos que hacen que la media se desplace hacia la izquierda.


### Parte 2: Unión de Datos

In [832]:
#Antes de unir los datos le incluyo una columna a la de Netflix Original para identificar los originales.
df_netflix_original["Original_Netflix"] = "Sí"
display(df_netflix_original.head(5))

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,Original_Netflix
0,Enter the Anime,Documentary,2019-08-05,58,2.5,English/Japanese,Sí
1,Dark Forces,Thriller,2020-08-21,81,2.6,Spanish,Sí
2,The App,Science fiction/Drama,2019-12-26,79,2.6,Italian,Sí
3,The Open House,Horror thriller,2018-01-19,94,3.2,English,Sí
4,Kaali Khuhi,Mystery,2020-10-30,90,3.4,Hindi,Sí


In [833]:
#realizo la unión

df_netflix_agrupado = df_netflix_titulos_totales.merge(df_netflix_original, how='left', left_on='title', right_on='Title')


In [834]:
df_netflix_agrupado = df_netflix_agrupado.drop('Title', axis=1, inplace=False)


He realizado la únión de las tablas mediante un merge left para mantener todos los títulos de del catálogo de Netflix e incluirle la información adicional de la que disponíamos de los títulos originales de Netflix.

In [835]:
df_netflix_agrupado.head(10)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Original_Netflix
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,Sí
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,NaT,,,,
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,NaT,,,,
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,NaT,,,,
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,NaT,,,,
5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,2021-09-24,2021,TV-MA,,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...,,NaT,,,,
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,,NaT,,,,
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",,NaT,,,,
8,s9,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...",United Kingdom,2021-09-24,2021,TV-14,9 Seasons,"British TV Shows, Reality TV",A talented batch of amateur bakers face off in...,,NaT,,,,
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,


In [836]:
df_netflix_agrupado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   show_id           8807 non-null   object        
 1   type              8807 non-null   object        
 2   title             8807 non-null   object        
 3   director          6173 non-null   object        
 4   cast              7982 non-null   object        
 5   country           7976 non-null   object        
 6   date_added        8797 non-null   datetime64[ns]
 7   release_year      8807 non-null   int64         
 8   rating            8800 non-null   object        
 9   duration          3994 non-null   object        
 10  listed_in         8807 non-null   object        
 11  description       8807 non-null   object        
 12  Genre             513 non-null    object        
 13  Premiere          513 non-null    datetime64[ns]
 14  Runtime           513 no

In [837]:
for indice,valor in enumerate(df_netflix_agrupado.Original_Netflix):
    if valor != 'Sí':
        df_netflix_agrupado.iloc[indice,17]='No'

df_netflix_agrupado


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Original_Netflix
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,Sí
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,NaT,,,,No
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,2021-09-24,2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,NaT,,,,No
3,s4,TV Show,Jailbirds New Orleans,,,,2021-09-24,2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,NaT,,,,No
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,2021-09-24,2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,NaT,,,,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,NaT,,,,No
8803,s8804,TV Show,Zombie Dumb,,,,2019-07-01,2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,NaT,,,,No
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,NaT,,,,No
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,NaT,,,,No


In [838]:
filtro_netflix_original = df_netflix_agrupado.Original_Netflix == "Sí"
filtro_netflix_no_original = df_netflix_agrupado.Original_Netflix != "Sí"

df_datos_agrupados_originales_netflix = df_netflix_agrupado[filtro_netflix_original ]
df_datos_agrupados_no_originales_netflix = df_netflix_agrupado[filtro_netflix_no_original ]

In [839]:
reporte(df_datos_agrupados_originales_netflix)

La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
show_id,object,513,0,0.0,513,0
type,object,513,0,0.0,1,512
title,object,513,0,0.0,513,0
director,object,491,22,4.29,462,50
cast,object,422,91,17.74,421,91
country,object,499,14,2.73,81,431
date_added,datetime64[ns],513,0,0.0,354,159
release_year,int64,513,0,0.0,8,505
rating,object,513,0,0.0,10,503
duration,object,276,237,46.2,86,426


In [840]:
reporte(df_datos_agrupados_no_originales_netflix)

La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
show_id,object,8294,0,0.0,8294,0
type,object,8294,0,0.0,2,8292
title,object,8294,0,0.0,8294,0
director,object,5682,2612,31.49,4193,4100
cast,object,7560,734,8.85,7282,1011
country,object,7477,817,9.85,727,7566
date_added,datetime64[ns],8284,10,0.12,1682,6611
release_year,int64,8294,0,0.0,74,8220
rating,object,8287,7,0.08,14,8278
duration,object,3718,4576,55.17,179,8114


In [841]:
#reporte netflix agrupados

df_reporte_netflix_agrupado = reporte(df_netflix_agrupado)
display(df_reporte_netflix_agrupado)
df_estudio_categóricas_netflix_agrupado = analisis_descriptivos_categóricas(df_netflix_agrupado)
display(df_estudio_categóricas_netflix_agrupado)
df_estudio_numéricas_netflix_agrupado= analisis_descriptivos_numéricas(df_netflix_agrupado)
display(df_estudio_numéricas_netflix_agrupado)

La tabla tiene 0 filas duplicadas 


Unnamed: 0,tipo_variables,contador_total,numero_nulos,porcentaje_nulos,valores_unicos,duplicados
show_id,object,8807,0,0.0,8807,0
type,object,8807,0,0.0,2,8805
title,object,8807,0,0.0,8807,0
director,object,6173,2634,29.91,4528,4278
cast,object,7982,825,9.37,7692,1114
country,object,7976,831,9.44,748,8058
date_added,datetime64[ns],8797,10,0.11,1714,7092
release_year,int64,8807,0,0.0,74,8733
rating,object,8800,7,0.08,14,8791
duration,object,3994,4813,54.65,185,8621


Unnamed: 0,show_id,type,title,director,cast,country,rating,duration,listed_in,description,Genre,Language,Original_Netflix
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,English,Sí
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,No
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,No
3,s4,TV Show,Jailbirds New Orleans,,,,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,No
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,No


Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s8807,1
type,8807,2,Movie,6131
title,8807,8807,Zubaan,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
rating,8800,14,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362
description,8807,8775,"Paranormal activity at a lush, abandoned prope...",4


Unnamed: 0,date_added,release_year,Premiere,Runtime,IMDB Score
0,2021-09-25,2020,2020-10-02,90.0,7.5
1,2021-09-24,2021,NaT,,
2,2021-09-24,2021,NaT,,
3,2021-09-24,2021,NaT,,
4,2021-09-24,2021,NaT,,


Unnamed: 0,count,mean,min,25%,50%,75%,max,std
date_added,8797.0,2019-05-17 05:59:08.436967168,2008-01-01 00:00:00,2018-04-06 00:00:00,2019-07-02 00:00:00,2020-08-19 00:00:00,2021-09-25 00:00:00,
release_year,8807.0,2014.180198,1925.0,2013.0,2017.0,2019.0,2021.0,8.819312
Premiere,513.0,2019-06-16 01:21:24.210526208,2014-12-13 00:00:00,2018-06-08 00:00:00,2019-10-18 00:00:00,2020-09-17 00:00:00,2021-05-27 00:00:00,
Runtime,513.0,94.674464,4.0,87.0,97.0,108.0,209.0,26.648121
IMDB Score,513.0,6.210916,2.5,5.6,6.3,6.9,9.0,0.96885


In [842]:
def analisis_individual_categorica_netflix_agrupadas (columna_categorica):
    df_columna = pd.DataFrame(df_netflix_agrupado[columna_categorica].value_counts())
    print(f'La categoría {columna_categorica} tiene {df_columna.shape[0]} elementos diferentes: \n')

    print(f'Los elementos de la categoría son:')
    display(df_netflix_agrupado[columna_categorica].unique())

    df_columna["Porcentaje_recuento"] = df_columna['count']/df_estudio_categóricas_netflix_agrupado.loc[columna_categorica, 'count']*100
    print(f'Los 10 {columna_categorica} que MAS aparecen son:')
    display(df_columna.head(10))

    print(f'Los 10 {columna_categorica} que MENOS aparecen son:')
    display(df_columna.tail(10))

    df_columna_contador_columnas = pd.DataFrame(df_columna['count'].value_counts())
    df_columna_contador_columnas['% repetición'] =df_columna_contador_columnas['count']/df_columna.shape[0]*100
    print(f' Las distribución de las repeticiones de los {columna_categorica} son:')
    display(df_columna_contador_columnas)

In [843]:
analisis_individual_categorica_netflix_agrupadas('Original_Netflix')

La categoría Original_Netflix tiene 2 elementos diferentes: 

Los elementos de la categoría son:


array(['Sí', 'No'], dtype=object)

Los 10 Original_Netflix que MAS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
Original_Netflix,Unnamed: 1_level_1,Unnamed: 2_level_1
No,8294,94.175088
Sí,513,5.824912


Los 10 Original_Netflix que MENOS aparecen son:


Unnamed: 0_level_0,count,Porcentaje_recuento
Original_Netflix,Unnamed: 1_level_1,Unnamed: 2_level_1
No,8294,94.175088
Sí,513,5.824912


 Las distribución de las repeticiones de los Original_Netflix son:


Unnamed: 0_level_0,count,% repetición
count,Unnamed: 1_level_1,Unnamed: 2_level_1
8294,1,50.0
513,1,50.0


   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?
        - Solo el 5,82% de los títulos totales de Netflix son produciones originales

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?
         - Los títulos no originales no disponen de puntuación IMDB por lo que no podemos responder a esta pregunta. 


### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

In [844]:
#   Selecciona todas las filas donde el tipo de contenido sea “Movie”.

filtro_movie_agrupado = df_netflix_agrupado.type == "Movie"

df_netflix_agrupado_movie = df_netflix_agrupado[filtro_movie]
df_netflix_agrupado_movie

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Original_Netflix
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,Sí
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,,NaT,,,,No
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",,NaT,,,,No
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,No
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,,NaT,,,,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8801,s8802,Movie,Zinzana,Majid Al Ansari,"Ali Suliman, Saleh Bakri, Yasa, Ali Al-Jabri, ...","United Arab Emirates, Jordan",2016-03-09,2015,TV-MA,,"Dramas, International Movies, Thrillers",Recovering alcoholic Talal wakes up inside a s...,,NaT,,,,No
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,NaT,,,,No
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,NaT,,,,No
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,NaT,,,,No


In [845]:
#Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

condicion_tv_show_agrupado = df_netflix_agrupado.type == "TV Show"

df_netflix_agrupado_tv_show = df_netflix_agrupado[condicion_tv_show_agrupado]
df_netflix_agrupado_tv_show.loc[:,['title', 'duration']]

Unnamed: 0,title,duration
1,Blood & Water,2 Seasons
2,Ganglands,
3,Jailbirds New Orleans,
4,Kota Factory,2 Seasons
5,Midnight Mass,
...,...,...
8795,Yu-Gi-Oh! Arc-V,2 Seasons
8796,Yunus Emre,2 Seasons
8797,Zak Storm,
8800,Zindagi Gulzar Hai,


In [846]:
# Selecciona todas las filas donde el país sea “United States”.

condicion_pais_agrupado = df_netflix_agrupado.country == 'United States'
df_netflix_agrupado.loc[condicion_pais_agrupado]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Original_Netflix
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,Sí
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,No
15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,2021-09-22,2021,TV-MA,,"TV Comedies, TV Dramas",Students of color navigate the daily slights a...,,NaT,,,,No
27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,2021-09-20,2010,PG-13,,Comedies,Mourning the loss of their beloved junior high...,,NaT,,,,No
28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,2021-09-19,2013,PG-13,,"Horror Movies, Sci-Fi & Fantasy",A family’s idyllic suburban life shatters when...,,NaT,,,,No
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8791,s8792,Movie,Young Adult,Jason Reitman,"Charlize Theron, Patton Oswalt, Patrick Wilson...",United States,2019-11-20,2011,R,,"Comedies, Dramas, Independent Movies",When a divorced writer gets a letter from an o...,,NaT,,,,No
8793,s8794,Movie,"Yours, Mine and Ours",Raja Gosnell,"Dennis Quaid, Rene Russo, Sean Faris, Katija P...",United States,2019-11-20,2005,PG,,"Children & Family Movies, Comedies",When a father of eight and a mother of 10 prep...,,NaT,,,,No
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,NaT,,,,No
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,NaT,,,,No


In [847]:
#Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.
df_netflix_agrupado_movie.loc[:,['title','director']]

Unnamed: 0,title,director
0,Dick Johnson Is Dead,Kirsten Johnson
6,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha"
7,Sankofa,Haile Gerima
9,The Starling,Theodore Melfi
12,Je Suis Karl,Christian Schwochow
...,...,...
8801,Zinzana,Majid Al Ansari
8802,Zodiac,David Fincher
8804,Zombieland,Ruben Fleischer
8805,Zoom,Peter Hewitt


In [848]:
#Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.
condicion_año_lanzamiento = df_netflix_agrupado.release_year == 2018

df_netflix_agrupado[condicion_año_lanzamiento].loc[:,['title','listed_in']]


Unnamed: 0,title,listed_in
21,Resurrection: Ertugrul,"International TV Shows, TV Action & Adventure,..."
37,Angry Birds,"Kids' TV, TV Comedies"
73,King of Boys,"Dramas, International Movies"
94,Show Dogs,"Children & Family Movies, Comedies"
96,If I Leave Here Tomorrow: A Film About Lynyrd ...,"Documentaries, Music & Musicals"
...,...,...
8732,White Chamber,"Sci-Fi & Fantasy, Thrillers"
8743,Wildlife,"Dramas, Independent Movies"
8774,يوم الدين,"Dramas, Independent Movies, International Movies"
8775,Yeh Meri Family,"International TV Shows, TV Comedies"


In [849]:
#Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

df_netflix_agrupado.director.isnull().sum()

np.int64(2634)

In [850]:

condicion_director_nulo =df_netflix_agrupado.director.isnull()

df_netflix_agrupado[condicion_director_nulo].loc[:,'title']

1                             Blood & Water
3                     Jailbirds New Orleans
4                              Kota Factory
10      Vendetta: Truth, Lies and The Mafia
14          Crime Stories: India Detectives
                       ...                 
8795                        Yu-Gi-Oh! Arc-V
8796                             Yunus Emre
8797                              Zak Storm
8800                     Zindagi Gulzar Hai
8803                            Zombie Dumb
Name: title, Length: 2634, dtype: object

2. **Acceso a datos específicos con `iloc`:**

In [851]:
df_netflix_agrupado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 18 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   show_id           8807 non-null   object        
 1   type              8807 non-null   object        
 2   title             8807 non-null   object        
 3   director          6173 non-null   object        
 4   cast              7982 non-null   object        
 5   country           7976 non-null   object        
 6   date_added        8797 non-null   datetime64[ns]
 7   release_year      8807 non-null   int64         
 8   rating            8800 non-null   object        
 9   duration          3994 non-null   object        
 10  listed_in         8807 non-null   object        
 11  description       8807 non-null   object        
 12  Genre             513 non-null    object        
 13  Premiere          513 non-null    datetime64[ns]
 14  Runtime           513 no

In [852]:
#Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

df_netflix_agrupado.iloc[0:5, [2, 3, 5]]

Unnamed: 0,title,director,country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India


In [853]:
#Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.
df_netflix_agrupado.iloc[-5:, [2, 11]]

Unnamed: 0,title,description
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."
8806,Zubaan,A scrappy but poor boy worms his way into a ty...


In [854]:
#Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

df_netflix_agrupado.iloc[:10, 1:6]

Unnamed: 0,type,title,director,cast,country
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States
1,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa
2,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",
3,TV Show,Jailbirds New Orleans,,,
4,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India
5,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",
6,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",
7,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin..."
8,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...",United Kingdom
9,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States


In [855]:
#Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

df_netflix_agrupado.iloc[-7:, [2,3,5]]

Unnamed: 0,title,director,country
8800,Zindagi Gulzar Hai,,Pakistan
8801,Zinzana,Majid Al Ansari,"United Arab Emirates, Jordan"
8802,Zodiac,David Fincher,United States
8803,Zombie Dumb,,
8804,Zombieland,Ruben Fleischer,United States
8805,Zoom,Peter Hewitt,United States
8806,Zubaan,Mozez Singh,India


In [856]:
#Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

df_netflix_agrupado.iloc[14:25:, 0:4]

Unnamed: 0,show_id,type,title,director
14,s15,TV Show,Crime Stories: India Detectives,
15,s16,TV Show,Dear White People,
16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...,"Pedro de Echave García, Pablo Azorín Williams"
17,s18,TV Show,Falsa identidad,
18,s19,Movie,Intrusion,Adam Salky
19,s20,TV Show,Jaguar,
20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan,Olivier Megaton
21,s22,TV Show,Resurrection: Ertugrul,
22,s23,Movie,Avvai Shanmughi,K.S. Ravikumar
23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel,"Alex Woo, Stanley Moore"


In [857]:
#Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.

df_netflix_agrupado.iloc[19:30:,[2,7]]

Unnamed: 0,title,release_year
19,Jaguar,2021
20,Monsters Inside: The 24 Faces of Billy Milligan,2021
21,Resurrection: Ertugrul,2018
22,Avvai Shanmughi,1996
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021
24,Jeans,1998
25,Love on the Spectrum,2021
26,Minsara Kanavu,1997
27,Grown Ups,2010
28,Dark Skies,2013



**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [858]:
df_netflix_agrupado.to_csv("datos/netflix_full.csv")

## Comparar la diversidad de géneros entre los títulos originales y no originales.

In [859]:
df_agrupados_generos = pd.DataFrame(df_netflix_agrupado.listed_in.value_counts())
df_agrupados_generos

df_agrupados_generos ["Contador_generos_originales"] = pd.DataFrame(df_datos_agrupados_originales_netflix.listed_in.value_counts())
df_agrupados_generos ["Contador_generos_no_originales"] = pd.DataFrame(df_datos_agrupados_no_originales_netflix.listed_in.value_counts())
df_agrupados_generos


Unnamed: 0_level_0,count,Contador_generos_originales,Contador_generos_no_originales
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Dramas, International Movies",362,21.0,341.0
Documentaries,359,69.0,290.0
Stand-Up Comedy,334,,334.0
"Comedies, Dramas, International Movies",274,14.0,260.0
"Dramas, Independent Movies, International Movies",252,9.0,243.0
...,...,...,...
"Action & Adventure, Cult Movies",1,,1.0
"Action & Adventure, Comedies, Music & Musicals",1,,1.0
"Classic Movies, Horror Movies, Thrillers",1,,1.0
"Children & Family Movies, Classic Movies, Dramas",1,,1.0


In [860]:
df_agrupados_generos_originales= pd.DataFrame(df_datos_agrupados_originales_netflix.listed_in.value_counts())
df_agrupados_generos_no_originales= pd.DataFrame(df_datos_agrupados_no_originales_netflix.listed_in.value_counts())

print(df_agrupados_generos_originales.shape)
print(df_agrupados_generos_no_originales.shape)

(103, 1)
(507, 1)


Los títulos originales tienen 103 géneros diferentes, mientras que los no originales tienen 507 generos distintos.

## Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

In [861]:
df_agrupados_generos_originales= pd.DataFrame(df_datos_agrupados_originales_netflix.listed_in.value_counts())
df_agrupados_generos_no_originales= pd.DataFrame(df_datos_agrupados_no_originales_netflix.listed_in.value_counts())

df_agrupados_generos_originales ["Peso_categoría"] = pd.DataFrame(df_datos_agrupados_originales_netflix.listed_in.value_counts())/df_datos_agrupados_originales_netflix.shape[0]*100
display(df_agrupados_generos_originales)
df_agrupados_generos_no_originales ["Peso_categoría"] = pd.DataFrame(df_datos_agrupados_no_originales_netflix.listed_in.value_counts())/df_datos_agrupados_no_originales_netflix.shape[0]*100
display(df_agrupados_generos_no_originales)

Unnamed: 0_level_0,count,Peso_categoría
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentaries,69,13.450292
Dramas,22,4.288499
"Dramas, International Movies",21,4.093567
"Documentaries, Music & Musicals",20,3.898635
Comedies,19,3.703704
...,...,...
"Documentaries, Faith & Spirituality",1,0.194932
"Documentaries, International Movies, LGBTQ Movies",1,0.194932
"International Movies, Sci-Fi & Fantasy, Thrillers",1,0.194932
"Children & Family Movies, Comedies, Cult Movies",1,0.194932


Unnamed: 0_level_0,count,Peso_categoría
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
"Dramas, International Movies",341,4.111406
Stand-Up Comedy,334,4.027007
Documentaries,290,3.496503
"Comedies, Dramas, International Movies",260,3.134796
"Dramas, Independent Movies, International Movies",243,2.929829
...,...,...
"British TV Shows, TV Comedies, TV Dramas",1,0.012057
"Action & Adventure, Children & Family Movies, Independent Movies",1,0.012057
"Classic Movies, Thrillers",1,0.012057
"Crime TV Shows, TV Dramas, TV Horror",1,0.012057


Los documentales son mucho más frecuentas en las producciones originales, con un peso de 13,45% mientras que en las no originales solo tiene un peso de 3,49€. Asimismo, los dramas también tiene más presencia en los originales. Por otro lado, la categoria Dramas, International Movies	o Stand-Up Comedy tiene más peso en los no originales

## Investigar si la producción original se concentra en determinados países o idiomas.

In [862]:
df_datos_agrupados_originales_netflix.country.value_counts()

country
United States                             274
India                                      35
Italy                                      13
United Kingdom                             13
France                                     12
                                         ... 
Ireland, South Africa                       1
Denmark, United States                      1
India, United Kingdom                       1
Canada, United Kingdom, United States       1
United Kingdom, Ukraine, United States      1
Name: count, Length: 81, dtype: int64

In [863]:
df_datos_agrupados_originales_netflix.Language.value_counts()

Language
English                       352
Hindi                          28
Spanish                        26
French                         18
Italian                        14
Indonesian                      9
Portuguese                      9
English/Spanish                 6
Korean                          5
Japanese                        5
German                          4
Turkish                         4
Marathi                         3
Polish                          3
Thai                            2
Dutch                           2
English/Japanese                2
English/Hindi                   2
Filipino                        2
Swedish                         1
Bengali                         1
Norwegian                       1
English/Arabic                  1
Malay                           1
English/Taiwanese/Mandarin      1
Thia/English                    1
English/Swedish                 1
Spanish/Catalan                 1
Tamil                           1
Spani

Las producciones originales están concentradas en United States y en el idioma en inglés.

## ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

Esto no se puede comprobar porque las no originales no tienen calificación IMDB

## ¿Son las producciones originales más consistentes en términos de calidad percibida?

Esto no se puede comprobar porque las no originales no tienen calificación IMDB


##      ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?

In [864]:
diccionario_pais_IMDB = {}
df_datos_agrupados_originales_netflix
for valor in df_datos_agrupados_originales_netflix.country.unique():
    #print(valor)
    puntuacion = sum(df_datos_agrupados_originales_netflix[df_netflix_agrupado.country ==valor]['IMDB Score'])
    diccionario_pais_IMDB.update ({valor:puntuacion })

serie_pais_IMDB=pd.Series(diccionario_pais_IMDB)


df_pais_IMDB = pd.DataFrame(serie_pais_IMDB, columns = ["IMDB_total"])



In [865]:
pd.DataFrame(df_datos_agrupados_originales_netflix.country.value_counts())
df_pais_IMDB ["Contador"] = pd.DataFrame(df_datos_agrupados_originales_netflix.country.value_counts())

diccionario_promedio = {}
for valor in df_pais_IMDB.index:
    #print(valor)
    diccionario_promedio.update({valor:round((df_pais_IMDB.loc[valor, 'IMDB_total']/df_pais_IMDB.loc[valor, 'Contador']),2)})

#print(diccionario_promedio)

df_pais_IMDB ["Promedio_puntuacion"] = pd.DataFrame(pd.Series(diccionario_promedio))
df_pais_IMDB

df_pais_IMDB_ordenado_promedio = df_pais_IMDB.sort_values('Promedio_puntuacion', ascending=False)
df_pais_IMDB_ordenado_promedio


Unnamed: 0,IMDB_total,Contador,Promedio_puntuacion
"United Kingdom, Ukraine, United States",8.4,1.0,8.4
"United States, United Kingdom",16.4,2.0,8.2
"Spain, United Kingdom",8.2,1.0,8.2
"United States, United Kingdom, India",7.8,1.0,7.8
"Australia, United States",7.6,1.0,7.6
...,...,...,...
"France, Belgium",4.9,1.0,4.9
Netherlands,4.5,1.0,4.5
Malaysia,4.2,1.0,4.2
"United States, Japan",2.5,1.0,2.5


Los que tienen un mayor promedio de puntuación son las producciones realizadas en United Kingdom, Ukraine, United States

##      - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

In [866]:
df_año_originales= pd.DataFrame(df_datos_agrupados_originales_netflix.release_year.value_counts())
df_año_originales ["Porcentaje_crecimiento"] = df_datos_agrupados_originales_netflix.release_year.value_counts()/df_datos_agrupados_originales_netflix.shape[0]*100
df_año_originales

Unnamed: 0_level_0,count,Porcentaje_crecimiento
release_year,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,169,32.94347
2019,103,20.077973
2018,87,16.959064
2021,56,10.916179
2017,56,10.916179
2016,30,5.847953
2015,11,2.14425
2014,1,0.194932


In [867]:
df_año_no_originales= pd.DataFrame((df_datos_agrupados_no_originales_netflix).release_year.value_counts())
df_año_no_originales ["Porcentaje_crecimiento"] = df_datos_agrupados_no_originales_netflix.release_year.value_counts()/df_datos_agrupados_no_originales_netflix.shape[0]*100
df_año_no_originales.head(10)

Unnamed: 0_level_0,count,Porcentaje_crecimiento
release_year,Unnamed: 1_level_1,Unnamed: 2_level_1
2018,1060,12.780323
2017,976,11.767543
2019,927,11.176754
2016,872,10.513624
2020,784,9.452616
2015,549,6.619243
2021,536,6.462503
2014,351,4.231975
2013,288,3.47239
2012,237,2.857487


Se observa como las producciones original han crecido en % mucho más en los últimos años que las no originales. De hecho, en las originales, año a año ha ido creciendo, incorporandose en 2020 el 33% de las producciones originales, sin embargo, en las no originales, el año que más se incorporaron fue el año 2018, con un 12,8% del total, el 2020 quedó en 5 lugar, suponiendo una incorporación del 9,5% del total.

##      ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?

In [868]:
def generos_año (año):
    df_agrupados_generos_año = pd.DataFrame(df_netflix_agrupado[df_netflix_agrupado.release_year == año].listed_in.value_counts())
    print(f'En conjunto los generos de {año}  que han recibido más inversión son:')
    display(df_agrupados_generos_año.head(5))
    df_agrupados_generos_año ["Contador_generos_originales"] = pd.DataFrame(df_datos_agrupados_originales_netflix[df_datos_agrupados_originales_netflix.release_year == año].listed_in.value_counts())
    df_agrupados_generos_año ["Contador_generos_no_originales"] = pd.DataFrame(df_datos_agrupados_no_originales_netflix[df_datos_agrupados_no_originales_netflix.release_year == año].listed_in.value_counts())
    print(f'De forma agrupada, en {año}:')
    display(df_agrupados_generos_año. head(5))
    df_agrupados_generos_originales_año= pd.DataFrame(df_datos_agrupados_originales_netflix[df_datos_agrupados_originales_netflix.release_year == año].listed_in.value_counts())
    df_agrupados_generos_no_originales_año= pd.DataFrame(df_datos_agrupados_no_originales_netflix[df_datos_agrupados_no_originales_netflix.release_year == año].listed_in.value_counts())
    df_agrupados_generos_originales_año ["Peso_categoría"] = pd.DataFrame(df_datos_agrupados_originales_netflix[df_datos_agrupados_originales_netflix.release_year == año].listed_in.value_counts()/df_datos_agrupados_originales_netflix[df_datos_agrupados_originales_netflix.release_year == año].shape[0]*100)
    print(f'Los generos originales de {año} que han recibido más inversión son:')
    display(df_agrupados_generos_originales_año.head(5))
    df_agrupados_generos_no_originales_año ["Peso_categoría"] = pd.DataFrame(df_agrupados_generos_no_originales_año/df_datos_agrupados_no_originales_netflix[df_datos_agrupados_no_originales_netflix.release_year == año].shape[0]*100)
    print(f'Los generos no originales de {año} que han recibido más inversión son:')
    display(df_agrupados_generos_no_originales_año.head(5))

In [869]:
generos_año (2020)

En conjunto los generos de 2020  que han recibido más inversión son:


Unnamed: 0_level_0,count
listed_in,Unnamed: 1_level_1
"Dramas, International Movies",42
Stand-Up Comedy,41
Children & Family Movies,34
Documentaries,23
"Children & Family Movies, Comedies",23


De forma agrupada, en 2020:


Unnamed: 0_level_0,count,Contador_generos_originales,Contador_generos_no_originales
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Dramas, International Movies",42,10.0,32.0
Stand-Up Comedy,41,,41.0
Children & Family Movies,34,5.0,29.0
Documentaries,23,14.0,9.0
"Children & Family Movies, Comedies",23,5.0,18.0


Los generos originales de 2020 que han recibido más inversión son:


Unnamed: 0_level_0,count,Peso_categoría
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentaries,14,8.284024
"Dramas, International Movies",10,5.91716
Dramas,9,5.325444
"Comedies, International Movies, Romantic Movies",9,5.325444
"Comedies, Dramas, International Movies",7,4.142012


Los generos no originales de 2020 que han recibido más inversión son:


Unnamed: 0_level_0,count,Peso_categoría
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
Stand-Up Comedy,41,5.229592
"Dramas, International Movies",32,4.081633
Children & Family Movies,29,3.69898
Kids' TV,22,2.806122
"Kids' TV, TV Comedies",21,2.678571


In [870]:
generos_año (2019)

En conjunto los generos de 2019  que han recibido más inversión son:


Unnamed: 0_level_0,count
listed_in,Unnamed: 1_level_1
Stand-Up Comedy,48
"Dramas, International Movies",35
Documentaries,33
Children & Family Movies,30
Kids' TV,28


De forma agrupada, en 2019:


Unnamed: 0_level_0,count,Contador_generos_originales,Contador_generos_no_originales
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Stand-Up Comedy,48,,48.0
"Dramas, International Movies",35,3.0,32.0
Documentaries,33,13.0,20.0
Children & Family Movies,30,,30.0
Kids' TV,28,,28.0


Los generos originales de 2019 que han recibido más inversión son:


Unnamed: 0_level_0,count,Peso_categoría
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
Documentaries,13,12.621359
"Documentaries, Music & Musicals",8,7.76699
"Documentaries, International Movies",7,6.796117
Dramas,6,5.825243
Comedies,5,4.854369


Los generos no originales de 2019 que han recibido más inversión son:


Unnamed: 0_level_0,count,Peso_categoría
listed_in,Unnamed: 1_level_1,Unnamed: 2_level_1
Stand-Up Comedy,48,5.177994
"Dramas, International Movies",32,3.451996
Children & Family Movies,30,3.236246
Kids' TV,28,3.020496
"Dramas, International Movies, Romantic Movies",26,2.804746


En los últimos años, los géneros que más inversión han recibido son Stand-Up Comedy, Dramas, International Movies y Documentaries. Los Documentaries, sobretodo, tienen más peso en los títulos originales, Stand-Up Comedy en los títulos no originales y Dramas, International Movies en los 2.

In [871]:
def tipocontenido_año (año):
    df_agrupados_contenido_año = pd.DataFrame(df_netflix_agrupado[df_netflix_agrupado.release_year == año].type.value_counts())
    print(f'En conjunto el tipo de contenido de {año}  que ha recibido más inversión es:')
    display(df_agrupados_contenido_año)
    df_agrupados_contenido_año ["Contador_generos_originales"] = pd.DataFrame(df_datos_agrupados_originales_netflix[df_datos_agrupados_originales_netflix.release_year == año].type.value_counts())
    df_agrupados_contenido_año ["Contador_generos_no_originales"] = pd.DataFrame(df_datos_agrupados_no_originales_netflix[df_datos_agrupados_no_originales_netflix.release_year == año].type.value_counts())
    print(f'De forma agrupada, en {año}:')
    display(df_agrupados_contenido_año)
    df_agrupados_contenido_originales_año= pd.DataFrame(df_datos_agrupados_originales_netflix[df_datos_agrupados_originales_netflix.release_year == año].type.value_counts())
    df_agrupados_contenido_no_originales_año= pd.DataFrame(df_datos_agrupados_no_originales_netflix[df_datos_agrupados_no_originales_netflix.release_year == año].type.value_counts())
    df_agrupados_contenido_originales_año ["Peso_categoría"] = pd.DataFrame(df_datos_agrupados_originales_netflix[df_datos_agrupados_originales_netflix.release_year == año].type.value_counts()/df_datos_agrupados_originales_netflix[df_datos_agrupados_originales_netflix.release_year == año].shape[0]*100)
    print(f'El contenido original de {año} que ha recibido más inversión es:')
    display(df_agrupados_contenido_originales_año)
    df_agrupados_contenido_no_originales_año ["Peso_categoría"] = pd.DataFrame(df_agrupados_contenido_no_originales_año/df_datos_agrupados_no_originales_netflix[df_datos_agrupados_no_originales_netflix.release_year == año].shape[0]*100)
    print(f'El contenido no original de {año} que ha recibido más inversión es:')
    display(df_agrupados_contenido_no_originales_año.head(5))

In [872]:
tipocontenido_año(2020)

En conjunto el tipo de contenido de 2020  que ha recibido más inversión es:


Unnamed: 0_level_0,count
type,Unnamed: 1_level_1
Movie,517
TV Show,436


De forma agrupada, en 2020:


Unnamed: 0_level_0,count,Contador_generos_originales,Contador_generos_no_originales
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Movie,517,169.0,348
TV Show,436,,436


El contenido original de 2020 que ha recibido más inversión es:


Unnamed: 0_level_0,count,Peso_categoría
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,169,100.0


El contenido no original de 2020 que ha recibido más inversión es:


Unnamed: 0_level_0,count,Peso_categoría
type,Unnamed: 1_level_1,Unnamed: 2_level_1
TV Show,436,55.612245
Movie,348,44.387755


In [873]:
tipocontenido_año(2019)

En conjunto el tipo de contenido de 2019  que ha recibido más inversión es:


Unnamed: 0_level_0,count
type,Unnamed: 1_level_1
Movie,633
TV Show,397


De forma agrupada, en 2019:


Unnamed: 0_level_0,count,Contador_generos_originales,Contador_generos_no_originales
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Movie,633,103.0,530
TV Show,397,,397


El contenido original de 2019 que ha recibido más inversión es:


Unnamed: 0_level_0,count,Peso_categoría
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,103,100.0


El contenido no original de 2019 que ha recibido más inversión es:


Unnamed: 0_level_0,count,Peso_categoría
type,Unnamed: 1_level_1,Unnamed: 2_level_1
Movie,530,57.173679
TV Show,397,42.826321


En los último años, el contenido que más inversión ha recibido en conjunto ha sido las películas, de hecho, en los originals solo se realizan películas. No obstante, en los no originales, en 2020, los TV Show son los que más se compraron con un 55,61% de peso.