<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

## ------------------------SOLUCIONES----------------------------

In [1]:
import pandas as pd
import numpy as np

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

In [2]:
df_netflix_originals = pd.read_csv("datos/netflix_originals.csv")
df_netflix_adquiridos = pd.read_csv("datos/netflix_titles.csv")



In [3]:
df_netflix_originals.head(10)

Unnamed: 0.1,Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi
5,5,Drive,Action,"November 1, 2019",147,3.5,Hindi
6,6,Leyla Everlasting,Comedy,"December 4, 2020",112,3.7,Turkish
7,7,The Last Days of American Crime,Heist film/Thriller,"June 5, 2020",149,3.7,English
8,8,Paradox,Musical/Western/Fantasy,"March 23, 2018",73,3.9,English
9,9,Sardar Ka Grandson,Comedy,"May 18, 2021",139,4.1,Hindi


In [4]:
df_netflix_originals.shape

(513, 7)

In [5]:
df_netflix_adquiridos.head(10)


Unnamed: 0.1,Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...
5,5,s6,TV Show,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",,"September 24, 2021",2021,TV-MA,,"TV Dramas, TV Horror, TV Mysteries",The arrival of a charismatic young priest brin...
6,6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,"September 24, 2021",2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...
7,7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...","September 24, 2021",1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s..."
8,8,s9,TV Show,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...",United Kingdom,"September 24, 2021",2021,TV-14,9 Seasons,"British TV Shows, Reality TV",A talented batch of amateur bakers face off in...
9,9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...


In [6]:
df_netflix_adquiridos.shape

(8807, 13)

In [7]:
df_netflix_adquiridos.columns

Index(['Unnamed: 0', 'show_id', 'type', 'title', 'director', 'cast', 'country',
       'date_added', 'release_year', 'rating', 'duration', 'listed_in',
       'description'],
      dtype='object')

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

In [8]:
df_netflix_originals

Unnamed: 0.1,Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi
...,...,...,...,...,...,...,...
508,576,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English
509,577,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English
510,580,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
511,581,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English


In [9]:
df_netflix_originals.dtypes

Unnamed: 0      int64
Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object

In [10]:
df_netflix_originals.duplicated().sum()

np.int64(0)

In [11]:
df_netflix_originals.isnull().sum()

Unnamed: 0    0
Title         0
Genre         0
Premiere      0
Runtime       0
IMDB Score    0
Language      0
dtype: int64

In [12]:
len(df_netflix_originals["Title"].unique())

513

In [13]:
df_netflix_originals["Genre"].unique()

array(['Documentary', 'Thriller', 'Science fiction/Drama',
       'Horror thriller', 'Mystery', 'Action', 'Comedy',
       'Heist film/Thriller', 'Musical/Western/Fantasy', 'Drama',
       'Romantic comedy', 'Action comedy', 'Horror anthology',
       'Political thriller', 'Superhero-Comedy', 'Horror',
       'Romance drama', 'Anime / Short', 'Superhero', 'Heist', 'Western',
       'Animation/Superhero', 'Family film', 'Action-thriller',
       'Teen comedy-drama', 'Romantic drama', 'Animation',
       'Aftershow / Interview', 'Science fiction adventure',
       'Science fiction', 'Comedy-drama', 'Comedy/Fantasy/Family',
       'Action/Comedy', 'Action/Science fiction',
       'Romantic teenage drama', 'Comedy / Musical', 'Musical',
       'Variety show', 'Science fiction/Mystery',
       'Psychological thriller drama', 'Adventure/Comedy', 'Black comedy',
       'Romance', 'Horror comedy', 'Christian musical',
       'Romantic teen drama', 'Family', 'Dark comedy', 'Comedy horror',
    

In [14]:
lista_premiere = list(df_netflix_originals["Premiere"])
lista_anios = []


for premiere in lista_premiere:
    try:
        splitted=premiere.split(',')
        lista_anios.append(splitted[1])
        mes = (splitted[0]).split()
    except:
        splitted=premiere.split('.')
        lista_anios.append(splitted[1])
        mes = (splitted[0]).split()


df_anios = pd.DataFrame(lista_anios)
df_anios.describe()

print(df_anios.value_counts())



0   
2020    164
2019    107
2018     85
2021     62
2017     57
2016     28
2015      9
2014      1
Name: count, dtype: int64


In [15]:
np.round(df_netflix_originals["IMDB Score"].describe().T, 2)

count    513.00
mean       6.21
std        0.97
min        2.50
25%        5.60
50%        6.30
75%        6.90
max        9.00
Name: IMDB Score, dtype: float64

In [16]:
np.round(df_netflix_originals["Runtime"].describe().T, 2)

count    513.00
mean      94.67
std       26.65
min        4.00
25%       87.00
50%       97.00
75%      108.00
max      209.00
Name: Runtime, dtype: float64

In [17]:
df_netflix_originals["Language"].unique()

array(['English/Japanese', 'Spanish', 'Italian', 'English', 'Hindi',
       'Turkish', 'Korean', 'Indonesian', 'Malay', 'Dutch', 'French',
       'English/Spanish', 'Filipino', 'German', 'Polish', 'Portuguese',
       'Norwegian', 'Marathi', 'Thai', 'Swedish', 'Japanese',
       'Spanish/Basque', 'Spanish/Catalan', 'English/Swedish',
       'English/Taiwanese/Mandarin', 'Thia/English', 'Bengali',
       'Khmer/English/French', 'English/Hindi', 'Tamil',
       'Spanish/English', 'English/Korean', 'English/Arabic',
       'English/Mandarin', 'English/Russian', 'English/Akan',
       'English/Ukranian/Russian'], dtype=object)

ANÁLISIS NETFLIX ORIGINAL:

Tenemos 513 filas y 7 columnas, entre las columnas podemos destacar la existencia de una columna llamada 'Unnamed: 0' que a primera vista no entendemos muy bien a que se refiere pues no coincide con el índice de las filas y no sabemos que representa. 

Hemos analizado los tipos de datos de las columnas y concuerdan con lo esperado a excepción de la columna 'Premiere' la cual indica una fecha pero el tipo de dato es 'object'.

No aparecen filas duplicadas, ni valores a null.

Comprobamos cuantos titulos únicos hay y comprobamos si la longitud de la lista de los títulos únicos es igual a 513 que es el número de filas del dataframe, efectivamente la longitud es 513 y concluimos que no hay títulos repetidos. Al comprobar los géneros únicos nos devuelve una lista inmensa por lo que miramos la longitud y vemos que son 116, lo cual es un número demasiado alto debido a que los géneros son demsiado específicos o incluso hay combinaciones de dos y más géneros. Además, cuando hay varios géneros hay algunos separados por '/', otros por '-' y otros con un espacio. Lo primero que habría que hacer sería que si hay más de un género separarlos siempre de la misma forma, además sería aún mejor mantener un único género que fuera el principal y dejar la pocibilidad de crear una columna subgéneros donde hubiera otros menos principales.

Al analizar las fechas hemos visto que hay varias que no diguen la misma estructura general de '{mes} {dia}, {año}' sino '{mes} {dia}. {año}', por lo que habría que ponerlas todas con el mismo formato. En cuanto a las fechas, la primera premiere fue en 2014 y la última en 2020, cada año ha ido aumentando el número de premieres, alcanzando en 2020 el máximo con 164.

La duración media de las películas es de 94 minutos, donde el máximo es 209 y el mínimo 4, lo cual es un poco sorprendente pero puede ser que haya algún corto.

En cuanto al IMDB Score la media es de 6.21 siendo el máximo obtenido 9 y el mínimo 2.5, además la mediana es de 6.5 por lo que la mitad de las películas tiene un puntuación superior a esta.

En cuanto a las lenguas de las películas pueden ser 1,2 o 3, separadas todas de la misma forma por una '/' por lo que estos datos quedan revisados y no hay que modificarlos si fuera luego necesario utilizarlos.


In [18]:
df_netflix_adquiridos.head(5)

Unnamed: 0.1,Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [19]:
df_netflix_adquiridos.shape

(8807, 13)

In [20]:
df_netflix_adquiridos.dtypes

Unnamed: 0       int64
show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object

In [21]:
df_netflix_adquiridos.duplicated().sum()

np.int64(0)

In [22]:
df_netflix_adquiridos.isnull().sum()/df_netflix_adquiridos.shape[0]*100

Unnamed: 0       0.000000
show_id          0.000000
type             0.000000
title            0.000000
director        29.908028
cast             9.367549
country          9.435676
date_added       0.113546
release_year     0.000000
rating           0.045418
duration        54.649710
listed_in        0.000000
description      0.000000
dtype: float64

In [23]:
df_netflix_adquiridos.columns


Index(['Unnamed: 0', 'show_id', 'type', 'title', 'director', 'cast', 'country',
       'date_added', 'release_year', 'rating', 'duration', 'listed_in',
       'description'],
      dtype='object')

In [24]:
len(df_netflix_adquiridos["show_id"].unique())

8807

In [25]:
df_netflix_adquiridos["type"].value_counts()/df_netflix_adquiridos.shape[0]*100

type
Movie      69.615079
TV Show    30.384921
Name: count, dtype: float64

In [26]:
len(df_netflix_adquiridos["title"].unique())

8807

In [27]:
df_netflix_adquiridos["date_added"].value_counts()

date_added
January 1, 2020       109
November 1, 2019       89
March 1, 2018          75
December 31, 2019      74
October 1, 2018        71
                     ... 
February 2, 2017        1
September 11, 2019      1
May 17, 2015            1
June 5, 2018            1
October 14, 2017        1
Name: count, Length: 1767, dtype: int64

In [73]:
lista_premiere = list(df_netflix_adquiridos["date_added"])
lista_anios = []



for premiere in lista_premiere:
    try:
        #print(premiere)
        splitted=premiere.split(',')
        lista_anios.append(splitted[1])
        mes = (splitted[0]).split()

    except AttributeError:
        print(f' NAN_____________________{premiere}')

    except:
        print(f' FALLO--------------{premiere}')
        

 NAN_____________________nan
 NAN_____________________nan
 NAN_____________________nan
 NAN_____________________nan
 NAN_____________________nan
 NAN_____________________nan
 NAN_____________________nan
 NAN_____________________nan
 NAN_____________________nan
 NAN_____________________nan


In [29]:
df_netflix_adquiridos["release_year"].value_counts()

release_year
2018    1147
2017    1032
2019    1030
2020     953
2016     902
        ... 
1961       1
1925       1
1959       1
1966       1
1947       1
Name: count, Length: 74, dtype: int64

In [30]:
len(df_netflix_adquiridos["listed_in"].unique())

514

ANÁLISIS NETFLIX ADQUIRIDO:

Tenemos 8807 filas y 13 columnas, entre las columnas de nuevo podemos destacar la existencia de una columna llamada 'Unnamed: 0' que a primera vista no entendemos muy bien a que se refiere pues no coincide con el índice de las filas y no sabemos que representa. 

Hemos analizado los tipos de datos de las columnas y concuerdan con lo esperado a excepción de la columna 'date_added' la cual indica una fecha pero el tipo de dato es 'object' lo cual deberíamos modificar. 

No aparecen filas duplicadas. En cuanto a valores Null como se nos indicó, hay casos en los que aparece vacío, para ser exactos en un 29%. En el cast también puede haber valores vacíos y en este caso son un 9.37%. En country también faltan un 9.4% de los valores que también pueden faltar como se indicaba en el enunciado. Tanto en la columna 'date_added' como en 'rating', faltan valores. Un 0.1% de los valores son null en date_added y un 0.05% en rating, estos campos habría que revisarlos y gestionar el NaN.
Sin embagro, un 54% de las pelis tieneun valor vacío en la duración, en ningún lado se indica que pueda estar vacío por lo que este sería un gran error que habría que revisar en profundidad. 

Se verifica correctamente que el show_id es único.

El tipo es siempre o mvie o Show y además tenemos un claro porcentaje mayor de peliculas con un 70% del total de la tabla.

Comprobamos la longitud de la lista de titulos únicos y coindice con el total de filas por lo que no hay títulos repetidos.

Para la columna date_added comprobamos que no haya inconsistencias en el formato como en la tabla anterior y vemos que todas las fechas tienen el mismo formato.

En cuanto a la columna listed_in hay hasta 514 categorías diferentes las cuales de nuevo son una barbaridad si quisieramos filtrar por esta columna.

__________________________________________________________________

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

In [31]:
df_mergeado = df_netflix_adquiridos.merge(df_netflix_originals, left_on="title", right_on = "Title", how="left")

In [32]:
df_mergeado

Unnamed: 0,Unnamed: 0_x,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Unnamed: 0_y,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",535.0,Dick Johnson Is Dead,Documentary,"October 2, 2020",90.0,7.5,English
1,1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,
2,2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,
3,3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,
4,4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,
8803,8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,
8804,8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,
8805,8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,


Observando ambas tablas el principal campo que tienen en común es el título, además como hemos observado en el ejercicio anteriorior, los títulos de ambas tamblas son únicos por lo que será la columna a través de la cual haremosmla unión. Como queremos hacer la unión por columnas utilizaremos merge. En principio pensé en un left join usando la tabla grande de 'df_netflix_adquiridos', sin embargo si hubiera claves en la de 'df_netflix_originals' que no hubiera en la de adquiridos no aparecerían por lo que la segunda opción fue hacer un outer que es equivalente al full outer join de sql. Tanto el outer como el left merge me generaron dos dataframes con el mismo shape por lo que puedo concluir que todos los titulos de la tabla df_netflix_originals aparecen en la tabla df_netflix_adquiridos y al hacer un left join obtengo un dataframe con el mismo número de filas que la tabla de df_netflix_adquiridos y 7 columnas nuevas. 

In [33]:
# ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?
# Como hemos dicho, todos los titulos originales están en titles por lo tanto el total, que es 513.

# pd.set_option("display.max_rows", None)
# pd.reset_option("display.max_rows")

df_mergeado["Title"].value_counts().sum()

np.int64(513)

In [None]:
# ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

# Los títulos no originales no tienen puntuación IMDB

In [34]:
df_mergeado.to_csv("datos/titulos_netflix_merged.csv")

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).



In [64]:
df_mergeado

Unnamed: 0,Unnamed: 0_x,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Unnamed: 0_y,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",535.0,Dick Johnson Is Dead,Documentary,"October 2, 2020",90.0,7.5,English
1,1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,
2,2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...,,,,,,,
3,3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,
4,4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8802,8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,"November 20, 2019",2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,,,,,,
8803,8803,s8804,TV Show,Zombie Dumb,,,,"July 1, 2019",2018,TV-Y7,2 Seasons,"Kids' TV, Korean TV Shows, TV Comedies","While living alone in a spooky town, a young g...",,,,,,,
8804,8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,"November 1, 2019",2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,,,,,,
8805,8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,"January 11, 2020",2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,,,,,,


In [43]:
df_filas_movie = df_mergeado.loc[df_mergeado.type == "Movie", :]
df_filas_movie.head()


Unnamed: 0,Unnamed: 0_x,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Unnamed: 0_y,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",535.0,Dick Johnson Is Dead,Documentary,"October 2, 2020",90.0,7.5,English
6,6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,"September 24, 2021",2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,,,,,,,
7,7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...","September 24, 2021",1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",,,,,,,
9,9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,,,,,,
12,12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic","September 23, 2021",2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,,,,,,,


In [48]:
df_titulos_duracion_aux = df_mergeado.loc[df_mergeado.type == "TV Show", :]
df_titulos_duracion = df_titulos_duracion_aux.loc[:,["title", "duration"]]
df_titulos_duracion

Unnamed: 0,title,duration
1,Blood & Water,2 Seasons
2,Ganglands,
3,Jailbirds New Orleans,
4,Kota Factory,2 Seasons
5,Midnight Mass,
...,...,...
8795,Yu-Gi-Oh! Arc-V,2 Seasons
8796,Yunus Emre,2 Seasons
8797,Zak Storm,
8800,Zindagi Gulzar Hai,


In [49]:
df_usa = df_mergeado.loc[df_mergeado.country == "United States", :]
df_usa.head()

Unnamed: 0,Unnamed: 0_x,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Unnamed: 0_y,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",535.0,Dick Johnson Is Dead,Documentary,"October 2, 2020",90.0,7.5,English
9,9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,"September 24, 2021",2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,,,,,,
15,15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,"September 22, 2021",2021,TV-MA,,"TV Comedies, TV Dramas",Students of color navigate the daily slights a...,,,,,,,
27,27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,"September 20, 2021",2010,PG-13,,Comedies,Mourning the loss of their beloved junior high...,,,,,,,
28,28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,"September 19, 2021",2013,PG-13,,"Horror Movies, Sci-Fi & Fantasy",A family’s idyllic suburban life shatters when...,,,,,,,


In [53]:
df_type_movies_aux = df_mergeado.loc[df_mergeado.type == "Movie", :]
df_type_movies = df_type_movies_aux.loc[:,["title", "director"]]
df_type_movies

Unnamed: 0,title,director
0,Dick Johnson Is Dead,Kirsten Johnson
6,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha"
7,Sankofa,Haile Gerima
9,The Starling,Theodore Melfi
12,Je Suis Karl,Christian Schwochow
...,...,...
8801,Zinzana,Majid Al Ansari
8802,Zodiac,David Fincher
8804,Zombieland,Ruben Fleischer
8805,Zoom,Peter Hewitt


In [54]:
df_release = df_mergeado.loc[df_mergeado.release_year == 2018, :]
df_release_2018 = df_release.loc[:,["title", "listed_in"]]
df_release_2018

Unnamed: 0,title,listed_in
21,Resurrection: Ertugrul,"International TV Shows, TV Action & Adventure,..."
37,Angry Birds,"Kids' TV, TV Comedies"
73,King of Boys,"Dramas, International Movies"
94,Show Dogs,"Children & Family Movies, Comedies"
96,If I Leave Here Tomorrow: A Film About Lynyrd ...,"Documentaries, Music & Musicals"
...,...,...
8732,White Chamber,"Sci-Fi & Fantasy, Thrillers"
8743,Wildlife,"Dramas, Independent Movies"
8774,يوم الدين,"Dramas, Independent Movies, International Movies"
8775,Yeh Meri Family,"International TV Shows, TV Comedies"


In [60]:
condicion = pd.isnull(df_mergeado['director'])
df_director_null = df_mergeado.loc[condicion, :]
df_director_null.head()

Unnamed: 0,Unnamed: 0_x,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Unnamed: 0_y,Title,Genre,Premiere,Runtime,IMDB Score,Language
1,1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t...",,,,,,,
3,3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo...",,,,,,,
4,4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...,,,,,,,
10,10,s11,TV Show,"Vendetta: Truth, Lies and The Mafia",,,,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, Docuseries, International TV S...","Sicily boasts a bold ""Anti-Mafia"" coalition. B...",,,,,,,
14,14,s15,TV Show,Crime Stories: India Detectives,,,,"September 22, 2021",2021,TV-MA,,"British TV Shows, Crime TV Shows, Docuseries",Cameras following Bengaluru police on the job ...,,,,,,,


2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.

In [61]:
df_mergeado.iloc[:5, [3,4,6]]

Unnamed: 0,title,director,country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India


In [62]:
df_mergeado.iloc[-5:, [3,12]]

Unnamed: 0,title,description
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."
8806,Zubaan,A scrappy but poor boy worms his way into a ty...


In [68]:
df_mergeado.iloc[:10, 1:5]

Unnamed: 0,show_id,type,title,director
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson
1,s2,TV Show,Blood & Water,
2,s3,TV Show,Ganglands,Julien Leclercq
3,s4,TV Show,Jailbirds New Orleans,
4,s5,TV Show,Kota Factory,
5,s6,TV Show,Midnight Mass,Mike Flanagan
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha"
7,s8,Movie,Sankofa,Haile Gerima
8,s9,TV Show,The Great British Baking Show,Andy Devonshire
9,s10,Movie,The Starling,Theodore Melfi


In [69]:
df_mergeado.iloc[-7:, [3,4,6]]

Unnamed: 0,title,director,country
8800,Zindagi Gulzar Hai,,Pakistan
8801,Zinzana,Majid Al Ansari,"United Arab Emirates, Jordan"
8802,Zodiac,David Fincher,United States
8803,Zombie Dumb,,
8804,Zombieland,Ruben Fleischer,United States
8805,Zoom,Peter Hewitt,United States
8806,Zubaan,Mozez Singh,India


In [70]:
df_mergeado.iloc[14:26, :4]

Unnamed: 0,Unnamed: 0_x,show_id,type,title
14,14,s15,TV Show,Crime Stories: India Detectives
15,15,s16,TV Show,Dear White People
16,16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...
17,17,s18,TV Show,Falsa identidad
18,18,s19,Movie,Intrusion
19,19,s20,TV Show,Jaguar
20,20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan
21,21,s22,TV Show,Resurrection: Ertugrul
22,22,s23,Movie,Avvai Shanmughi
23,23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel


In [72]:
df_mergeado.iloc[19:31, [3,8,9]]

Unnamed: 0,title,release_year,rating
19,Jaguar,2021,TV-MA
20,Monsters Inside: The 24 Faces of Billy Milligan,2021,TV-14
21,Resurrection: Ertugrul,2018,TV-14
22,Avvai Shanmughi,1996,TV-PG
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021,TV-Y
24,Jeans,1998,TV-14
25,Love on the Spectrum,2021,TV-14
26,Minsara Kanavu,1997,TV-PG
27,Grown Ups,2010,PG-13
28,Dark Skies,2013,PG-13
