<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

# Parte 1

. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.



In [3]:
import pandas as pd
import numpy as np

pd.set_option("display.max_columns", None) #Ver todo
netflix_ogs = pd.read_csv("datos/netflix_originals.csv")
netflix_titles = pd.read_csv("datos/netflix_titles.csv")

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

   - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

- ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.


In [9]:
netflix_ogs.head(15)

Unnamed: 0.1,Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi
5,5,Drive,Action,"November 1, 2019",147,3.5,Hindi
6,6,Leyla Everlasting,Comedy,"December 4, 2020",112,3.7,Turkish
7,7,The Last Days of American Crime,Heist film/Thriller,"June 5, 2020",149,3.7,English
8,8,Paradox,Musical/Western/Fantasy,"March 23, 2018",73,3.9,English
9,9,Sardar Ka Grandson,Comedy,"May 18, 2021",139,4.1,Hindi


In [5]:
columnas_og_titles = netflix_ogs.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  513 non-null    int64  
 1   Title       513 non-null    object 
 2   Genre       513 non-null    object 
 3   Premiere    513 non-null    object 
 4   Runtime     513 non-null    int64  
 5   IMDB Score  513 non-null    float64
 6   Language    513 non-null    object 
dtypes: float64(1), int64(2), object(4)
memory usage: 28.2+ KB


In [27]:
netflix_titles.head()

Unnamed: 0.1,Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [20]:
print(f"Total Duplicados en show_id:")
print(netflix_titles.duplicated(subset="show_id").sum())

Total Duplicados en show_id:
0


In [22]:
columnas_titles = netflix_titles.info()
print()
print("Valores nulos")
print(netflix_titles.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 13 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Unnamed: 0    8807 non-null   int64 
 1   show_id       8807 non-null   object
 2   type          8807 non-null   object
 3   title         8807 non-null   object
 4   director      6173 non-null   object
 5   cast          7982 non-null   object
 6   country       7976 non-null   object
 7   date_added    8797 non-null   object
 8   release_year  8807 non-null   int64 
 9   rating        8803 non-null   object
 10  duration      3994 non-null   object
 11  listed_in     8807 non-null   object
 12  description   8807 non-null   object
dtypes: int64(2), object(11)
memory usage: 894.6+ KB

Valores nulos
Unnamed: 0         0
show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating

In [30]:

titles_tipos_unicos = netflix_titles
titles_tipos_unicos.select_dtypes("object").columns

#Encontrar cuantas veces se repiten los valores
for column in titles_tipos_unicos.select_dtypes("object").columns:
    print("")
    print("------------------")
    print(column.upper())
    print(titles_tipos_unicos[column].value_counts())
    print("------------------\n")



------------------
SHOW_ID
show_id
s8807    1
s1       1
s2       1
s3       1
s4       1
        ..
s12      1
s11      1
s10      1
s9       1
s8       1
Name: count, Length: 8807, dtype: int64
------------------


------------------
TYPE
type
Movie      6131
TV Show    2676
Name: count, dtype: int64
------------------


------------------
TITLE
title
Zubaan                                 1
Dick Johnson Is Dead                   1
Blood & Water                          1
Ganglands                              1
Jailbirds New Orleans                  1
                                      ..
Bangkok Breaking                       1
Vendetta: Truth, Lies and The Mafia    1
The Starling                           1
The Great British Baking Show          1
Sankofa                                1
Name: count, Length: 8807, dtype: int64
------------------


------------------
DIRECTOR
director
Rajiv Chilaka              19
Raúl Campos, Jan Suter     18
Suhas Kadav                16
Marc

In [40]:
#tipos en csv 
print(netflix_ogs["Genre"].value_counts())

Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
Anthology/Dark comedy                     1
Animation/Christmas/Comedy/Adventure      1
Name: count, Length: 106, dtype: int64


In [41]:
#tipos en csv 2
print(titles_tipos_unicos["type"].value_counts())

type
Movie      6131
TV Show    2676
Name: count, dtype: int64


In [43]:
print(netflix_ogs["Genre"].value_counts())

Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
Anthology/Dark comedy                     1
Animation/Christmas/Comedy/Adventure      1
Name: count, Length: 106, dtype: int64


In [42]:
print(titles_tipos_unicos["listed_in"].value_counts())

listed_in
Dramas, International Movies                        362
Documentaries                                       359
Stand-Up Comedy                                     334
Comedies, Dramas, International Movies              274
Dramas, Independent Movies, International Movies    252
                                                   ... 
Action & Adventure, Cult Movies                       1
Action & Adventure, Comedies, Music & Musicals        1
Classic Movies, Horror Movies, Thrillers              1
Children & Family Movies, Classic Movies, Dramas      1
Cult Movies, Dramas, Thrillers                        1
Name: count, Length: 514, dtype: int64


In [45]:
print(titles_tipos_unicos["rating"].value_counts())

rating
TV-MA       3207
TV-14       2160
TV-PG        863
R            799
PG-13        490
TV-Y7        334
TV-Y         307
PG           287
TV-G         220
NR            80
G             41
TV-Y7-FV       6
NC-17          3
UR             3
74 min         1
84 min         1
66 min         1
Name: count, dtype: int64


In [36]:
#Títulos únicos CSV 1
netflix_ogs["Title"].describe()

count                                          513
unique                                         513
top       David Attenborough: A Life on Our Planet
freq                                             1
Name: Title, dtype: object

In [34]:
#Títulos únicos CSV 2
titles_tipos_unicos["title"].describe()

count       8807
unique      8807
top       Zubaan
freq           1
Name: title, dtype: object

# Conclusión Parte 1

- Vemos que ambas tablas tienen una columna nombrada **Unnamed: 0** que se puede eliminar sin afectar a los datos, además no siguen correctamente un orden.

En **netflix_originals.csv**:
- Tenemos 6 columnas que podrían ser útiles, **Título, Género,Premiere,Runtime,IMDB Score y Language.**
- Habría que preguntar si Runtime está en minutos en **netflix_originals.csv**.
- Vemos que no hay ninguna columna que tenga valores nulos en **netflix_originals.csv**.

En **netflix_titles.csv**:
- La primera columna sobra, unnamed 0, mirando el csv me hace sospechar de que salta numeraciones, lo que lo haría un index poco robusto
- Show_id se puede usar de índice al no tener valores duplicados
- Vemos que tenemos valores nulos en:
    - Director: **2634** valores nulos
    - Cast: **825** valores nulos
    - Country: **831** valores nulos
    - Date_added: **10** valores nulos
    - Duration: **4813** valores nulos
- Duración tiene valores distintos (minutos, temporadas...) lo que significa que la primera tabla sera tipo Movies todas.

En **netflix_originals.csv**
- Title: object - Es correcto
- Genre: object - es correcto 
- Premiere: object - es correcto
- Runtime: int - es correcto
- IMDB Score: float - es  correcto
- Language: object - es correcto

En **netflix_titles.csv**
- show_id: object - al usar letras y números es correcto
- type: object - correcto, aquí seran todas **Movie** del primer CSV
- title: object - correcto, está en ambas ambos csv **Title**
- [con nulos] director: object - correcto
- [con nulos ]cast: object - correcto
- [con nulos ]country: object - correcto
- [con nulos] date_added: object - Por como está escrito es correcto., 
    - Aquí podemos poner la **Premiere** de la primera tabla, al ser un netflix original se estrena el mismo día que se añade a la plataforma.
- release_year: int - Es correcto al ser solo el año
- rating: object - Correcto 
- [con nulos] duration: object - Correcto es donde va **Runtime**
- listed_in: object - Correcto, es el **Genre** del primer CSV
- description: object - Correcto

del Primer CSV, podemos unir al segundo:
- **Title**: En **title**
- **Genre**: En **listed_in**
- **Premiere**: En **date_added**
- **Runtime**: En **duration**

De forma individual, no hay títulos duplicados

En **netflix_originals.csv**
- Hay **513** títulos repartidos entre **106** categorías distintas

En **netflix_titles.csv**
- Hay **8807** títulos repartidos entre **514** categorías distintas



# Parte 2 Unión

En resumen para la unión
- Eliminamos Unnamed 0 de ambas filas
De **netflix_originals.csv**
- Nos quedamos con todas las columnas salvo unnamed0

De **netflix_titles.csv**
- No vamos a necesitar:
    - description: no aporta nada de valor a nuestro análisis.
    - rating: Tampoco nos aporta nada relevante.
    - cast: No aplica en el análisis que queremos hacer
- Nos quedamos con:
    - show_id: Que nos ayudará a separar los originales de netflix del resto
    - type: donde añadiremos los originales a "Movie"
    - title: Básico
    - director: Necesario en laboratorios posteriores
    - country: Necesario en laboratorios posteriores
    - date_added: Necesario para labs posteriores
    - release year: Para saber en que años hemos sacado más películas
    - duration: Algo para todos
    - listed_in: Las Categorías disponibles

Para realizar la unión:
- Title --> title: Son lo mismo en ambas tablas.
- Genre --> listed_in
- Premiere --> date_added
- Runtime --> duration
- IMDB Score: Será nueva columna
- Language: Será nueva columna

La tabla final se verá así

**Show_id | type | title | director | country | Language | date_added | release_year | duration | listed_in | IMDB Score**



In [52]:
netflix_ogs = pd.read_csv("datos/netflix_originals.csv")
netflix_titles = pd.read_csv("datos/netflix_titles.csv")

#originales = pd.read_csv("datos/netflix_originals.csv",usecols=["Title"])
originales = netflix_ogs.iloc[:,1:7]
originales

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi
...,...,...,...,...,...,...
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English
510,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian
511,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English


In [None]:
netflix_titles = pd.read_csv("datos/netflix_titles.csv")
