<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [2]:
### PARTE 1

import pandas as pd


## 1.1 Carga de datos
df_no1 = pd.read_csv(r"datos\netflix_originals.csv", index_col=0)
df_nt1 = pd.read_csv(r"datos\netflix_titles.csv", index_col=0)

print(df_nt1)

## Comparadores
#df_nt["release_year"] == 2020 # devuelve bool
#df_nt[df_nt["release_year"] == 2020] # devuelve el df filtrado

#creat filtro para obtener un df con las peliculas deduracion mas de 


 

     show_id     type                  title         director  \
0         s1    Movie   Dick Johnson Is Dead  Kirsten Johnson   
1         s2  TV Show          Blood & Water              NaN   
2         s3  TV Show              Ganglands  Julien Leclercq   
3         s4  TV Show  Jailbirds New Orleans              NaN   
4         s5  TV Show           Kota Factory              NaN   
...      ...      ...                    ...              ...   
8802   s8803    Movie                 Zodiac    David Fincher   
8803   s8804  TV Show            Zombie Dumb              NaN   
8804   s8805    Movie             Zombieland  Ruben Fleischer   
8805   s8806    Movie                   Zoom     Peter Hewitt   
8806   s8807    Movie                 Zubaan      Mozez Singh   

                                                   cast        country  \
0                                                   NaN  United States   
1     Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...   South Africa 

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

In [3]:
# 2.1 Analisis de columnas y consistencia

df_nt1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


`df.info` nos devuelve el número de filas y columnas, el tipo de datos, así como cuántos valores no nulos hay en cada fila.

Cosas que nos llaman la atención del dataframe de títulos de Netflix son:

- El tipo de dato es un **dataframe**.
- **12 columnas**.
- **8807 entradas**.
- **11 columnas** de tipo `object`.
- **1 columna** de tipo `integer`.
- Existen registros **nulos** en:
  - `director`
  - `cast`
  - `country`
  - `date_added`
  - `rating`
  - `duration`


In [4]:
df_no1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 28.1+ KB


Ahora usamos`df.info` en netflix orginales que nuevamente nos devuelve el número de filas y columnas, el tipo de datos, así como cuántos valores no nulos hay en cada fila.

Cosas que nos llaman la atención del dataframe de títulos de Netflix son:

- El tipo de dato es un **dataframe**.
- **6 columnas**.
- **513 entradas**.
- **4 columnas** de tipo `object`.
- **1 columna** de tipo `integer`.
- **1 columnas** de tipo `float`.
- No Existen registros **nulos** en ninguna de las columnas:
 

In [5]:
df_nt1.describe().T


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
release_year,8807.0,2014.180198,8.819312,1925.0,2013.0,2017.0,2019.0,2021.0


Ahora usamos`df.describe` en netflix titles que nos devuelve un analisis de las columnas numericas. Usamos Transpose para ver mejor los resultados.

Cosas que nos llaman la atención de este analisis en el dataframe de títulos de Netflix son:

- Nos devuelve una **serie** ya que solo tenemos una colmna con valores numercios.
- La **media** y la **mediana** son parecidas, lo cual nos podria indicar una distribucion normal de los datos.
- Existe algun valor bajo como el minimo de **1925** pero el 75% de los datos esta por encima de 2013.
- Lo anterior significa que la mayoria de las peliculas son de los ultimos 10 anios, existiendo algunas mas vintage, pero que serian la minoria.
- La pelicula mas **reciente** es de 2021. Lo cual significa que este dataset solo llega hasta el anio 2021.
- La pelicula mas **antigua** es de 1925, por tanto tenemos un registro de 96 anios de cine.
 

In [6]:
df_no1.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.674464,26.648121,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.210916,0.96885,2.5,5.6,6.3,6.9,9.0


Ahora usamos`df.describe` en netflix orignales que nuevamente nos devuelve un analisis de las columnas numericas. Usamos Transpose para ver mejor los resultados.

Cosas que nos llaman la atención de este analisis en el dataframe de títulos de Netflix son:

- Nos devuelve un **serdataframeie** con dos columnas de valores numercios:
  - `Runtime`
  - `IMDB Score`
- La **media** y la **mediana** son parecidos en ambos casos, lo cual nos podria indicar una distribucion normal de los datos.
- El rango de datos para `Runtime` es mayor que el de `IMDB Score`.
- `IMDB Score` valores va de 2.5 a 9.0, siendo su **media** 6.21 
- `Runtime` valores va de 4 a 209, siendo su **media** 94.67. 
- Llama la atencion que haya peliculas de solamente 4 minutos, lo que sugiere que se trata de cortos o de errores. 

Identificar si hay valores nulos o duplicados.

In [7]:
def report(df):
    df_report = pd.DataFrame()
    df_report["numero_nulos"] = df.isnull().sum()
    df_report["porcentaje_nulos"] = round(df.isnull().sum()/df.shape[0]*100,2)
    return df_report

df_report_no = report(df_no1)
df_report_nt = report(df_nt1)

print(df_report_no)
print("\n+++++++++++++++++++\n")
print(df_report_nt)


            numero_nulos  porcentaje_nulos
Title                  0               0.0
Genre                  0               0.0
Premiere               0               0.0
Runtime                0               0.0
IMDB Score             0               0.0
Language               0               0.0

+++++++++++++++++++

              numero_nulos  porcentaje_nulos
show_id                  0              0.00
type                     0              0.00
title                    0              0.00
director              2634             29.91
cast                   825              9.37
country                831              9.44
date_added              10              0.11
release_year             0              0.00
rating                   4              0.05
duration              4813             54.65
listed_in                0              0.00
description              0              0.00


In [8]:
pd.set_option("display.max_rows",100)  

def analisis_duplicados(df):
    # Crea un reporte para todas las filas. Tambien una vision general de duplicados en todas las columnas.
    print(f"El dataframe tiene un total de {df.duplicated().sum()} para todas las columnas.")
    

    df_report = pd.DataFrame(columns=["column", "count_dup_total", "count_dup_first", "duplicate_groups", "unique_values", "total_records"]) # crea del df de reporte para cada columna
    
    print("Analisis de duplicados columna a columna\n")
    for c in df.columns.values.tolist(): # crea una lista de las columns e iteralas
        # Aqui creo todas las metricas relacionadas con duplicados y valores unicos 
        count_dup_total = df.duplicated(subset=c, keep=False).sum()
        count_dup_first = df.duplicated(subset=c, keep='first').sum()
        duplicate_groups = count_dup_total - count_dup_first
        unique_values = df[c].nunique()
        total_records = df.shape[0]      
        
        # para cada metrica, guardala en la columna correspondiente
        
        df_report = pd.concat([df_report, pd.DataFrame({
                "column": [c],
                "count_dup_total": [count_dup_total],
                "count_dup_first": [count_dup_first],
                "duplicate_groups": [duplicate_groups],
                "unique_values": [unique_values],
                "total_records": [total_records]
            })
        ])
    
    return df_report

#analisis_duplicados(df_no1)
analisis_duplicados(df_nt1)

El dataframe tiene un total de 0 para todas las columnas.
Analisis de duplicados columna a columna



Unnamed: 0,column,count_dup_total,count_dup_first,duplicate_groups,unique_values,total_records
0,show_id,0,0,0,8807,8807
0,type,8807,8805,2,2,8807
0,title,0,0,0,8807,8807
0,director,5146,4278,868,4528,8807
0,cast,1281,1114,167,7692,8807
0,country,8244,8058,186,748,8807
0,date_added,8260,7039,1221,1767,8807
0,release_year,8802,8733,69,74,8807
0,rating,8804,8789,15,17,8807
0,duration,8774,8621,153,185,8807


### Análisis de Duplicados en Pandas

Basándome en este [enlace](https://stackoverflow.com/questions/35584085/how-to-count-duplicate-rows-in-pandas-dataframe), he realizado un análisis de duplicados en un DataFrame de pandas, jugando con Keep=False y Keep=First para entender mejor los duplicados fila a fila. No tiene mucho sentido el analisis de duplicados en variables numericas, pero he decidido dejarlo por ahora. A continuación, explico mis observaciones:

- **Búsqueda de duplicados:**
  - He utilizado la opción `keep='first'` porque entiendo que cuenta los elementos duplicados después de la primera aparición de cada grupo.
  - Si utilizo `keep=False`, el método `duplicated()` cuenta todas las ocurrencias duplicadas.

- **Observación sobre la columna "Language":**
  - He contado los valores únicos en esta columna (`unique`), y son **37 idiomas distintos**.
  - Al aplicar `keep='first'` para encontrar duplicados, obtengo **476 duplicados**.
  - Si utilizo `keep=False`, el resultado es **495 duplicados**.

- **Diferencia entre las opciones:**
  - La diferencia entre los resultados de `keep=False` y `keep='first'` es **19**.
  - Esto no indica el número de valores únicos, como yo pensaba al principio erroneamente, sino la cantidad de **grupos duplicados**.

- **Conclusión:**
  - No todos los idiomas están duplicados.
  - Hay **al menos 19 idiomas** que tienen duplicados en el DataFrame.

### Notas Finales

- Realmente **no he observado duplicados en columnas criticas** como el titulo, pero este análisis ayuda a identificar patrones y duplicados en otras columnas.
- Tampoco he visto filas duplicadas para todos los elementos, lo cual seria preocupante.

### Union por Titulos

- Mi siguiente analisis se basa en prepararnos para la union de los dos CSV. 
- Quiero saber cual es la mejor manera de unirlos y para ello voy a mirar cuantos titulos hay de un lado y de otro en cada DF



In [9]:
pd.set_option("display.max_rows",100)  
# Crea una columna llamada originales en el netflix originales DF

df_no1['originales'] = True
df_no1

records_in_titles = df_no1['Title'].isin(df_nt1['title']).sum()
total_records_ori = df_no1.shape[0] #513
missing_recrods = total_records_ori - df_no1.shape[0]
print(f"El DF de orinales tiene {total_records_ori}, de los cuales, {records_in_titles} estan en el DF de Titles." 
      "\nHay {missing_recrods} pelis que no existen en titulos del DF origianles.")

El DF de orinales tiene 513, de los cuales, 513 estan en el DF de Titles.
Hay {missing_recrods} pelis que no existen en titulos del DF origianles.


Todas las peliculas de originales estan la lista de titulos. La union se puede hacer usando el campo de titulo. 

In [10]:
pd.set_option("display.max_columns",100)  
#print(df_no1.columns)
#print(df_nt1.columns)

## Merge

# renombramos la columna de Title del dataset de netlic originales
df_no1 = df_no1.rename(columns = {'Title':'title'})
#print(df_no1.columns)
# ahora mergeamos usando right on title. La columna a la derecha es a de titulos
df_right_join = pd.merge(df_no1, df_nt1, how='right', on=['title'])

df_right_join
print(df_right_join.columns)

analisis_duplicados(df_right_join)

df_right_join.to_csv("merged_javi.csv")

Index(['title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'originales', 'show_id', 'type', 'director', 'cast', 'country',
       'date_added', 'release_year', 'rating', 'duration', 'listed_in',
       'description'],
      dtype='object')
El dataframe tiene un total de 0 para todas las columnas.
Analisis de duplicados columna a columna



### Compruebo si tras la union, tengo algun duplicado

In [11]:
analisis_duplicados(df_right_join)

El dataframe tiene un total de 0 para todas las columnas.
Analisis de duplicados columna a columna



Unnamed: 0,column,count_dup_total,count_dup_first,duplicate_groups,unique_values,total_records
0,title,0,0,0,8807,8807
0,Genre,8740,8700,40,106,8807
0,Premiere,8568,8456,112,350,8807
0,Runtime,8769,8693,76,113,8807
0,IMDB Score,8799,8754,45,52,8807
0,Language,8789,8769,20,37,8807
0,originales,8807,8805,2,1,8807
0,show_id,0,0,0,8807,8807
0,type,8807,8805,2,2,8807
0,director,5146,4278,868,4528,8807


### Resultado despues de hacer la union
- He realizado un **right join** siendo mi tabla a mi derecha la que mas filas tiene, la de Netflix titulos
- He decidido este tipo de `merge` despues de comprobar que todos los titulos de pelis originales existen en la tabla de titulos.
- Tras la union:
  - No se ven duplicados para las filas para todos los campos
  - Tampoco se ven duplicados en el campo de titulos
  
  
### ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

### ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

In [12]:
# ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

titulos_originales = df_right_join.loc[df_right_join["originales"] == True].shape[0]  # 513 titulos son originales de Netlix

porcentaje_ori = round(df_right_join.loc[df_right_join["originales"] == True].shape[0]/df_right_join.shape[0]*100,2) 

print(f"Hay {titulos_originales} titulos originales en el dataframe, lo cual equivale a un {porcentaje_ori} % del total.")

# ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?
df_right_join["originales"].fillna(False, inplace = True)
puntuacion_media =  df_right_join.groupby("originales").mean("rating")
print(puntuacion_media)
imb_ori = puntuacion_media.iloc[1,1]
imb_no_ori = puntuacion_media.iloc[0,1]
print(f"La puntuaciond de las pelis no ori es '{imb_no_ori}' y de las pelis originales es '{round(imb_ori,2)}'")


Hay 513 titulos originales en el dataframe, lo cual equivale a un 5.82 % del total.
              Runtime  IMDB Score  release_year
originales                                     
False             NaN         NaN   2013.888956
True        94.674464    6.210916   2018.888889
La puntuaciond de las pelis no ori es 'nan' y de las pelis originales es '6.21'


### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

In [20]:
df_right_join.to_csv("merged_javi.csv")   

#- Selecciona todas las filas donde el tipo de contenido sea “Movie”.

df_right_join.loc[df_right_join["type"] == "Movie"]  #6131

   #- Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

#filtro_type = df_right_join["type"].isin(["title","duration"])

filtro_show = df_right_join["type"] == "TV Show"

df_filtrado = df_right_join[filtro_show]

df_filtrado[["title","duration"]]


   #- Selecciona todas las filas donde el país sea “United States”.

filtro_pais = df_right_join["country"] == "United States"

df_right_join[filtro_pais]


   #- Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

filtro_movie = df_right_join["type"] == "Movie"

df_filtrado = df_right_join[filtro_movie]

df_filtrado[["title","director"]]



   #- Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

filtro_2018 = df_right_join["release_year"] == 2018

df_filtrado = df_right_join[filtro_2018]

df_filtrado[["title","listed_in"]]


   #- Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

filtro_no_director = df_right_join["director"].isna()

df_filtrado = df_right_join[filtro_no_director]

df_filtrado[["title"]]



Unnamed: 0,title
1,Blood & Water
3,Jailbirds New Orleans
4,Kota Factory
10,"Vendetta: Truth, Lies and The Mafia"
14,Crime Stories: India Detectives
...,...
8795,Yu-Gi-Oh! Arc-V
8796,Yunus Emre
8797,Zak Storm
8800,Zindagi Gulzar Hai


2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


In [69]:
#Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.
df_5 = df_right_join.head(5)
df_5[["title","director","country"]]

#Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.
df_5 = df_right_join.tail(5)
df_5[["title","description"]]

#Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 
df_iloc = df_right_join.iloc[:10,1:6]  ## :10 para las filas y 1:6 para las columnas
df_iloc

#Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.
df_iloc = df_right_join.iloc[-7:,[0,9,11]] 
df_iloc

#Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.
df_iloc = df_right_join.iloc[15:26,0:4] 
df_iloc

#Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.
df_iloc = df_right_join.iloc[20:30,[0,13,14]]
df_iloc



Unnamed: 0,title,release_year,rating
20,Monsters Inside: The 24 Faces of Billy Milligan,2021,TV-14
21,Resurrection: Ertugrul,2018,TV-14
22,Avvai Shanmughi,1996,TV-PG
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021,TV-Y
24,Jeans,1998,TV-14
25,Love on the Spectrum,2021,TV-14
26,Minsara Kanavu,1997,TV-PG
27,Grown Ups,2010,PG-13
28,Dark Skies,2013,PG-13
29,Paranoia,2013,PG-13


In [70]:
## Export the dataset
df_right_join.to_csv("netflix.csv")

In [None]:
## Filtros

df_nt.loc[df_nt["release_year"] > 2020]

df_nt.loc[df_nt["release_year"] > 2020,"title":"country"] ## todo lo que hay entre title y coutry

df_nt[df_nt["release_year"] > 2020] # mas simple, lo mismo pero quitando LOC

# ahora con iloc

df_nt.iloc[list(["release_year"] > 2020,]) ## hay que convertirlo en lista, sino no funciona


fintro_1 = df["Educacion"] == "Bachelor"

fintro_2 = df["Educacion"] == "College"

df[fintro1 | fintro2]

## Otra opcion de filtro

filtro_educa = df["Educacion"].isin(["Bachelor", "College"])

fintro_2 = df["Educacion"] == "College"

df[fintro1 | fintro2]

## between

df_anos = df[df["Anos"].between(2019, 2024)]




SyntaxError: invalid syntax (3716895154.py, line 11)