<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [46]:
# Antes de empezar importamos la librería de NumPy para poder trabajar con todos sus métodos. 
import numpy as np
# ==============================================================================
# Tratamiento de datos
# ==============================================================================
import pandas as pd
# Ignorar warnings
# ==============================================================================
import warnings
warnings.filterwarnings("ignore")
# Configuración
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

### Parte 1: Análisis Exploratorio de Datos (EDA)

In [47]:
## Cargamos los conjuntos de datos
df_titles = pd.read_csv("datos/netflix_titles.csv", index_col=0)
df_originals = pd.read_csv("datos/netflix_originals.csv", index_col=0)

**Análisis preliminar**

In [48]:
## Obtenemos las 3 primeras filas del conjunto netflix_originals para tener una idea de las columnas y los datos 
df_originals.head(3)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian


In [49]:
## Calculamos el tamaño del conjunto de datos
df_originals.shape

(513, 6)

In [50]:
## Obtenemos las 3 primeras filas del conjunto netflix_titles para tener una idea de las columnas y los datos 
df_titles.head(3)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...


In [51]:
## Calculamos el tamaño de ambos conjuntos de datos
print(f"El conjunto 'originals' tiene {df_originals.shape[0]} filas y {df_originals.shape[1]} columnas.")
print(f"El conjunto 'titles' tiene {df_titles.shape[0]} filas y {df_titles.shape[1]} columnas.")

El conjunto 'originals' tiene 513 filas y 6 columnas.
El conjunto 'titles' tiene 8807 filas y 12 columnas.


In [52]:
df_titles.loc[df_titles["title"] == "Enter the Anime"]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
3623,s3624,Movie,Enter the Anime,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","United States, Japan","August 5, 2019",2019,TV-MA,59 min,"Documentaries, International Movies",What is anime? Through deep-dives with notable...


El conjunto netflix_titles (8807 filas y 12 columnas) es mucho más grande que el conjunto netflix_originals (513 filas y 6 columnas), de lo que se puede deducir que hay muy pocos originales dentro del catálogo total.
Al buscar uno de los títulos del archivo netflix_originals dentro del archivo netflix_titles vemos que aparece, por lo que se entiende que los originales aparecen en el catálogo total y que la columna title puede ser un punto de unión.

**Tipos de datos**

In [53]:
## obtenemos el tipo de datos para cada conjunto
df_originals.dtypes

Title          object
Genre          object
Premiere       object
Runtime         int64
IMDB Score    float64
Language       object
dtype: object

In [54]:
df_titles.dtypes

show_id         object
type            object
title           object
director        object
cast            object
country         object
date_added      object
release_year     int64
rating          object
duration        object
listed_in       object
description     object
dtype: object


Como las columnas que contienen datos de fecha no tienen el tipo de fecha, sino que son objetos, tenemos que convertirlas a formato datatime. Esto se hará para la columna "Premiere" en el conjunto originals y para la columna date_added en el conjunto titles. Después comprobamos que el tipo de dato es correcto.

In [55]:
df_originals["Premiere"] = pd.to_datetime(df_originals["Premiere"], format="mixed") 
## se ha usado 'format = mixed' por sugerencia de python al dar un error de formato porque una fecha aparecía con un punto en lugar de una coma.
df_titles["date_added"] = pd.to_datetime(df_titles["date_added"], format="mixed") 

In [56]:
df_originals.dtypes

Title                 object
Genre                 object
Premiere      datetime64[ns]
Runtime                int64
IMDB Score           float64
Language              object
dtype: object

In [57]:
df_titles.dtypes

show_id                 object
type                    object
title                   object
director                object
cast                    object
country                 object
date_added      datetime64[ns]
release_year             int64
rating                  object
duration                object
listed_in               object
description             object
dtype: object

In [58]:
## Añadimos una columna nueva en el conjunto originals para conservar la información de que son producciones originales.
df_originals["Original"] = "yes"

In [59]:
df_originals.columns

Index(['Title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'Original'],
      dtype='object')

**Análisis de nulos y duplicados**

In [60]:
## definimos una función que nos genere un reporte
def reporte(df):
    df_reporte = pd.DataFrame()
    df_reporte["valores_nulos"] = df.isnull().sum()
    df_reporte["porcentaje_nulos"] = round(((df.isnull().sum())/df.shape[0])*100,2)
    df_reporte["tipo_dato"]=df.dtypes
    return df_reporte

In [61]:
df_reporte_titles = reporte(df_titles)
df_reporte_titles

Unnamed: 0,valores_nulos,porcentaje_nulos,tipo_dato
show_id,0,0.0,object
type,0,0.0,object
title,0,0.0,object
director,2634,29.91,object
cast,825,9.37,object
country,831,9.44,object
date_added,10,0.11,datetime64[ns]
release_year,0,0.0,int64
rating,4,0.05,object
duration,4813,54.65,object


In [62]:
df_reporte_originals = reporte(df_originals)
df_reporte_originals

Unnamed: 0,valores_nulos,porcentaje_nulos,tipo_dato
Title,0,0.0,object
Genre,0,0.0,object
Premiere,0,0.0,datetime64[ns]
Runtime,0,0.0,int64
IMDB Score,0,0.0,float64
Language,0,0.0,object
Original,0,0.0,object


En el conjunto 'originals' no hay valores nulos, sin embargo en el conjunto 'titles', sí que hay y en varias columnas, en porcentajes tan altos como el 54.65% en la duración o el 29.91% en el director.

In [63]:
## Comprobamos si hay duplicados
print(f"En el conjunto 'originals' hay {df_originals.duplicated().sum()} duplicados")
print(f"En el conjunto 'titles' hay {df_titles.duplicated().sum()} duplicados")

En el conjunto 'originals' hay 0 duplicados
En el conjunto 'titles' hay 0 duplicados


No hay registros duplicados en ninguno de los conjuntos.

**Análisis descriptivo**

In [64]:
## Como la mayoría de los datos del conjunto 'originals' son object, empezamos por la descripción de este tipo de datos
df_originals.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
Title,513,513,David Attenborough: A Life on Our Planet,1
Genre,513,106,Documentary,132
Language,513,37,English,352
Original,513,1,yes,513


Para la columna "Title" no hay información relevante, ya que sabemos que no hay títulos duplicados y, en consecuencia, las columnas de top y freq no ofrecen información nueva.
La columna "Original" es la añadida anteriormente, por lo que tampoco es relevante.
En cuanto a las conlumnas "Genre" y "Languaje", se va a ampliar un poco la información.

In [65]:
## Obtenemos los 10 primeros géneros con mayor frecuencia
df_originals["Genre"].value_counts().head(10)

Genre
Documentary        132
Drama               73
Comedy              42
Romantic comedy     35
Thriller            33
Comedy-drama        14
Crime drama         10
Horror               9
Biopic               8
Action               7
Name: count, dtype: int64

In [66]:
## Obtenemos los 10 primeros idiomas con mayor frecuencia
df_originals["Language"].value_counts().head(10)

Language
English            352
Hindi               28
Spanish             26
French              18
Italian             14
Portuguese           9
Indonesian           9
Japanese             5
English/Spanish      5
Korean               5
Name: count, dtype: int64

Hay 106 géneros únicos, de los cuales el más frecuente es el documental, que se repite 132 veces, seguido por el drama (73), la comedia (42), comedia romántica (35) y thriller (33).
De los 37 idiomas, el más repetido es el inglés, en 352 de los 513 títulos, seguido del hindi (28) y el español (26).

In [67]:
## Obtenemos la descripción de los datos numéricos del conjunto 'originals'.
df_originals.describe().T

Unnamed: 0,count,mean,min,25%,50%,75%,max,std
Premiere,513.0,2019-06-16 01:21:24.210526208,2014-12-13 00:00:00,2018-06-08 00:00:00,2019-10-18 00:00:00,2020-09-17 00:00:00,2021-05-27 00:00:00,
Runtime,513.0,94.674464,4.0,87.0,97.0,108.0,209.0,26.648121
IMDB Score,513.0,6.210916,2.5,5.6,6.3,6.9,9.0,0.96885


De media, las produciones originales duran 95 minutos, siendo la mediana de 97; aunque hay producciones muy cortas (4 min) o muy largas (209). Respecto a la puntuación en IMDB, la media y la mediana son muy similares también, 6,21 y 6,3 respectivamente, con un mínimo de 2,5 y un máximo de 9.

In [68]:
## Al igual que en el conjunto 'originals', la mayoría de datos son de tipo object, por lo que empezamos por la descripción de este tipo de datos
df_titles.describe(include = "object").T

Unnamed: 0,count,unique,top,freq
show_id,8807,8807,s8807,1
type,8807,2,Movie,6131
title,8807,8807,Zubaan,1
director,6173,4528,Rajiv Chilaka,19
cast,7982,7692,David Attenborough,19
country,7976,748,United States,2818
rating,8803,17,TV-MA,3207
duration,3994,185,2 Seasons,425
listed_in,8807,514,"Dramas, International Movies",362
description,8807,8775,"Paranormal activity at a lush, abandoned prope...",4


### Parte 2: Unión de Datos

In [69]:
## Usamos rename para cambiar el nombre a la columna "Title" del conjunto 'originlas' para que se llame igual que la del conjunto 'title'
df_originals = df_originals.rename(columns = {"Title": "title"})

In [70]:
## Comprobamos que se ha actualizado correctamente el nombre de la columna.
df_originals.columns

Index(['title', 'Genre', 'Premiere', 'Runtime', 'IMDB Score', 'Language',
       'Original'],
      dtype='object')

In [71]:
## Como queremos que se conserven todas las filas del conjunto 'titles' usaremos un left merge, considerando el izquierdo el conjunto 'titles'
df_catalogo = df_titles.merge(df_originals, how='left', on ="title")

In [72]:
## df_originals tenía 513 filas y 7 columnas tras añadir la columna "Original" y df_titles tenía 8807 filas y 12 columnas. 
## Comprobamos que df_catalogo tenga 8807 filas y 18 columnas ya que la columna "title" debería solaparse
df_catalogo.shape

(8807, 18)

In [73]:
df_catalogo.head(1)


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,yes


In [74]:
## Guardamos el archivo df_catalogo
df_catalogo.to_csv("datos/catalogo_completo.csv")

In [75]:
df_catalogo[["duration", "Runtime", "listed_in", "Genre"]]

Unnamed: 0,duration,Runtime,listed_in,Genre
0,90 min,90.0,Documentaries,Documentary
1,2 Seasons,,"International TV Shows, TV Dramas, TV Mysteries",
2,,,"Crime TV Shows, International TV Shows, TV Act...",
3,,,"Docuseries, Reality TV",
4,2 Seasons,,"International TV Shows, Romantic TV Shows, TV ...",
...,...,...,...,...
8802,158 min,,"Cult Movies, Dramas, Thrillers",
8803,2 Seasons,,"Kids' TV, Korean TV Shows, TV Comedies",
8804,,,"Comedies, Horror Movies",
8805,,,"Children & Family Movies, Comedies",


### Parte 3: Uso de `loc` e `iloc`

1. **Filtrado de datos con `loc`:**

In [80]:
##  Selecciona todas las filas donde el tipo de contenido sea “Movie”.
df_catalogo.loc[df_catalogo["type"] == "Movie"]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,yes
6,s7,Movie,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",,2021-09-24,2021,PG,,Children & Family Movies,Equestria's divided. But a bright-eyed hero be...,,NaT,,,,
7,s8,Movie,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin...",2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies","On a photo shoot in Ghana, an American model s...",,NaT,,,,
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,
12,s13,Movie,Je Suis Karl,Christian Schwochow,"Luna Wedler, Jannis Niewöhner, Milan Peschel, ...","Germany, Czech Republic",2021-09-23,2021,TV-MA,127 min,"Dramas, International Movies",After most of her family is murdered in a terr...,,NaT,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8801,s8802,Movie,Zinzana,Majid Al Ansari,"Ali Suliman, Saleh Bakri, Yasa, Ali Al-Jabri, ...","United Arab Emirates, Jordan",2016-03-09,2015,TV-MA,,"Dramas, International Movies, Thrillers",Recovering alcoholic Talal wakes up inside a s...,,NaT,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,NaT,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,NaT,,,,
8805,s8806,Movie,Zoom,Peter Hewitt,"Tim Allen, Courteney Cox, Chevy Chase, Kate Ma...",United States,2020-01-11,2006,PG,,"Children & Family Movies, Comedies","Dragged from civilian life, a former superhero...",,NaT,,,,


In [84]:
## Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.
df_catalogo.loc[df_catalogo["type"] == "TV Show",["title", "duration"]]

Unnamed: 0,title,duration
1,Blood & Water,2 Seasons
2,Ganglands,
3,Jailbirds New Orleans,
4,Kota Factory,2 Seasons
5,Midnight Mass,
...,...,...
8795,Yu-Gi-Oh! Arc-V,2 Seasons
8796,Yunus Emre,2 Seasons
8797,Zak Storm,
8800,Zindagi Gulzar Hai,


In [85]:
## Selecciona todas las filas donde el país sea “United States”.
df_catalogo.loc[df_catalogo["country"] == "United States"]

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description,Genre,Premiere,Runtime,IMDB Score,Language,Original
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,2021-09-25,2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm...",Documentary,2020-10-02,90.0,7.5,English,yes
9,s10,Movie,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States,2021-09-24,2021,PG-13,104 min,"Comedies, Dramas",A woman adjusting to life after a loss contend...,,NaT,,,,
15,s16,TV Show,Dear White People,,"Logan Browning, Brandon P. Bell, DeRon Horton,...",United States,2021-09-22,2021,TV-MA,,"TV Comedies, TV Dramas",Students of color navigate the daily slights a...,,NaT,,,,
27,s28,Movie,Grown Ups,Dennis Dugan,"Adam Sandler, Kevin James, Chris Rock, David S...",United States,2021-09-20,2010,PG-13,,Comedies,Mourning the loss of their beloved junior high...,,NaT,,,,
28,s29,Movie,Dark Skies,Scott Stewart,"Keri Russell, Josh Hamilton, J.K. Simmons, Dak...",United States,2021-09-19,2013,PG-13,,"Horror Movies, Sci-Fi & Fantasy",A family’s idyllic suburban life shatters when...,,NaT,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8791,s8792,Movie,Young Adult,Jason Reitman,"Charlize Theron, Patton Oswalt, Patrick Wilson...",United States,2019-11-20,2011,R,,"Comedies, Dramas, Independent Movies",When a divorced writer gets a letter from an o...,,NaT,,,,
8793,s8794,Movie,"Yours, Mine and Ours",Raja Gosnell,"Dennis Quaid, Rene Russo, Sean Faris, Katija P...",United States,2019-11-20,2005,PG,,"Children & Family Movies, Comedies",When a father of eight and a mother of 10 prep...,,NaT,,,,
8802,s8803,Movie,Zodiac,David Fincher,"Mark Ruffalo, Jake Gyllenhaal, Robert Downey J...",United States,2019-11-20,2007,R,158 min,"Cult Movies, Dramas, Thrillers","A political cartoonist, a crime reporter and a...",,NaT,,,,
8804,s8805,Movie,Zombieland,Ruben Fleischer,"Jesse Eisenberg, Woody Harrelson, Emma Stone, ...",United States,2019-11-01,2009,R,,"Comedies, Horror Movies",Looking to survive in a world taken over by zo...,,NaT,,,,


In [86]:
## Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.
df_catalogo.loc[df_catalogo["type"] == "Movie",["title", "director"]]

Unnamed: 0,title,director
0,Dick Johnson Is Dead,Kirsten Johnson
6,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha"
7,Sankofa,Haile Gerima
9,The Starling,Theodore Melfi
12,Je Suis Karl,Christian Schwochow
...,...,...
8801,Zinzana,Majid Al Ansari
8802,Zodiac,David Fincher
8804,Zombieland,Ruben Fleischer
8805,Zoom,Peter Hewitt


In [87]:
## Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.
df_catalogo.loc[df_catalogo["release_year"] == 2018,["title", "listed_in"]]

Unnamed: 0,title,listed_in
21,Resurrection: Ertugrul,"International TV Shows, TV Action & Adventure,..."
37,Angry Birds,"Kids' TV, TV Comedies"
73,King of Boys,"Dramas, International Movies"
94,Show Dogs,"Children & Family Movies, Comedies"
96,If I Leave Here Tomorrow: A Film About Lynyrd ...,"Documentaries, Music & Musicals"
...,...,...
8732,White Chamber,"Sci-Fi & Fantasy, Thrillers"
8743,Wildlife,"Dramas, Independent Movies"
8774,يوم الدين,"Dramas, Independent Movies, International Movies"
8775,Yeh Meri Family,"International TV Shows, TV Comedies"


In [96]:
## Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).
df_catalogo.loc[df_catalogo["director"].isnull(),["title"]]

Unnamed: 0,title
1,Blood & Water
3,Jailbirds New Orleans
4,Kota Factory
10,"Vendetta: Truth, Lies and The Mafia"
14,Crime Stories: India Detectives
...,...
8795,Yu-Gi-Oh! Arc-V
8796,Yunus Emre
8797,Zak Storm
8800,Zindagi Gulzar Hai


2. **Acceso a datos específicos con `iloc`:**

In [98]:
## Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.
df_catalogo.iloc[0:5, [2,3,5]]

Unnamed: 0,title,director,country
0,Dick Johnson Is Dead,Kirsten Johnson,United States
1,Blood & Water,,South Africa
2,Ganglands,Julien Leclercq,
3,Jailbirds New Orleans,,
4,Kota Factory,,India


In [100]:
## Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.
df_catalogo.iloc[-5:, [2,11]]

Unnamed: 0,title,description
8802,Zodiac,"A political cartoonist, a crime reporter and a..."
8803,Zombie Dumb,"While living alone in a spooky town, a young g..."
8804,Zombieland,Looking to survive in a world taken over by zo...
8805,Zoom,"Dragged from civilian life, a former superhero..."
8806,Zubaan,A scrappy but poor boy worms his way into a ty...


In [104]:
## Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 
df_catalogo.iloc[0:10, 2:6]

Unnamed: 0,title,director,cast,country
0,Dick Johnson Is Dead,Kirsten Johnson,,United States
1,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa
2,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",
3,Jailbirds New Orleans,,,
4,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India
5,Midnight Mass,Mike Flanagan,"Kate Siegel, Zach Gilford, Hamish Linklater, H...",
6,My Little Pony: A New Generation,"Robert Cullen, José Luis Ucha","Vanessa Hudgens, Kimiko Glenn, James Marsden, ...",
7,Sankofa,Haile Gerima,"Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...","United States, Ghana, Burkina Faso, United Kin..."
8,The Great British Baking Show,Andy Devonshire,"Mel Giedroyc, Sue Perkins, Mary Berry, Paul Ho...",United Kingdom
9,The Starling,Theodore Melfi,"Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...",United States


In [105]:
## Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.
df_catalogo.iloc[-7:, [2,3,5]]

Unnamed: 0,title,director,country
8800,Zindagi Gulzar Hai,,Pakistan
8801,Zinzana,Majid Al Ansari,"United Arab Emirates, Jordan"
8802,Zodiac,David Fincher,United States
8803,Zombie Dumb,,
8804,Zombieland,Ruben Fleischer,United States
8805,Zoom,Peter Hewitt,United States
8806,Zubaan,Mozez Singh,India


In [106]:
## Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.
df_catalogo.iloc[15:26, :4]

Unnamed: 0,show_id,type,title,director
15,s16,TV Show,Dear White People,
16,s17,Movie,Europe's Most Dangerous Man: Otto Skorzeny in ...,"Pedro de Echave García, Pablo Azorín Williams"
17,s18,TV Show,Falsa identidad,
18,s19,Movie,Intrusion,Adam Salky
19,s20,TV Show,Jaguar,
20,s21,TV Show,Monsters Inside: The 24 Faces of Billy Milligan,Olivier Megaton
21,s22,TV Show,Resurrection: Ertugrul,
22,s23,Movie,Avvai Shanmughi,K.S. Ravikumar
23,s24,Movie,Go! Go! Cory Carson: Chrissy Takes the Wheel,"Alex Woo, Stanley Moore"
24,s25,Movie,Jeans,S. Shankar


In [107]:
## Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.
df_catalogo.iloc[20:31, [2,7,8]]

Unnamed: 0,title,release_year,rating
20,Monsters Inside: The 24 Faces of Billy Milligan,2021,TV-14
21,Resurrection: Ertugrul,2018,TV-14
22,Avvai Shanmughi,1996,TV-PG
23,Go! Go! Cory Carson: Chrissy Takes the Wheel,2021,TV-Y
24,Jeans,1998,TV-14
25,Love on the Spectrum,2021,TV-14
26,Minsara Kanavu,1997,TV-PG
27,Grown Ups,2010,PG-13
28,Dark Skies,2013,PG-13
29,Paranoia,2013,PG-13
