## ***1. Conocer el dataset***

In [4]:
# Dataset: https://www.kaggle.com/datasets/shivamb/netflix-shows

import kagglehub
import pandas as pd
import os

# Descargar el dataset de Netflix
path = kagglehub.dataset_download("shivamb/netflix-shows")

# Ver ruta de los archivos descargados
print("Dataset descargado en:", path)

# Construir la ruta del archivo descargado
csv_path = os.path.join(path, "netflix_titles.csv")


Dataset descargado en: /kaggle/input/netflix-shows


In [5]:
# 1. Cargar el dataset
df = pd.read_csv(csv_path)

# Mostrar primeras filas
df.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [6]:
# 2. Revisión general del dataset
print("Dimensiones:", df.shape)
df.info()
df.describe(include='all')


Dimensiones: (8807, 12)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
count,8807,8807,8807,6173,7982,7976,8797,8807.0,8803,8804,8807,8807
unique,8807,2,8807,4528,7692,748,1767,,17,220,514,8775
top,s8807,Movie,Zubaan,Rajiv Chilaka,David Attenborough,United States,"January 1, 2020",,TV-MA,1 Season,"Dramas, International Movies","Paranormal activity at a lush, abandoned prope..."
freq,1,6131,1,19,19,2818,109,,3207,1793,362,4
mean,,,,,,,,2014.180198,,,,
std,,,,,,,,8.819312,,,,
min,,,,,,,,1925.0,,,,
25%,,,,,,,,2013.0,,,,
50%,,,,,,,,2017.0,,,,
75%,,,,,,,,2019.0,,,,


In [7]:
#3. Eliminar duplicados
print(f'El número de filas duplicadas es {df.duplicated().sum()}')


El número de filas duplicadas es 0


In [8]:
# 4. Ver columnas y valores nulos
df.isnull().sum().sort_values(ascending=False)


Unnamed: 0,0
director,2634
country,831
cast,825
date_added,10
rating,4
duration,3
show_id,0
type,0
title,0
release_year,0


### En el dataset se encotró lo siguiente:

* Hay 8807 filas y 12 columnas proporcionadas en los datos.
* Hay valores nulos presentes en director, country, cast, date_added, rating y duration.
* No hay valores duplicados.

## ***2. Entendiendo sus variables***

In [9]:
# Columnas del conjunto de datos
df.columns

Index(['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
       'release_year', 'rating', 'duration', 'listed_in', 'description'],
      dtype='object')

In [10]:
# Descripción del conjunto de datos (todas las columnas incluidas)
df.describe(include= 'all').round(2)

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
count,8807,8807,8807,6173,7982,7976,8797,8807.0,8803,8804,8807,8807
unique,8807,2,8807,4528,7692,748,1767,,17,220,514,8775
top,s8807,Movie,Zubaan,Rajiv Chilaka,David Attenborough,United States,"January 1, 2020",,TV-MA,1 Season,"Dramas, International Movies","Paranormal activity at a lush, abandoned prope..."
freq,1,6131,1,19,19,2818,109,,3207,1793,362,4
mean,,,,,,,,2014.18,,,,
std,,,,,,,,8.82,,,,
min,,,,,,,,1925.0,,,,
25%,,,,,,,,2013.0,,,,
50%,,,,,,,,2017.0,,,,
75%,,,,,,,,2019.0,,,,


### Variables Description

### <b> El conjunto de datos contiene información sobre películas y programas de televisión. (show id, type, title, director, release year, rating, duration etc.).</b>


<b>Información: </b>

- **show_id**: Número de identificación único para todas las filas enumeradas

- **type**: denota el tipo de programa, es decir, programa de televisión o película

- **title**: título de la película

- **director**: Nombre del director/directores

- **cast**: enumera el elenco de la película

- **country**: país de la casa productora

- **date_added**: la fecha en que se agregó el programa

- **release_year**: año del estreno del programa

- **rating**: mostrar calificaciones

- **duration**: duración del espectáculo

- **listed_in**: el género del programa

- **description**: resumen/descripción de la película

In [11]:
# Verificar los valores únicos de cada variable usando un bucle for.
for i in df.columns.tolist():
    print(f"Número de valores únicos en '{i}': {df[i].nunique()}")


Número de valores únicos en 'show_id': 8807
Número de valores únicos en 'type': 2
Número de valores únicos en 'title': 8807
Número de valores únicos en 'director': 4528
Número de valores únicos en 'cast': 7692
Número de valores únicos en 'country': 748
Número de valores únicos en 'date_added': 1767
Número de valores únicos en 'release_year': 74
Número de valores únicos en 'rating': 17
Número de valores únicos en 'duration': 220
Número de valores únicos en 'listed_in': 514
Número de valores únicos en 'description': 8775


## ***3. Data Wrangling***

In [12]:
# Crear una copia del conjunto de datos.
data = df.copy()

In [13]:
# Rellenar los valores nulos de la columna 'cast' con 'No disponible'
data['cast'] = data['cast'].fillna(value='Not available')

In [14]:
# Rellenar los valores nulos en la columna 'country' con 'No conocido'
data['country'] = data['country'].fillna(value='Not Known')

In [15]:
# Dado que 'date_added', 'rating' y 'duration' tienen una baja cantidad de valores nulos (10, 4 y 3 respectivamente), se eliminarán esas filas.
data = data.dropna(subset=['date_added', 'rating', 'duration'])

In [16]:
# Como la columna 'director' tiene muchos valores nulos, si los eliminamos perderíamos muchos datos, así que los reemplazo por 'Desconocido'.
data['director'] = data['director'].fillna(value='Unknown')

In [17]:
# Verificando nuevamente los valores faltantes para confirmar
data.isna().sum()

Unnamed: 0,0
show_id,0
type,0
title,0
director,0
cast,0
country,0
date_added,0
release_year,0
rating,0
duration,0


Para preparar el análisis de datos, hice lo siguiente:
1. Se rellenan los valores faltantes del reparto con No disponible.
2. Complete los valores faltantes del país con la moda (valor más frecuente).
3. Se rellenaron los valores faltantes del director con Desconocido.
4. Se eliminaron filas de valores faltantes de 'date_added', 'rating' y 'duration'.

In [18]:
# División de estructura para normalizar (como base de datos relacional)

# Tabla: Titles
titles_data_v2 = data[['show_id', 'type', 'title', 'release_year', 'rating', 'duration', 'date_added', 'description']].copy()

In [19]:
#  Tabla: Directors (relación 1 a muchos con show_id)
directors_data_v2 = data[['show_id', 'director']].dropna()
directors_data_v2 = directors_data_v2.assign(director=directors_data_v2['director'].str.split(',')).explode('director')
directors_data_v2['director'] = directors_data_v2['director'].str.strip()

# Tabla: Cast (relación 1 a muchos con show_id)
cast_data_v2 = data[['show_id', 'cast']].dropna()
cast_data_v2 = cast_data_v2.assign(actor=cast_data_v2['cast'].str.split(',')).explode('actor')
cast_data_v2['actor'] = cast_data_v2['actor'].str.strip()
cast_data_v2.drop(columns=['cast'], inplace=True)

# Tabla: Countries (relación 1 a muchos con show_id)
countries_data_v2 = data[['show_id', 'country']].dropna()
countries_data_v2 = countries_data_v2.assign(country=countries_data_v2['country'].str.split(',')).explode('country')
countries_data_v2['country'] = countries_data_v2['country'].str.strip()

# Tabla: Categories (listed_in)
categories_data_v2 = data[['show_id', 'listed_in']].dropna()
categories_data_v2 = categories_data_v2.assign(category=categories_data_v2['listed_in'].str.split(',')).explode('category')
categories_data_v2['category'] = categories_data_v2['category'].str.strip()
categories_data_v2.drop(columns=['listed_in'], inplace=True)

# Crear la carpeta si no existe
os.makedirs("recursos", exist_ok=True)

# Guardar todas las tablas en archivos CSV
titles_data_v2.to_csv('recursos/titles.csv', index=False)
directors_data_v2.to_csv('recursos/directors.csv', index=False)
cast_data_v2.to_csv('recursos/cast.csv', index=False)
countries_data_v2.to_csv('recursos/countries.csv', index=False)
categories_data_v2.to_csv('recursos/categories.csv', index=False)

print("✅ Tablas normalizadas exportadas.")

✅ Tablas normalizadas exportadas.


In [17]:
# 4. Ver columnas y valores nulos
countries_data_v2.isnull().sum().sort_values(ascending=False)

Unnamed: 0,0
show_id,0
country,0
