# Análisis Básico de Datos de Netflix

**Estudiante:** Osvaldo  
**Fecha:** 19 de Agosto 2025  
**Dataset:** Netflix Shows Dataset

En este notebook vamos a analizar el dataset de Netflix para entender qué tipo de contenido tiene la plataforma.

## 1. Importar las librerías que vamos a usar

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

print("Librerías cargadas correctamente")

## 2. Cargar los datos

In [None]:
# Cargar el archivo CSV
df = pd.read_csv('netflix_titles.csv')

print(f"El dataset tiene {len(df)} filas y {len(df.columns)} columnas")
print("\nPrimeras 5 filas:")
df.head()

## 3. Explorar los datos básicos

In [None]:
# Ver información básica del dataset
print("Columnas del dataset:")
for i, columna in enumerate(df.columns):
    print(f"{i+1}. {columna}")

print(f"\nTamaño del dataset: {df.shape}")

In [None]:
# Ver cuántos datos faltan
print("Datos faltantes por columna:")
datos_faltantes = df.isnull().sum()
print(datos_faltantes)

## 4. Limpieza básica de datos

In [None]:
# Hacer una copia de los datos para trabajar
df_limpio = df.copy()

# Eliminar filas que no tienen fecha de cuando se agregó a Netflix
df_limpio = df_limpio.dropna(subset=['date_added'])

print(f"Datos originales: {len(df)} filas")
print(f"Datos después de limpiar: {len(df_limpio)} filas")
print(f"Se eliminaron {len(df) - len(df_limpio)} filas")

## 5. Análisis 1: ¿Qué tipos de contenido tiene Netflix?

Vamos a ver si Netflix tiene más películas o series de TV.

In [None]:
# Contar cuántas películas y series hay
conteo_tipos = df_limpio['type'].value_counts()
print("Tipos de contenido en Netflix:")
print(conteo_tipos)

# Calcular porcentajes
porcentajes = (conteo_tipos / len(df_limpio)) * 100
print("\nPorcentajes:")
for tipo, pct in porcentajes.items():
    print(f"{tipo}: {pct:.1f}%")

In [None]:
# Crear un gráfico de barras
plt.figure(figsize=(8, 6))
plt.bar(conteo_tipos.index, conteo_tipos.values, color=['red', 'darkred'])
plt.title('Tipos de Contenido en Netflix', fontsize=16, fontweight='bold')
plt.xlabel('Tipo de Contenido')
plt.ylabel('Cantidad')

# Agregar los números encima de las barras
for i, v in enumerate(conteo_tipos.values):
    plt.text(i, v + 50, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 6. Análisis 2: ¿De qué países viene más contenido?

Vamos a ver cuáles son los países que más contenido aportan a Netflix.

In [None]:
# Limpiar datos de países (algunos están vacíos)
df_con_pais = df_limpio[df_limpio['country'].notna()]

# Algunos títulos tienen varios países, vamos a tomar solo el primero
df_con_pais['primer_pais'] = df_con_pais['country'].str.split(',').str[0]

# Contar los 10 países con más contenido
top_paises = df_con_pais['primer_pais'].value_counts().head(10)
print("Top 10 países con más contenido:")
print(top_paises)

In [None]:
# Crear gráfico de barras horizontal
plt.figure(figsize=(10, 8))
plt.barh(top_paises.index, top_paises.values, color='darkblue')
plt.title('Top 10 Países con Más Contenido en Netflix', fontsize=16, fontweight='bold')
plt.xlabel('Cantidad de Títulos')
plt.ylabel('País')

# Agregar los números al final de cada barra
for i, v in enumerate(top_paises.values):
    plt.text(v + 20, i, str(v), va='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 7. Análisis 3: ¿Cuáles son las clasificaciones más comunes?

Vamos a ver qué tipos de clasificación (edades) son más frecuentes.

In [None]:
# Contar clasificaciones
clasificaciones = df_limpio['rating'].value_counts().head(8)
print("Clasificaciones más comunes:")
print(clasificaciones)

In [None]:
# Gráfico de barras de clasificaciones
plt.figure(figsize=(12, 6))
plt.bar(clasificaciones.index, clasificaciones.values, color='green')
plt.title('Clasificaciones Más Comunes en Netflix', fontsize=16, fontweight='bold')
plt.xlabel('Clasificación')
plt.ylabel('Cantidad')
plt.xticks(rotation=45)

# Agregar números encima de las barras
for i, v in enumerate(clasificaciones.values):
    plt.text(i, v + 20, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 8. Análisis 4: ¿En qué años se agregó más contenido?

Vamos a ver en qué años Netflix agregó más contenido a su plataforma.

In [None]:
# Convertir la fecha a formato de fecha
df_limpio['date_added'] = pd.to_datetime(df_limpio['date_added'])

# Extraer el año
df_limpio['año_agregado'] = df_limpio['date_added'].dt.year

# Contar por año (últimos 10 años)
conteo_años = df_limpio['año_agregado'].value_counts().sort_index().tail(10)
print("Contenido agregado por año (últimos 10 años):")
print(conteo_años)

In [None]:
# Gráfico de barras por año
plt.figure(figsize=(12, 6))
plt.bar(conteo_años.index.astype(str), conteo_años.values, color='orange')
plt.title('Contenido Agregado a Netflix por Año', fontsize=16, fontweight='bold')
plt.xlabel('Año')
plt.ylabel('Cantidad de Títulos Agregados')
plt.xticks(rotation=45)

# Agregar números encima de las barras
for i, v in enumerate(conteo_años.values):
    plt.text(i, v + 30, str(v), ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 9. Análisis 5: ¿Cuáles son los géneros más populares?

Vamos a ver qué tipos de géneros son más comunes en Netflix.

In [None]:
# Limpiar géneros (algunos títulos no tienen género)
df_con_genero = df_limpio[df_limpio['listed_in'].notna()]

# Separar géneros (algunos títulos tienen varios géneros separados por comas)
todos_los_generos = []
for generos in df_con_genero['listed_in']:
    generos_separados = generos.split(', ')
    todos_los_generos.extend(generos_separados)

# Crear DataFrame de géneros y contar
df_generos = pd.DataFrame(todos_los_generos, columns=['genero'])
top_generos = df_generos['genero'].value_counts().head(10)

print("Top 10 géneros más populares:")
print(top_generos)

In [None]:
# Gráfico de barras horizontal para géneros
plt.figure(figsize=(12, 8))
plt.barh(top_generos.index, top_generos.values, color='purple')
plt.title('Top 10 Géneros Más Populares en Netflix', fontsize=16, fontweight='bold')
plt.xlabel('Cantidad de Títulos')
plt.ylabel('Género')

# Agregar números al final de cada barra
for i, v in enumerate(top_generos.values):
    plt.text(v + 30, i, str(v), va='center', fontweight='bold')

plt.tight_layout()
plt.show()

## 10. Conclusiones

Después de analizar los datos de Netflix, encontramos lo siguiente:

In [None]:
print("=== CONCLUSIONES DEL ANÁLISIS ===\n")

# Conclusión 1: Tipos de contenido
movies_count = conteo_tipos['Movie']
shows_count = conteo_tipos['TV Show']
movies_pct = (movies_count / (movies_count + shows_count)) * 100
print(f"1. TIPO DE CONTENIDO:")
print(f"   - Netflix tiene más películas ({movies_pct:.1f}%) que series de TV")
print(f"   - Total: {movies_count} películas y {shows_count} series\n")

# Conclusión 2: País principal
pais_principal = top_paises.index[0]
cantidad_principal = top_paises.iloc[0]
print(f"2. PAÍS PRINCIPAL:")
print(f"   - {pais_principal} es el país con más contenido ({cantidad_principal} títulos)\n")

# Conclusión 3: Clasificación más común
rating_principal = clasificaciones.index[0]
print(f"3. CLASIFICACIÓN MÁS COMÚN:")
print(f"   - La clasificación más frecuente es '{rating_principal}'\n")

# Conclusión 4: Año con más contenido
año_mas_contenido = conteo_años.index[-1]
cantidad_año = conteo_años.iloc[-1]
print(f"4. CRECIMIENTO:")
print(f"   - El año {año_mas_contenido} fue cuando más contenido se agregó ({cantidad_año} títulos)\n")

# Conclusión 5: Género principal
genero_principal = top_generos.index[0]
print(f"5. GÉNERO MÁS POPULAR:")
print(f"   - El género más común es '{genero_principal}'\n")

print("=== FIN DEL ANÁLISIS ===")