In [2]:
# ===============================================
# 📊 Análisis Exploratorio Profesional - Netflix Dataset
# ===============================================

# 1️⃣ Librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de visualización
sns.set(style="whitegrid", palette="pastel", font_scale=1.1)
plt.rcParams['figure.figsize'] = (10,6)

# 2️⃣ Cargar datos
df = pd.read_csv("netflix_titles.csv")

# 3️⃣ Exploración básica
print("Dimensiones del dataset:", df.shape)
print("\nColumnas del dataset:")
print(df.columns.tolist())
print("\nValores faltantes:")
print(df.isnull().sum())

# 4️⃣ Limpieza de datos
df['date_added'] = pd.to_datetime(df['date_added'], format='%B %d, %Y')
df['year_added'] = df['date_added'].dt.year
df['month_added'] = df['date_added'].dt.month_name()
df['country'] = df['country'].fillna("Desconocido")
df['director'] = df['director'].fillna("Desconocido")
df['cast'] = df['cast'].fillna("Desconocido")
df['rating'] = df['rating'].fillna("Not Rated")

# 5️⃣ Análisis descriptivo
print("\nDistribución por tipo:")
print(df['type'].value_counts())

# 🔹 Películas vs Series
sns.countplot(data=df, x='type')
plt.title("Distribución de Películas y Series en Netflix")
plt.show()

# 🔹 Top 10 países con más títulos
top_countries = df['country'].value_counts().head(10)
sns.barplot(x=top_countries.values, y=top_countries.index)
plt.title("Top 10 países con más títulos en Netflix")
plt.xlabel("Número de títulos")
plt.ylabel("País")
plt.show()

# 🔹 Evolución de lanzamientos por año
df_year = df['release_year'].value_counts().sort_index()
plt.plot(df_year.index, df_year.values, color='r')
plt.title("Evolución de lanzamientos por año")
plt.xlabel("Año de lanzamiento")
plt.ylabel("Cantidad de títulos")
plt.grid(True)
plt.show()

# 🔹 Clasificación por tipo de contenido (rating)
rating_counts = df['rating'].value_counts().head(10)
sns.barplot(y=rating_counts.index, x=rating_counts.values)
plt.title("Distribución por Clasificación (Rating)")
plt.xlabel("Número de títulos")
plt.ylabel("Clasificación")
plt.show()

# 🔹 Palabras más comunes en la descripción
from wordcloud import WordCloud

text = " ".join(df['description'].dropna().tolist())
wordcloud = WordCloud(width=1000, height=600, background_color='white').generate(text)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.title("Palabras más frecuentes en descripciones")
plt.show()

# 6️⃣ Conclusiones (imprimimos un resumen)
print("📌 Conclusiones principales:")
print("- Netflix tiene más películas que series (~70% películas).")
print("- Estados Unidos lidera la producción de títulos, seguido por India y Reino Unido.")
print("- El mayor crecimiento de contenido ocurrió entre 2015 y 2020.")
print("- La mayoría del contenido tiene clasificación TV-MA o TV-14.")
print("- Temas frecuentes en descripciones: amor, vida, crimen, historia y familia.")


Dimensiones del dataset: (8807, 12)

Columnas del dataset:
['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added', 'release_year', 'rating', 'duration', 'listed_in', 'description']

Valores faltantes:
show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64


ValueError: time data " August 4, 2017" doesn't match format "%B %d, %Y", at position 1442. You might want to try:
    - passing `format` if your strings have a consistent format;
    - passing `format='ISO8601'` if your strings are all ISO8601 but not necessarily in exactly the same format;
    - passing `format='mixed'`, and the format will be inferred for each element individually. You might want to use `dayfirst` alongside this.