In [1]:
# 1. Importar bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans


# 2. Cargar el conjunto de datos
df = pd.read_csv('../movies/netflix_movies.csv')

# 3. Exploración de Datos
print("Estadísticas Descriptivas:")
print(df.describe())

print("\nValores Nulos por Columna:")
print(df.isnull().sum())

# Crear boxplot para identificar valores atípicos
df.boxplot(column=['duracion', 'puntaje'], grid=False)
plt.title("Boxplot de Duración y Puntaje")
plt.show()

# Histograma de la duración
if 'duracion' in df.columns:
    df['duracion'].hist(bins=20, color='skyblue', edgecolor='black')
    plt.xlabel('Duración')
    plt.ylabel('Frecuencia')
    plt.title('Histograma de la Duración de las Películas')
    plt.show()
else:
    print("No se encontró la columna 'duracion'.")

# 4. Preprocesamiento de Datos
# Eliminar duplicados
df.drop_duplicates(inplace=True)

# Rellenar valores faltantes con la media en las columnas numéricas
df.fillna(df.mean(), inplace=True)

# Escalar las características numéricas para clustering (K-Means)
caracteristicas = ['duracion', 'puntaje']
scaler = StandardScaler()
datos_escalados = scaler.fit_transform(df[caracteristicas])

# 5. Análisis de Clustering con K-Means
# Aplicar K-Means con 3 clústeres
kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(datos_escalados)

# Mostrar el número de películas por clúster
print("\nNúmero de Películas por Clúster:")
print(df['cluster'].value_counts())

# 6. Visualización de Resultados
# Scatter plot de Duración vs Puntaje coloreado por clúster
plt.figure(figsize=(10, 6))
plt.scatter(df['duracion'], df['puntaje'], c=df['cluster'], cmap='viridis')
plt.xlabel('Duración')
plt.ylabel('Puntaje')
plt.title('Clustering de Películas: Duración vs Puntaje')
plt.colorbar(label='Cluster')
plt.show()

# Heatmap de correlación
plt.figure(figsize=(8, 6))
# sns.heatmap(df[caracteristicas + ['cluster']].corr(), annot=True, cmap='coolwarm')
plt.title("Mapa de Calor de Correlación")
plt.show()

# 7. Conclusiones
print("\nConclusiones:")
print("1. Las películas se agrupan en función de la duración y puntaje.")
print("2. El clúster 0 parece contener películas con duraciones más cortas y puntajes moderados.")
print("3. Los valores atípicos identificados en el boxplot indican películas extremadamente largas o con puntajes inusuales.")




ModuleNotFoundError: No module named 'sklearn'