# **   EJERCICIO DE BIG DATA CON LA HERRAMIENTA DE PYTHON EN GOOGLE COLAB:  **





"El conjunto de datos Online Retail, frecuentemente obtenido del Repositorio de Aprendizaje Automático de la UCI o de plataformas como Kaggle, representa un registro de las transacciones de un minorista en línea con sede en el Reino Unido. Este conjunto de datos abarca un período específico (generalmente desde el 1 de diciembre de 2010 hasta el 9 de diciembre de 2011) y proporciona una instantánea del comportamiento de compra de los clientes de la empresa.



La importancia de este dataset radica en su versatilidad para diversos tipos de análisis. En el contexto del archivo que has proporcionado, donde se realiza un ejercicio de clustering K-Means, el dataset permite segmentar a los clientes en grupos basados en sus patrones de compra. Esta segmentación puede ser extremadamente valiosa para la empresa minorista para personalizar sus estrategias de marketing, mejorar la retención de clientes y optimizar la gestión de inventario.



---



**Además del clustering, el dataset Online Retail es útil para:**

Análisis de series temporales: Para identificar tendencias de ventas, estacionalidad y realizar pronósticos.


Análisis de la cesta de la compra: Para descubrir qué productos se compran juntos con frecuencia, lo que puede informar sobre la colocación de productos y las promociones cruzadas.


Análisis geográfico: Para comprender las diferencias en el comportamiento de compra entre los países.



---


Las características clave de este dataset, que son relevantes para el análisis de clustering y otras tareas, incluyen:

InvoiceNo (Identificador de Factura): Representa una transacción única. En el análisis de clustering, podríamos agregar datos a nivel de factura para entender el valor total de la compra o la frecuencia de compra de un cliente.


StockCode (Código de Producto): Identifica un producto específico. Si bien no se usa directamente en el clustering típico de clientes, es fundamental para el análisis de productos vendidos dentro de cada segmento de clientes.


Quantity (Cantidad): La cantidad de un producto vendido en una transacción. Es una variable clave para segmentar a los clientes según el volumen de compra.


UnitPrice (Precio Unitario): El precio de un solo producto. Junto con la cantidad, permite calcular el gasto total del cliente, una variable importante para la segmentación.


CustomerID (ID de Cliente): Identifica a un cliente único. El objetivo principal del clustering en este contexto es agrupar a los clientes con características de compra similares.


Country (País): El país del cliente. Si bien no se usa directamente en el clustering, permite analizar las diferencias geográficas en los segmentos de clientes.


InvoiceDate (Fecha de Factura): Permite el análisis temporal de los segmentos de clientes (por ejemplo, cómo cambian los segmentos a lo largo del tiempo).



---




Referencias:

UCI Machine Learning Repository: https://archive.ics.uci.edu/ml/datasets/Online+Retail
Kaggle (buscar "Online Retail"): https://www.kaggle.com/

**INSTRUCCIONES:**

Por favor siga los pasos indicados para la entrega de este archivo como opción alterna a la entrega propuesta en la plataforma para la evaluación de la Unidad 2.



1. CARGAR LAS LIBRERIAS PARA EJECUTAR  LOS ALGORITMOS.

2. CARGAR LOS 3 ARCHIVOS SUMINISTRADOS A COLAB, EN LA CARPETA LATERAL
DONDE SE CARGAN LOS ARCHIVOS DEL ENTORNO DE COLAB datos_20, datos_30 y datos_50 (***) Y LUEGO EJECUTAR LA CELDA PARA INTEGRARLOS.

3. EJECUTAR LA CELDA PARA VER UN PROCESO SENCILLO DE  EDA, ANALISIS EXPLORATORIO DE LOS DATOS.

4. PARA ESTE PUNTO USTED YA NO TIENE QUE HACER IMPUTACIÓN DE DATOS, SE REALIZA AUTOMATICAMENTE, DE ESTA FORMA DEBE EJECUTAR LA CELDA DE LA IMPUTACION DE DATOS (DATOS NULOS O FALTANTES) EN COLUMNAS  CATEGORIAS Y EN COLUMNAS NUMERICAS, LUEGO INSERTAR LAS RESPUESTAS A LAS PREGUNTAS SOBRE IMPUTACION:

4.1.¿EN QUÉ CONSISTE EL PROCESO DE IMPUTACIÓN DE DATOS?

4.2.¿CÓMO, CON QUÉ MÉTODO RECOMIENDA USTED RELIZAR UNA IMPUTACIÓN DE DATOS FALTANTES EN UNA COLUMNA DE DATOS CATEGÓRICOS Y EN UNA COLUMNA DE DATOS NUMÉRICOS?

ES DECIR QUE USTED SÓLO VA A CONTESTAR ESTAS DOS PREGUNTAS EN ESTE PUNTO NO ES NECESARIO GENERAR PROCESOS DE IMPUTACIÓN DE DATOS.****


5. EJECUTAR CELDA PARA LA CLUSTERIZACION (AGRUPACION DE LOS DATOS-CLIENTES ALGORITMO DE MACHINE LEARNING NO SUPERVISADO), CON ESTE SE VA A GENERAR UN NUEVO ARCHIVO CSV CON EL QUE SE VA A TRABAJAR POSTERIORMENTE EN LAS CLASES OBSERVE EL PROCESO.

6. HACER E INSERTAR COMO TEXTO O COMO IMAGEN UN CMI CUADRO DE MANDO INTEGRAL PARA LA EMPRESA QUE TIENE ESTOS DATOS (RETAIL, COMO EXITO COMO AMAZON COMO WALMART). USE EL MATERIAL DE LA PLATAFORMA Y EL CONTEXTO DADO AL PRINCIPIO DE ESTE ARCHIVO PARA PODER GENERARLO ****

7. GENERAR E INSERTAR COMO TEXTO, TABLA O COMO IMAGEN 5 KPI (ESCOGER 5 KPI QUE SEAN LOS MAS REPRESENTATIVOS PARA LA EMPRESA). USE EL MATERIAL DE LA PLATAFORMA Y EL CONTEXTO DADO AL PRINCIPIO DE ESTE ARCHIVO PARA PODER GENERARLOS ****



SON 4 ACTIVIDADES QUE USTED DEBE DESARROLLAR EN ESTA TAREA.(EN LOS PUNTOS 2, 4, 6, 7).

In [1]:
#  1. CARGAR LAS LIBRERIAS INICIALES PARA EJECUTAR LOS ALGORITMOS. SÓLO DEBE EJECUTAR LA CELDA
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

!pip install dash pandas openpyxl plotly


from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler


ModuleNotFoundError: No module named 'pandas'

In [None]:
# 2. CARGAR LOS 3 ARCHIVOS SUMINISTRADOS A COLAB, EN LA CARPETA LATERAL
# DONDE SE CARGAN LOS ARCHIVOS DEL ENTORNO DE COLAB datos_20, datos_30 y datos_50 (***)
# Y LUEGO EJECUTAR LA CELDA PARA INTEGRARLOS.

# Reunir los archivos en un solo DataFrame,ya se determinó previamente
# que estos archivos se pueden unir porque coiniciden los datos de sus columnas.

# Leer los archivos generados
df_csv = pd.read_csv("/content/datos_20.csv")
df_json = pd.read_json("/content/datos_30.json")
df_excel = pd.read_excel("/content/datos_50.xlsx")

# Combinar los DataFrames
df_combinados = pd.concat([df_csv, df_json, df_excel], ignore_index=True)

# Verificar que los datos combinados sean correctos
print("\nDatos combinados después de reunir los archivos:")
print(df_combinados.info())

print("\nVerificación completada: Todos los pasos se han realizado correctamente.")

In [None]:
#3. EJECUTAR LA CELDA PARA VER UN PROCESO SENCILLO DE EDA, ANALISIS EXPLORATORIO DE LOS DATOS.

# Cargar el dataset

df =  df_combinados

# Mostrar información inicial del dataset
print("Información inicial del dataset:")
print(df.info())

# Mostrar las primeras filas
print("\nPrimeras filas del dataset:")
print(df.head())

#  Convertir datos de las fechas a datetime

try:
    # Verificar si los valores son números grandes (probablemente timestamps en milisegundos)
    # El tipo de dato podría ser 'object' al provenir de fuentes combinadas
    # y contener representaciones numéricas y de texto de las fechas.
    # Intentemos convertir a numérico primero, manejando errores:
    df['InvoiceDate'] = pd.to_numeric(df['InvoiceDate'], errors='coerce')
    if df['InvoiceDate'].dtype in ['int64', 'float64']:
        # Convertir de milisegundos a datetime
        df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], unit='ms')
    else:
        # Intentar convertir directamente a datetime, usando format='mixed'
        df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'], errors='raise', format='mixed')
except ValueError as e:
    print(f"Error al convertir InvoiceDate: {e}")
    print("Verifica el formato de los datos en la columna 'InvoiceDate'.")
    raise

# Mostrar las primeras filas después de la conversión
print("\nPrimeras filas después de convertir InvoiceDate:")
print(df.head())

#  Estadísticas Descriptivas

# Resumen numérico
print("\nResumen estadístico de variables numéricas:")
print(df.describe())

# Resumen de variables categóricas
print("\nResumen de variables categóricas:")
categorical_columns = df.select_dtypes(include=['object']).columns
for col in categorical_columns:
    print(f"\nDistribución de {col}:")
    print(df[col].value_counts())

# Visualización de Datos
# Configuración de estilo
sns.set(style="whitegrid")

# Histograma de Quantity
plt.figure(figsize=(10, 6))
sns.histplot(df['Quantity'], bins=50, kde=False, color='blue')
plt.title("Distribución de Quantity")
plt.xlabel("Quantity")
plt.ylabel("Frecuencia")
plt.show()

# Histograma de UnitPrice
plt.figure(figsize=(10, 6))
sns.histplot(df[df['UnitPrice'] > 0]['UnitPrice'], bins=50, kde=False, color='green')
plt.title("Distribución de UnitPrice (Valores > 0)")
plt.xlabel("UnitPrice")
plt.ylabel("Frecuencia")
plt.show()

# Boxplot de Quantity para detectar outliers
plt.figure(figsize=(10, 6))
sns.boxplot(x=df['Quantity'])
plt.title("Boxplot de Quantity")
plt.xlabel("Quantity")
plt.show()

# Boxplot de UnitPrice para detectar outliers
plt.figure(figsize=(10, 6))
sns.boxplot(x=df[df['UnitPrice'] > 0]['UnitPrice'])
plt.title("Boxplot de UnitPrice (Valores > 0)")
plt.xlabel("UnitPrice")
plt.show()

# Distribución de datos por países
plt.figure(figsize=(12, 8))
country_counts = df['Country'].value_counts()
sns.barplot(x=country_counts[:10].index, y=country_counts[:10].values, palette="viridis")
plt.title("Top 10 Países por Número de Transacciones")
plt.xlabel("País")
plt.ylabel("Número de Transacciones")
plt.xticks(rotation=45)
plt.show()

# Análisis Temporal
# Extraer año y mes
df['Year'] = df['InvoiceDate'].dt.year
df['Month'] = df['InvoiceDate'].dt.month

# Ventas mensuales
monthly_sales = df.groupby(['Year', 'Month'])['Quantity'].sum().reset_index()
monthly_sales['Year-Month'] = monthly_sales['Year'].astype(str) + '-' + monthly_sales['Month'].astype(str)

# Gráfico de ventas mensuales
plt.figure(figsize=(12, 6))
sns.lineplot(data=monthly_sales, x='Year-Month', y='Quantity', marker='o')
plt.title("Ventas Mensuales")
plt.xlabel("Año-Mes")
plt.ylabel("Cantidad Vendida")
plt.xticks(rotation=45)
plt.show()

# Análisis de Correlaciones
# Calcular ingresos totales
df['TotalPrice'] = df['Quantity'] * df['UnitPrice']

# Matriz de correlación
correlation_matrix = df[['Quantity', 'UnitPrice', 'TotalPrice']].corr()

# Mapa de calor de correlaciones
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de Correlación")
plt.show()

# Análisis de Outliers Valores atípicos
# Identificar outliers en Quantity usando IQR
Q1 = df['Quantity'].quantile(0.25)
Q3 = df['Quantity'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers_quantity = df[(df['Quantity'] < lower_bound) | (df['Quantity'] > upper_bound)]
print(f"\nNúmero de outliers en Quantity: {len(outliers_quantity)}")

# Identificar outliers en UnitPrice usando IQR
Q1 = df['UnitPrice'].quantile(0.25)
Q3 = df['UnitPrice'].quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

outliers_unitprice = df[(df['UnitPrice'] < lower_bound) | (df['UnitPrice'] > upper_bound)]
print(f"Número de outliers en UnitPrice: {len(outliers_unitprice)}")

# Conclusión del EDA
print("\nConclusión del Análisis Exploratorio:")
print("""
1. El dataset contiene transacciones de ventas minoristas con detalles como cantidad, precio unitario, fecha, país, etc.
2. Las variables numéricas (Quantity y UnitPrice) tienen distribuciones sesgadas y presentan valores atípicos significativos.
3. El Reino Unido es el país con más transacciones, seguido de otros países europeos.
4. Las ventas muestran una tendencia estacional, con picos en ciertos meses.
5. Existe una débil correlación entre Quantity y TotalPrice, lo que sugiere que otros factores influyen en los ingresos.
""")

In [None]:
#  4. PARA ESTE PUNTO USTED YA NO TIENE QUE HACER IMPUTACIÓN DE DATOS, SE REALIZA AUTOMATICAMENTE,
#  DE ESTA FORMA DEBE EJECUTAR LA CELDA DE LA IMPUTACION DE DATOS (DATOS NULOS O FALTANTES)
#  EN COLUMNAS  CATEGORIAS Y EN COLUMNAS NUMERICAS, LUEGO INSERTAR LAS RESPUESTAS A LAS PREGUNTAS SOBRE IMPUTACION:

#  Revisar datos faltantes
print("\nRevisión de datos faltantes:")
print(df.isnull().sum())

# Mostrar porcentaje de valores faltantes por columna
print("\nPorcentaje de datos faltantes por columna:")
print((df.isnull().sum() / len(df)) * 100)

# Imputación de datos faltantes para variables categóricas
for col in df.select_dtypes(include=['object']).columns:
    df[col] = df[col].fillna(df[col].mode()[0])

# Imputación de datos faltantes para variables numéricas
for col in df.select_dtypes(include=['number']).columns:
    df[col] = df[col].fillna(df[col].median())

# Verificar la imputación
print("\nRevisión de datos faltantes después de la imputación:")
print(df.isnull().sum())

print("\nPorcentaje de datos faltantes por columna después de la imputación:")
print((df.isnull().sum() / len(df)) * 100)


INSERTAR AQUI LAS RESPUESTAS DE:

¿EN QUÉ CONSISTE EL PROCESO DE IMPUTACIÓN DE DATOS?

¿CÓMO, CON QUÉ MÉTODO RECOMIENDA USTED RELIZAR UNA IMPUTACIÓN DE DATOS FALTANTES EN UNA COLUMNA DE DATOS CATEGÓRICOS Y EN UNA COLUMNA DE DATOS NUMÉRICOS?


In [None]:
#   5. EJECUTAR CELDA PARA LA CLUSTERIZACION (AGRUPACION DE LOS DATOS-CLIENTES ALGORITMO
#   DE MACHINE LEARNING NO SUPERVISADO), CON ESTE SE VA A GENERAR UN NUEVO ARCHIVO CSV
#   CON EL QUE SE VA A TRABAJAR POSTERIORMENTE EN LAS CLASES OBSERVE EL PROCESO.



# Preparación de datos para K-Means
print("\n---  Preparación de datos para K-Means ---")

# Seleccionar las columnas relevantes para la clusterización
features = ['Quantity', 'UnitPrice', 'TotalPrice']  # Puedes ajustar las columnas según tus necesidades
print(f"Características seleccionadas para la clusterización: {features}")

# Crear un nuevo DataFrame con las características seleccionadas
X = df[features].copy() # Usamos .copy() para evitar SettingWithCopyWarning

# Convertir las columnas a tipo numérico si es necesario
print("\nVerificando y convirtiendo las características a tipo numérico:")
for feature in features:
    print(f"  - Tipo de dato de '{feature}' antes de la conversión: {X[feature].dtype}")
    X[feature] = pd.to_numeric(X[feature], errors='coerce')  # 'coerce' convertirá valores no numéricos a NaN
    print(f"  - Tipo de dato de '{feature}' después de la conversión: {X[feature].dtype}")

# Identificar y manejar valores NaN introducidos por la conversión
print("\nIdentificando y eliminando filas con valores NaN después de la conversión:")
nan_rows_before = X.isnull().any(axis=1).sum()
print(f"  - Número de filas con NaN antes de eliminar: {nan_rows_before}")
X = X.dropna()
print(f"  - Número de filas con NaN después de eliminar: {X.isnull().any(axis=1).sum()}")
print(f"  - Número de filas en el DataFrame de características después de limpiar: {len(X)}")

# Escalar los datos para que todas las características tengan la misma importancia
print("\nEscalando las características para K-Means:")
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print("  - Datos escalados (primeras 5 filas):\n", X_scaled[:5])

#  Ejecutar K-Means
print("\n---  Ejecutar K-Means ---")

# Determinar el número óptimo de clusters (k) usando el método del codo
wcss = []
range_clusters = range(1, 11)
print(f"Calculando la Suma de Cuadrados Intra-Cluster (WCSS) para un rango de clusters: {range_clusters}")
for i in range_clusters:
    kmeans = KMeans(n_clusters=i, init='k-means++', max_iter=300, n_init='auto', random_state=0) # Corrección: Eliminar la repetición de n_init
    kmeans.fit(X_scaled)
    wcss.append(kmeans.inertia_)

# Graficar el método del codo
print("\nGraficando el método del codo para encontrar el número óptimo de clusters:")
plt.figure(figsize=(10, 6))
plt.plot(range_clusters, wcss, marker='o', linestyle='--')
plt.title('Método del Codo')
plt.xlabel('Número de Clusters (k)')
plt.ylabel('Suma de Cuadrados Intra-Cluster (WCSS)')
plt.grid(True)
plt.show()

# Elegir el número óptimo de clusters (k) según el gráfico del método del codo.

# Observa el gráfico y busca el punto donde la disminución de WCSS se vuelve menos pronunciada (el "codo").
optimal_k = 5  # ¡IMPORTANTE! se ajusta este valor basándose en la gráfica del codo.
print(f"\nNúmero óptimo de clusters seleccionado (basado en la observación del gráfico del codo): {optimal_k}")

# Aplicar K-Means con el número óptimo de clusters
kmeans = KMeans(n_clusters=optimal_k, init='k-means++', max_iter=300, n_init='auto', random_state=0)
df_temp = df[features].dropna().copy() # Asegurarse de usar solo las filas sin NaN para la predicción
df_temp_scaled = scaler.transform(df_temp) # Escalar usando el mismo scaler ajustado previamente
clusters = kmeans.fit_predict(df_temp_scaled)

# Asignación de clusters solo a las filas donde no había NaN en las características
df.loc[df[features].dropna().index, 'Cluster'] = clusters

# Llenar los posibles NaN en la columna 'Cluster' con un valor indicativo (opcional)
df['Cluster'].fillna(-1, inplace=True) # -1 indica que la fila no se incluyó en la clusterización debido a NaN

print("\nSe han asignado los clusters al DataFrame original.")
print("\nPrimeras filas del DataFrame con la columna 'Cluster':")
print(df.head())

#  Análisis de Clusters
print("\n---  Análisis de Clusters ---")
print("\nEstadísticas descriptivas de cada cluster:")

# ¡CORRECCIÓN IMPORTANTE! Agrupar solo por las filas que tienen un cluster asignado (no NaN)
print(df[df['Cluster'] != -1].groupby('Cluster')[features].agg(['mean', 'median']))

# Visualizar los clusters (ejemplo con las primeras dos características escaladas)
print("\nVisualización de los clusters (usando las dos primeras características escaladas):")
if len(features) >= 2:
    plt.figure(figsize=(10, 6))
    # Solo se grafican los puntos que fueron clusterizados
    X_clustered = X_scaled[~df['Cluster'].isna()]
    clusters_assigned = df['Cluster'][~df['Cluster'].isna()].astype(int) # Convertir a int para el color

    scatter = plt.scatter(X_clustered[:, 0], X_clustered[:, 1], c=clusters_assigned, cmap='viridis', label='Datos')
    plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', label='Centroides')
    plt.title('Clusters de Datos (Características Escaladas)')
    plt.xlabel(f'Característica Escalada: {features[0]}')
    plt.ylabel(f'Característica Escalada: {features[1]}')
    plt.legend()

    # Crear una leyenda para los colores de los clusters
    legend1 = plt.legend(*scatter.legend_elements(), title="Clusters")
    plt.gca().add_artist(legend1)

    plt.grid(True)
    plt.show()
else:
    print("No se pueden visualizar los clusters con menos de dos características seleccionadas.")

# Guardar el DataFrame con los clusters en un nuevo archivo CSV
print("\n---  Guardar el DataFrame con los clusters ---")
nombre_archivo_csv = "datosconclusters.csv"
df.to_csv(nombre_archivo_csv, index=False)

print(f"\nEl DataFrame con la columna 'Cluster' ha sido guardado en el archivo: {nombre_archivo_csv}")

print("\n¡El código se ha ejecutado sin problemas y se han generado los clusters!")

6. HACER E INSERTAR COMO TEXTO O COMO IMAGEN UN CMI CUADRO DE MANDO INTEGRAL PARA LA EMPRESA QUE TIENE ESTOS DATOS (RETAIL, COMO EXITO COMO AMAZON COMO WALMART). USE EL MATERIAL DE LA PLATAFORMA Y EL CONTEXTO DADO AL PRINCIPIO DE ESTE ARCHIVO PARA PODER GENERARLO ****

7. GENERAR E INSERTAR COMO TEXTO, TABLA O COMO IMAGEN 5 KPI (ESCOGER 5 KPI QUE SEAN LOS MAS REPRESENTATIVOS PARA LA EMPRESA). USE EL MATERIAL DE LA PLATAFORMA Y EL CONTEXTO DADO AL PRINCIPIO DE ESTE ARCHIVO PARA PODER GENERARLOS ****