# <center> Simulación caso de Negocio - Clustering </center>

El objetivo de esta actividad es diseñar e implementar un modelo de Clustering en Python para la resolución de un problema en el que cuenta con variables numéricas y categóricas y en el que se busca fortalecer los conocimientos teóricos y prácticos de la aplicación de las técnicas de segmentación en los negocios. 

💡 _**Nota**_: _Este material ha sido preparado por la **Universidad de las Américas - UDLA**. Parte del contenido ha sido adaptado a partir de material público liberado en [Kaggle](http://kaggle.com), [Datacamp](http://datacamp.com) y otros sitios web._

## Sobre la empresa

El siguiente caso de negocio es tomado de una e-commerce con sede en el Reino Unido conocida como **ACORA Group** especializada en la comercialización de productos de consumo masivo a través de su tienda online. La empresa cuenta con operaciones en varios países y tiene planes de expansión a nivel regional.

## 1. Evaluación de necesidades del negocio
La fase de evaluación del caso de negocio requiere que se cree, evalúe y apruebe un caso de negocio antes de proceder a las tareas reales de análisis práctico.

Uno de los desafíos que se ha planteado **ACORA Group** es segmentar sus clientes de manera que los esfuerzos comerciales de la empresa sean correctamente dirigidos en base a la misma información que genera la organización. 

# 2. Identificación de datos
La etapa de identificación de datos consiste en identificar los conjuntos de datos necesarios para el proyecto de análisis y sus fuentes.


**Dataset**

Este conjunto de datos contiene la información referente a las transacciones de compra de todas las tiendas de los 3 últimos años. 

**Diccionario de datos**

 * `InvoiceNo`: número de factura
 * `StockCode`: código del producto
 * `Description`: nombre del producto
 * `Quantity`: cantidad comprada
 * `UnitPrice`: precio unitario del producto
 * `CustomerID`: código del cliente
 * `Country`: país donde se registró la compra

# 3. Adquisición y filtrado de datos
Durante la etapa de adquisición y filtrado de datos se recopilan los datos de todas las fuentes de datos que se identificaron durante la etapa Identificación de datos.

El conjunto de datos planteado contiene información más de 150.000 transacciones de compra. Todos los datos se han recogido a través de los registros de compra realizados por todos sus clientes dentro de la página web de la e-commerce.

# 4. Extracción de datos
Durante esta etapa se debe extraer datos dispares y transformarlos en un formato que pueda facilitar el análisis de datos. 

**Importar librerías**
```Python
# Sintaxis general
import modulo as alias
- **modulo**: (módulo) librería a importar.
- **alias**: alias con el nos referiremos a la libería. 
Ejemplo: 
  - Importamos la librería pandas:
import pandas as pd
```

**Cargar el dataset**

```Python
Leemos un archivo usando el alias **pd**, luego punto **.**, y a seguir la función a utilizar **read_csv**.
Ejemplo:
df = pd.read_csv("data/nombre_archivo.csv")
```

# 5.Validación y limpieza de datos
Los datos no válidos pueden sesgar y falsear los resultados de los análisis. La etapa de validación y depuración de datos se enfoca en establecer reglas de validación a menudo complejas y a eliminar cualquier dato no válido conocido.

**EDA - Análisis exploratorio de datos**

In [None]:
# Identificar el tamaño del dataset


In [4]:
# Indentificar el número de transacciones


In [4]:
# Indentificar el número de productos


**Limpieza de datos**

In [4]:
# Identificar si existen datos perdidos (NA, Nulls, etc.)


In [4]:
# Eliminar datos perdidos (NA, Nulls, etc.)


**Transformación de datos**

In [6]:
# Calcular el valor total (cantidad * precio unitario)


In [6]:
# Calcular el promedio y la suma del gasto total por cliente y el número de compras realizadas (agrupar por cliente)


# 6. Agregación y representación de datos
La etapa de agregación y representación de datos, se dedica a integrar múltiples conjuntos de datos para obtener una visión unificada.

In [7]:
# Evaluar si se requiere integrar otros datos para el análisis. 


# 7. Análisis de datos
La etapa de análisis de datos se enfoca en llevar a cabo la tarea de análisis propiamente dicha, que suele implicar uno o más tipos de análisis

## Implementación modelo K-means

En esta sección se debe aplicar métodos de Clustering que te permitan definir el número adecuado de grupos en los que se va a dividir los datos. Se solicita usar el **método del codo** (elbow method) y el método **análisis de la silueta**.

⚠️ **Consideraciones:** Tomar en cuenta que una mala elección del número de Clusters podría generar pocos Clusters con datos muy heterogéneos o muchos Clusters con datos muy similares.

**Método del codo (Elbow Method)**

In [8]:
# Aplicar el método del codo


**Método de la silueta**

In [1]:
# Aplicar el método de la silueta


### Entrenamiento del modelo K-means

In [None]:
# Entrenamiento del modelo con el número de clústers óptimo


In [None]:
# Imprimir los centroides de cada clúster


# 8. Visualización de datos
La capacidad de analizar grandes cantidades de datos y obtener información útil tiene poco valor si los únicos que pueden interpretar los resultados son los analistas.
La etapa de visualización de datos se dedica a utilizar técnicas y herramientas de visualización de datos para comunicar gráficamente los resultados del análisis con vistas a una interpretación eficaz por parte de los usuarios empresariales.

In [12]:
# Graficar la distribución de clientes por clúster


# 9. Utilización de los resultados del análisis
Después de que los resultados del análisis se pongan a disposición de los usuarios de negocio para apoyar la toma de decisiones empresariales, por ejemplo a través de cuadros de mando o paneles, puede haber más oportunidades para utilizar los resultados del análisis. La etapa de utilización de los resultados del análisis, esta enfocada en determinar cómo y dónde se pueden aprovechar más los datos del análisis procesado.

In [None]:
# Haga un breve análisis de los hallazgos 


In [None]:
# Detalle sus conclusiones sobre el modelo obtenido


In [None]:
# Qué acciones sugerería a los directivos de la empresa?
