<a href="https://colab.research.google.com/github/Marcelooyola/Modulo8/blob/main/tf_05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/dba.png?raw=true)

# **Trabajo Final - Módulo 8 - Aprendizaje Automático - Machine Learning - Clustering**

![logo](https://www.python.org/static/community_logos/python-powered-w-100x40.png)

~~~
Apellido y Nombre
~~~

**Instrucciones**

El conjunto de datos contiene información sobre los clientes de un centro comercial. Se desea utilziar un modelo de Agrupación para crear clusters y tomar una decisión comercial con cada grupo de clientes que ayude a mejorar la relación con el cliente y el monto de dinero que gastan en el centro comercial.

- Desarrollar los puntos necesarios para generar el modelo de Agrupación.
- Puede generar graficos en cualquier instancia del desarrollo.
- Al final del colab, generar una breve conclusión sobre decisiones a tomar con cada cluster.

# **Carga de módulos y datos necesarios**

In [1]:
import pandas as pd
import numpy as np

In [2]:
import warnings
warnings.filterwarnings("ignore")

In [9]:
#Graficos
import plotly.express as px
import plotly.graph_objects as go

import sklearn
from sklearn import cluster
from sklearn.cluster import KMeans
from sklearn.preprocessing import scale
import sklearn.metrics as metrics
from sklearn.metrics import silhouette_score

# **Creación del DataFrame**

In [3]:
datos = "https://raw.githubusercontent.com/LucaAPiattelli/Diplomatura_Business_Analytics_UDA/main/Modulo_11_Agrupacion/Mall_Customers.csv"
df = pd.read_csv(datos)
df

Unnamed: 0,CustomerID,Gender,Age,AnnualIncome,SpendingScore
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40
...,...,...,...,...,...
195,196,Female,35,120,79
196,197,Female,45,126,28
197,198,Male,32,126,74
198,199,Male,32,137,18


- CustomerID - ID de cliente
- Gender - Genero
- Age - Edad
- AnualIncome - Ingreso Anual
- SpendingScore - Score de gasto en el mall

#**Preprocesamiento de datos**

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   CustomerID     200 non-null    int64 
 1   Gender         200 non-null    object
 2   Age            200 non-null    int64 
 3   AnnualIncome   200 non-null    int64 
 4   SpendingScore  200 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 7.9+ KB


In [5]:
df = df.drop(columns=["CustomerID", "Gender"])
df

Unnamed: 0,Age,AnnualIncome,SpendingScore
0,19,15,39
1,21,15,81
2,20,16,6
3,23,16,77
4,31,17,40
...,...,...,...
195,35,120,79
196,45,126,28
197,32,126,74
198,32,137,18


In [7]:
df.columns = ["Edad", "Salario_anual", "Score_gastos"]
df.sample(5)

Unnamed: 0,Edad,Salario_anual,Score_gastos
62,67,47,52
127,40,71,95
113,19,64,46
122,40,69,58
96,47,60,47


# **Generación del modelo de agrupación**

##**Clusters**

In [10]:
clusters = pd.DataFrame()
inertia = []

clusters["cluster_range"] = range(1, 100)

for k in clusters["cluster_range"]:
    kmeans = cluster.KMeans(n_clusters=k, random_state = 123).fit(df)
    inertia.append(kmeans.inertia_)

clusters["inertia"] = inertia

clusters.inertia = round(clusters.inertia, 2)

clusters.head(10)

Unnamed: 0,cluster_range,inertia
0,1,308812.78
1,2,212840.17
2,3,143342.75
3,4,104366.15
4,5,75372.45
5,6,58300.44
6,7,51525.77
7,8,44637.4
8,9,41212.16
9,10,37539.24


##**Graficos**

In [11]:
fig = px.line(clusters,
              x = "cluster_range",
              y = "inertia",
              markers = True,
              title = "Metodo del codo",
              template = "gridon",
              labels = {"cluster_range":"clusters"})
fig.show()

In [12]:
fig = px.line(clusters.loc[0:10],
              x = "cluster_range",
              y = "inertia",
              markers = True,
              title = "Metodo del codo",
              template = "gridon",
              labels = {"cluster_range":"clusters"})
fig.show()

##**Algoritmo de K_Means**

In [60]:
mejor_rango = 0
mejor_puntuacion = 0

for i in range(5, 8):

    km = cluster.KMeans(n_clusters= i, n_init = 20, random_state = 123)
    km.fit(df)

    centroids = km.cluster_centers_
    labels = km.labels_

    if i == 5:
      rango_cinco = round(metrics.calinski_harabasz_score(df, labels),2)
      print(f"calinski harabaszs para 5 clusters: {rango_cinco}")

      if(rango_cinco > mejor_puntuacion):
        mejor_puntuacion = rango_cinco
        mejor_rango = i

    elif i == 6:
      rango_seis = round(metrics.calinski_harabasz_score(df, labels),2)
      print(f"calinski harabaszs para 6 clusters: {rango_seis}")

      if(rango_seis > mejor_puntuacion):
        mejor_puntuacion = rango_seis
        mejor_rango = i

    elif i == 7:
      rango_siete = round(metrics.calinski_harabasz_score(df, labels),2)
      print(f"calinski harabaszs para 7 clusters: {rango_siete}")

      if(rango_siete > mejor_puntuacion):
        mejor_puntuacion = rango_siete
        mejor_rango = i


print(f"La mejor cantidad de clusters son: {mejor_rango} donde se obtiene el mas alto valor de calinski harabaszs ({mejor_puntuacion})")

km = cluster.KMeans(n_clusters= mejor_rango, n_init = 20, random_state = 123)
km.fit(df)

centroids = km.cluster_centers_
labels = km.labels_

km


calinski harabaszs para 5 clusters: 151.03
calinski harabaszs para 6 clusters: 167.07
calinski harabaszs para 7 clusters: 162.5
La mejor cantidad de clusters son: 6 donde se obtiene el mas alto valor de calinski harabaszs (167.07)


In [43]:
centroids = pd.DataFrame(centroids, columns=['Edad', 'Salario_anual', "Score_gastos"])
centroids

Unnamed: 0,Edad,Salario_anual,Score_gastos
0,56.155556,53.377778,49.088889
1,32.692308,86.538462,82.128205
2,27.0,56.657895,49.131579
3,41.685714,88.228571,17.285714
4,25.272727,25.727273,79.363636
5,44.142857,25.142857,19.52381


In [35]:
metrics.silhouette_score(df, labels)

0.4523443947724053

#**Graficos de agrupamiento**

In [42]:
df['Cluster'] = labels
df

Unnamed: 0,Edad,Salario_anual,Score_gastos,Cluster
0,19,15,39,5
1,21,15,81,4
2,20,16,6,5
3,23,16,77,4
4,31,17,40,5
...,...,...,...,...
195,35,120,79,1
196,45,126,28,3
197,32,126,74,1
198,32,137,18,3


In [55]:
fig = go.Figure([go.Scatter(x = df.Edad,
                            y = df.Salario_anual,
                            mode = "markers",
                            name = "Clusters",
                            marker = dict(color = df.Cluster,
                                          colorscale = 'rainbow',
                                          showscale = False),
                            text = df['Cluster']),

                 go.Scatter(x = centroids.Edad,
                            y = centroids.Salario_anual,
                            mode = "markers",
                            name = "Centroide",
                            marker_color = "orange",
                            marker = dict(size = 12)),
                 ])

fig.update_layout(template =    "seaborn",
                  title =       "Edad e Ingresos Anuales",
                  yaxis_title = "Ingreso Anual",
                  xaxis_title = "Edad")

fig.show()

In [53]:
fig = go.Figure([go.Scatter(x = df.Edad,
                            y = df.Score_gastos,
                            mode = "markers",
                            name = "Clusters",
                            marker = dict(color = df.Cluster,
                                          colorscale = 'rainbow',
                                          showscale = False),
                            text = df['Cluster']),

                 go.Scatter(x = centroids.Edad,
                            y = centroids.Score_gastos,
                            mode = "markers",
                            name = "Centroide",
                            marker_color = "orange",
                            marker = dict(size = 12)),
                 ])

fig.update_layout(template =    "seaborn",
                  title =       "Edad y Score de gastos",
                  yaxis_title = "Score de gastos",
                  xaxis_title = "Edad")

fig.show()

In [54]:
fig = go.Figure([go.Scatter(x = df.Salario_anual,
                            y = df.Score_gastos,
                            mode = "markers",
                            name = "Clusters",
                            marker = dict(color = df.Cluster,
                                          colorscale = 'rainbow',
                                          showscale = False),
                            text = df['Cluster']),

                 go.Scatter(x = centroids.Salario_anual,
                            y = centroids.Score_gastos,
                            mode = "markers",
                            name = "Centroide",
                            marker_color = "orange",
                            marker = dict(size = 12)),
                 ])

fig.update_layout(template =    "seaborn",
                  title =       "Salario anual y Score de gastos",
                  yaxis_title = "Score de gastos",
                  xaxis_title = "Salario anual")

fig.show()

# **Conclusiones**

**Grupo 0(Violeta)**:  

*   Rango de edad: 43 a 70 años
*   Ingreso Anual: 38 a 67 K dolares
*   Score de gastos: 35 a 60 %

**Grupo 1(Azul)**:
*   Rango de edad: 27 a 40 años
*   Ingreso Anual: 69 a 137 K dolares
*   Score de gastos: 63 a 97 %

**Grupo 2(Celeste)**:
*   Rango de edad: 18 a 40 años
*   Ingreso Anual: 39 a 76 K dolares
*   Score de gastos: 29 a 61 %

**Grupo 3(Verde)**:
*   Rango de edad: 19 a 59 años
*   Ingreso Anual: 71 a 137 K dolares
*   Score de gastos: 1 a 39 %

**Grupo 4(Amarillo)**:
*   Rango de edad: 18 a 35 años
*   Ingreso Anual: 15 a 39 K dolares
*   Score de gastos: 61 a 99 %

**Grupo 5(Rojo)**:
*   Rango de edad: 19 a 67 años
*   Ingreso Anual: 15 a 39 K dolares
*   Score de gastos: 3 a 40 %

**Grupo 0(Violeta)**:

Es un grupo no compulsivo y que gasta de manera moderada.

Su salario es medio / bajo

Se puede los puede atraer con descuentos y promociones

**Grupo 1(Azul)**:

Es el principal grupo objetivo

Tiene un publico de altos salarios y que gastan gran parte del mismo en compras

Se los puede atraer con las novedades, lanzamientos y beneficios

**Grupo 2 (Celeste)**:

Segundo grupo objetivo

Tienen buen salario (medio / alto) y buen score de gastos

Se los puede atraer con beneficios de tarjetas, cuotas sin interes y productos de gama media

**Grupo 3 (Verde)**:

Grupo de alta variabilidad etaria, en el cual hay altos salarios y muy poco gastos

Tiende a no tener interés en lo que ofrece el centro comercial

Se puede tratar de contactarlos para conocer sus gustos e intereses

**Grupo 4 (Amarillo)**:

Grupo de rango etario joven

Bajos sueldos y con mucha compulsividad para gastar

Grupo fidelizado, para mantenerlos interesados se puede brindar Lanzamientos con descuentos y cuotas sin interes

**Grupo 5 (Rojo)**:

Grupo de alta variabilidad etaria

De bajos ingresos y pocos gastos

No es un grupo de interes, la campaña de marketing puede ser más costosa que los beneficios