## Reto 1: K-Medias

### 1. Objetivos:
    - Aprender a aplicar un algoritmo de K-Medias
    
---
    
### 2. Desarrollo:

### Segmentación por subregiones de los usuarios de un producto

Tenemos un conjunto de datos llamado 'distribucion_usuarios.csv'. En este dataset tenemos las latitudes y longitudes de todos los usuarios de un producto que viven en una misma región. Como compañía, queremos establecer centros de servicio al cliente para atender todas las demandas de servicios en esta región. Vamos a utilizar el algoritmo K-Medias para segmentar nuestra región en subregiones. Cada subregión tendrá un centro de servicio en su centroide.

El dataset también contiene el código único de cada usuario y 4 columnas llamadas: 'producto_1', 'producto_2', 'producto_3', 'producto_4'. Estas columnas contienen un 1 en caso de que el usuario haya adquirido ese producto, y un 0 en caso de que el producto no haya sido adquirido.

Tu Reto consiste en lo siguiente:

1. Lee el dataset 'distribucion_usuarios.csv'.
2. Utiliza un scatterplot para visualizar las latitudes y longitudes de tu conjunto de datos.
3. Después utiliza la clase KMeans de `scikit-learn` para encontrar 7 centroides.
4. Ya que hayas encontrado tus centroides, crea una nueva visualización donde además de tus puntos, grafiques los 7 centros.
5. Ahora, utiliza tu modelo para clasificar tus puntos.
6. Después agrega segmentación por color a tu gráfica para que los puntos se coloreen de acuerdo al grupo al que pertenecen.
7. Ya que tienes tus puntos clasificados, agrega la clasificación al DataFrame original.
8. Ahora, segmenta tu DataFrame por grupo y obtén los siguientes datos:
    1. Cantidad total de usuarios por grupo
    2. Cantidades totales de producto 1, 2, 3 y 4 por grupo
9. Realiza una gráfica de barras para visualizar la cantidad de usuarios que hay en cada uno de los grupos
10. Finalmente, genera una gráfica de barras apiladas con los totales de productos adquiridos por grupo. Cada segmento de la barra será la cantidad de producto adquirido en un grupo en específico.
11. Comenta tus hallazgos con tus compañeros y la experta.

In [1]:
#montar drive
from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
#leer csv
df = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Datasets/Remoto distribucion_usuarios.csv')

In [2]:
df.head()

Unnamed: 0,codigo_de_producto,latitud,longitud
0,6,-4.465925,8.272765
1,4,3.584411,3.671732
2,7,1.933551,5.10022
3,4,-3.874134,-7.649991
4,1,0.072066,-0.988125


In [3]:
import plotly.express as px

# Revisa las primeras filas del DataFrame y el nombre de las columnas
print(df.head())
print(df.columns)

# Asegúrate de que no haya valores nulos
print(df[['latitud', 'longitud']].isnull().sum())

# Crea el gráfico de dispersión
graph = px.scatter(df, x='latitud', y='longitud')
graph.update_layout(
    title='Distribución de usuarios',
    xaxis_title='Latitud',
    yaxis_title='Longitud'
)
graph.show()

   codigo_de_producto   latitud  longitud
0                   6 -4.465925  8.272765
1                   4  3.584411  3.671732
2                   7  1.933551  5.100220
3                   4 -3.874134 -7.649991
4                   1  0.072066 -0.988125
Index(['codigo_de_producto', 'latitud', 'longitud'], dtype='object')
latitud     0
longitud    0
dtype: int64


In [4]:
#CLUSTERS
# Perform clustering on the DataFrame 'df'
k_means = KMeans(n_clusters=7, random_state=42)
df['cluster'] = k_means.fit_predict(df[['latitud', 'longitud']]) # Apply clustering to the DataFrame 'df'

# Create the scatter plot and color points by cluster
graph = px.scatter(df, x='latitud', y='longitud', color='cluster') # Color points based on cluster assignment
graph.update_layout(
    title='Distribución de usuarios',
    xaxis_title='Latitud',
    yaxis_title='Longitud'
)
graph.show()

In [5]:
#busqueda de centroides
centroides = k_means.cluster_centers_
# Create a new scatter plot with centroids
centroides


array([[ -6.60661159,   6.492782  ],
       [  9.11721794,   0.67947741],
       [ -0.14089421,  11.10182818],
       [ -1.93088366,  -3.73793806],
       [  1.85149539,   3.87522151],
       [  9.73081811,  10.24227035],
       [-10.15724586,  -1.0457129 ]])

In [6]:
#graficar de nuevo pero con los centroides
# Crear el DataFrame con las coordenadas de los centroides
centroides_df = pd.DataFrame({
    'latitud': [-6.60661159, 9.11721794, -0.14089421, -1.93088366, 1.85149539, 9.73081811, -10.15724586],
    'longitud': [6.492782, 0.67947741, 11.10182818, -3.73793806, 3.87522151, 10.24227035, -1.0457129]
})

# Graficar los puntos de usuarios y clusters
graph = px.scatter(df, x='latitud', y='longitud', color='cluster', title='Distribución de usuarios')
graph.update_layout(xaxis_title='Latitud', yaxis_title='Longitud')

# Agregar los centroides al gráfico
graph.add_scatter(
    x=centroides_df['latitud'],
    y=centroides_df['longitud'],
    mode='markers',
    marker=dict(symbol='x', size=12, color='black'),
    name='Centroides'
)

graph.show()