<a href="https://colab.research.google.com/github/f0perez/multi-tenant/blob/main/Untitled5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
pip install h3

Collecting h3
  Downloading h3-3.7.6-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.1 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.2/1.1 MB[0m [31m6.6 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m16.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: h3
Successfully installed h3-3.7.6


In [7]:
import pandas as pd
import h3
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Leer el archivo CSV
file_path = '/content/drive/MyDrive/geocode_address.csv'
df = pd.read_csv(file_path, sep=';')

# Convertir las columnas 'latitude' y 'longitude' a numéricas
df['latitude'] = pd.to_numeric(df['latitude'], errors='coerce')
df['longitude'] = pd.to_numeric(df['longitude'], errors='coerce')

# Filtrar registros vacíos en 'latitude' y 'longitude'
df = df.dropna(subset=['latitude', 'longitude'])

# Crear columnas hexagonales
df['hex_id'] = df.apply(lambda x: h3.geo_to_h3(x['latitude'], x['longitude'], resolution=9), axis=1)
df['hex_resolution'] = 9

# Agrupar por hexágonos y contar
df_grouped = df.groupby('hex_id').size().reset_index(name='counts')

# Agregar columnas 'hex_center_latitude' y 'hex_center_longitude'
df_grouped[['hex_center_latitude', 'hex_center_longitude']] = df_grouped['hex_id'].apply(
    lambda x: pd.Series(h3.h3_to_geo(x), index=['latitude', 'longitude']))

# Separar las características (X) y la etiqueta (y)
X = df_grouped[['hex_center_latitude', 'hex_center_longitude']]
y = df_grouped['counts']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalizar las características
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Optimizar parámetros usando GridSearchCV
param_grid = {
    'n_neighbors': [3, 5, 7, 9],
    'weights': ['uniform', 'distance'],
    'metric': ['euclidean', 'manhattan']
}

knn_classifier = KNeighborsClassifier()
grid_search = GridSearchCV(knn_classifier, param_grid, cv=5)
grid_search.fit(X_train_scaled, y_train)

# Obtener los mejores parámetros
best_params = grid_search.best_params_
print(f"Mejores parámetros: {best_params}")

# Utilizar el mejor modelo para hacer predicciones en el conjunto de prueba
y_pred = grid_search.predict(X_test_scaled)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy * 100:.2f}%')




Mejores parámetros: {'metric': 'manhattan', 'n_neighbors': 9, 'weights': 'uniform'}
Precisión del modelo: 8.16%


In [14]:
import pandas as pd
import h3
import folium
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Lee tu DataFrame desde un archivo o de donde lo obtengas
# df = pd.read_csv("tu_archivo.csv")

# Supongamos que tienes un DataFrame con columnas 'lat', 'long' y 'etiqueta'
# Ajusta estas columnas según tus datos

# Separar las características (X) y la etiqueta (y)
X = df_grouped[['hex_center_latitude', 'hex_center_longitude']]
y = df_grouped['counts']

# Dividir el conjunto de datos en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar el clasificador KNN
knn_classifier = KNeighborsClassifier(n_neighbors=3)

# Entrenar el modelo
knn_classifier.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = knn_classifier.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy * 100:.2f}%')

# Asignar los clusters predichos al DataFrame original
df_grouped['predicted_cluster'] = knn_classifier.predict(df_grouped[['hex_center_latitude', 'hex_center_longitude']])

# Asigna colores a los clusters
cluster_colors = {0: 'red', 1: 'blue', 2: 'green', 3: 'purple', 4: 'orange'}  # Puedes ajustar estos colores según tu preferencia
df_grouped['predicted_cluster_color'] = df_grouped['predicted_cluster'].map(cluster_colors)

# Crear un mapa centrado en las coordenadas promedio
latitude_center = df_grouped['hex_center_latitude'].mean()
longitude_center = df_grouped['hex_center_longitude'].mean()
mymap = folium.Map(location=[latitude_center, longitude_center], zoom_start=12)

for index, row in df_grouped.iterrows():
    hexagon = h3.h3_to_geo_boundary(row['hex_id'])
    color = row['predicted_cluster_color'],

    folium.Polygon(
        locations=hexagon,
        color=color,
        fill=True,
        fill_color=row['predicted_cluster_color'],
        fill_opacity=0.7,
        tooltip=f'Count: {row["counts"]}'
    ).add_to(mymap)
# Guardar el mapa como un archivo HTML
mymap#.save("mapa_clusters_folium.html")


Precisión del modelo: 13.27%


In [9]:
df_grouped

Unnamed: 0,hex_id,counts,hex_center_latitude,hex_center_longitude
0,89b2c50802bffff,1,-33.503416,-70.528156
1,89b2c50955bffff,1,-33.497376,-70.586538
2,89b2c50a4d3ffff,8,-33.417896,-70.507694
3,89b2c50a68bffff,3,-33.430978,-70.524429
4,89b2c50a6cfffff,2,-33.433934,-70.530910
...,...,...,...,...
481,89b2c556db7ffff,14,-33.404889,-70.574697
482,89b2c556dbbffff,11,-33.404998,-70.580912
483,89b2c5cce47ffff,1,-33.322309,-70.650667
484,89b2d9d7263ffff,1,-36.426003,-71.969590
