Risk_MM / Rain Tomorrow

In [1]:
#Importacion de las librerias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import folium
from geopy.geocoders import Nominatim
from geopy.exc import GeocoderTimedOut
from geopy.geocoders import GoogleV3
from scipy.spatial import distance
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
import requests

In [2]:
#Se importa el dataset
df = pd.read_csv("/content/weatherAUS.csv" , sep=",")

#Fase 1 Entendimiento del negocio

**Contexto:**

Somos inversionistas de una empresa minera de oro que busca realizar un estudio sobre el clima en Australia, con el fin de averiguar en qué sectores llueve más y en qué sectores llueve menos, esto para encontrar un lugar adecuado donde instalar una nueva planta minera de extracción y procesamiento del mineral, ya que tanto los sectores de abundante lluvia, así como también los sectores más áridos pueden tener un impacto negativo en la extracción de minerales. Estos problemas pueden ser los siguientes:

**Impacto en las operaciones de extracción:**

Paralización de actividades por inundaciones.
Riesgos de deslizamiento.
Contaminación de minerales.
Escasez de agua en para extracción de minerales que la requieran zonas áridas.
Condiciones extremas de calor en zonas áridas.

**Impacto en la infraestructura:**

Erosión de caminos debido a mucha lluvia.
Estabilidad de Estructuras en zonas de mucha lluvia.
Desgaste de infraestructura por temperaturas extremas.
Corrosión por polvo en zonas áridas
Abastecimiento de agua en zonas áridas.

**Impacto en el procesamiento de minerales:**

Dilución de soluciones de lixiviación por exceso de agua con barro debido a lluvias fuertes.
Corrosión de equipos por lluvias constantes y humedad.
Consumo de agua: Los procesos de beneficio de minerales a menudo requieren grandes cantidades de agua, que pueden ser difíciles de obtener en áreas áridas.



**Impacto en la logística y transporte:**

Bloqueo de Rutas de Acceso
Impacto en vehículos: El polvo y las temperaturas extremas pueden acelerar el desgaste de los vehículos.
Problemas con el transporte: problemas con el transporte al interior del sitio minero así como problemas con costos más altos de transportes o retrasos en la entrega.



**Objetivo del proyecto:**

El objetivo principal del proyecto es identificar las regiones en Australia con las condiciones climáticas más adecuadas para la instalación de una planta minera de oro. Esto implica encontrar un equilibrio climático que minimice los impactos negativos en las operaciones.


**Necesidades de la empresa:**

Para alcanzar el objetivo de nuestro proyecto, necesitamos:
Datos climáticos detallados: Información precisa y actualizada sobre las precipitaciones, temperaturas y otros factores climáticos en diferentes regiones de Australia.
Análisis de impacto climático: Evaluación de cómo las diferentes condiciones climáticas pueden afectar las operaciones mineras, infraestructura, procesamiento de minerales y logística.
Proyecciones climáticas: Modelos y predicciones a futuro que permitan entender cómo podrían cambiar las condiciones climáticas y su impacto potencial en las operaciones mineras.
Recomendaciones estratégicas: Sugerencias basadas en el análisis de datos que identifiquen las mejores regiones para la instalación de la planta minera.

#Fase 2 Entendimiento de los Datos

En este apartado se presenta la informacion general del data set como el contador de valores no nulos, la cantidad de filas y el tipo de dato de cada columna

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 142193 entries, 0 to 142192
Data columns (total 24 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   Date           142193 non-null  object 
 1   Location       142193 non-null  object 
 2   MinTemp        141556 non-null  float64
 3   MaxTemp        141871 non-null  float64
 4   Rainfall       140787 non-null  float64
 5   Evaporation    81350 non-null   float64
 6   Sunshine       74377 non-null   float64
 7   WindGustDir    132863 non-null  object 
 8   WindGustSpeed  132923 non-null  float64
 9   WindDir9am     132180 non-null  object 
 10  WindDir3pm     138415 non-null  object 
 11  WindSpeed9am   140845 non-null  float64
 12  WindSpeed3pm   139563 non-null  float64
 13  Humidity9am    140419 non-null  float64
 14  Humidity3pm    138583 non-null  float64
 15  Pressure9am    128179 non-null  float64
 16  Pressure3pm    128212 non-null  float64
 17  Cloud9am       88536 non-null

Aqui se presenta la cantidad de valores nulos por cada columna, por lo que se puede identificar que hay una cantidad considerable de valores nulos.

In [4]:
df.isnull().sum()

Date                 0
Location             0
MinTemp            637
MaxTemp            322
Rainfall          1406
Evaporation      60843
Sunshine         67816
WindGustDir       9330
WindGustSpeed     9270
WindDir9am       10013
WindDir3pm        3778
WindSpeed9am      1348
WindSpeed3pm      2630
Humidity9am       1774
Humidity3pm       3610
Pressure9am      14014
Pressure3pm      13981
Cloud9am         53657
Cloud3pm         57094
Temp9am            904
Temp3pm           2726
RainToday         1406
RISK_MM              0
RainTomorrow         0
dtype: int64

In [5]:
#Primeras 10 filas del dataframe
df.head(10)

Unnamed: 0,Date,Location,MinTemp,MaxTemp,Rainfall,Evaporation,Sunshine,WindGustDir,WindGustSpeed,WindDir9am,...,Humidity3pm,Pressure9am,Pressure3pm,Cloud9am,Cloud3pm,Temp9am,Temp3pm,RainToday,RISK_MM,RainTomorrow
0,2008-12-01,Albury,13.4,22.9,0.6,,,W,44.0,W,...,22.0,1007.7,1007.1,8.0,,16.9,21.8,No,0.0,No
1,2008-12-02,Albury,7.4,25.1,0.0,,,WNW,44.0,NNW,...,25.0,1010.6,1007.8,,,17.2,24.3,No,0.0,No
2,2008-12-03,Albury,12.9,25.7,0.0,,,WSW,46.0,W,...,30.0,1007.6,1008.7,,2.0,21.0,23.2,No,0.0,No
3,2008-12-04,Albury,9.2,28.0,0.0,,,NE,24.0,SE,...,16.0,1017.6,1012.8,,,18.1,26.5,No,1.0,No
4,2008-12-05,Albury,17.5,32.3,1.0,,,W,41.0,ENE,...,33.0,1010.8,1006.0,7.0,8.0,17.8,29.7,No,0.2,No
5,2008-12-06,Albury,14.6,29.7,0.2,,,WNW,56.0,W,...,23.0,1009.2,1005.4,,,20.6,28.9,No,0.0,No
6,2008-12-07,Albury,14.3,25.0,0.0,,,W,50.0,SW,...,19.0,1009.6,1008.2,1.0,,18.1,24.6,No,0.0,No
7,2008-12-08,Albury,7.7,26.7,0.0,,,W,35.0,SSE,...,19.0,1013.4,1010.1,,,16.3,25.5,No,0.0,No
8,2008-12-09,Albury,9.7,31.9,0.0,,,NNW,80.0,SE,...,9.0,1008.9,1003.6,,,18.3,30.2,No,1.4,Yes
9,2008-12-10,Albury,13.1,30.1,1.4,,,W,28.0,S,...,27.0,1007.0,1005.7,,,20.1,28.2,Yes,0.0,No


In [6]:
#Proporciona informacion de estadistica descriptiva de las variables numericas
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
MinTemp,141556.0,12.1864,6.403283,-8.5,7.6,12.0,16.8,33.9
MaxTemp,141871.0,23.226784,7.117618,-4.8,17.9,22.6,28.2,48.1
Rainfall,140787.0,2.349974,8.465173,0.0,0.0,0.0,0.8,371.0
Evaporation,81350.0,5.469824,4.188537,0.0,2.6,4.8,7.4,145.0
Sunshine,74377.0,7.624853,3.781525,0.0,4.9,8.5,10.6,14.5
WindGustSpeed,132923.0,39.984292,13.588801,6.0,31.0,39.0,48.0,135.0
WindSpeed9am,140845.0,14.001988,8.893337,0.0,7.0,13.0,19.0,130.0
WindSpeed3pm,139563.0,18.637576,8.803345,0.0,13.0,19.0,24.0,87.0
Humidity9am,140419.0,68.84381,19.051293,0.0,57.0,70.0,83.0,100.0
Humidity3pm,138583.0,51.482606,20.797772,0.0,37.0,52.0,66.0,100.0


In [7]:
df.median()

TypeError: could not convert string to float: '2008-12-01'

In [None]:
df.mode()

En este codigo se presentan graficos de caja de todas las columnas con tipo de dato numerico, en estos graficos se puede analizar que en gran parte de las columnas se presentan problemas de outliers exceptuando algunas columnas, teniendo esta informacion, se realizara un tratamiento a los outliers en la proxima fase para en un futuro lograr un modelo de calidad.

In [None]:
# Filtrar las columnas que son de tipo float64
float_columns = df.select_dtypes(include=['float64']).columns

# Crear un boxplot para cada columna de tipo float64
for col in float_columns:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x=df[col])
    plt.title(f'Boxplot de {col}')
    plt.show()

En este codigo se generan histogramas de todas las columnas, en las que se pueden identificar distribuciones normales y distribuciones con sesgos a un extremo.

In [None]:
# Crear una figura con múltiples subplots
fig, axes = plt.subplots(len(float_columns), 1, figsize=(10, 5 * len(float_columns)))

for col, ax in zip(float_columns, axes):
    sns.histplot(df[col], bins=30, kde=True, ax=ax)
    ax.set_title(f'Histograma de {col}')

plt.tight_layout()
plt.show()

En este codigo se presenta un grafico de barras para mostrar el balanceo de la variable target del modelo de clasificacion, podemos identificar que la variable se encuentra desbalanceada y esta sesgada a un extremo. Para esto posteriormente se realizaran tecnicas de balanceo a la variable.

In [None]:
RainTomorrow = 'RainTomorrow'
conteo_categorias = df[RainTomorrow].value_counts()

# Crear el gráfico de barras con Seaborn
plt.figure(figsize=(10, 6))
sns.barplot(x=conteo_categorias.index, y=conteo_categorias.values)
plt.title('Gráfico de Barras de ' + RainTomorrow)
plt.xlabel(RainTomorrow)
plt.ylabel('Frecuencia')
plt.grid(axis='y')
plt.show()

En este codigo se presenta un mapa de correlacion de todas las columnas con tipo de dato float, en este caso podemos identificar que nuestra variable target de regresion cuenta con diversas correlaciones positivas como con la variable 'Rainfall', 'Humidity3pm' y 'Cloud3pm'. Asi como tambien con correlaciones negativas como 'Sunshine' o 'Pressure3pm' - 'Pressure9am', esto quiere decir que cuando la variable tienda a disminuir la variable de regresion 'RISK_MM' tiende a aumentar. Sin embargo independientemente de la positividad o negatividad que tengan las variables, correlacion no implica causalidad.

In [None]:
#Se seleccionan solos los tipos de variables INT y FLOAT
heatmap = df.select_dtypes([int, float]).corr()
#Mapa de Correlacion
import seaborn as sns
plt.figure(figsize=(10, 8))
sns.heatmap(heatmap, annot=True, cmap='coolwarm', fmt=".2f", annot_kws={"size": 10})
plt.title('Mapa de Correlación')
plt.show()

In [None]:
# Función para contar outliers en una serie
def contar_outliers(serie):
    Q1 = serie.quantile(0.25)
    Q3 = serie.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = serie[(serie < lower_bound) | (serie > upper_bound)]
    return len(outliers)

# Lista para almacenar el conteo de outliers por columna
outliers_conteo = {}

# Contar outliers en todas las columnas numéricas
for column in df.select_dtypes(include=[float, int]).columns:
    outliers_conteo[column] = contar_outliers(df[column])

# Mostrar el conteo de outliers por columna
print(outliers_conteo)


In [None]:
# Calcular el número de valores nulos por ubicación
nulos_por_ubicacion = df.groupby('Location').apply(lambda x: x.isnull().sum())

# Sumar el número de valores nulos por ubicación
total_nulos_por_ubicacion = nulos_por_ubicacion.sum(axis=1)

# Ordenar las ubicaciones por el total de valores nulos en orden descendente
ubicaciones_con_mas_nulos = total_nulos_por_ubicacion.sort_values(ascending=False)

# Imprimir las ubicaciones con más nulos
print(ubicaciones_con_mas_nulos)

En esta funcion utilizamos una API pra obtener las coordenadas de las ciudades de Australia y para ser utilizadas en un proximo proceso.

In [None]:
# Función para obtener las coordenadas de una ciudad
def obtener_coordenadas_google_maps(ciudad, pais):
    # Reemplaza 'TU_CLAVE_DE_API' con tu clave de API de Google Maps
    api_key = 'AIzaSyBHLPOUMwO2tp3ibl00lXa61xtRs5RWjpI'
    url = f'https://maps.googleapis.com/maps/api/geocode/json?address={ciudad},{pais}&key={api_key}'
    respuesta = requests.get(url)
    datos = respuesta.json()
    if datos['status'] == 'OK':
        ubicacion = datos['results'][0]['geometry']['location']
        return ubicacion['lat'], ubicacion['lng']
    else:
        return None

# Obtener ciudades únicas del DataFrame
ciudades_unicas = df['Location'].unique()


# Lista para almacenar el nombre de la ciudad y sus coordenadas
ciudades_con_coordenadas = []

# Recorrer cada ciudad única y obtener las coordenadas
for ciudad in ciudades_unicas:
    pais = "Australia"  # Suponiendo que quieres buscar todas las ciudades en Australia
    coordenadas = obtener_coordenadas_google_maps(ciudad, pais)
    if coordenadas:
        ciudades_con_coordenadas.append((ciudad, coordenadas))
    else:
        print(f"No se encontraron coordenadas para {ciudad} en {pais}")




In [None]:
# Creamos un mapa centrado en Australia
mapa = folium.Map(location=[-25.2744, 133.7751], zoom_start=4)

# Añadimos marcadores para cada ciudad en la lista ciudades_con_coordenadas
for ciudad, coordenadas in ciudades_con_coordenadas:
    folium.Marker(location=coordenadas, popup=ciudad, tooltip=ciudad).add_to(mapa)

# Visualizamos el mapa
mapa

Con este codigo se crea una lista en la que se almacenan todas las ciudades que se encuentran en una distancia cercana.

In [None]:
# Creamos una lista para almacenar las ciudades más cercanas
lista_ciudades_cercanas = []

# Encontramos las dos ciudades más cercanas para cada ciudad en la lista ciudades_con_coordenadas
for ciudad, coordenadas in ciudades_con_coordenadas:
    distancias = []

    for otra_ciudad, otras_coordenadas in ciudades_con_coordenadas:
        if otra_ciudad != ciudad:
            distancia = distance.euclidean(coordenadas, otras_coordenadas)
            distancias.append((otra_ciudad, distancia))

    # Ordenamos las distancias y tomamos las dos ciudades más cercanas
    distancias.sort(key=lambda x: x[1])
    ciudad_mas_cercana_1 = distancias[0][0]
    ciudad_mas_cercana_2 = distancias[1][0]

    # Agregamos la información a la lista
    lista_ciudades_cercanas.append((ciudad, ciudad_mas_cercana_1, ciudad_mas_cercana_2))



#Fase 3 Preparacion de los datos

Con este codigo se realiza el tratamiento a los datos faltantes (nulos) realizando imputaciones en las variables numericas por la ciudad mas cercana y por la fecha del dato. Igualmente se realizaron imputaciones a las variables object mediante la misma logica anterior, por la ciudad mas cercana y la fecha del dato.

In [None]:
df_imputado = df
# Lista de variables a imputar
variables = df.select_dtypes(include=['float64']).columns

variables_object = df.select_dtypes(include=['object']).columns

# Imputar valores faltantes
for ciudad, ciudad_mas_cercana1, ciudad_mas_cercana2 in lista_ciudades_cercanas:
    # Filtrar datos de las ciudades
    df_ciudad = df_imputado[df_imputado['Location'] == ciudad]
    df_ciudad_mas_cercana1 = df_imputado[df_imputado['Location'] == ciudad_mas_cercana1]
    df_ciudad_mas_cercana2 = df_imputado[df_imputado['Location'] == ciudad_mas_cercana2]

    for variable in variables:
        if variable in df_imputado.columns:
            # Calcular la media de la variable de la primera ciudad más cercana
            media_variable1 = df_ciudad_mas_cercana1[variable].mean()

            # Si la media de la primera ciudad más cercana es NaN, usar la segunda ciudad más cercana
            if pd.isna(media_variable1):
                media_variable1 = df_ciudad_mas_cercana2[variable].mean()

            # Imputar valores faltantes con la media de la ciudad más cercana disponible
            df_imputado.loc[df_imputado['Location'] == ciudad, variable] = df_imputado.loc[df_imputado['Location'] == ciudad, variable].fillna(media_variable1)

    for variable in variables_object:
        if variable in df_imputado.columns:
            # Calcular la moda de la variable de la primera ciudad más cercana, ignorando nulos
            moda_variable1 = df_ciudad_mas_cercana1[variable].mode()

            # Si la moda de la primera ciudad más cercana está vacía, usar la segunda ciudad más cercana
            if moda_variable1.empty:
                moda_variable1 = df_ciudad_mas_cercana2[variable].mode()

            # Si aún está vacía, seguir con la moda más común
            if not moda_variable1.empty:
                moda_variable1 = moda_variable1[0]

            # Imputar valores faltantes con la moda de la ciudad más cercana disponible
            df_imputado.loc[df_imputado['Location'] == ciudad, variable] = df_imputado.loc[df_imputado['Location'] == ciudad, variable].fillna(moda_variable1)

# Verificar los resultados
print(df_imputado.isnull().sum())


Debido a que algunas ciudades no coinciden con la fecha, quedaron una cantidad de nulos infima, por lo que se tomo la decision de eliminarlos.

In [None]:
df_limpio = df_imputado.dropna()

In [None]:
# Suponiendo que df es tu DataFrame
df_limpio.to_csv('limpio.csv', index=False)

In [None]:
df_limpio = pd.read_csv("/content/limpio.csv",sep=",")

In [None]:
df_limpio.info()

In [None]:
dflimpio2 = df_limpio

In [None]:
dflimpio2["RainTomorrow"].unique()

Se realiza normalizacion de los datos para que se encuentren en un rango especifico de 0 y 1.

In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler

#Se crea un MinMax para la normalizacion
scaler = StandardScaler()

# Se seleccionan las columnas numéricas
df_numerico = df_limpio.select_dtypes(include=[np.number]).columns

# Se aplica la normalización Min-Max
df2_escalado = scaler.fit_transform(df_limpio[df_numerico])

# Convertir a DataFrame
df2_escalado = pd.DataFrame(df_limpio, columns=df_numerico, index=df_limpio.index)

# Reemplazar las columnas por las escaladas
dflimpio2[df_numerico] = df2_escalado
dflimpio2.head(10)

Se realiza la imputacion de los outliers por sus extremos maximos y minimos. Luego se presentan los graficos para validar que no hayan outliers.

In [None]:
def imputar_outliers(df, columns):
    for col in columns:
        Q1 = df[col].quantile(0.25)
        Q3 = df[col].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - 1.5 * IQR
        upper_bound = Q3 + 1.5 * IQR
        df.loc[df[col] < lower_bound, col] = lower_bound
        df.loc[df[col] > upper_bound, col] = upper_bound
    return df

waus_imputados = imputar_outliers(df_limpio, df_limpio.select_dtypes(include=[float, int]).columns)

# Función para contar outliers en una serie
def contar_outliers(serie):
    Q1 = serie.quantile(0.25)
    Q3 = serie.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = serie[(serie < lower_bound) | (serie > upper_bound)]
    return len(outliers)

# Lista para almacenar el conteo de outliers por columna
outliers_conteo = {}

# Contar outliers en todas las columnas numéricas
for column in df_limpio.select_dtypes(include=[float, int]).columns:
    outliers_conteo[column] = contar_outliers(df_limpio[column])

# Mostrar el conteo de outliers por columna
print(outliers_conteo)


Se mapea la clase target de clasificacion para que su tipo de dato sea numerico.

In [None]:
dflimpio2["RainTomorrow"] = dflimpio2["RainTomorrow"].map({"Yes": 1, "No": 0})

In [None]:
dflimpio2["RainToday"] = dflimpio2["RainToday"].map({"Yes": 1, "No": 0})

In [None]:
dflimpio2["RainTomorrow"].unique()

In [None]:
dflimpio2["RainToday"].unique()

In [None]:
from sklearn.feature_selection import SelectKBest, f_classif
variables_interes = ['MinTemp', 'MaxTemp',  'Evaporation', 'Sunshine', 'WindGustSpeed',
                     'Humidity9am', 'Humidity3pm', 'Pressure9am', 'Pressure3pm', 'Cloud9am', 'Cloud3pm',
                     'WindSpeed9am', 'WindSpeed3pm', 'Temp9am', 'Temp3pm']

X = df_limpio[variables_interes]
y = df_limpio['RainTomorrow']

selector = SelectKBest(score_func=f_classif, k=5)  # Seleccionamos las 5 mejores características
X_new = selector.fit_transform(X, y) # Use X and y instead of Xr and yr

# Obtener los nombres de las características seleccionadas
selected_features = np.array(variables_interes)[selector.get_support()]

print("Características seleccionadas:", selected_features)

Se realiza division de train y test en el estandar de industria y se seleccionan las variables X, Y.

In [None]:
# Especifica las características (X) y la variable objetivo (y)
limpio = dflimpio2.drop(columns=["RainTomorrow", "RISK_MM"])
Xc = limpio.select_dtypes(include='float64')  # Características
yc = dflimpio2["RainTomorrow"]  # Variable objetivo

# Divide los datos en conjunto de entrenamiento y prueba (70% entrenamiento, 30% prueba)
X_trainc, X_testc, y_trainc, y_testc = train_test_split(Xc, yc, test_size=0.3, random_state=42)

# Verifica las formas de los conjuntos de datos
print("Forma de X_trainc:", X_trainc.shape)
print("Forma de X_testc:", X_testc.shape)
print("Forma de y_trainc:", y_trainc.shape)
print("Forma de y_testc:", y_testc.shape)

In [None]:
# Calcular la cantidad de cada clase en y_trainc
class_counts = y_trainc.value_counts()

# Crear el gráfico de barras
plt.figure(figsize=(6, 4))  # Tamaño del gráfico
class_counts.plot(kind='bar', color='skyblue')  # Tipo de gráfico y color de las barras
plt.title('Balance de y_trainc')  # Título del gráfico
plt.xlabel('Clase')  # Etiqueta del eje x
plt.ylabel('Cantidad')  # Etiqueta del eje y
plt.xticks(rotation=0)  # Rotación de las etiquetas en el eje x
plt.grid(axis='y', linestyle='--', alpha=0.7)  # Añadir una cuadrícula en el eje y
plt.tight_layout()  # Ajustar el diseño del gráfico
plt.show()  # Mostrar el gráfico

Respecto a los insight de alto impacto para nuestras variables target de regresion y clasificacion, luego de realizar un analisis con la utilizacion de mapa de correlacion tenemos los siguientes insight:


Variable de regresion - 'RISK_MM': para esta variable se identificaron 5 variables que tendrian un alto impacto, estas son:
- Rainfall: Se decidio utilizar esta variable no solo por la correlacion positiva con el target sino tambien por su importancia en el negocio que refleja la cantidad de MM de lluvia que cayeron en un dia.

- Evaporation: Se decidio utilizar esta variable por su importancia tanto para el negocio como para el modelo.

- Humidity3pm: Seleccionamos esta variable por la correlacion y su importancia para el modelo, dado que esta representa la cantidad de humedad que se presenta a las 3 pm.

- Cloud9am: Seleccionamos esta variable por su importancia para el modelo, que representa la cantidad de nubes que hay a las 9 am, esto puede influir en el target.

- Cloud3pm: Al igual que la variable anterior, se selecciono debido a su importancia para el modelo representando la cantidad de nubes a las 3 pm, esto influye en el target.


Variable de clasificacion - 'RainTomorrow': Para esta variable se identificaron 5 variables que tendrian un alto impacto, estas son:

- RainToday: Esta variable se selecciono debido a su importancia tanto para el modelo como para el negocio, dado que implica si en ese dia llovio o no, aportando mas informacion.

- Cloud9am: Seleccionamos esta variable por su importancia para el modelo, que representa la cantidad de nubes que hay a las 9 am, esto puede influir en el target.

- Cloud3pm: Seleccionamos esta variable por su importancia para el modelo, que representa la cantidad de nubes que hay a las 3 pm, esto puede influir en el target.

- Rainfall: Se decidio utilizar esta variable por su importancia en el negocio y al modelo, aportando mas informacion al modelo.




Vamos a identificar las zonas con menos y mas lluvia dentro de nuestro set, y posteriormente se seleccionaran zonas donde ha llovido menos y tengan una importancia para la mineria de carbon.

In [None]:

# Agrupar por ubicación y sumar la lluvia
rainfall_by_location = dflimpio2.groupby('Location')['Rainfall'].sum().reset_index()

# Encontrar la ubicación con menos lluvia
min_rainfall = rainfall_by_location.loc[rainfall_by_location['Rainfall'].idxmin()]

# Encontrar la ubicación con más lluvia
max_rainfall = rainfall_by_location.loc[rainfall_by_location['Rainfall'].idxmax()]

print("Ubicación con menos lluvia:")
print(f"Location: {min_rainfall['Location']}")
print(f"Rainfall: {min_rainfall['Rainfall']}")

print("\nUbicación con más lluvia:")
print(f"Location: {max_rainfall['Location']}")
print(f"Rainfall: {max_rainfall['Rainfall']}")

# Mostrar las 5 ubicaciones con más lluvia
print("\n5 ubicaciones con más lluvia:")
print(rainfall_by_location.nlargest(20, 'Rainfall'))

# Estadísticas descriptivas de la lluvia total por ubicación
print("\nEstadísticas descriptivas de la lluvia total por ubicación:")
print(rainfall_by_location['Rainfall'].describe())



En esta seccion se excluyen todas las zonas que no son importantes para el negocio y que tengan 1200 mm de lluvia o menos.

In [None]:
# Lista de ubicaciones a excluir
locations_to_exclude = [
    'Katherine', 'Townsville', 'AliceSprings', 'Uluru', 'SalmonGums',
    'Albany', 'PearceRAAF', 'PerthAirport', 'Perth','Woomera'
]

# Filtrar las ubicaciones con lluvia de 1200 o menos, excluyendo las ubicaciones especificadas
locations_1200_or_less = rainfall_by_location[
    (rainfall_by_location['Rainfall'] <= 1500) &
    (~rainfall_by_location['Location'].isin(locations_to_exclude))
].sort_values('Rainfall', ascending=True)

# Mostrar el resultado
print("Ubicaciones con lluvia total de 1200 o menos (excluyendo las especificadas):")
print(locations_1200_or_less)

# Contar cuántas ubicaciones cumplen este criterio
count_locations = len(locations_1200_or_less)
print(f"\nNúmero total de ubicaciones con lluvia de 1200 o menos (excluyendo las especificadas): {count_locations}")

# Estadísticas básicas de este subconjunto
print("\nEstadísticas de las ubicaciones con lluvia de 1200 o menos (excluyendo las especificadas):")
print(locations_1200_or_less['Rainfall'].describe())

In [None]:
# Función para obtener las coordenadas de una ciudad
def obtener_coordenadas_google_maps(ciudad, pais):
    # Reemplaza 'TU_CLAVE_DE_API' con tu clave de API de Google Maps
    api_key = 'AIzaSyBHLPOUMwO2tp3ibl00lXa61xtRs5RWjpI'
    url = f'https://maps.googleapis.com/maps/api/geocode/json?address={ciudad},{pais}&key={api_key}'
    respuesta = requests.get(url)
    datos = respuesta.json()
    if datos['status'] == 'OK':
        ubicacion = datos['results'][0]['geometry']['location']
        return ubicacion['lat'], ubicacion['lng']
    else:
        return None

# Obtener ciudades únicas del DataFrame
ciudades_unicas2 = locations_1200_or_less['Location'].unique()


# Lista para almacenar el nombre de la ciudad y sus coordenadas
ciudades_con_coordenadas2 = []

# Recorrer cada ciudad única y obtener las coordenadas
for ciudad2 in ciudades_unicas2:
    pais2 = "Australia"  # Suponiendo que quieres buscar todas las ciudades en Australia
    coordenadas2 = obtener_coordenadas_google_maps(ciudad2, pais2)
    if coordenadas2:
        ciudades_con_coordenadas2.append((ciudad2, coordenadas2))
    else:
        print(f"No se encontraron coordenadas para {ciudad2} en {pais2}")

Aqui podemos observar todas las locaciones que estan en la zona que elegimos para el negocio.

In [None]:
# Creamos un mapa centrado en Australia
mapa2 = folium.Map(location=[-25.2744, 133.7751], zoom_start=4)

# Añadimos marcadores para cada ciudad en la lista ciudades_con_coordenadas
for ciudad2, coordenadas2 in ciudades_con_coordenadas2:
    folium.Marker(location=coordenadas2, popup=ciudad2, tooltip=ciudad2).add_to(mapa2)

# Visualizamos el mapa
mapa2

Aqui definimos todas las ubicaciones que se van a incluir y tienen un interes para el negocio de la mineria de carbon.

In [None]:
# Definir las ubicaciones que queremos incluir
ubicaciones = ['Moree', 'BadgerysCreek', 'Penrith']

# Crear un nuevo dataset con las tres ubicaciones elegidas
datanegocio = dflimpio2[dflimpio2['Location'].isin(ubicaciones)]


# Crear un diccionario con las ciudades y sus coordenadas
coordenadas_dict = dict(ciudades_con_coordenadas2)

# Función para obtener la latitud
def get_lat(ciudad):
    coordenadas = coordenadas_dict.get(ciudad)
    return coordenadas[0] if coordenadas else None

# Función para obtener la longitud
def get_lon(ciudad):
    coordenadas = coordenadas_dict.get(ciudad)
    return coordenadas[1] if coordenadas else None

# Agregar las columnas 'lat' y 'lon' al dataset
datanegocio['lat'] = datanegocio['Location'].apply(get_lat)
datanegocio['lon'] = datanegocio['Location'].apply(get_lon)

# Verificar las primeras filas del dataset actualizado
print(datanegocio[['Location', 'lat', 'lon']].head())

In [None]:
datanegocio.head()

In [None]:
# Exporta el DataFrame a un archivo CSV
datanegocio.to_csv('negocio.csv', index=False)

#Fase 4: Modelado

###Regresion

Train Test de las zonas

In [None]:
# Especifica las características (X) y la variable objetivo (y)
limpio = datanegocio.drop(columns=["RISK_MM"])
Xr = limpio.select_dtypes(include='float64')  # Características
yr = datanegocio["RISK_MM"]  # Variable objetivo

# Divide los datos en conjunto de entrenamiento y prueba (70% entrenamiento, 30% prueba)
X_trainr, X_testr, y_trainr, y_testr = train_test_split(Xr, yr, test_size=0.3, random_state=42)

# Verifica las formas de los conjuntos de datos
print("Forma de X_trainr:", X_trainr.shape)
print("Forma de X_testr:", X_testr.shape)
print("Forma de y_trainr:", y_trainr.shape)
print("Forma de y_testr:", y_testr.shape)

####KNN

In [None]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error, r2_score
import numpy as np

# Crear el modelo KNN
# Puede ajustar el número de vecinos (n_neighbors) según sea necesario
knn = KNeighborsRegressor(n_neighbors=27)

# Entrenar el modelo
knn.fit(X_trainr, y_trainr)

# Hacer predicciones en el conjunto de prueba
y_pred = knn.predict(X_testr)

# Evaluar el modelo
mse = mean_squared_error(y_testr, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_testr, y_pred)

print(f"Error cuadrático medio (MSE): {mse}")
print(f"Raíz del error cuadrático medio (RMSE): {rmse}")
print(f"Coeficiente de determinación (R^2): {r2}")

#### Regresion Lineal Multiple


In [None]:
from sklearn.linear_model import LinearRegression

# Crear el modelo de regresión lineal múltiple
modelo_rlm = LinearRegression()

# Entrenar el modelo
modelo_rlm.fit(X_trainr, y_trainr)

# Hacer predicciones en el conjunto de prueba
y_pred = modelo_rlm.predict(X_testr)

# Evaluar el modelo
mse = mean_squared_error(y_testr, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_testr, y_pred)

print(f"Error cuadrático medio (MSE): {mse}")
print(f"Raíz del error cuadrático medio (RMSE): {rmse}")
print(f"Coeficiente de determinación (R^2): {r2}")



#### Random Forest


In [None]:
from sklearn.ensemble import RandomForestRegressor

# Crear el modelo Random Forest
# Puede ajustar los hiperparámetros según sea necesario
rf_model = RandomForestRegressor(n_estimators=29, random_state=42)

# Entrenar el modelo
rf_model.fit(X_trainr, y_trainr)

# Hacer predicciones en el conjunto de prueba
y_pred = rf_model.predict(X_testr)

# Evaluar el modelo
mse = mean_squared_error(y_testr, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_testr, y_pred)

print(f"Error cuadrático medio (MSE): {mse}")
print(f"Raíz del error cuadrático medio (RMSE): {rmse}")
print(f"Coeficiente de determinación (R^2): {r2}")



###Clasificacion

In [None]:
# Especifica las características (X) y la variable objetivo (y)
limpio = datanegocio.drop(columns=["RainTomorrow", "RISK_MM"])
Xc = limpio.select_dtypes(include='float64')  # Características
yc = datanegocio["RainTomorrow"]  # Variable objetivo

# Divide los datos en conjunto de entrenamiento y prueba (70% entrenamiento, 30% prueba)
X_trainc, X_testc, y_trainc, y_testc = train_test_split(Xc, yc, test_size=0.3, random_state=42)

# Verifica las formas de los conjuntos de datos
print("Forma de X_trainc:", X_trainc.shape)
print("Forma de X_testc:", X_testc.shape)
print("Forma de y_trainc:", y_trainc.shape)
print("Forma de y_testc:", y_testc.shape)

In [None]:
smote = SMOTE(sampling_strategy='all', random_state=42)
Xc_sm, yc_sm = smote.fit_resample(X_trainc, y_trainc)

In [None]:
#Importación de sklearn para entrenamiento de modelos
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn import linear_model

####Regresion Logistica - Modelo 1

In [None]:
#MODELO 1: REGRESIÓN LOGÍSTICA NORMAL
model = linear_model.LogisticRegression(max_iter=5000)
model.fit(Xc_sm, yc_sm)
Y_train_result1 = model.predict(Xc_sm)

In [None]:
#Metricas de trein y test modelo 1
print("METRICAS DE ENTRENAMIENTO DE LA REGRESIÓN LOGÍSTICA:")
print(classification_report(yc_sm, Y_train_result1))
print(confusion_matrix(yc_sm, Y_train_result1))
prediccionesRLTE = model.predict(X_testc)
predicciones_probRLTE = model.predict_proba(X_testc)[:,1]
print("METRICAS DE TESTEO DE LA REGRESIÓN LOGÍSTICA:")
print(classification_report(y_testc, prediccionesRLTE))
print(confusion_matrix(y_testc, prediccionesRLTE))

####Random Forest - Modelo 2

In [None]:
#MODELO 2: RANDOM FOREST
from sklearn.ensemble import RandomForestClassifier

#Como mejora, el numero de estimadores aumenta de 100 a 300 para mayor efectividad
model2 = RandomForestClassifier(n_estimators=150, random_state=42)
model2.fit(Xc_sm, yc_sm)
Y_train_result2 = model2.predict(Xc_sm)

In [None]:
#Metricas de train y test modelo 2
print("METRICAS DE ENTRENAMIENTO DEL RANDOM FOREST:")
print(classification_report(yc_sm, Y_train_result2))
print(confusion_matrix(yc_sm, Y_train_result2))
prediccionesRFTE = model2.predict(X_testc)
predicciones_probRFTE = model2.predict_proba(X_testc)[:,1]
print("METRICAS DE TEST DEL RANDOM FOREST")
print(classification_report(y_testc, prediccionesRFTE))
print(confusion_matrix(y_testc, prediccionesRFTE))

####Ada Boost - Modelo 3

In [None]:
#MODELO 3: ADA BOOST
from sklearn.ensemble import AdaBoostClassifier

#Como mejora, el numero de estimadores aumenta de 100 a 300 para mayor efectividad
model3 = AdaBoostClassifier(n_estimators=300, random_state=42)
model3.fit(Xc_sm, yc_sm)
Y_train_result3 = model3.predict(Xc_sm)

In [None]:
#Metricas de train y test modelo 3
print("METRICAS DE ENTRENAMIENTO DEL ADA BOOST:")
print(classification_report(yc_sm, Y_train_result3))
print(confusion_matrix(yc_sm, Y_train_result3))
prediccionesABTE = model3.predict(X_testc)
predicciones_probABTE = model3.predict_proba(X_testc)[:,1]
print("METRICAS DE TESTEO DEL ADA BOOST:")
print(classification_report(y_testc, prediccionesABTE))
print(confusion_matrix(y_testc, prediccionesABTE))

####NAIVE BAYES - Modelo 4

In [None]:
#MODELO 4: NAIVE BAYES
from sklearn.naive_bayes import GaussianNB

model4 = GaussianNB()
model4.fit(Xc_sm, yc_sm)
Y_train_result4 = model4.predict(Xc_sm)

In [None]:
#Metricas de train y test modelo 4
print("METRICAS DE ENTRENAMIENTO DEL NAIVE BAYES:")
print(classification_report(yc_sm, Y_train_result4))
print(confusion_matrix(yc_sm, Y_train_result4))
prediccionesNB = model4.predict(X_testc)
predicciones_probNB = model4.predict_proba(X_testc)[:,1]
print("METRICAS DE TESTEO DEL NAIVE BAYES:")
print(classification_report(y_testc, prediccionesNB))
print(confusion_matrix(y_testc, prediccionesNB))

####CURVA DE ROC

In [None]:
#Creación del grafico de la curva de ROC para los tres modelos
from sklearn.metrics import roc_curve, roc_auc_score
from matplotlib import pyplot as plt
fpr, tpr, _  = roc_curve(y_testc, predicciones_probRLTE)
auc = round(roc_auc_score(y_testc, predicciones_probRLTE), 4)
plt.plot(fpr,tpr,label="Regresión Logística, AUC="+str(auc))

fpr, tpr, _  = roc_curve(y_testc, predicciones_probRFTE)
auc = round(roc_auc_score(y_testc, predicciones_probRFTE), 4)
plt.plot(fpr,tpr,label="Random Forest, AUC="+str(auc))

fpr, tpr, _  = roc_curve(y_testc, predicciones_probABTE)
auc = round(roc_auc_score(y_testc, predicciones_probABTE), 4)
plt.plot(fpr,tpr,label="Ada Boost, AUC="+str(auc))

fpr, tpr, _  = roc_curve(y_testc, predicciones_probNB)
auc = round(roc_auc_score(y_testc, predicciones_probNB), 4)
plt.plot(fpr,tpr,label="NB, AUC="+str(auc))

plt.legend()

####VALIDACION CRUZADA

In [None]:
#VALIDACIÓN CRUZADA
from sklearn import model_selection
cv_rl = model_selection.cross_val_score(model, X_testc, y_testc, cv=10, scoring='accuracy')
cv_rf = model_selection.cross_val_score(model2, X_testc, y_testc, cv=10, scoring='accuracy')
cv_ab = model_selection.cross_val_score(model3, X_testc, y_testc, cv=10, scoring='accuracy')
cv_nb = model_selection.cross_val_score(model4, X_testc, y_testc, cv=10, scoring='accuracy')

print(cv_rl)
print(cv_rf)
print(cv_ab)
print(cv_nb)

In [None]:
print("CV RREGRESIÓN LOGÍSTICA:", cv_rl.mean())
print("CV RANDOM FOREST:", cv_rf.mean())
print("CV ADA BOOST:", cv_ab.mean())
print("CV NAIVE BAYES:", cv_nb.mean())

####El Mejor Modelo para Clasificacion.

El mejor modelo para clasificacion y el que nosotros como equipo de trabajo seleccionamos para clasificacion es el de Ada Boost, esto se debe a que, a pesar de que Regresion Logistica y Random Forest tienen mejores metricas, las metricas de Ada Boost tienen un precision y recall mas equilibrado, esto quiere decir que Ada Boost tiene un rendimiento mas uniforme y balanceado, detectando mejor los positivos y negativos, tambien asi evitando los falsos positivos y negativos. A diferencia del de Regresion Logistica que es menos confiable al tener mas falsos positivos y negativos. Por ultimo random forest cuenta con problemas de overfitting por lo que no es un modelo confiable para el negocio.


###Clustering

In [None]:
from sklearn.feature_selection import SelectKBest, f_classif
variables_interes = ['MinTemp', 'MaxTemp',  'Evaporation', 'Sunshine', 'WindGustSpeed',
                     'Humidity9am', 'Humidity3pm', 'Pressure9am', 'Pressure3pm', 'Cloud9am', 'Cloud3pm',
                     'WindSpeed9am', 'WindSpeed3pm', 'Temp9am', 'Temp3pm']

X = datanegocio[variables_interes]
y = datanegocio['RainTomorrow']

selector = SelectKBest(score_func=f_classif, k=5)  # Seleccionamos las 5 mejores características
X_new = selector.fit_transform(X, y) # Use X and y instead of Xr and yr

# Obtener los nombres de las características seleccionadas
selected_features = np.array(variables_interes)[selector.get_support()]

print("Características seleccionadas:", selected_features)

Para los modelos de clustering se utilizaran las variables de Humidity3pm y MaxTemp, esto se decidio porque estas dos variables son indicadoras directas de las condiciones atmosfericas que afectan la probabilidad de lluvia, asi tambien la humedad y la temperatura maxima influyen en la formacion de lluvias.

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
sample_size = 5000
columnas_relevantes = ['Humidity3pm', 'MaxTemp']
X = datanegocio[columnas_relevantes].sample(n=sample_size, random_state=42)
# Suponiendo que X es tu dataset
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X)
labels = kmeans.labels_

# Visualización simple en 2D
# Use .iloc for integer-based indexing in DataFrames
plt.scatter(X.iloc[:, 0], X.iloc[:, 1], c=labels, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red', marker='X')
plt.title('K-Means Clustering')
plt.xlabel(f'{columnas_relevantes[0]}')
plt.ylabel(f'{columnas_relevantes[1]}')
plt.show()

In [None]:
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt
sample_size = 5000
columnas_relevantes = ['Humidity3pm', 'MaxTemp']
X = datanegocio[columnas_relevantes].sample(n=sample_size, random_state=42)
# Suponiendo que X es tu dataset
dbscan = DBSCAN(eps=0.5, min_samples=3)
labels = dbscan.fit_predict(X)

# Visualización simple en 2D
# Use .iloc for integer-based indexing in DataFrames
plt.scatter(X.iloc[:, 0], X.iloc[:, 1], c=labels, cmap='viridis') # Use .iloc to access columns by index
plt.title('DBSCAN Clustering')
plt.xlabel(f'{columnas_relevantes[0]}')
plt.ylabel(f'{columnas_relevantes[1]}')
plt.show()

In [None]:
from sklearn.cluster import AgglomerativeClustering
import matplotlib.pyplot as plt

sample_size = 5000
columnas_relevantes = ['Humidity3pm', 'MaxTemp']
X = datanegocio[columnas_relevantes].sample(n=sample_size, random_state=42)

# Clustering jerárquico aglomerativo
agg_clustering = AgglomerativeClustering(n_clusters=3)  # Puedes cambiar el número de clusters
labels = agg_clustering.fit_predict(X)

# Visualización simple en 2D
plt.scatter(X.iloc[:, 0], X.iloc[:, 1], c=labels, cmap='viridis')
plt.title('Hierarchical Clustering')
plt.xlabel(f'{columnas_relevantes[0]}')
plt.ylabel(f'{columnas_relevantes[1]}')
plt.show()

In [None]:
from sklearn.mixture import GaussianMixture
import matplotlib.pyplot as plt

# Definir el tamaño de la muestra
sample_size = 5000
columnas_relevantes = ['Humidity3pm', 'MaxTemp']

# Muestrear los datos
X = datanegocio[columnas_relevantes].sample(n=sample_size, random_state=42)

# Crear el modelo GaussianMixture
gmm = GaussianMixture(n_components=3, random_state=42)
gmm.fit(X)
labels = gmm.predict(X)
cluster_centers = gmm.means_

# Visualización simple en 2D
plt.scatter(X.iloc[:, 0], X.iloc[:, 1], c=labels, cmap='viridis')
plt.scatter(cluster_centers[:, 0], cluster_centers[:, 1], s=300, c='red', marker='X')
plt.title('Gaussian Mixture Model Clustering')
plt.xlabel(f'{columnas_relevantes[0]}')
plt.ylabel(f'{columnas_relevantes[1]}')
plt.show()

In [None]:
from sklearn.cluster import KMeans, AffinityPropagation, AgglomerativeClustering
from sklearn.metrics import silhouette_score, davies_bouldin_score
import matplotlib.pyplot as plt

fig = plt.figure(figsize=(26, 12))
sample_size = 5000

columnas_relevantes = ['Humidity3pm', 'MaxTemp'] #'Sunshine', 'Humidity3pm' 52/59

df2 = datanegocio[columnas_relevantes].sample(n=sample_size, random_state=42)
df_seleccionados = df2[columnas_relevantes]
for k in range(2, 10):
    # Creación de clusters
    clusters = KMeans(n_clusters=k, random_state=1)
    clusters.fit_predict(df_seleccionados)
    # Cálculo de métricas
    silueta = silhouette_score(df_seleccionados , clusters.labels_)
    davies_bouldin = davies_bouldin_score(df_seleccionados , clusters.labels_)
    # Graficando clusters
    ax = fig.add_subplot(2, 4, k-1)
    # Use .iloc for integer-location based indexing in Pandas DataFrames
    ax.scatter(df_seleccionados.iloc[clusters.labels_>=0, 0],
               df_seleccionados.iloc[clusters.labels_>=0, 1],
               c=clusters.labels_[clusters.labels_>=0], s=200,
               linewidth=0.5, edgecolors="black", alpha=0.85)
    ax.set_title("\n\nSilueta = %.2f \n Davies-Bouldin = %.2f" %
                 (silueta, davies_bouldin), fontsize=20)
    ax.axis("off")

plt.show()

In [None]:
fig = plt.figure(figsize=(26, 12))
sample_size = 5000

columnas_relevantes = ['Humidity3pm', 'MaxTemp'] #'Sunshine', 'Humidity3pm' 52/59

df2 = datanegocio[columnas_relevantes].sample(n=sample_size, random_state=42)
df_seleccionados = df2[columnas_relevantes]
for k in range(2, 10):
    # Creación de clusters
    clusters = DBSCAN(eps=0.5, min_samples=k)
    clusters.fit_predict(df_seleccionados)
    # Cálculo de métricas
    silueta = silhouette_score(df_seleccionados , clusters.labels_)
    davies_bouldin = davies_bouldin_score(df_seleccionados , clusters.labels_)
    # Graficando clusters
    ax = fig.add_subplot(2, 4, k-1)
    # Use .iloc for integer-location based indexing in Pandas DataFrames
    ax.scatter(df_seleccionados.iloc[clusters.labels_>=0, 0],
               df_seleccionados.iloc[clusters.labels_>=0, 1],
               c=clusters.labels_[clusters.labels_>=0], s=200,
               linewidth=0.5, edgecolors="black", alpha=0.85)
    ax.set_title("\n\nSilueta = %.2f \n Davies-Bouldin = %.2f" %
                 (silueta, davies_bouldin), fontsize=20)
    ax.axis("off")

plt.show()

In [None]:
fig = plt.figure(figsize=(26, 12))
sample_size = 5000

columnas_relevantes = ['Humidity3pm', 'MaxTemp'] #'Sunshine', 'Humidity3pm' 52/59

df2 = datanegocio[columnas_relevantes].sample(n=sample_size, random_state=42)
df_seleccionados = df2[columnas_relevantes]
for k in range(2, 10):
    # Creación de clusters
    clusters = AgglomerativeClustering(n_clusters=k)
    clusters.fit_predict(df_seleccionados)
    # Cálculo de métricas
    silueta = silhouette_score(df_seleccionados , clusters.labels_)
    davies_bouldin = davies_bouldin_score(df_seleccionados , clusters.labels_)
    # Graficando clusters
    ax = fig.add_subplot(2, 4, k-1)
    # Use .iloc for integer-location based indexing in Pandas DataFrames
    ax.scatter(df_seleccionados.iloc[clusters.labels_>=0, 0],
               df_seleccionados.iloc[clusters.labels_>=0, 1],
               c=clusters.labels_[clusters.labels_>=0], s=200,
               linewidth=0.5, edgecolors="black", alpha=0.85)
    ax.set_title("\n\nSilueta = %.2f \n Davies-Bouldin = %.2f" %
                 (silueta, davies_bouldin), fontsize=20)
    ax.axis("off")

plt.show()

In [None]:
fig = plt.figure(figsize=(26, 12))
sample_size = 5000

columnas_relevantes = ['Humidity3pm', 'MaxTemp'] #'Sunshine', 'Humidity3pm' 52/59

df2 = datanegocio[columnas_relevantes].sample(n=sample_size, random_state=42)
df_seleccionados = df2[columnas_relevantes]
for k in range(2, 10):
    # Creación de clusters
    clusters = GaussianMixture(n_components=k, random_state=42)
    clusters.fit(df_seleccionados)
    # Cálculo de métricas
    # Use .predict to obtain cluster assignments for GaussianMixture
    cluster_assignments = clusters.predict(df_seleccionados)
    silueta = silhouette_score(df_seleccionados , cluster_assignments)
    davies_bouldin = davies_bouldin_score(df_seleccionados , cluster_assignments)
    # Graficando clusters
    ax = fig.add_subplot(2, 4, k-1)
    # Use .iloc for integer-location based indexing in Pandas DataFrames
    ax.scatter(df_seleccionados.iloc[cluster_assignments>=0, 0],
               df_seleccionados.iloc[cluster_assignments>=0, 1],
               c=cluster_assignments[cluster_assignments>=0], s=200,
               linewidth=0.5, edgecolors="black", alpha=0.85)
    ax.set_title("\n\nSilueta = %.2f \n Davies-Bouldin = %.2f" %
                 (silueta, davies_bouldin), fontsize=20)
    ax.axis("off")

plt.show()

####El Mejor Modelo No Supervisado

El Mejor modelo no supervisado es el de K-Means producto a que presenta una mejor segmentacion en sus centros, una mejor separacion y mejores metricas en el silhouette y Davis-Bouldin que su contraparte el Clustering Jerarquico que cuenta con peores metricas, menor segmentacion y una peor separacion en sus clusters centrales.