# Descripcion del dataset:
Contexto
Este dataset contiene observaciones de árboles de cuatro áreas del Bosque Nacional Roosevelt en Colorado. Todas las observaciones son variables cartográficas (no de teledetección) de secciones de bosque de 30 metros x 30 metros. ¡Hay más de medio millón de mediciones en total!

Contenido
Este dataset incluye información sobre el tipo de árbol, la cobertura de sombra, la distancia a puntos de referencia cercanos (carreteras, etcétera), el tipo de suelo y la topografía local.



Se busca explorar la relación entre las características del entorno y los tipos de árboles que crecen en el Bosque Nacional Roosevelt en Colorado. Específicamente, se busca comprender qué factores ambientales influyen en la distribución y diversidad de especies de árboles en esta área forestal

In [2]:
from sklearn.datasets import fetch_openml
import numpy as np
import pandas as pd


df= pd.read_csv('D1.csv')


In [3]:
print(df.head())

   Elevation  Aspect  Slope  Horizontal_Distance_To_Hydrology  \
0       2596      51      3                               258   
1       2590      56      2                               212   
2       2804     139      9                               268   
3       2785     155     18                               242   
4       2595      45      2                               153   

   Vertical_Distance_To_Hydrology  Horizontal_Distance_To_Roadways  \
0                               0                              510   
1                              -6                              390   
2                              65                             3180   
3                             118                             3090   
4                              -1                              391   

   Hillshade_9am  Hillshade_Noon  Hillshade_3pm  \
0            221             232            148   
1            220             235            151   
2            234             238   

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 581012 entries, 0 to 581011
Data columns (total 55 columns):
 #   Column                              Non-Null Count   Dtype
---  ------                              --------------   -----
 0   Elevation                           581012 non-null  int64
 1   Aspect                              581012 non-null  int64
 2   Slope                               581012 non-null  int64
 3   Horizontal_Distance_To_Hydrology    581012 non-null  int64
 4   Vertical_Distance_To_Hydrology      581012 non-null  int64
 5   Horizontal_Distance_To_Roadways     581012 non-null  int64
 6   Hillshade_9am                       581012 non-null  int64
 7   Hillshade_Noon                      581012 non-null  int64
 8   Hillshade_3pm                       581012 non-null  int64
 9   Horizontal_Distance_To_Fire_Points  581012 non-null  int64
 10  Wilderness_Area1                    581012 non-null  int64
 11  Wilderness_Area2                    581012 non-null 

In [5]:
# Matriz de correlación
correlation_matrix = df.corr()
print(correlation_matrix)

                                    Elevation    Aspect     Slope  \
Elevation                            1.000000  0.015735 -0.242697   
Aspect                               0.015735  1.000000  0.078728   
Slope                               -0.242697  0.078728  1.000000   
Horizontal_Distance_To_Hydrology     0.306229  0.017376 -0.010607   
Vertical_Distance_To_Hydrology       0.093306  0.070305  0.274976   
Horizontal_Distance_To_Roadways      0.365559  0.025121 -0.215914   
Hillshade_9am                        0.112179 -0.579273 -0.327199   
Hillshade_Noon                       0.205887  0.336103 -0.526911   
Hillshade_3pm                        0.059148  0.646944 -0.175854   
Horizontal_Distance_To_Fire_Points   0.148022 -0.109172 -0.185662   
Wilderness_Area1                     0.131838 -0.140123 -0.234576   
Wilderness_Area2                     0.238164  0.055988 -0.036253   
Wilderness_Area3                     0.066550  0.074904  0.125663   
Wilderness_Area4                  

Paso 2: Preprocesamiento de Datos
Antes de aplicar cualquier técnica de aprendizaje no supervisado, es importante preprocesar los datos. Esto puede incluir la normalización y el manejo de valores faltantes.

Código para Preprocesar los Datos

In [6]:
from sklearn.preprocessing import StandardScaler

# Eliminar la columna 'Cover_Type' para el aprendizaje no supervisado
X = df.drop(columns=['Cover_Type'])

# Normalizar los datos
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Convertir a DataFrame para facilidad de uso
X_scaled_df = pd.DataFrame(X_scaled, columns=X.columns)
print(X_scaled_df.head())


   Elevation    Aspect     Slope  Horizontal_Distance_To_Hydrology  \
0  -1.297805 -0.935157 -1.482820                         -0.053767   
1  -1.319235 -0.890480 -1.616363                         -0.270188   
2  -0.554907 -0.148836 -0.681563                         -0.006719   
3  -0.622768 -0.005869  0.520322                         -0.129044   
4  -1.301377 -0.988770 -1.616363                         -0.547771   

   Vertical_Distance_To_Hydrology  Horizontal_Distance_To_Roadways  \
0                       -0.796273                        -1.180146   
1                       -0.899197                        -1.257106   
2                        0.318742                         0.532212   
3                        1.227908                         0.474492   
4                       -0.813427                        -1.256464   

   Hillshade_9am  Hillshade_Noon  Hillshade_3pm  \
0       0.330743        0.439143       0.142960   
1       0.293388        0.590899       0.221342   
2    

### 2.2 División del conjunto de datos mnist["data"] y las etiquetas mnist["target"] en conjuntos de entrenamiento y prueba.

In [7]:
from sklearn.model_selection import train_test_split
# Preparar X e y
X = df.drop(columns=['Cover_Type'])  # Excluir la columna 'Cover_Type' para el aprendizaje no supervisado
y = df['Cover_Type']  # Columna de etiquetas (tipos de árboles)

# División en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Mostrar las formas de los conjuntos de entrenamiento y prueba
print(f"Forma de X_train: {X_train.shape}")
print(f"Forma de X_test: {X_test.shape}")
print(f"Forma de y_train: {y_train.shape}")
print(f"Forma de y_test: {y_test.shape}")


Forma de X_train: (435759, 54)
Forma de X_test: (145253, 54)
Forma de y_train: (435759,)
Forma de y_test: (145253,)


### Normalización de los conjuntos de entrenamiento y prueba
##### Este proceso convierte los valores  a números de punto flotante (float32), y luego los escala a un rango entre 0 y 1. Esto es importante para muchos algoritmos de aprendizaje automático, ya que ayuda a mejorar el rendimiento y la velocidad de convergencia durante el entrenamiento.

In [8]:
# Normalizar los datos de entrenamiento
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)

# Convertir a DataFrame para facilidad de uso
X_train_scaled_df = pd.DataFrame(X_train_scaled, columns=X_train.columns)
print(X_train_scaled_df.head())


   Elevation    Aspect     Slope  Horizontal_Distance_To_Hydrology  \
0  -0.450605  0.914664  1.590476                         -0.985626   
1   0.174254 -0.988508 -1.616659                          0.327798   
2  -0.036413 -1.390586 -0.413983                         -0.561941   
3   0.574164 -0.246896 -0.547614                         -0.561941   
4   1.331137  0.298144  0.387800                         -0.062934   

   Vertical_Distance_To_Hydrology  Horizontal_Distance_To_Roadways  \
0                       -0.349838                        -0.295193   
1                       -0.675807                         2.614212   
2                       -0.881682                         0.722489   
3                       -0.590026                        -0.127824   
4                       -0.264057                         0.480092   

   Hillshade_9am  Hillshade_Noon  Hillshade_3pm  \
0      -2.397760        1.046812       2.235600   
1       0.293234        0.540818       0.221769   
2    

### 2.3 Función load_next_batch(batch_size)
 Esto se hace para implementar el aprendizaje por lotes, se utilizará muestras de datos en lugar de todo el conjunto de datos a la vez.
 
 Propósito de la Función: Clarifica que la función se utiliza para cargar un lote de datos aleatorios que son útiles para el entrenamiento en mini-batch, una técnica común en el aprendizaje automático para mejorar la eficiencia y la convergencia del entrenamiento.

 Generación de Índices Aleatorios: Explica cómo se generan índices aleatorios para seleccionar muestras del conjunto de entrenamiento X_train_scaled, usando np.random.choice, que permite seleccionar índices sin repetir (replace=False).

Selección de Datos: Describe el uso de .iloc para obtener las filas específicas de X_train_scaled basadas en los índices aleatorios generados, lo que resulta en un lote de datos listo para ser utilizado en operaciones de entrenamiento.

In [9]:
from sklearn.utils import shuffle

# def load_next_batch(X, batch_size):
#     # Genera un array de índices aleatorios con base en la cantidad de filas en X
#     random_indices = np.random.choice(len(X), batch_size, replace=False)
#     # Usa .iloc para seleccionar las filas correspondientes a esos índices
#     return X.iloc[random_indices]


def load_next_batch(X, batch_size):
    random_indices = np.random.choice(X.shape[0], batch_size, replace=False)
    return X[random_indices]



### 2.4 Entrenamiento de un modelo de agrupamiento utilizando el algoritmo Mini-Batch K-Means
MiniBatchKMeans puede ser mucho más rápido que el K-Means estándar, especialmente en grandes conjuntos de datos.
MiniBatchKMeans tiende a converger más rápido hacia una solución, aunque esta puede no ser la óptima global como podría ser con el K-Means estándar.

In [11]:
from sklearn.cluster import MiniBatchKMeans

# Parámetros para MiniBatch K-Means
k = 10
n_init = 10
n_iterations = 100
batch_size = 100
init_size = 500
evaluate_on_last_n_iters = 10

best_kmeans = None

# Bucle de inicialización
for init in range(n_init):
    minibatch_kmeans = MiniBatchKMeans(n_clusters=k, init_size=init_size, n_init=1)
    X_init = load_next_batch(X_train_scaled, init_size)
    minibatch_kmeans.partial_fit(X_init)

    minibatch_kmeans.sum_inertia_ = 0
    for iteration in range(n_iterations):
        X_batch = load_next_batch(X_train_scaled, batch_size)
        minibatch_kmeans.partial_fit(X_batch)
        if iteration >= n_iterations - evaluate_on_last_n_iters:
            minibatch_kmeans.sum_inertia_ += minibatch_kmeans.inertia_

    if (best_kmeans is None or minibatch_kmeans.sum_inertia_ < best_kmeans.sum_inertia_):
        best_kmeans = minibatch_kmeans

## 2.5 Modelo Mini-Batch K-Means encontrado para el entrenamiento
Se calcula la puntuación del mejor modelo Mini-Batch K-Means en relación con el conjunto de datos X. Ésto proporciona una medida de qué tan bien se ajustan los datos a los clústeres definidos por el modelo.\
La puntuación se calcula como la negativa de la inercia del modelo, que es una medida de la suma de las distancias cuadradas de las muestras a su centroide más cercano.\
Se prefiere una puntuación más alta que va indicar que el modelo tiene una inercia menor y que se ha agrupado mejor los datos.

In [12]:
# Evaluar el modelo
score = best_kmeans.score(X_train_scaled)
print(f"Score: {score}")

Score: -18420166.15334039


Un valor de score como -3053721 indica que la inercia del modelo es bastante alta. Esto podría sugerir que los clústeres formados por el modelo no están tan bien definidos, y que muchos puntos están relativamente lejos de sus centroides.

### 2.6 Encontrar el número óptimo de grupos aplicando la métrica silhouette score.
La métrica silhouette score se basa en el cálculo del coeficiente de silueta (silhouette coefficient) de todas las muestras del dataset como $(b-a)/\mathrm{max}(a,b)$ donde $a$ es la distancia mínima al resto de muestras del mismo grupo y $b$ es la distancia media de los grupos más cercanos.\
El coeficiente de silueta varía entre -1 y 1. Un coeficiente de silueta cercano a 1 indica que la muestra está bien clasificada en su propio clúster y lejos de los clústeres vecinos. Un coeficiente de silueta cercano a -1 indica que la muestra puede estar mal clasificada en su propio clúster y cerca de los clústeres vecinos. Un coeficiente de silueta cercano a 0 indica que la muestra está cerca del límite de decisión entre dos clústeres.

In [13]:
from sklearn.cluster import KMeans
# Entrenar el modelo KMeans
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X_train_scaled)

In [14]:
from sklearn.metrics import silhouette_score
# silhouette_score(X_train_scaled, kmeans.labels_)


# Tomar una muestra del dataset
sample_size = 10000
if len(X_train_scaled) > sample_size:
    sample_indices = np.random.choice(len(X_train_scaled), sample_size, replace=False)
    X_sample = X_train_scaled[sample_indices]
    sample_labels = kmeans.labels_[sample_indices]
else:
    X_sample = X_train_scaled
    sample_labels = kmeans.labels_

# Calcular el Silhouette Score en la muestra
silhouette_avg = silhouette_score(X_sample, sample_labels)
print(f'Silhouette Score Promedio (muestra): {silhouette_avg}')

Silhouette Score Promedio (muestra): 0.10665483368695404


#### Observación:
Un valor de silueta de aproximadamente 0.03 está más cerca de 0 que de 1, lo que indica que los clústeres formados no son muy densos ni bien separados. Esto sugiere que hay un solapamiento considerable entre los clústeres, y que los puntos dentro de un clúster no están mucho más cerca entre sí en comparación con los puntos en clústeres vecinos.

## Calcular la métrica para diferentes números de clusters 'k'
Se va a determinar la calidad de los clusters generados por KMeans para diferentes valores de 'k' (1 a 10)  utilizando el coeficiente de silueta como métrica de evaluacion.\
Objetivo: Encontrar el valor óptimo de 'k'.

In [15]:
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

# Calcular KMeans y Silhouette Scores solo para k en el rango de 6 a 12
kmeans_per_k = [KMeans(n_clusters=k, n_init=10, random_state=42).fit(X_train_scaled)
                for k in range(6, 13)]

silhouette_scores = [silhouette_score(X_train_scaled, model.labels_)
                     for model in kmeans_per_k]

# Graficar los Silhouette Scores para el rango de 6 a 12
plt.figure(figsize=(8, 5))
plt.plot(range(6, 13), silhouette_scores, "bo-")
plt.xlabel("$k$", fontsize=14)
plt.ylabel("Silhouette score", fontsize=14)
plt.axis([5.8, 12.2, min(silhouette_scores) - 0.02, max(silhouette_scores) + 0.02])  # Ajustamos el tamaño del eje
plt.title("Silhouette Scores para diferentes valores de $k$")
plt.show()

KeyboardInterrupt: 

### 2.7 Diagramas de silueta para diferentes valores de 'k'
En los diagramas se puede visualizar todos los coeficientes de silueta ordenados por grupos y su valor.

In [None]:
from sklearn.metrics import silhouette_samples
from matplotlib.ticker import FixedLocator, FixedFormatter
import matplotlib as mpl

plt.figure(figsize=(15, 18))

# Aquí reentrenamos los modelos KMeans para k desde 6 hasta 12
kmeans_per_k = []
silhouette_scores = []

for k in range(6, 13):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_train_scaled)  # Usa tus datos escalados
    
    # Verificar que el número de clústeres es válido
    if len(np.unique(kmeans.labels_)) > 1:
        kmeans_per_k.append(kmeans)
        silhouette_score_value = silhouette_score(X_train_scaled, kmeans.labels_)
        silhouette_scores.append(silhouette_score_value)
    else:
        print(f"El modelo con k={k} asignó todas las muestras a un solo clúster.")

# Generar los gráficos solo para los valores de k válidos
plt.figure(figsize=(15, 18))

# Ajustar el rango del bucle para incluir k desde 6 hasta 12
for k in range(6, 13):
    # Solo generar gráficos para k que tienen modelos válidos
    if k - 6 < len(kmeans_per_k):
        plt.subplot(4, 2, k - 5)  # Ajustar el diseño de los subplots

        y_pred = kmeans_per_k[k - 6].labels_  # Ajustar el índice
        silhouette_coefficients = silhouette_samples(X_train_scaled, y_pred)

        padding = len(X_train_scaled) // 30
        pos = padding
        ticks = []
        for i in range(k):
            coeffs = silhouette_coefficients[y_pred == i]
            coeffs.sort()

            color = mpl.cm.Spectral(i / k)
            plt.fill_betweenx(np.arange(pos, pos + len(coeffs)), 0, coeffs,
                              facecolor=color, edgecolor=color, alpha=0.7)
            ticks.append(pos + len(coeffs) // 2)
            pos += len(coeffs) + padding

        plt.gca().yaxis.set_major_locator(FixedLocator(ticks))
        plt.gca().yaxis.set_major_formatter(FixedFormatter(range(k)))
        if k in (6, 8, 10, 12):
            plt.ylabel("Cluster")

        if k in (11, 12):
            plt.gca().set_xticks([-0.1, 0, 0.2, 0.4, 0.6, 0.8, 1])
            plt.xlabel("Silhouette Coefficient")
        else:
            plt.tick_params(labelbottom=False)

        plt.axvline(x=silhouette_scores[k - 6], color="red", linestyle="--")
        plt.title("$k={}$".format(k), fontsize=16)

plt.tight_layout()
plt.show()