# Propuesta Dataset tabular

**Datasets seleccionado:** covertype

**Url:** https://huggingface.co/datasets/polinaeterna/tabular-benchmark


In [1]:
# Librerías
import pandas as pd

In [2]:
df = pd.read_csv("hf://datasets/polinaeterna/tabular-benchmark/clf_cat/covertype.csv")

**1. ¿Qué problema concreto resolverás? ¿Por qué es relevante?**

El objetivo de utilizar este dataset es identificar regiones con características ecológicas similares mediante técnicas de agrupamiento no supervisado. Esta clasificación permitiría analizar cómo varían las condiciones del terreno y la vegetación en diferentes zonas, facilitando la detección de cambios ambientales a lo largo del tiempo. Comprender estos patrones es relevante porque aporta información útil para el monitoreo de ecosistemas, la gestión forestal y el estudio del impacto del cambio climático sobre distintas regiones naturales.

**¿Qué tipo de modelo de aprendizaje no supervisado usarás inicialmente? escoger al menos 2 vistos en clase y 2 no vistos en clase? Explicar teóricamente como funciona el modelo y los algoritmos usados por cada método.**

Para el análisis del dataset Covertype se propone aplicar cuatro modelos de aprendizaje no supervisado, combinando dos métodos vistos en clase y dos no vistos:

**Modelos vistos en clase**

- K-Means
    - Tipo de modelo: Algoritmo de clustering basado en particiones.
    - Funcionamiento teórico: K-Means busca dividir el conjunto de datos en k grupos o clústeres, de manera que los puntos dentro de un mismo grupo sean lo más similares posible entre sí y lo más diferentes posible de los otros grupos.
El algoritmo comienza eligiendo k centroides aleatorios y asigna cada punto al centro más cercano. Luego recalcula los centroides como el promedio de los puntos de cada grupo y repite el proceso hasta que las asignaciones no cambian significativamente.
        - Ventajas: Simple, rápido y escalable.
        - Limitaciones: Supone que los clústeres son esféricos y de tamaño similar.

- PCA (Análisis de Componentes Principales)
    - Tipo de modelo: Método de reducción de dimensionalidad.
    - Funcionamiento teórico: PCA transforma los datos originales en un nuevo sistema de coordenadas en el que las dimensiones (componentes principales) capturan la mayor varianza posible.
Lo logra mediante una descomposición matemática de la matriz de covarianza, obteniendo autovectores (direcciones principales) y autovalores (cantidad de varianza explicada por cada dirección).
        - Ventajas: Reduce ruido y facilita la visualización de datos multidimensionales.
        - Limitaciones: Solo capta relaciones lineales.

**Modelos no vistos en clase**

- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
    - Tipo de modelo: Algoritmo de clustering basado en densidad.
    - Funcionamiento teórico: DBSCAN agrupa puntos que se encuentran densamente conectados entre sí y marca como ruido aquellos que no pertenecen a ninguna región densa.
    - Usa dos parámetros principales:
        - ε (epsilon): distancia máxima entre dos puntos para considerarlos vecinos.
        - minPts: número mínimo de puntos requeridos para formar una región densa.
        - Ventajas: Detecta clústeres de forma arbitraria y maneja bien el ruido.
        - Limitaciones: Sensible a los parámetros ε y minPts.

- Gaussian Mixture Model (GMM)
    - Tipo de modelo: Clustering probabilístico basado en mezcla de distribuciones.
    - Funcionamiento teórico: GMM asume que los datos provienen de una combinación (mezcla) de varias distribuciones gaussianas, cada una representando un clúster.
Utiliza el algoritmo Expectation-Maximization (EM) para estimar los parámetros de cada distribución (media, varianza y peso). Cada punto obtiene una probabilidad de pertenecer a cada clúster.
        - Ventajas: Permite clústeres de distintas formas y tamaños.
        - Limitaciones: Más costoso computacionalmente y sensible a la inicialización.

**¿Qué métrica de evaluación utilizarás y por qué?**

Dado que se aplicarán modelos de aprendizaje no supervisado, se utilizarán principalmente métricas internas para evaluar la calidad del agrupamiento, es decir, medidas que no dependen de etiquetas externas.

- Índice de Silhouette: Mide la cohesión y separación de los clústeres. Cada punto obtiene una puntuación entre -1 y 1, donde valores cercanos a 1 indican que está bien asignado a su grupo y alejado de los demás.
Esta métrica es apropiada porque el dataset tiene múltiples variables numéricas y se desea verificar si los clústeres obtenidos son compactos y bien definidos.

- Índice de Calinski-Harabasz: Evalúa la relación entre la dispersión intra-clúster e inter-clúster. Cuanto mayor sea el valor, mejor es la separación entre los grupos.
Se recomienda por su bajo costo computacional y su buen comportamiento con conjuntos de datos de gran tamaño, como Covertype.

Adicionalmente, si se desea contrastar los resultados con las etiquetas de tipo de cobertura forestal disponibles en el dataset, se puede emplear una métrica externa como el Adjusted Rand Index (ARI), que mide el grado de similitud entre los clústeres obtenidos y las clases reales, ajustando por coincidencias aleatorias.

**¿Quiénes serían los usuarios o beneficiarios del modelo?**

Los principales beneficiarios del modelo serían instituciones y profesionales vinculados a la gestión ambiental y los recursos naturales, tales como organismos gubernamentales de protección ambiental, investigadores en ecología, geógrafos, ingenieros forestales y empresas dedicadas a la explotación sustentable del suelo.

El modelo permitiría identificar zonas con características ecológicas similares, lo que facilitaría la planificación del uso del territorio, el seguimiento de cambios en la cobertura vegetal, y la detección temprana de alteraciones derivadas del cambio climático o de la actividad humana. Además, los resultados podrían integrarse en sistemas de información geográfica (SIG) para apoyar la toma de decisiones basada en datos.

**¿Qué esperas lograr con tu modelo? (clasificar, predecir, segmentar, etc.)**

El objetivo principal del modelo es segmentar las regiones ecológicas según sus características ambientales, como tipo de suelo, elevación, pendiente, orientación y cobertura vegetal.
A través del uso de técnicas de aprendizaje no supervisado, se busca agrupar zonas con comportamientos y condiciones similares, lo que permitirá analizar patrones ecológicos y comparar cómo evolucionan diferentes áreas ante factores climáticos o de intervención humana.

En resumen, el modelo pretende descubrir estructuras naturales en los datos que ayuden a comprender la dinámica ecológica del terreno y sirvan de base para estudios de cambio ambiental y planificación territorial.

**¿Qué herramientas planeas usar? (PyTorch, TensorFlow, Keras, etc.)**

Para el desarrollo del proyecto se utilizarán principalmente las librerías de Python orientadas al análisis de datos y aprendizaje no supervisado. En particular:

Scikit-learn: para aplicar algoritmos de clustering (K-means, DBSCAN, Gaussian Mixture Models) y reducción de dimensionalidad (PCA).

Pandas y NumPy: para la manipulación, limpieza y análisis de los datos.

Matplotlib y Seaborn: para la visualización de distribuciones y resultados de agrupamiento.

Streamlit: para crear una interfaz interactiva que permita explorar los resultados y visualizar cómo se agrupan las regiones ecológicas según sus características.

(Opcionalmente) Plotly: para visualizaciones 3D de los clústeres o componentes principales.

Estas herramientas ofrecen una combinación ideal de flexibilidad, interpretabilidad y facilidad de implementación, lo que permitirá centrarse en el análisis y comprensión de los patrones ecológicos más que en la programación de bajo nivel.