# **Clasificación con máquinas de vectores de soporte y random forest**
---

## **Objetivos**

Mediante este proyecto se pretende crear modelos basados en máquinas de vector de soporte y random forest. Se busca comprender con un problema real las diferencias que existen a la hora de entrenar los diferentes modelos.

- Comprender el tratamiento de datos que hay que realizar para los modelos de clasificación.
- Entender y aplicar el algoritmo de Random Forest a un problema de clasificación.
- Entender y aplicar el algoritmo de Support Vector Machine (SVM) a un problema de clasificación.
- Evaluar y analizar los resultados de los clasificadores.

## **Descripción del proyecto**

El conjunto de datos con el que vamos a trabajar se encuentra en el siguiente enlace: https://archive.ics.uci.edu/dataset/31/covertype

Este dataset ha sido generado para predecir el tipo de cubierta forestal únicamente a partir de variables cartográficas (sin datos de sensores remotos). El tipo de cubierta forestal real para una observación determinada (celda de 30 x 30 metros) se determinó a partir de los datos del Sistema de información de recursos (RIS) de la Región 2 del Servicio Forestal de EE. UU. (USFS). Las variables independientes se derivaron de datos obtenidos originalmente del Servicio Geológico de EE. UU. (USGS) y de datos del USFS. Los datos están en forma original (no escalados) y contienen columnas binarias (0 o 1) de datos para variables cualitativas independientes (áreas silvestres y tipos de suelo).
Para ampliar información sobre el dataset y su origen, recomendamos leer la descripción completa del dataset en el enlace del repositorio. l.

**El objetivo de la clasificación será detectar el tipo de suelo.**

---

## **Análisis descriptivo de los datos**

In [5]:
#!pip3 install -U ucimlrepo     # Instala/actualiza la librería 'ucimlrepo' para acceder a datasets del UCI Machine Learning Repository

In [6]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt 
import seaborn as sns

from ucimlrepo import fetch_ucirepo  # Se importa la función para descargar datasets del UCI Machine Learning Repository

In [8]:
# En lugar de cargar el dataset desde local, lo descargaré de su repositorio.
covertype = fetch_ucirepo(id=31) # Se descarga el dataset "Covertype" desde el repositorio de UCI (ID: 31)
df = covertype.data.original     # Obtiene el dataframe original del dataset

# Se separan las características (X) y las etiquetas de salida (Y)
X = covertype.data.features      # Variables independientes, características
Y = covertype.data.targets       # Variable dependiente, clase objetivo

print(covertype.metadata)        # Muestro la información del dataset

{'uci_id': 31, 'name': 'Covertype', 'repository_url': 'https://archive.ics.uci.edu/dataset/31/covertype', 'data_url': 'https://archive.ics.uci.edu/static/public/31/data.csv', 'abstract': 'Classification of pixels into 7 forest cover types based on attributes such as elevation, aspect, slope, hillshade, soil-type, and more.', 'area': 'Biology', 'tasks': ['Classification'], 'characteristics': ['Multivariate'], 'num_instances': 581012, 'num_features': 54, 'feature_types': ['Categorical', 'Integer'], 'demographics': [], 'target_col': ['Cover_Type'], 'index_col': None, 'has_missing_values': 'no', 'missing_values_symbol': None, 'year_of_dataset_creation': 1998, 'last_updated': 'Sat Mar 16 2024', 'dataset_doi': '10.24432/C50K5N', 'creators': ['Jock Blackard'], 'intro_paper': None, 'additional_info': {'summary': 'Predicting forest cover type from cartographic variables only (no remotely sensed data).  The actual forest cover type for a given observation (30 x 30 meter cell) was determined from