<a href="https://colab.research.google.com/github/betsyvies/forest-fires/blob/main/forest_fires.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn import set_config
set_config(display='diagram')

## Primera opción: Forest Fires

**1. Fuente de datos**

Los datos provienen del estudio de los incendios forestales en el Parque Natural Montesinho, en el noreste de Portugal. Este conjunto de datos lo encontre en el UCI Machine Learning Repository.

**2. Breve descripción de datos**

El conjunto de datos de incendios forestales incluye información sobre diversos incendios que ocurrieron en el Parque Natural Montesinho. Las características del conjunto de datos abarcan aspectos meteorológicos y datos específicos del incendio, como la temperatura, la humedad, la velocidad del viento y la cantidad de lluvia, para así predecir el área quemada del incendio en hectáreas.

**3. ¿Cuál es el objetivo?**

El objetivo es desarrollar un modelo predictivo que pueda estimar el área quemada de un incendio forestal basado en las características proporcionadas. Este modelo puede ayudar a los bomberos y a los gestores forestales a tomar decisiones informadas sobre la asignación de recursos y estrategias de mitigación de incendios.

**4. ¿Este es un problema de clasificación o regresión?**

Este es un problema de regresión, ya que el objetivo es predecir un valor continuo númerico (el área quemada por el incendio en hectáreas).

**5. ¿Cuántas características hay?**

El conjunto de datos tiene 12 características (features), excluyendo el target (área quemada). Estas características incluyen variables meteorológicas como temperatura, humedad, velocidad del viento y lluvia, así como características específicas del día, como el día de la semana y el mes.

**6. ¿Cuántas filas de datos hay?**

El conjunto de datos consta de 517 filas de datos, cada una representando un incendio forestal distinto.

In [4]:
path = '/content/drive/MyDrive/Data science/Projects/Project 2/forestfires.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,X,Y,month,day,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area
0,7,5,mar,fri,86.2,26.2,94.3,5.1,8.2,51,6.7,0.0,0.0
1,7,4,oct,tue,90.6,35.4,669.1,6.7,18.0,33,0.9,0.0,0.0
2,7,4,oct,sat,90.6,43.7,686.9,6.7,14.6,33,1.3,0.0,0.0
3,8,6,mar,fri,91.7,33.3,77.5,9.0,8.3,97,4.0,0.2,0.0
4,8,6,mar,sun,89.3,51.3,102.2,9.6,11.4,99,1.8,0.0,0.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 517 entries, 0 to 516
Data columns (total 13 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   X       517 non-null    int64  
 1   Y       517 non-null    int64  
 2   month   517 non-null    object 
 3   day     517 non-null    object 
 4   FFMC    517 non-null    float64
 5   DMC     517 non-null    float64
 6   DC      517 non-null    float64
 7   ISI     517 non-null    float64
 8   temp    517 non-null    float64
 9   RH      517 non-null    int64  
 10  wind    517 non-null    float64
 11  rain    517 non-null    float64
 12  area    517 non-null    float64
dtypes: float64(8), int64(3), object(2)
memory usage: 52.6+ KB


## Segunda opción: Horse Colic

**1. Fuente de datos**

La fuente de datos para este conjunto de datos de colic de caballos proviene de la UCI Machine Learning Repository.

**2. Breve descripción de datos**

El conjunto de datos de colic de caballos contiene información clínica y patológica sobre caballos que sufren de cólico. El cólico es una condición común y potencialmente grave en caballos que afecta su tracto digestivo. El conjunto de datos incluye varias características relacionadas con los signos clínicos observados, los resultados de las pruebas de laboratorio y la condición física de los caballos.

**3. ¿Cuál es el objetivo?**

El objetivo del análisis de este conjunto de datos es predecir el resultado del la lesión quirúrgica, si vivió, murió o se le practicó la eutanasia.

**4. ¿Este es un problema de clasificación o regresión?**

Este es un problema de clasificación. Se intenta predecir  el resultado de la lesión quirúrgica (supervivencia o muerte).

**5. ¿Cuántas características hay?**

El conjunto de datos tiene 27 características (features), excluyendo el target (lesión quirúrgica). Estas características incluyen variables clínicas, resultados de laboratorio y otras mediciones relevantes para el diagnóstico y tratamiento del cólico en caballos.

**6. ¿Cuántas filas de datos hay?**

El conjunto de datos contiene 368 filas de datos, cada una representando un caso diferente de un caballo con cólico.

In [23]:
path = '/content/drive/MyDrive/Data science/Projects/Project 2/horse-colic.data.csv'

# Read the input CSV file with space as a delimiter
df = pd.read_csv(path, delimiter=' ', engine='python', header=None, on_bad_lines='skip')
df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,18,19,20,21,22,23,24,25,26,27
0,2,1,530101,38.50,66,28,3,3,?,2,...,45.00,8.40,?,?,2,2,11300,0,0,2
1,1,1,532349,38.4,44,24,3,?,4,?,...,50,77,?,?,1,1,3205,0,0,2
2,2,1,5275212,37.80,82,12,3,1,1,2,...,50.00,7.00,?,?,3,1,2205,0,0,2
3,2,9,5305129,39.50,84,30,?,?,?,1,...,28.00,5.00,?,?,1,2,0,0,0,2
4,1,1,529428,?,?,?,?,?,?,?,...,?,?,?,?,1,1,2124,0,0,2
