<a href="https://colab.research.google.com/github/betsyvies/forest-fires/blob/main/forest_fires.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split
from sklearn import set_config
set_config(display='diagram')

## Primera opción: Forest Fires

**1. Fuente de datos**

Los datos provienen del estudio de los incendios forestales en el Parque Natural Montesinho, en el noreste de Portugal. Este conjunto de datos lo encontre en el UCI Machine Learning Repository.

**2. Breve descripción de datos**

El conjunto de datos de incendios forestales incluye información sobre diversos incendios que ocurrieron en el Parque Natural Montesinho. Las características del conjunto de datos abarcan aspectos meteorológicos y datos específicos del incendio, como la temperatura, la humedad, la velocidad del viento y la cantidad de lluvia, para así predecir el área quemada del incendio en hectáreas.

**3. ¿Cuál es el objetivo?**

El objetivo es desarrollar un modelo predictivo que pueda estimar el área quemada de un incendio forestal basado en las características proporcionadas. Este modelo puede ayudar a los bomberos y a los gestores forestales a tomar decisiones informadas sobre la asignación de recursos y estrategias de mitigación de incendios.

**4. ¿Este es un problema de clasificación o regresión?**

Este es un problema de regresión, ya que el objetivo es predecir un valor continuo númerico (el área quemada por el incendio en hectáreas).

**5. ¿Cuántas características hay?**

El conjunto de datos tiene 12 características (features), excluyendo el target (área quemada). Estas características incluyen variables meteorológicas como temperatura, humedad, velocidad del viento y lluvia, así como características específicas del día, como el día de la semana y el mes.

**6. ¿Cuántas filas de datos hay?**

El conjunto de datos consta de 517 filas de datos, cada una representando un incendio forestal distinto.

In [4]:
path = '/content/drive/MyDrive/Data science/Projects/Project 2/forestfires.csv'
df = pd.read_csv(path)
df.head()

Unnamed: 0,X,Y,month,day,FFMC,DMC,DC,ISI,temp,RH,wind,rain,area
0,7,5,mar,fri,86.2,26.2,94.3,5.1,8.2,51,6.7,0.0,0.0
1,7,4,oct,tue,90.6,35.4,669.1,6.7,18.0,33,0.9,0.0,0.0
2,7,4,oct,sat,90.6,43.7,686.9,6.7,14.6,33,1.3,0.0,0.0
3,8,6,mar,fri,91.7,33.3,77.5,9.0,8.3,97,4.0,0.2,0.0
4,8,6,mar,sun,89.3,51.3,102.2,9.6,11.4,99,1.8,0.0,0.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 517 entries, 0 to 516
Data columns (total 13 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   X       517 non-null    int64  
 1   Y       517 non-null    int64  
 2   month   517 non-null    object 
 3   day     517 non-null    object 
 4   FFMC    517 non-null    float64
 5   DMC     517 non-null    float64
 6   DC      517 non-null    float64
 7   ISI     517 non-null    float64
 8   temp    517 non-null    float64
 9   RH      517 non-null    int64  
 10  wind    517 non-null    float64
 11  rain    517 non-null    float64
 12  area    517 non-null    float64
dtypes: float64(8), int64(3), object(2)
memory usage: 52.6+ KB


## Segunda opción: Banana Quality

**1. Fuente de datos**

La fuente de datos para este conjunto de datos de predicción de la calidad del platano proviene de Kaggle.

**2. Breve descripción de datos**

El conjunto de datos de predicción de la calidad del platano contiene información como tamaño, peso, dulzor, suavidad, época de cosecha, madurez, acidez, calidad del platano. Estos datos pueden haber sido recopilados de evaluaciones sensoriales realizadas por expertos o mediante la medición de características físicas de los platanos.

**3. ¿Cuál es el objetivo?**

El objetivo del análisis de este conjunto de datos es predecir la calidad de los platanos en función de sus características.

**4. ¿Este es un problema de clasificación o regresión?**

Este es un problema de clasificación. Se intenta predecir la calidad del platano (Buena o Mala).

**5. ¿Cuántas características hay?**

El conjunto de datos tiene 7 características (features), excluyendo el target (quality). Estas características incluyen variables como el tamaño, peso, dulzor, suavidad, época de cosecha, madurez y acidez.

**6. ¿Cuántas filas de datos hay?**

El conjunto de datos contiene 8000 filas de datos, cada una representando un caso diferente de oobservaciones recopiladas.

In [6]:
path = '/content/drive/MyDrive/Data science/Projects/Project 2/banana_quality.csv'

# Read the input CSV file with space as a delimiter
df = pd.read_csv(path)
df.head()

Unnamed: 0,Size,Weight,Sweetness,Softness,HarvestTime,Ripeness,Acidity,Quality
0,-1.924968,0.468078,3.077832,-1.472177,0.294799,2.43557,0.27129,Good
1,-2.409751,0.48687,0.346921,-2.495099,-0.892213,2.067549,0.307325,Good
2,-0.357607,1.483176,1.568452,-2.645145,-0.647267,3.090643,1.427322,Good
3,-0.868524,1.566201,1.889605,-1.273761,-1.006278,1.873001,0.477862,Good
4,0.651825,1.319199,-0.022459,-1.209709,-1.430692,1.078345,2.812442,Good


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8000 entries, 0 to 7999
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   Size         8000 non-null   float64
 1   Weight       8000 non-null   float64
 2   Sweetness    8000 non-null   float64
 3   Softness     8000 non-null   float64
 4   HarvestTime  8000 non-null   float64
 5   Ripeness     8000 non-null   float64
 6   Acidity      8000 non-null   float64
 7   Quality      8000 non-null   object 
dtypes: float64(7), object(1)
memory usage: 500.1+ KB
