In [1]:
import pandas as pd
import numpy as np
import warnings

def data_exp_n_prep(data_path):

    data = pd.read_csv(data_path)

    warnings.filterwarnings('ignore')

    print("Primeras filas del dataset:")
    print(data.head())

    # Información del dataset para verificar los tipos de datos y valores nulos
    print("\nInformación del dataset:")
    data.info()

    # Revisar si hay valores nulos
    print("\nValores nulos por columna:")
    print(data.isnull().sum())

    # Corregir potenciales valores nulos si los hay
    data = data.dropna()

    # Revisar y Eliminar duplicados
    print(f"\nNúmero de filas duplicadas: {data.duplicated().sum()}")
    data = data.drop_duplicates()
    print(f"Número de filas después de eliminar duplicados: {data.shape[0]}")

    # Detectar y manejar outliers en la variable 'area' usando el método del rango intercuartílico (IQR)
    Q1 = data['area'].quantile(0.25)
    Q3 = data['area'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    # Filtrar las filas con valores fuera de los límites
    data_filtered = data[(data['area'] >= lower_bound) & (data['area'] <= upper_bound)]
    print(f"Cantidad de datos después de eliminar outliers: {data_filtered.shape[0]}")

    # Transformar la variable 'area' (debido al sesgo hacia valores pequeños) usando una escala logarítmica log(1 + area) para mejorar la distribución
    data_filtered['log_area'] = np.log1p(data_filtered['area'])

    data_filtered.to_csv(f'../data/processed/forest_fires_prepared_df.csv', index=False)

In [2]:
data_exp_n_prep(f'../data/processed/forestfires.csv')

Primeras filas del dataset:
   X  Y month  day  FFMC   DMC     DC  ISI  temp  RH  wind  rain  area
0  7  5   mar  fri  86.2  26.2   94.3  5.1   8.2  51   6.7   0.0   0.0
1  7  4   oct  tue  90.6  35.4  669.1  6.7  18.0  33   0.9   0.0   0.0
2  7  4   oct  sat  90.6  43.7  686.9  6.7  14.6  33   1.3   0.0   0.0
3  8  6   mar  fri  91.7  33.3   77.5  9.0   8.3  97   4.0   0.2   0.0
4  8  6   mar  sun  89.3  51.3  102.2  9.6  11.4  99   1.8   0.0   0.0

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 517 entries, 0 to 516
Data columns (total 13 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   X       517 non-null    int64  
 1   Y       517 non-null    int64  
 2   month   517 non-null    object 
 3   day     517 non-null    object 
 4   FFMC    517 non-null    float64
 5   DMC     517 non-null    float64
 6   DC      517 non-null    float64
 7   ISI     517 non-null    float64
 8   temp    517 non-null    float64
 9   RH 