In [None]:
import pandas as pd
import numpy as np
import warnings

def data_exp_n_prep(data_path):

    data = pd.read_csv(data_path)

    warnings.filterwarnings('ignore')

    print("Primeras filas del dataset:")
    print(data.head())

    # Información del dataset para verificar los tipos de datos y valores nulos
    print("\nInformación del dataset:")
    data.info()

    # Revisar si hay valores nulos
    print("\nValores nulos por columna:")
    print(data.isnull().sum())

    # Corregir potenciales valores nulos si los hay
    data = data.dropna()

    # Revisar y Eliminar duplicados
    print(f"\nNúmero de filas duplicadas: {data.duplicated().sum()}")
    data = data.drop_duplicates()
    print(f"Número de filas después de eliminar duplicados: {data.shape[0]}")

    # Detectar y manejar outliers en la variable 'area' usando el método del rango intercuartílico (IQR)
    Q1 = data['area'].quantile(0.25)
    Q3 = data['area'].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    # Filtrar las filas con valores fuera de los límites
    data_filtered = data[(data['area'] >= lower_bound) & (data['area'] <= upper_bound)]
    print(f"Cantidad de datos después de eliminar outliers: {data_filtered.shape[0]}")

    data_filtered.to_csv(f'../data/raw/{"forestfires_data_filtered.csv"}', index=False)