In [2]:
import pandas as pd
import numpy as np
import os

# ========================
# Cargar CSV original desde la carpeta 'csv'
# ========================
csv_path = os.path.join('deprecated', 'Dataset_Demostracion.csv')
df = pd.read_csv(csv_path, sep=',')

# ========================
# VARIABLES DERIVADAS BÁSICAS
# ========================

# 1. Grados-día de crecimiento normalizado por horas de luz
df['GDD_norm'] = df['Temp_media'].apply(lambda x: max(x - 10, 0)) / df['Horas_luz']

# 2. Fertilidad total ponderada
df['Indice_fertilidad'] = 0.5*df['N_kg_ha'] + 0.3*df['P_kg_ha'] + 0.2*df['K_kg_ha']

# 3. Categoría de clima según reglas simples
def clasificar_clima(row):
    if row['Lluvia_mm'] > 600 and row['Temp_media'] < 18:
        return 'húmedo_frío'
    elif row['Lluvia_mm'] < 300 and row['Temp_media'] > 20:
        return 'seco_calido'
    else:
        return 'moderado'
df['Clima_reglas'] = df.apply(clasificar_clima, axis=1)

# 4. Rango térmico
df['Rango_termico'] = df['Temp_max'] - df['Temp_min']

# 5. Rango térmico categorizado
def categorizar_rango(rango):
    if rango < 6:
        return 'estable'
    elif rango <= 10:
        return 'moderado'
    else:
        return 'variable'
df['Rango_termico_cat'] = df['Rango_termico'].apply(categorizar_rango)

# ========================
# VARIABLES BINARIAS
# ========================
df['Labranza_binary'] = df['Labranza'].apply(lambda x: 1 if x=='convencional' else 0)
df['Plagas_binary'] = df['Plagas'].apply(lambda x: 1 if x=='sí' else 0)
df['Deficiencia_binary'] = df['Deficiencia'].apply(lambda x: 1 if x=='sí' else 0)
df['Problema'] = df['Plagas_binary'] + df['Deficiencia_binary']

# ========================
# Guardar CSV final con todas las features derivadas en la misma carpeta 'csv'
# ========================
output_path = os.path.join('csv', 'features_trigo2.csv')
df.to_csv(output_path, index=False)
print("✅ CSV con features derivadas creado y listo para modelos de ML.")

✅ CSV con features derivadas creado y listo para modelos de ML.
