In [2]:
import pandas as pd
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_squared_error
import joblib

# Cargar los datos
data = pd.read_csv('datos_suelo.csv') 

# Convertir la fecha a un formato numérico adecuado
data['Date'] = pd.to_datetime(data['Date'])
data['Day'] = data['Date'].dt.day
data['Month'] = data['Date'].dt.month
data['Year'] = data['Date'].dt.year

# Codificar la ubicación (ciudad) como valores numéricos
label_encoder = LabelEncoder()
data['Location'] = label_encoder.fit_transform(data['Location'])

# Seleccionar las características y el objetivo
X = data[['Day', 'Month', 'Year', 'Location']]
y_N = data['Nitrogen (N)']
y_P = data['Phosphorus (P)']
y_K = data['Potassium (K)']
y_pH = data['pH']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_N_train, y_N_test = train_test_split(X, y_N, test_size=0.2, random_state=42)
_, _, y_P_train, y_P_test = train_test_split(X, y_P, test_size=0.2, random_state=42)
_, _, y_K_train, y_K_test = train_test_split(X, y_K, test_size=0.2, random_state=42)
_, _, y_pH_train, y_pH_test = train_test_split(X, y_pH, test_size=0.2, random_state=42)

# Entrenar modelos de Random Forest para cada variable
model_N = RandomForestRegressor(random_state=42)
model_P = RandomForestRegressor(random_state=42)
model_K = RandomForestRegressor(random_state=42)
model_pH = RandomForestRegressor(random_state=42)

model_N.fit(X_train, y_N_train)
model_P.fit(X_train, y_P_train)
model_K.fit(X_train, y_K_train)
model_pH.fit(X_train, y_pH_train)

# Evaluar los modelos
print("Error cuadrático medio para N:", mean_squared_error(y_N_test, model_N.predict(X_test)))
print("Error cuadrático medio para P:", mean_squared_error(y_P_test, model_P.predict(X_test)))
print("Error cuadrático medio para K:", mean_squared_error(y_K_test, model_K.predict(X_test)))
print("Error cuadrático medio para pH:", mean_squared_error(y_pH_test, model_pH.predict(X_test)))

# Guardar los modelos
joblib.dump(model_N, 'model_N.joblib')
joblib.dump(model_P, 'model_P.joblib')
joblib.dump(model_K, 'model_K.joblib')
joblib.dump(model_pH, 'model_pH.joblib')

# Función para realizar predicciones
def predecir_nutrientes(ciudad, fecha):
    fecha = pd.to_datetime(fecha)
    dia, mes, año = fecha.day, fecha.month, fecha.year
    ciudad_codificada = label_encoder.transform([ciudad])[0]
    X_nueva = [[dia, mes, año, ciudad_codificada]]

    pred_N = model_N.predict(X_nueva)[0]
    pred_P = model_P.predict(X_nueva)[0]
    pred_K = model_K.predict(X_nueva)[0]
    pred_pH = model_pH.predict(X_nueva)[0]

    return {
        "Nitrogen (N)": pred_N,
        "Phosphorus (P)": pred_P,
        "Potassium (K)": pred_K,
        "pH": pred_pH
    }

# Ejemplo de uso
ciudad = "Fresno"
fecha = "2024-11-01"
prediccion = predecir_nutrientes(ciudad, fecha)
print("Predicción:", prediccion)


Error cuadrático medio para N: 79.07299559384606
Error cuadrático medio para P: 14.198662571282043
Error cuadrático medio para K: 2757.5265106315337
Error cuadrático medio para pH: 0.5178119469230772
Predicción: {'Nitrogen (N)': 19.06029999999997, 'Phosphorus (P)': 11.195700000000015, 'Potassium (K)': 213.19729999999998, 'pH': 6.2651999999999894}




In [3]:
!pip install joblib



In [5]:
import joblib

# Guardar los modelos entrenados en archivos .joblib
joblib.dump(model_N, 'model_N.joblib')
joblib.dump(model_P, 'model_P.joblib')
joblib.dump(model_K, 'model_K.joblib')
joblib.dump(model_pH, 'model_pH.joblib')

['model_pH.joblib']