In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import joblib

# 1. CARGA DE DATOS
df = pd.read_csv('Resultados_de_An√°lisis_de_Laboratorio_Suelos_en_Colombia_20260224.csv', low_memory=False)

# 2. LIMPIEZA DEL TARGET (Cultivo)
df = df[df['Cultivo'] != 'No Indica']
df = df[~df['Cultivo'].str.contains('Pasto', case=False, na=False)]

# --- NUEVO: 3. LIMPIEZA PROFUNDA DE LA COLUMNA 'RIEGO' ---
# --- 3. LIMPIEZA PROFUNDA DE 'RIEGO' Y 'TOPOGRAFIA' ---

# a. Limpieza de Riego
df['Riego'] = df['Riego'].astype(str).str.upper().str.strip()
df = df[~df['Riego'].isin(['NO INDICA', 'NAN'])]
df.loc[df['Riego'] == 'NO TIENE', 'Riego'] = 'SECANO'

# b. Limpieza de Topograf√≠a (¬°NUEVO!)
df['Topografia'] = df['Topografia'].astype(str).str.upper().str.strip()
df = df[~df['Topografia'].isin(['NO INDICA', 'NAN'])]

# ---------------------------------------------------------
# ---------------------------------------------------------

# 4. SELECCI√ìN DE VARIABLES
columnas_modelo = [
    'Cultivo', 'Departamento', 'Topografia', 'Riego', 
    'pH agua:suelo', 'Materia organica', 'F√≥sforo Bray II', 
    'Calcio intercambiable', 'Magnesio intercambiable', 'Potasio intercambiable'
]
df_limpio = df[columnas_modelo].copy()

# 5. CONVERSI√ìN DE QU√çMICOS A N√öMEROS
columnas_numericas = columnas_modelo[4:] 
for col in columnas_numericas:
    df_limpio[col] = df_limpio[col].astype(str).str.replace(',', '.')
    df_limpio[col] = pd.to_numeric(df_limpio[col], errors='coerce')

df_limpio = df_limpio.dropna()

# 6. FILTRAR AL TOP 10 CULTIVOS RENTABLES
top_10_nombres = df_limpio['Cultivo'].value_counts().head(10).index
df_final = df_limpio[df_limpio['Cultivo'].isin(top_10_nombres)]

# 7. ONE-HOT ENCODING (Ahora con un 'Riego' impecable)
df_final = pd.get_dummies(df_final, columns=['Departamento', 'Topografia', 'Riego'])

# 8. ENTRENAMIENTO Y EVALUACI√ìN
X = df_final.drop('Cultivo', axis=1)
y = df_final['Cultivo']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

modelo_rf_definitivo = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
modelo_rf_definitivo.fit(X_train, y_train)

predicciones_definitivas = modelo_rf_definitivo.predict(X_test)
precision_definitiva = accuracy_score(y_test, predicciones_definitivas)

print(f"üíß Variables analizadas (limpias): {X_train.shape[1]}")
print(f"üìä ¬°NUEVA Precisi√≥n global (Accuracy): {precision_definitiva * 100:.2f}%!")

# 9. SOBREESCRIBIR LOS ARCHIVOS DEL MODELO
joblib.dump(modelo_rf_definitivo, 'modelo_cultivos.pkl')
joblib.dump(X.columns.tolist(), 'columnas_modelo.pkl')
joblib.dump(modelo_rf_definitivo.classes_, 'clases_modelo.pkl')
print("\n‚úÖ ¬°Archivos .pkl actualizados con √©xito!")

üíß Variables analizadas (limpias): 61
üìä ¬°NUEVA Precisi√≥n global (Accuracy): 68.97%!

‚úÖ ¬°Archivos .pkl actualizados con √©xito!


In [4]:
pip install -r requirements.txt


Collecting folium
  Downloading folium-0.20.0-py2.py3-none-any.whl (113 kB)
     -------------------------------------- 113.4/113.4 kB 2.2 MB/s eta 0:00:00
Collecting streamlit-folium
  Downloading streamlit_folium-0.26.2-py3-none-any.whl (523 kB)
     -------------------------------------- 523.7/523.7 kB 4.1 MB/s eta 0:00:00
Collecting branca>=0.6.0
  Downloading branca-0.8.2-py3-none-any.whl (26 kB)
Collecting xyzservices
  Downloading xyzservices-2025.11.0-py3-none-any.whl (93 kB)
     ---------------------------------------- 93.9/93.9 kB 2.7 MB/s eta 0:00:00
Installing collected packages: xyzservices, branca, folium, streamlit-folium
Successfully installed branca-0.8.2 folium-0.20.0 streamlit-folium-0.26.2 xyzservices-2025.11.0
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3.1 -> 26.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip
