In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score, accuracy_score, roc_curve, roc_auc_score
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier
from sklearn.model_selection import learning_curve
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
import xgboost as xgb
import matplotlib.pyplot as plt
import joblib

In [2]:
import pandas as pd
import numpy as np

# Generar datos sintéticos
np.random.seed(42)  # Para reproducibilidad

num_samples = 5000  # Número de muestras para cada clase

# Generar datos para necesidad de riego igual a 1
humedad_suelo_1 = np.random.uniform(0, 30, num_samples)
temperatura_1 = np.random.uniform(25, 40, num_samples)
humedad_1 = np.random.uniform(0, 10, num_samples)  # Cambiado de precipitacion a humedad
necesidad_riego_1 = np.ones(num_samples)

# Generar datos para necesidad de riego igual a 0
humedad_suelo_0 = np.random.uniform(30, 100, num_samples)
temperatura_0 = np.random.uniform(10, 25, num_samples)
humedad_0 = np.random.uniform(10, 50, num_samples)  # Cambiado de precipitacion a humedad
necesidad_riego_0 = np.zeros(num_samples)

# Concatenar los datos
humedad_suelo = np.concatenate([humedad_suelo_1, humedad_suelo_0])
temperatura = np.concatenate([temperatura_1, temperatura_0])
humedad = np.concatenate([humedad_1, humedad_0])  # Cambiado de precipitacion a humedad
necesidad_riego = np.concatenate([necesidad_riego_1, necesidad_riego_0])

# Crear DataFrame
dataset = pd.DataFrame({
    'Humedad del suelo': humedad_suelo,
    'Temperatura': temperatura,
    'Humedad': humedad,  # Cambiado de precipitacion a humedad
    'Necesidad_Riego': necesidad_riego
})

# Mostrar las primeras filas del dataset
print(dataset.head())


   Humedad del suelo  Temperatura   Humedad  Necesidad_Riego
0          11.236204    30.904533  3.736408              1.0
1          28.521429    32.101535  3.329121              1.0
2          21.959818    37.818211  1.761539              1.0
3          17.959755    30.100066  6.072667              1.0
4           4.680559    38.044745  4.766242              1.0


In [3]:
dataset

Unnamed: 0,Humedad del suelo,Temperatura,Humedad,Necesidad_Riego
0,11.236204,30.904533,3.736408,1.0
1,28.521429,32.101535,3.329121,1.0
2,21.959818,37.818211,1.761539,1.0
3,17.959755,30.100066,6.072667,1.0
4,4.680559,38.044745,4.766242,1.0
...,...,...,...,...
9995,91.392704,14.912305,48.091018,0.0
9996,33.276977,20.904495,39.912968,0.0
9997,51.258893,23.849111,10.778235,0.0
9998,61.032400,19.559285,26.040194,0.0


In [4]:
dataset['Necesidad_Riego'].value_counts()

Necesidad_Riego
1.0    5000
0.0    5000
Name: count, dtype: int64

In [5]:
# Seleccionar características relevantes y la variable objetivo
X = dataset.drop('Necesidad_Riego', axis=1)
y = dataset['Necesidad_Riego']

In [6]:
X

Unnamed: 0,Humedad del suelo,Temperatura,Humedad
0,11.236204,30.904533,3.736408
1,28.521429,32.101535,3.329121
2,21.959818,37.818211,1.761539
3,17.959755,30.100066,6.072667
4,4.680559,38.044745,4.766242
...,...,...,...
9995,91.392704,14.912305,48.091018
9996,33.276977,20.904495,39.912968
9997,51.258893,23.849111,10.778235
9998,61.032400,19.559285,26.040194


In [7]:
y

0       1.0
1       1.0
2       1.0
3       1.0
4       1.0
       ... 
9995    0.0
9996    0.0
9997    0.0
9998    0.0
9999    0.0
Name: Necesidad_Riego, Length: 10000, dtype: float64

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [10]:
new_data = [
    [8.732141, 34.219789, 1.967897],
    [2.677887, 39.839265, 5.604003],
    [7.144075, 39.236507, 7.986547],
    [5.398732, 32.409821, 7.286596],
    [35.824697, 31.477896, 7.891387],
    [43.162348, 24.111322, 19.085674],
    [74.963215, 22.987143, 17.143556],
    [23.189734, 24.325891, 19.987634],
    [52.437651, 21.876321, 18.651234],
    [4.862537, 31.098475, 4.472985]
]

In [11]:
# Entrenamiento
model = LogisticRegression(random_state=42)
model.fit(X_train_scaled, y_train)
puntuacion = model.score(X_train_scaled, y_train)
print(puntuacion)
joblib.dump(model, 'modelo_entrenado.pkl') # Guardo el modelo.
y_pred = model.predict(X_test_scaled)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy}")
mse = mean_squared_error(y_test, y_pred)
print(f'MSE: {mse}')
# Para predecir si se necesita regar usando nuevos datos

predictions = model.predict(new_data)
for i, pred in enumerate(predictions):
    print(f"Predicción para new_data[{i}] (0: No regar, 1: Regar): {pred}")

1.0
Accuracy: 1.0
MSE: 0.0
Predicción para new_data[0] (0: No regar, 1: Regar): 1.0
Predicción para new_data[1] (0: No regar, 1: Regar): 1.0
Predicción para new_data[2] (0: No regar, 1: Regar): 1.0
Predicción para new_data[3] (0: No regar, 1: Regar): 1.0
Predicción para new_data[4] (0: No regar, 1: Regar): 0.0
Predicción para new_data[5] (0: No regar, 1: Regar): 0.0
Predicción para new_data[6] (0: No regar, 1: Regar): 0.0
Predicción para new_data[7] (0: No regar, 1: Regar): 0.0
Predicción para new_data[8] (0: No regar, 1: Regar): 0.0
Predicción para new_data[9] (0: No regar, 1: Regar): 1.0


In [12]:
model = joblib.load('modelo_entrenado.pkl') # Carga del modelo.

In [13]:
model.score(X_train_scaled, y_train)

1.0