In [2]:
import Orange

In [3]:
# Cargar los datos en Orange

data = Orange.data.Table("agriculture_data.csv")

Realizar una exploración inicial de los datos

In [4]:
print(f"Number of instances: {len(data)}")

Number of instances: 6000


In [5]:
print(f"Number of attributes: {len(data.domain.attributes)}")

Number of attributes: 5


In [6]:
print(f"Attribute names: {data.domain.attributes}")

Attribute names: (DiscreteVariable(name='tipo_cultivo', values=('Tomates',)), ContinuousVariable(name='tamano_finca', number_of_decimals=0), ContinuousVariable(name='rendimiento_cultivo', number_of_decimals=0), DiscreteVariable(name='uso_fertilizantes', values=('No', 'Sí')), ContinuousVariable(name='precio_venta (€/kg)', number_of_decimals=0))


In [7]:
print(f"Class name: {data.domain.class_var}")

Class name: None


Dividir los datos en conjuntos de entrenamiento y prueba

In [19]:
import pandas as pd
from sklearn.model_selection import train_test_split

# Cargar los datos en un DataFrame de pandas
data = pd.read_csv("agriculture_data.csv")

# Dividir los datos en conjuntos de entrenamiento y prueba
train_data, test_data = train_test_split(data, test_size=0.2)

Construir el modelo de árbol de decisión CART utilizando los datos de entrenamiento

In [24]:
data = Orange.data.Table("agriculture_data.csv")

cart = Orange.classification.CARTLearner()
model = cart(train_data)

AttributeError: module 'Orange.classification' has no attribute 'CARTLearner'

Evaluar el rendimiento del modelo utilizando los datos de prueba

In [25]:
predictions = model(test_data)

accuracy = Orange.evaluation.Accuracy(predictions, test_data)

print(f"Accuracy: {accuracy}")

NameError: name 'model' is not defined

Comparar con otros algoritmos de árbol de decisión

In [28]:
hunt = Orange.classification.HuntLearner()

model = hunt(train_data)

predictions = model(test_data)

accuracy = Orange.evaluation.Accuracy(predictions, test_data)

id3 = Orange.classification.ID3Learner()
model = id3(train_data)
predictions = model(test_data)
accuracy = Orange.evaluation.Accuracy(predictions, test_data)
print(f"Accuracy with ID3: {accuracy}")

c45 = Orange.classification.C45Learner()
model = c45(train_data)
predictions = model(test_data)
accuracy = Orange.evaluation.Accuracy(predictions, test_data)
print(f"Accuracy with C4.5: {accuracy}")

sliq = Orange.classification.SLIQLearner()
model = sliq(train_data)
predictions = model(test_data)
accuracy = Orange.evaluation.Accuracy(predictions, test_data)
print(f"Accuracy with SLIQ: {accuracy}")

sprint = Orange.classification.SprintLearner()
model = sprint(train_data)
predictions = model(test_data)
accuracy = Orange.evaluation.Accuracy(predictions, test_data)
print(f"Accuracy with SPRINT: {accuracy}")

AttributeError: module 'Orange.classification' has no attribute 'HuntLearner'

Seleccionar el modelo con el mejor rendimiento y utilizarlo para realizar predicciones

In [27]:
best_model = cart

AttributeError: module 'Orange.evaluation' has no attribute 'Importance'

Realizar predicciones sobre el rendimiento del cultivo en una finca específica

In [None]:
tomato_farm = [("cultivo", "tomate"), ("ubicación", "Almería"), ("tamaño", "pequeña"), ("fertilizantes", "si")]
prediction = best_model(tomato_farm)
print(f"Predicted yield for tomato farm: {prediction}")

Identificar los principales factores que influyen en el rendimiento del cultivo

In [None]:
importances = Orange.evaluation.Importance(best_model, test_data)
print(f"Importances of attributes: {importances}")

Proporcionar recomendaciones para mejorar el rendimiento en el sector de la agricultura

In [None]:
if importances[0][1] > 0.5:
    print("Consider using a different type of cultivar to improve yield.")
if importances[1][1] > 0.5:
    print("Consider changing the location of the farm to improve yield.")
if importances[2][1] > 0.5:
    print("Consider expanding the size of the farm to improve yield.")
if importances[3][1] > 0.5:
    print("Consider using high-quality fertilizers in appropriate doses to improve yield.")

Utilizar técnicas de validación cruzada para evaluar el rendimiento del modelo y minimizar el sesgo

In [None]:
scores = Orange.evaluation.CrossValidation(data, [cart], k=5)
print(f"Cross-validation scores: {scores}")
mean_score = sum(scores) / len(scores)
print(f"Mean cross-validation score: {mean_score}")

Utilizar técnicas de selección de características para seleccionar las variables más importantes y mejorar la capacidad del modelo de hacer predicciones precisas

In [None]:
selector = Orange.feature.selection.BestFeaturesLearner(k=3)
selected_data = selector(data)
model = cart(selected_data)
print(f"Selected attributes: {selected_data.domain.attributes}")

Utilizar técnicas de ensamble, como el bosque aleatorio, para mejorar aún más el rendimiento del modelo

In [None]:
forest = Orange.ensemble.RandomForestLearner()
model = forest(data)
predictions = model(test_data)
accuracy = Orange.evaluation.Accuracy(predictions, test_data)
print(f"Accuracy with random forest: {accuracy}")

Presentar los resultados del análisis en un informe, incluyendo gráficos y tablas que ilustren los hallazgos más importantes y las recomendaciones realizadas

In [None]:
Orange.evaluation.graph_ranks(importances, include_order=True, order_by=lambda x: x[1])
Orange.visualization.boxplot(data, "yield", ["cultivo", "ubicación"])
Orange.visualization.scatterplot(data, "tamaño", "yield", color="ubicación")

Utilizar el modelo para identificar los principales factores que influyen en el rendimiento del cultivo y proporcionar recomendaciones para mejorar el rendimiento en el sector de la agricultura

In [None]:
importances = model.feature_importance
print(f"Importances: {importances}")

Identificar las variables con mayor importancia

In [None]:
most_important_vars = [data.domain.attributes[i] for i in range(len(importances)) if importances[i] == max(importances)]
print(f"Most important variables: {most_important_vars}")

Proporcionar recomendaciones basadas en los resultados del modelo y la importancia de cada variable

In [None]:
if "cultivo" in most_important_vars:
    print("Se recomienda seleccionar variedades de tomates que hayan demostrado altos rendimientos en el pasado.")
if "ubicación" in most_important_vars:
    print("Se recomienda elegir una ubicación con condiciones climáticas favorables para el cultivo de tomates.")
if "tamaño de la finca" in most_important_vars:
    print("Se recomienda utilizar un tamaño de finca adecuado para maximizar el rendimiento del cultivo.")
if "fertilizantes" in most_important_vars:
    print("Se recomienda utilizar fertilizantes de alta calidad y aplicarlos en dosis adecuadas para mejorar el rendimiento del cultivo.")