In [12]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV

In [5]:
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data
y = iris.target

In [6]:
# División del conjunto de datos

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [7]:
# Inicialización del modelo

model= RandomForestClassifier()

In [8]:
# Entrenamiento del modelo
model.fit(X_train, y_train)

In [9]:
# Evaluación del modelo

accuracy = model.score(X_test, y_test)
print(f"Accuracy: {accuracy}")

Accuracy: 1.0


In [13]:
# Ajuste de hiperparámetros con búsqueda de cuadrícula

param_grid= {'n_estimators': [100, 200, 300],
    'max_depth': [None, 10, 20]}

grid_search = GridSearchCV(estimator=model, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)


In [14]:
# Mejor configuración de hiperparámetros

best_params = grid_search.best_params_
print(f"Mejor configuración de hiperparámetros: {best_params}")

Mejor configuración de hiperparámetros: {'max_depth': 10, 'n_estimators': 300}


###Ejercicio 1:


In [15]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

In [16]:
# Carga del conjunto de datos
data = load_iris()
A = data.data
b = data.target

In [17]:
# División del conjunto de datos en entrenamiento y prueba

A_train, A_test, b_train, b_test = train_test_split(A, b, test_size=0.2, random_state=42)

In [18]:
# Inicialización y entrenamiento del modelo de Ábrol de decisión

model = DecisionTreeClassifier()
model.fit(A_train, b_train)

In [19]:
# Predicción en el conjunto de prueba

b_pred = model.predict(A_test)

In [20]:
# Evaluación del rendimiento del modelo

accuracy = accuracy_score(b_test, b_pred)
print(f"Accuracy: {accuracy}")

Accuracy: 1.0


## Ejercicio 2

a) Cargar un conjunto de datos en Python

In [39]:
import pandas as pd
import numpy as np

In [None]:
# Cargar el conjunto de datos desde un archivo CSV

In [22]:
data = pd.read_csv('/content/drive/MyDrive/Colab Notebooks/Datasets/IceCreamData.csv')

b) Exploración del conjunto de datos:

In [23]:
# Visualizar las primeras filas del conjunto de datos

print(data.head())

   Temperature     Revenue
0    24.566884  534.799028
1    26.005191  625.190122
2    27.790554  660.632289
3    20.595335  487.706960
4    11.503498  316.240194


In [24]:
# Verificar la presencia de valores faltantes

print(data.isnull().sum())

Temperature    0
Revenue        0
dtype: int64


In [25]:
# Explorar las estadisticas descriptivas del conjunto de datos

print(data.describe())

       Temperature      Revenue
count   500.000000   500.000000
mean     22.232225   521.570777
std       8.096388   175.404751
min       0.000000    10.000000
25%      17.122258   405.558681
50%      22.392791   529.368565
75%      27.740674   642.257922
max      45.000000  1000.000000


c) Aplicar tècnicas de preproceesamiento de datos

In [26]:
# Manejo de valores faltantes

data.dropna(inplace=True)

In [27]:
# Codificación de variables categòricas

data_encoded = pd.get_dummies(data, columns=['Temperature'])

In [36]:
#Escalado de características

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()


data_scaler = scaler.fit_transform(data_encoded[["Revenue"]])

d) Verificar la calidad de los datos preprocesados

In [41]:
# Visualizar las primeras filas del conjunto de datos preprocesado

print(data_scaler[:5])

[[0.53010003]
 [0.62140416]
 [0.65720433]
 [0.48253228]
 [0.30933353]]


In [43]:
# Verificar la presencia de valores faltantes despues del preprocesamiento

import pandas as pd # import the pandas module
df_data_scaler = pd.DataFrame(data_scaler) # convert the NumPy array to a Pandas DataFrame

print(df_data_scaler.isnull().sum()) # Now you can call isnull()

0    0
dtype: int64


## Ejercicio 3

In [44]:
from sklearn.model_selection import train_test_split

a) Dividir el conjunto de datos

In [45]:
T = data_encoded.drop("Revenue", axis=1)
R = data_encoded["Revenue"]

In [47]:
T_train, T_test, R_train, R_test = train_test_split(T, R, test_size=0.2, random_state=42)

b) Elegir un modelo de clasificación y entrenarlo

In [52]:
from sklearn.svm import SVR # Use SVR for regression tasks

model = SVR()
model.fit(T_train, R_train)

C) Evaluar el modelo

In [55]:
from sklearn.metrics import mean_squared_error, r2_score

In [56]:
mse = mean_squared_error(R_test, R_pred)
r2 = r2_score(R_test, R_pred)

print(f"Mean Squared Error: {mse}")
print(f"R-squared: {r2}")

Mean Squared Error: 28631.994366250852
R-squared: -0.0024935905991807505


d) Ajustar los hiperparametros del modelo

In [60]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVR # Make sure to import the SVR class

param_grid = {'C': [0.1, 1, 10], 'kernel': ['linear', 'rbf', "poly"]}

grid_search = GridSearchCV(estimator=SVR(), param_grid=param_grid, cv=5) # Create an instance of SVR()
grid_search.fit(T_train, R_train)

best_params = grid_search.best_params_
print(f"Mejor configuración de hiperparámetros: {best_params}")

Mejor configuración de hiperparámetros: {'C': 10, 'kernel': 'poly'}
