# A3 - Regresiones Logísticas

## Instrucciones

1. Para el dataset adjunto realice una regresión logística para predecir (en base a sus características) si un dulce es un CHOCOLATE o no y obtener el porcentaje de exactitud/error de predicción.
2. Llevar a cabo un proceso de validación cruzada para verificar si los resultados obtenidos son independientes de las posibles particiones (entrenamiento/validación) del conjunto de datos.

## Dataset

El archivo CSV adjunto contiene información relacionada con distintos dulces populares para la temporada de Halloween. El dataset involucra variables tanto numéricas como binarias, incluyendo las siguientes:

**BINARIAS (Donde un '1' indica 'SI' y un '0' indica 'NO')**

- chocolate: (¿Contiene chocolate?)
- fruity: (¿Tiene sabor a frutas?)
- caramel: (¿El dulce contiene caramelo?)
- peanutalmondy: (¿Contiene cacahuate, crema de cacahuate o almendras?)
- nougat: (¿Contiene nougat?)
- crispedricewafer: (¿Tiene componentes como arroz inflado, galleta wafle u otro tipo de galleta?)
- hard: (¿Es dulce duro?)
- bar: (¿La presentación del dulce es en barra?)
- pluribus: (¿El dulce viene empacado en una bolsa/paquete junto con otros dulces diferentes?)

**NUMÉRICAS**

- sugarpercent (percentil de azúcar)
- pricepercent: (percentil de precio unitario)
- winpercent: (porcentaje de preferencia de acuerdo con 269,000 comparaciones con otros dulces del dataset).

### Librerias

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression

### Cargar dataset

In [2]:
df = pd.read_csv('data/candy-data.csv')
df

Unnamed: 0,competitorname,chocolate,fruity,caramel,peanutyalmondy,nougat,crispedricewafer,hard,bar,pluribus,sugarpercent,pricepercent,winpercent
0,100 Grand,1,0,1,0,0,1,0,1,0,0.732,0.860,66.971725
1,3 Musketeers,1,0,0,0,1,0,0,1,0,0.604,0.511,67.602936
2,One dime,0,0,0,0,0,0,0,0,0,0.011,0.116,32.261086
3,One quarter,0,0,0,0,0,0,0,0,0,0.011,0.511,46.116505
4,Air Heads,0,1,0,0,0,0,0,0,0,0.906,0.511,52.341465
...,...,...,...,...,...,...,...,...,...,...,...,...,...
80,Twizzlers,0,1,0,0,0,0,0,0,0,0.220,0.116,45.466282
81,Warheads,0,1,0,0,0,0,1,0,0,0.093,0.116,39.011898
82,WelchÕs Fruit Snacks,0,1,0,0,0,0,0,0,1,0.313,0.313,44.375519
83,WertherÕs Original Caramel,0,0,1,0,0,0,1,0,0,0.186,0.267,41.904308


### Dividir datos en conjunto de entrenamiento y prueba

In [3]:
Y_df = df['chocolate']
X_df = df.drop(columns=['chocolate', 'competitorname', 'winpercent'])

In [4]:
x_train, x_test, y_train, y_test = train_test_split(X_df, Y_df, test_size=0.3)

### Realizar regresión logística

In [5]:
lm  = LogisticRegression()
lm.fit(x_train, y_train)
accuracy_train = lm.score(x_train, y_train)
accuracy_test = lm.score(x_test, y_test)

### Realizar validación cruzada

In [6]:
scores = cross_val_score(lm, x_train, y_train, cv=5)
acc = scores
acc_mean = np.mean(acc)
Errors = 1 - scores
Error_mean = np.mean(Errors)

### Validación cruzada con datos de entrenamiento

In [7]:
print('Resultados con datos de entrenamiento:')
print(f'Score del modelo: {scores}')
print(f'Accuracy promedio: {acc_mean}')
print(f'Error promedio: {Error_mean}')

Resultados con datos de entrenamiento:
Score del modelo: [0.66666667 0.75       0.83333333 0.91666667 0.90909091]
Accuracy promedio: 0.8151515151515151
Error promedio: 0.18484848484848487


### Validación cruzada con datos de prueba

In [8]:
scores = cross_val_score(lm, x_test, y_test, cv=5)
acc = scores
acc_mean = np.mean(acc)
Errors = 1 - scores
Error_mean = np.mean(Errors)

In [9]:
print('Resultados con datos de prueba:')
print(f'Score del modelo: {scores}')
print(f'Accuracy promedio: {acc_mean}')
print(f'Error promedio: {Error_mean}')

Resultados con datos de prueba:
Score del modelo: [0.66666667 1.         1.         0.8        1.        ]
Accuracy promedio: 0.8933333333333333
Error promedio: 0.10666666666666666


### Validación cruzada con todos los datos

In [10]:
scores = cross_val_score(lm, X_df, Y_df, cv=5)
acc = scores
acc_mean = np.mean(acc)
Errors = 1 - scores
Error_mean = np.mean(Errors)

In [11]:
print('Resultados con todos los datos:')
print(f'Score del modelo: {scores}')
print(f'Accuracy promedio: {acc_mean}')
print(f'Error promedio: {Error_mean}')

Resultados con todos los datos:
Score del modelo: [0.70588235 0.88235294 0.94117647 0.94117647 0.70588235]
Accuracy promedio: 0.8352941176470589
Error promedio: 0.16470588235294117
