#### Primero importamos las librerias necesarias

In [1]:
# Para convertirlo en un df
import pandas as pd
# Para cálculos numericos
import numpy as np
# Para graficar
import matplotlib.pyplot as plt
import seaborn as sns
# Para normalizar los datos
from sklearn.preprocessing import MinMaxScaler

## ***1.- Recopilación de Datos***

he recogido este dataset aqui: https://www.kaggle.com/datasets/uciml/iris

In [4]:
df = pd.read_csv('../../3.- Datasets/iris.csv', index_col=0)

In [None]:
# por si acaso creamos una copia del df
df_copy = df.copy()

## **2.- Exploración y Análisis de Datos**

In [None]:
df.head()

##### Según donde saque este dataset, survived representa con un 1 si sobrevivieron y 0 si no

In [None]:
#vemos algunas metricas como la mediana, minimo, maximo etc..
df.describe()

In [None]:
df.info()

In [None]:
df.shape

#### Vamos a visualizar un poco nuestros datos

In [None]:
sns.countplot(x='Sex', data=df)
plt.show()

In [None]:
sns.countplot(x='Embarked', data=df)
plt.show()

#### Nos conviene estratificar tambien la columna embarked, ya que esta un poco desigual

In [None]:
sns.countplot(x='Ticket', data=df)
plt.show()

In [None]:
sns.countplot(x='Cabin', data=df)
plt.show()

#### Como vemos hay un monton de caracteristicas en el ticket y en cabin, nos convendria eliminarlos para hacer nuesto modelo mas sencillo

In [None]:
# Eliminamos ticket
columna_a_eliminar = 'Ticket'
df = df.drop(columna_a_eliminar, axis=1)

# Eliminamos Cabin
columna_a_eliminar = 'Cabin'
df = df.drop(columna_a_eliminar, axis=1)

# de paso eliminamos la columna name tambien ya que no parece muy relevante
columna_a_eliminar = 'Name'
df = df.drop(columna_a_eliminar, axis=1)

## 3.- División de Datos

#### Hay que dividir los datos en entrenamiento, evaluación y prueba

In [None]:
# importamos train_test_split para dividir los datos
from sklearn.model_selection import train_test_split

train_set, val_set = train_test_split(df, test_size=0.1, random_state=42)

In [None]:
print(f'la longitud de train_set es de: {len(train_set)}')
print(f'la longitud de val_set es de: {len(val_set)}')

#### Ahora separamos las etiquetas (salidas 'y'), de las caracteristicas (entradas 'x')

In [None]:
# separamos el de entrenamiento 
x_train = train_set.drop('Survived', axis=1)
y_train = train_set['Survived'].copy()

In [None]:
# Ahora los de validación
x_val = val_set.drop('Survived', axis=1)
y_val = val_set['Survived'].copy()

## 4.- Preprocesamiento de datos

#### Antes de entrenar al módelo, hay que preparar los datos, como imputar, normalizar o estandarizar y codificar


In [None]:
x_train.head()

##### Los NaN son los valores nulos que hay que eliminar

In [None]:
columns_with_nulls = x_train.columns[x_train.isnull().any()]
print(columns_with_nulls)

#### Estas son las columnas con valores nulos

### 4.1.- Imputar

In [None]:
#para imputar los datos importamos simpleimputer
from sklearn.impute import SimpleImputer

# seleccionamos las columnas numericas
numeric_columns = x_train.select_dtypes(include=['number']).columns

# seleccionamos las categorias
cat_columns = x_train.select_dtypes(include=['object']).columns

# Imputamos valores numéricos con la mediana
numeric_imputer = SimpleImputer(strategy='median')# instanciamos ese imputador numerico
x_train[numeric_columns] = numeric_imputer.fit_transform(x_train[numeric_columns])

# Imputamos las categorias con el valor mas frecuente
imputer_categorical = SimpleImputer(strategy='most_frequent')# instanciamos ese imputador categorico
x_train[cat_columns] = imputer_categorical.fit_transform(x_train[cat_columns]

In [None]:
x_train.head()

#### Los valores nulos se han eliminado, en cambio esta la media y la categoria mas frecuente

In [None]:
columns_with_nulls = x_train.columns[x_train.isnull().any()]
print(columns_with_nulls)

### 4.2.- Normalizar

#### Ahora vamos a normalizar los datos, es decir, vamos a hacer que los valores no tengan mucha diferencia entre si, sino que tengan una escala entre 0 y 1

In [None]:
# lo haremos con minmaxscaler

# Creamos un objeto MinMaxScaler
scaler = MinMaxScaler()

# Seleccionamos solo las columnas numéricas para la normalización
numeric_cols = x_train.select_dtypes(include='number').columns

# Normalizar las columnas numéricas
x_train[numeric_cols] = scaler.fit_transform(x_train[numeric_cols])

# Ahora, el df contiene las columnas numéricas normalizadas
x_train.head()

### 4.3.- Codificar

#### El ultimo paso seria codificarlo, es decir, convertir las categorias (letras), en números

In [None]:
# Seleccionar columnas categóricas
cat_columns1 = x_train.select_dtypes(include=['object']).columns

# Aplicar One-Hot Encoding al conjunto de entrenamiento
x_train = pd.get_dummies(x_train, columns=cat_columns1, dtype=float)

#### ok, x_train ya esta, ahora hay que hacer lo mismo con x_val

In [None]:
x_val.head()

#### Lo se, es un coñaso empezar de nuevo, pues por eso estan los pipelines que lo aprenderemos en otro momento

In [None]:
#para imputar los datos importamos simpleimputer
from sklearn.impute import SimpleImputer

# seleccionamos las columnas numericas
numeric_columns = x_val.select_dtypes(include=['number']).columns

# seleccionamos las categorias
cat_columns = x_val.select_dtypes(include=['object']).columns

# Imputamos valores numéricos con la mediana
numeric_imputer = SimpleImputer(strategy='median')# instanciamos ese imputador numerico
x_val[numeric_columns] = numeric_imputer.fit_transform(x_val[numeric_columns])

# Imputamos las categorias con el valor mas frecuente
imputer_categorical = SimpleImputer(strategy='most_frequent')# instanciamos ese imputador categorico
x_val[cat_columns] = imputer_categorical.fit_transform(x_val[cat_columns])

In [None]:
x_val.head()

In [None]:
# lo haremos con minmaxscaler

# Creamos un objeto MinMaxScaler
scaler = MinMaxScaler()

# Seleccionamos solo las columnas numéricas para la normalización
numeric_cols = x_val.select_dtypes(include='number').columns

# Normalizar las columnas numéricas
x_val[numeric_cols] = scaler.fit_transform(x_val[numeric_cols])

# Ahora, el df contiene las columnas numéricas normalizadas

In [None]:
x_val.head()

In [None]:
# Seleccionar columnas categóricas
cat_columns1 = x_val.select_dtypes(include=['object']).columns

# Aplicar One-Hot Encoding al conjunto de entrenamiento
x_val = pd.get_dummies(x_val, columns=cat_columns1, dtype=float)

In [None]:
x_val.head()

## 5.- Entrenamiento

In [None]:
from sklearn.linear_model import LogisticRegression
model = LogisticRegression(max_iter=5000)
model.fit(x_train, y_train)

##### Ya tenemos el modelo 🎉
##### Ahora solo nos toca predecir nuevos valores y ver quetal se comporta este modelo

In [None]:
y_val_predic = model.predict(x_val)

# Estas son las 5 primeras predicciones de mi modelo para los datos x_val
y_val_predic[0:5]

## 6.- Evaluación

###  Matriz de confusión

##### Aqui se ve que 46 ejemplos han dado 0 (no sobrevivio) asertados y 8 no
##### Y que 29 ha dado 1 (sobrevivio) asertados y 1 ha dado 29 (no sobrevivio)

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Calcular la matriz de confusión
cm = confusion_matrix(y_val, y_val_predic, labels=model.classes_)

# Crear una visualización de la matriz de confusión
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=model.classes_)

# Mostrar la visualización
disp.plot()
plt.show()


#### Metricas derivadas de la matriz de confusión

### Precisión

In [None]:
from sklearn.metrics import precision_score
print('Precisión:', precision_score(y_val, y_val_predic, pos_label=0))

#### aqui vemos que el 0,7% ha acertado los 0 (no sobrevivio)

In [None]:
from sklearn.metrics import precision_score
print('Precisión:', precision_score(y_val, y_val_predic, pos_label=1))

##### Y un 86% ha acertado con el 1 (sobrevivio)

### Recall

In [None]:
from sklearn.metrics import recall_score
print('Recall:', recall_score(y_val, y_val_predic, pos_label=1))

### F1 score

In [None]:
from sklearn.metrics import f1_score
print('f1_score: ', f1_score(y_val, y_val_predic, pos_label=1))

### Curva de ROC y PR

#### Curva de ROC

In [None]:
from sklearn import metrics
fpr, tpr, thresholds = metrics.roc_curve(y_val, y_val_predic)
roc_auc = metrics.auc(fpr, tpr)
display = metrics.RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc, estimator_name='example estimator')
display.plot()
plt.show()