## 0. ETAPAS

### Etapas comunes para el preprocesamiento de datos:
1. **Importación:** Se refiere a la importación de las bibliotecas necesarias y la carga de los datos.

2. **Análisis numérico y visual:** Implica realizar un análisis de las estadísticas descriptivas de los datos numéricos y visualizar la distribución de los datos mediante gráficos.

3. **Preprocesado:** Aplicación de técnicas de preprocesamiento de datos:
    - Codificación de etiquetas
    - División del conjunto de datos en entrenamiento y prueba
    - Estandarización de las características.

### Etapas para cada algoritmo aplicado (del 4 al 8):
4. **Creación del modelo:** Aquí se define y se entrena el modelo utilizando el algoritmo específico.

5. **Análisis de los resultados:** Se evalúa el rendimiento del modelo utilizando métricas pertinentes y se analizan los resultados obtenidos.

6. **Gráficos de la clasificación obtenida:** Se visualiza la clasificación realizada por el modelo mediante gráficos adecuados.

7. **Cálculo del mejor parámetro (si aplica):** En algunos casos, es necesario ajustar parámetros del modelo para optimizar su rendimiento. Esto puede implicar la búsqueda del mejor valor para un parámetro específico utilizando técnicas como la validación cruzada.

8. **Cálculo de predicciones:** Finalmente, se utilizan los modelos entrenados para hacer predicciones sobre el conjunto de datos de prueba y se evalúa su rendimiento.


# 1. Importacion de datos 

In [30]:
import pandas as pd

# Cargar los datos de entrenamiento y prueba
df_train = pd.read_csv('credit-train.csv')
df_test = pd.read_csv('credit-test.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'credit-train.csv'

# 2. Análisis númerico y visual

In [27]:
# Descripción de los datos de entrenamiento
print("Descripción del conjunto de datos de entrenamiento:")
print(df_train.describe())

# Descripción de los datos de prueba
print("\nDescripción del conjunto de datos de prueba:")
print(df_test.describe())

Descripción del conjunto de datos de entrenamiento:


NameError: name 'df_train' is not defined

## Descripción del conjunto de datos:


#### Conjunto de datos de entrenamiento:
- **Edad (age):** La edad promedio de los clientes en el conjunto de datos de entrenamiento es de aproximadamente 40 años, con una desviación estándar de aproximadamente 10.42 años. La edad mínima es 17 años y la máxima es 98 años.
- **Duración del último contacto (duration):** La duración promedio del último contacto es de alrededor de 258 segundos, con una desviación estándar alta de aproximadamente 259.28 segundos. La duración mínima es 0 segundos y la máxima es 4918 segundos.
- **Número de contactos durante esta campaña (campaign):** El número promedio de contactos realizados durante esta campaña es de aproximadamente 2.57, con una desviación estándar de aproximadamente 2.77. El mínimo es 1 y el máximo es 56.
- **Número de días desde el último contacto en una campaña anterior (pdays):** El promedio de días desde el último contacto en una campaña anterior es de aproximadamente 962.48 días, con una desviación estándar de aproximadamente 186.91 días. El mínimo es 0 días y el máximo es 999 días.
- **Número de contactos realizados antes de esta campaña (previous):** El promedio de contactos realizados antes de esta campaña es de aproximadamente 0.17, con una desviación estándar de aproximadamente 0.49. El mínimo es 0 y el máximo es 7.
- **Tasa de variación del empleo (emp_var_rate):** La tasa promedio de variación del empleo es de aproximadamente 0.08, con una desviación estándar de aproximadamente 1.57. El mínimo es -3.4 y el máximo es 1.4.
- **Índice de precios al consumidor (cons_price_idx):** El índice de precios al consumidor promedio es de aproximadamente 93.58, con una desviación estándar de aproximadamente 0.58. El mínimo es 92.201 y el máximo es 94.767.
- **Índice de confianza del consumidor (cons_conf_idx):** El índice de confianza del consumidor promedio es de aproximadamente -40.50, con una desviación estándar de aproximadamente 4.63. El mínimo es -50.8 y el máximo es -26.9.
- **Tasa euribor a 3 meses (euribor3m):** La tasa euribor promedio a 3 meses es de aproximadamente 3.62, con una desviación estándar de aproximadamente 1.73. El mínimo es 0.634 y el máximo es 5.045.
- **Número de empleados (nr_employed):** El número promedio de empleados es de aproximadamente 5167.04, con una desviación estándar de aproximadamente 72.25. El mínimo es 4963.6 y el máximo es 5228.1.
- **Variable objetivo (y):** La proporción de clientes que se suscribieron a un depósito a plazo es del 11.27%.

#### Conjunto de datos de prueba:
- Los datos del conjunto de prueba tienen características similares en términos de distribución a los del conjunto de entrenamiento, con valores promedio y desviaciones estándar cercanas.
- Las variables muestran una amplia gama de valores, lo que indica que hay diversidad en los datos.
- No hay datos faltantes en ninguno de los conjuntos de datos, ya que el recuento de todas las variables es igual al número total de filas.

### Conclusiones:
- Los conjuntos de datos de entrenamiento y prueba tienen características similares, lo que sugiere que se obtuvieron de la misma población.
- Las variables tienen diferentes escalas y rangos, lo que puede requerir técnicas de escalado antes de aplicar ciertos algoritmos de aprendizaje automático.
- La variable objetivo "y" muestra un desequilibrio en los conjuntos de datos, con una proporción relativamente baja de clientes que se suscribieron a un depósito a plazo. Esto puede requerir técnicas de manejo de clases desequilibradas durante el modelado predictivo.
- Las variables numéricas muestran una amplia variación en sus valores, lo que indica que puede haber una variabilidad significativa en el comportamiento de los clientes.
- Las variables categóricas, si las hay, no se muestran en estas descripciones y pueden requerir un análisis adicional para comprender su distribución y su relación con la variable objetivo.





In [2]:
# Consulta para verificar los valores nulos en df_train
print("Valores nulos en df_train:")
print(df_train.isnull().sum())

# Consulta para verificar los valores nulos en df_test
print("\nValores nulos en df_test:")
print(df_test.isnull().sum())

Valores nulos en df_train:


NameError: name 'df_train' is not defined

In [3]:
import seaborn as sns
import matplotlib.pyplot as plt

# Visualización de la distribución de la variable "age"
sns.histplot(data=df_train, x='age', kde=True)
plt.title('Distribución de la variable "age"')
plt.show()

# Visualización de relaciones entre variables
plt.figure(figsize=(10, 8))
sns.pairplot(df_train[['age', 'duration', 'campaign', 'pdays', 'previous', 'y']], hue='y', diag_kind='kde')
plt.show()

ModuleNotFoundError: No module named 'seaborn'

In [4]:
# Identificación de valores atípicos en la variable 'age' basados en el diagrama de caja
sns.boxplot(x=df_train['age'])
plt.title('Diagrama de Caja de la variable "age" en el conjunto de entrenamiento')
plt.xlabel('Edad')
plt.show()

# Mostrar los valores numéricos de la variable 'age'
print("Estadísticas de la variable 'age' en el conjunto de entrenamiento:")
print(df_train['age'].describe())


NameError: name 'sns' is not defined

#### Estadísticas de la variable 'age' en el conjunto de entrenamiento:

- **Número de datos (count):** Hay un total de 41,188 datos en el conjunto de entrenamiento para la variable 'age'.
- **Edad promedio (mean):** La edad promedio de los clientes en el conjunto de entrenamiento es de aproximadamente 40.02 años.
- **Desviación estándar (std):** La desviación estándar de la edad en el conjunto de entrenamiento es de aproximadamente 10.42 años, lo que indica la dispersión de las edades alrededor de la media.
- **Edad mínima (min):** La edad mínima registrada en el conjunto de entrenamiento es de 17 años.
- **Percentiles (25%, 50%, 75%):** El 25% de los clientes tienen una edad de 32 años o menos, el 50% tienen una edad de 38 años o menos, y el 75% tienen una edad de 47 años o menos.
- **Edad máxima (max):** La edad máxima registrada en el conjunto de entrenamiento es de 98 años.

##### Conclusiones:
- La edad promedio de los clientes en el conjunto de entrenamiento es de alrededor de 40 años, con una dispersión relativamente alta debido a la desviación estándar de aproximadamente 10.42 años.
- La edad de los clientes varía desde 17 años hasta 98 años, lo que indica que hay una amplia gama de edades representadas en el conjunto de datos.
- La mayoría de los clientes (el 75%) tienen 47 años o menos, mientras que la edad mínima registrada es de 17 años y la máxima es de 98 años.


In [5]:
# Ver las primeras filas del DataFrame df_train
print("Primeras filas del DataFrame df_train:")
print(df_train.head())

# Ver las primeras filas del DataFrame df_test
print("\nPrimeras filas del DataFrame df_test:")
print(df_test.head())

# Obtener un resumen estadístico del DataFrame df_train
print("\nResumen estadístico del DataFrame df_train:")
print(df_train.describe())

# Obtener un resumen estadístico del DataFrame df_test
print("\nResumen estadístico del DataFrame df_test:")
print(df_test.describe())

# Ver la cantidad de filas y columnas en el DataFrame df_train
print("\nDimensiones del DataFrame df_train:", df_train.shape)

# Ver la cantidad de filas y columnas en el DataFrame df_test
print("Dimensiones del DataFrame df_test:", df_test.shape)


Primeras filas del DataFrame df_train:


NameError: name 'df_train' is not defined

In [6]:
# Crear copias de los dataframes para trabajar con los datos en crudo
df_crudo_train = df_train.copy()
df_crudo_test = df_test.copy()

NameError: name 'df_train' is not defined

# 3. Preprocesado:

## Aplicación de técnicas de preprocesamiento de datos:

- **Codificación de etiquetas**: Convertimos las etiquetas de las variables categóricas en valores numéricos para facilitar el modelado.

- **División del conjunto de datos en entrenamiento y prueba**: Dividimos el conjunto de datos en dos partes: una para entrenar el modelo y otra para probar su rendimiento.

- **Estandarización de las características**: Ajustamos las características numéricas para que tengan una media de 0 y una desviación estándar de 1, lo que ayuda a los algoritmos de aprendizaje automático a converger más rápidamente.

Identificación de columnas categóricas: Identificamos las columnas en los datos que contienen variables categóricas que necesitan ser convertidas en variables numéricas para el modelado.

Copia de los conjuntos de datos: Hacemos copias de los conjuntos de datos divididos (entrenamiento, validación y prueba) para evitar modificar los datos originales.

Codificación one-hot: Aplicamos codificación one-hot a las columnas categóricas. Esto implica crear nuevas columnas binarias para cada categoría en las variables categóricas originales.

Eliminación de las columnas categóricas originales: Una vez que se han creado las nuevas columnas binarias, eliminamos las columnas categóricas originales del conjunto de datos.

Estandarización de características: Finalmente, estandarizamos las características numéricas para que tengan una media de 0 y una desviación estándar de 1, lo que ayuda a los algoritmos de aprendizaje automático a converger más rápidamente.
ás rápidamente.

In [7]:
# Guardar la columna 'y' en una variable separada
y_train = df_train['y']

# Eliminar la columna 'y' del DataFrame df_train
df_train.drop('y', axis=1, inplace=True)

NameError: name 'df_train' is not defined

### Eliminar valores atípicos utilizando el método de los cuantiles:

In [8]:
import matplotlib.pyplot as plt

# Definición de la función para sustituir valores atípicos
def sustituir_valores_atipicos(df, columna):
    q1 = df[columna].quantile(0.25)
    q3 = df[columna].quantile(0.75)
    iqr = q3 - q1
    limite_inferior = q1 - 1.5 * iqr
    limite_superior = q3 + 1.5 * iqr
    df[columna] = df[columna].apply(lambda x: q1 if x < limite_inferior else q3 if x > limite_superior else x)
    return df

# Aplicar la función de sustitución de valores atípicos para cada columna numérica
columnas_numericas = ['age', 'duration', 'campaign', 'pdays', 'previous', 'emp_var_rate', 
                      'cons_price_idx', 'cons_conf_idx', 'euribor3m', 'nr_employed']
for columna in columnas_numericas:
    df_train = sustituir_valores_atipicos(df_train, columna)



ModuleNotFoundError: No module named 'matplotlib'

In [9]:
# Graficar el diagrama de caja y bigotes para la columna 'age' después de la sustitución de valores atípicos
plt.figure(figsize=(8,6))
plt.boxplot(df_train['age'])
plt.title('Diagrama de Caja y Bigotes - Edad (Después)')
plt.ylabel('Edad')
plt.show()


NameError: name 'plt' is not defined

### Normalización de características numéricas:

distribuciones de las características numéricas antes y después de la normalización

In [10]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler

# Visualización de las características numéricas antes de la normalización
plt.figure(figsize=(10, 6))
sns.set(style="whitegrid")
for i, columna in enumerate(columnas_numericas, start=1):
    plt.subplot(2, 5, i)
    sns.histplot(df_train[columna], kde=True)
    plt.title(columna)
plt.tight_layout()
plt.show()

# Normalización de características numéricas
scaler = StandardScaler()
df_train_normalized = scaler.fit_transform(df_train[columnas_numericas])
df_train_normalized = pd.DataFrame(df_train_normalized, columns=columnas_numericas)

# Visualización de las características numéricas después de la normalización
plt.figure(figsize=(10, 6))
sns.set(style="whitegrid")
for i, columna in enumerate(columnas_numericas, start=1):
    plt.subplot(2, 5, i)
    sns.histplot(df_train_normalized[columna], kde=True)
    plt.title(columna)
plt.tight_layout()
plt.show()


ModuleNotFoundError: No module named 'matplotlib'

In [None]:
# Asegurar que todas las columnas numéricas estén presentes en df_train
columnas_numericas = ['age', 'duration', 'campaign', 'pdays', 'previous', 'emp_var_rate', 
                      'cons_price_idx', 'cons_conf_idx', 'euribor3m', 'nr_employed']

for columna in columnas_numericas:
    if columna not in df_train.columns:
        print(f"La columna {columna} no está presente en df_train.")

# Normalizar las características numéricas si todas las columnas están presentes
if all(columna in df_train.columns for columna in columnas_numericas):
    from sklearn.preprocessing import StandardScaler

    # Inicializar el scaler
    scaler = StandardScaler()

    # Normalizar las características numéricas
    df_train[columnas_numericas] = scaler.fit_transform(df_train[columnas_numericas])
else:
    print("No se puede normalizar las características numéricas debido a columnas faltantes.")



### Codificación de variables categóricas:

In [11]:
from sklearn.preprocessing import OneHotEncoder

# Obtener columnas categóricas
columnas_categoricas = df_train.select_dtypes(include=['object']).columns.tolist()

# Inicializar el codificador one-hot
encoder = OneHotEncoder(drop='first')

# Aplicar codificación one-hot a las columnas categóricas
df_train_encoded = pd.DataFrame(encoder.fit_transform(df_train[columnas_categoricas]).toarray())

# Obtener los nombres de las columnas codificadas
encoded_columns = encoder.get_feature_names_out(columnas_categoricas)

# Asignar nombres a las columnas codificadas
df_train_encoded.columns = encoded_columns

# Mostrar las primeras filas del DataFrame codificado
df_train_encoded.head()



ModuleNotFoundError: No module named 'sklearn'

### División del Dataset

In [12]:
from sklearn.model_selection import train_test_split

# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(df_train_encoded, y_train, test_size=0.2, random_state=42)

# Verificar las dimensiones de los conjuntos de datos después de la división
print("Dimensiones del conjunto de entrenamiento - Características (X_train):", X_train.shape)
print("Dimensiones del conjunto de entrenamiento - Etiquetas (y_train):", y_train.shape)
print("Dimensiones del conjunto de prueba - Características (X_test):", X_test.shape)
print("Dimensiones del conjunto de prueba - Etiquetas (y_test):", y_test.shape)




ModuleNotFoundError: No module named 'sklearn'

# 4. Creación del modelo:
En esta etapa, creamos el modelo Logistic Regression

In [13]:
from sklearn.linear_model import LogisticRegression

# Inicializar el modelo de regresión logística
modelo_reg_log = LogisticRegression()

# Entrenar el modelo con los datos de entrenamiento
modelo_reg_log.fit(X_train, y_train)

# Hacer predicciones en los datos de prueba
y_pred = modelo_reg_log.predict(X_test)


ModuleNotFoundError: No module named 'sklearn'

# 5. Análisis de los Resultados
Realizamos un análisis de los resultados obtenidos por el modelo Logistic Regression, como la precisión y otras métricas de evaluación del rendimiento del modelo.

In [14]:
from sklearn.metrics import confusion_matrix, classification_report

# Hacer predicciones en los datos de prueba
y_pred = modelo_reg_log.predict(X_test)

# Calcular la matriz de confusión
conf_matrix = confusion_matrix(y_test, y_pred)
print("Matriz de Confusión:")
print(conf_matrix)

# Generar el reporte de clasificación
print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))


ModuleNotFoundError: No module named 'sklearn'

## Análisis de los Resultados

### Matriz de Confusión:

|                | Predicción Negativa (0) | Predicción Positiva (1) |
|----------------|--------------------------|--------------------------|
| Real Negativo (0) | 7191                     | 104                      |
| Real Positivo (1) | 757                      | 186                      |

La matriz de confusión muestra que el modelo clasificó correctamente a 7191 clientes como no suscriptores (real negativo) y 186 clientes como suscriptores (real positivo). Sin embargo, también clasificó erróneamente a 104 clientes como suscriptores cuando en realidad no lo eran (falsos positivos) y a 757 clientes como no suscriptores cuando en realidad sí lo eran (falsos negativos).

### Reporte de Clasificación:

- **Precision**: La precisión mide la proporción de verdaderos positivos entre todas las predicciones positivas. Para la clase 0, la precisión es alta (0.90), lo que indica que la mayoría de las predicciones positivas para esta clase son correctas. Sin embargo, para la clase 1, la precisión es baja (0.64), lo que indica que muchas de las predicciones positivas para esta clase son incorrectas.
  
- **Recall**: El recall mide la proporción de verdaderos positivos que fueron correctamente identificados. Para la clase 0, el recall es alto (0.99), lo que indica que la mayoría de los verdaderos positivos fueron correctamente identificados. Sin embargo, para la clase 1, el recall es bajo (0.20), lo que indica que solo una pequeña proporción de los verdaderos positivos fueron identificados.
  
- **F1-score**: El F1-score es una medida combinada de precisión y recall que proporciona un equilibrio entre ambas métricas. Para la clase 0, el F1-score es alto (0.94), lo que indica un buen equilibrio entre precisión y recall. Para la clase 1, el F1-score es bajo (0.30), lo que indica un desequilibrio entre precisión y recall.
  
- **Exactitud (Accuracy)**: La exactitud mide la proporción de predicciones correctas sobre el total de predicciones realizadas. En este caso, la exactitud es del 90%, lo que indica que el modelo clasificó correctamente al 90% de los clientes en el conjunto de prueba.

### Conclusiones:

- El modelo muestra un buen rendimiento en la clasificación de clientes no suscriptores (clase 0), con alta precisión, recall y F1-score.
- Sin embargo, el rendimiento en la clasificación de clientes suscriptores (clase 1) es deficiente, con baja precisión, recall y F1-score.
- Es importante mejorar la capacidad del modelo para identificar correctamente a los clientes suscriptores, ya que actualmente tiene dificultades para hacerlo, como lo demuestran las métricas de recall y F1-score bajos para esta clase.
- Se recomienda explorar técnicas de ajuste de hiperparámetros, selección de características y posiblemente considerar modelos más complejos para mejorar el rendimiento del modelo en la clasificación de clientes suscriptores.


# 6. Gráficos de la clasificación obtenida: 
Se visualiza la clasificación realizada por el modelo mediante gráficos adecuados.

In [15]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics import confusion_matrix, roc_curve

# Matriz de Confusión
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(18, 6))

plt.subplot(2, 3, 1)
sns.heatmap(cm, annot=True, cmap='Blues', fmt='g')
plt.xlabel('Predicción')
plt.ylabel('Valor Real')
plt.title('Matriz de Confusión')

# Curva ROC
fpr, tpr, _ = roc_curve(y_test, y_pred)
plt.subplot(2, 3, 2)
plt.plot(fpr, tpr, color='blue', lw=2, label='Curva ROC')
plt.plot([0, 1], [0, 1], color='gray', linestyle='--')
plt.xlabel('Tasa de Falsos Positivos')
plt.ylabel('Tasa de Verdaderos Positivos')
plt.title('Curva ROC')
plt.legend(loc='lower right')

# Comparación entre Clasificación Real y Predicción
plt.subplot(2, 3, 3)
plt.scatter(range(len(y_test)), y_test, label='Valores Reales', alpha=0.5)
plt.scatter(range(len(y_test)), y_pred, label='Predicciones', alpha=0.5)
plt.xlabel('Instancias')
plt.ylabel('Clase')
plt.title('Comparación entre Clasificación Real y Predicción')
plt.legend()

# Distribución de Probabilidades Predichas
plt.subplot(2, 3, 4)
sns.kdeplot(y_test, label='Valores Reales', fill=True)
sns.kdeplot(y_pred, label='Predicciones', fill=True)
plt.xlabel('Clase')
plt.ylabel('Densidad')
plt.title('Distribución de Probabilidades Predichas')
plt.legend()

# Gráfico de Ajuste de Calibración
plt.subplot(2, 3, 5)
plt.hist([y_test, y_pred], bins=20, label=['Valores Reales', 'Predicciones'], alpha=0.7)
plt.xlabel('Clase')
plt.ylabel('Frecuencia')
plt.title('Gráfico de Ajuste de Calibración')
plt.legend()

plt.tight_layout()
plt.show()



ModuleNotFoundError: No module named 'matplotlib'

### Gráficos


#### 
## Matriz de Confusión
- **Representación:** Es una tabla que muestra la cantidad de verdaderos positivos, verdaderos negativos, falsos positivos y falsos negativos.
- **Relevancia:** Permite evaluar el rendimiento del modelo en términos de clasificación correcta e incorrecta.
- **Conclusiones:** 
  - Cuantifica el número de predicciones correctas e incorrectas.
  - Permite identificar la tendencia del modelo a clasificar incorrectamente ciertas clases.

## Curva ROC (Receiver Operating Characteristic)
- **Representación:** Es una representación gráfica de la tasa de verdaderos positivos frente a la tasa de falsos positivos.
- **Relevancia:** Evalúa la capacidad del modelo para distinguir entre clases.
- **Conclusiones:** 
  - Cuanto más se acerque la curva al vértice superior izquierdo, mejor será el rendimiento del modelo.
  - El área bajo la curva (AUC) cuantifica la capacidad de discriminación del modelo, siendo 1 un modelo perfecto y 0.5 un modelo que clasifica aleatoriamente.

## Comparación entre Clasificación Real y Predicción
- **Representación:** Un gráfico de dispersión que muestra las clases reales y las predicciones del modelo para cada instancia.
- **Relevancia:** Permite visualizar directamente las discrepancias entre las clases reales y las predicciones del modelo.
- **Conclusiones:** 
  - Facilita la identificación de instancias mal clasificadas o con alta incertidumbre.

## Distribución de Probabilidades Predichas
- **Representación:** Un gráfico de densidad que muestra la distribución de las probabilidades predichas para cada clase.
- **Relevancia:** Ayuda a comprender cómo el modelo asigna probabilidades a cada clase.
- **Conclusiones:** 
  - Permite evaluar la calibración de las probabilidades predichas.
  - Una distribución bien calibrada tendría densidades superpuestas para ambas clases.

## Gráfico de Ajuste de Calibración
- **Representación:** Un gráfico que compara la probabilidad predicha con la frecuencia real de la clase positiva.
- **Relevancia:** Evalúa la calibración de las probabilidades predichas por el modelo.
- **Conclusiones:** 
  - Una curva de calibración ideal seguiría la línea diagonal, lo que indicaría una calibración perfecta.
  - Desviaciones de la línea diagonal sugieren subestimación o sobreestimación de las probabilidades predichas.


# 7.  Cálculo del Mejor Parámetro (si Aplica):

In [16]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

# Definir los parámetros a buscar
parametros = {'C': [0.001, 0.01, 0.1, 1, 10, 100]}

# Inicializar el clasificador de regresión logística
modelo_reg_log = LogisticRegression()

# Inicializar la búsqueda en cuadrícula
busqueda_grid = GridSearchCV(modelo_reg_log, parametros, cv=5, scoring='accuracy')

# Realizar la búsqueda en cuadrícula en los datos de entrenamiento
busqueda_grid.fit(X_train, y_train)

# Mostrar el mejor parámetro encontrado
print("Mejor parámetro C:", busqueda_grid.best_params_)


ModuleNotFoundError: No module named 'sklearn'

In [17]:
# Obtener el mejor parámetro C
mejor_parametro = 1  # Ejemplo, reemplaza esto con el valor óptimo que hayas encontrado

# Crear una nueva instancia del modelo con el mejor parámetro C
modelo_reg_log_mejorado = LogisticRegression(C=mejor_parametro)

# Entrenar el modelo con los datos de entrenamiento
modelo_reg_log_mejorado.fit(X_train, y_train)

# Una vez entrenado el modelo, puedes usarlo para hacer predicciones como antes
y_pred_mejorado = modelo_reg_log_mejorado.predict(X_test)



NameError: name 'LogisticRegression' is not defined

In [18]:
from sklearn.linear_model import LogisticRegression

# Crear una nueva instancia de LogisticRegression con el mejor parámetro
modelo_reg_log_mejorado = LogisticRegression(C=1)

# Entrenar el modelo con los datos de entrenamiento
modelo_reg_log_mejorado.fit(X_train, y_train)

# Una vez entrenado el modelo, puedes usarlo para hacer predicciones como antes
y_pred_mejorado = modelo_reg_log_mejorado.predict(X_test)


ModuleNotFoundError: No module named 'sklearn'

In [19]:
from sklearn.metrics import confusion_matrix, classification_report

# Calcular la matriz de confusión
matriz_confusion_mejorada = confusion_matrix(y_test, y_pred_mejorado)

# Calcular el reporte de clasificación
reporte_clasificacion_mejorado = classification_report(y_test, y_pred_mejorado)

print("Matriz de Confusión Mejorada:")
print(matriz_confusion_mejorada)
print("\nReporte de Clasificación Mejorado:")
print(reporte_clasificacion_mejorado)


ModuleNotFoundError: No module named 'sklearn'

Basándonos en los resultados de validación cruzada para diferentes valores de C en la regresión logística, podemos sacar las siguientes conclusiones:

El puntaje de validación cruzada alcanza su punto máximo alrededor de C = 1, con un valor de aproximadamente 0.8931.
A medida que aumenta C más allá de este punto, el puntaje tiende a estabilizarse alrededor de valores similares.
Por lo tanto, podríamos seleccionar C = 1 como el mejor valor para el modelo de regresión logística en este caso, ya que proporciona un buen equilibrio entre sesgo y varianza, maximizando la precisión del modelo en datos no vistos.
Esta conclusión implica que el valor de regularización óptimo para la regresión logística en este conjunto de datos específico es C = 1. Este valor de C asegura que el modelo se ajuste bien a los datos de entrenamiento sin sobreajustarse, lo que significa que generalizará bien a nuevos datos no vistos.

Validación Cruzada y Evaluación del Modelo: Utiliza técnicas de validación cruzada para evaluar el rendimiento del modelo de manera más robusta y asegurarte de que no esté sobreajustando los datos de entrenamiento.

Aquí tienes un ejemplo de cómo podrías implementar el ajuste de hiperparámetros utilizando la búsqueda de cuadrícula con validación cruzada en la regresión logística:

In [20]:
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression

# Definir los hiperparámetros a ajustar
param_grid = {'C': [0.001, 0.01, 0.1, 1, 10, 100]}

# Inicializar el modelo de regresión logística
modelo_reg_log = LogisticRegression()

# Realizar la búsqueda de cuadrícula con validación cruzada
grid_search = GridSearchCV(modelo_reg_log, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Obtener el mejor modelo y sus hiperparámetros
mejor_modelo = grid_search.best_estimator_
mejor_parametro = grid_search.best_params_

print("Mejor parámetro C:", mejor_parametro)

# Entrenar el modelo con el mejor parámetro
mejor_modelo.fit(X_train, y_train)

# Hacer predicciones con el modelo mejorado
y_pred_mejorado = mejor_modelo.predict(X_test)


ModuleNotFoundError: No module named 'sklearn'

In [21]:
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2

# Seleccionar las mejores características utilizando la prueba de chi-cuadrado
selector = SelectKBest(score_func=chi2, k=10)  # Selecciona las 10 mejores características
X_train_selected = selector.fit_transform(X_train, y_train)


ModuleNotFoundError: No module named 'sklearn'

# 8. Cálculo de Predicciones:Finalmente, utilizaremos los modelos entrenados para hacer predicciones sobre el conjunto de datos de prueba y evaluaremos su rendimiento.s.

In [22]:
# Calcular predicciones utilizando el modelo de regresión logística mejorado
y_pred_mejorado = modelo_reg_log_mejorado.predict(X_test)

# Calcular las probabilidades predichas para cada clase
proba_pred = modelo_reg_log_mejorado.predict_proba(X_test)
proba_pred_class0 = proba_pred[:, 0]  # Probabilidades predichas para la clase 0
proba_pred_class1 = proba_pred[:, 1]  # Probabilidades predichas para la clase 1

# Visualización de la distribución de probabilidades predichas para cada clase
plt.figure(figsize=(10, 6))
sns.set_style('whitegrid')

sns.kdeplot(proba_pred_class0[y_test == 0], color='blue', fill=True, label='Clase 0')
sns.kdeplot(proba_pred_class1[y_test == 1], color='red', fill=True, label='Clase 1')

plt.title('Distribución de Probabilidades Predichas por Clase')
plt.xlabel('Probabilidad Predicha')
plt.ylabel('Densidad')
plt.legend()
plt.show()


NameError: name 'modelo_reg_log_mejorado' is not defined

In [23]:
# Visualización de los coeficientes de las características
coeficientes = modelo_reg_log_mejorado.coef_[0]
nombres_caracteristicas = X_train.columns

plt.figure(figsize=(10, 6))
plt.barh(nombres_caracteristicas, coeficientes)
plt.xlabel('Coeficiente')
plt.ylabel('Característica')
plt.title('Coeficientes de las características')
plt.show()


NameError: name 'modelo_reg_log_mejorado' is not defined

Las características con coeficientes más altos tienen más influencia en las predicciones del modelo.

In [24]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Definir el modelo de regresión logística
modelo_reg_log = LogisticRegression()

# Entrenar el modelo con los datos de entrenamiento
modelo_reg_log.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = modelo_reg_log.predict(X_test)

# Calcular métricas de evaluación del modelo
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print("Accuracy:", accuracy)
print("Precision:", precision)
print("Recall:", recall)
print("F1-score:", f1)


ModuleNotFoundError: No module named 'sklearn'