
## Tarea 2: Clasificación Supervisada

### Descripción
La **Tarea 2** tiene como objetivo aplicar técnicas de clasificación supervisada para resolver un problema basado en datos etiquetados. Este ejercicio se centra en comprender y comparar diferentes modelos de clasificación, evaluar su desempeño y seleccionar el más adecuado.

### Objetivos
- Implementar y ajustar algoritmos de clasificación supervisada utilizando herramientas de análisis de datos.
- Comparar el desempeño de diferentes modelos mediante métricas de evaluación.
- Identificar el modelo que mejor se ajusta al problema planteado.
- Relacionar la teoría de clasificación supervisada con su aplicación práctica.
-----


## Pasos
1. **Preparación de los Datos**:
   - Cargar el conjunto de datos proporcionado.
   - Realizar limpieza y transformación de los datos para asegurarse de que estén en el formato adecuado.
   - Dividir los datos en conjuntos de entrenamiento y prueba (80%-20%).

### Importar las bibliotecas necesarias

In [None]:

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC


### Cargar y explorar el conjunto de datos

El archivo **Lead Scoring.csv** proviene del conjunto de datos "Lead Scoring Dataset" disponible en [Kaggle](https://www.kaggle.com/datasets/amritachatterjee09/lead-scoring-dataset).

Asegúrese de que el archivo **Lead Scoring.csv** esté en el mismo directorio que este notebook.


In [None]:

# Cargar el conjunto de datos
data = pd.read_csv('Lead Scoring.csv')

# Exploración inicial
print("Primeras filas del conjunto de datos:")
print(data.head())

print("\nInformación general del conjunto de datos:")
print(data.info())

print("\nDescripción estadística del conjunto de datos:")
print(data.describe())

# Verificar valores nulos
print("\nConteo de valores nulos por columna:")
print(data.isnull().sum())


### Preprocesamiento de los datos

En esta sección, se abordará el tratamiento de valores nulos, la codificación de variables categóricas y la normalización para preparar los datos para los modelos.


In [None]:
# Imputación o eliminación de valores nulos según corresponda
# Por ejemplo, eliminamos filas con valores nulos
data = data.dropna()

# Codificación de variables categóricas
data = pd.get_dummies(data, drop_first=True)

Pregunta: ¿Qué columnas tienen la mayor cantidad de valores nulos? ¿Cómo manejaría estos valores?

In [None]:
X = data.drop('Converted', axis=1)  # 'Converted' es la variable objetivo
y = data['Converted']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# Normalización de datos
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

2. **Selección e Implementación de Modelos**:
   - Implementar al menos tres algoritmos de clasificación (por ejemplo, K-Nearest Neighbors, Support Vector Machines y Regresión Logística).
   - Ajustar hiperparámetros utilizando técnicas como validación cruzada.

In [None]:
# Regresión Logística
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train_scaled, y_train)
y_pred_lr = model_no_scaling.predict(X_test_scaled)

In [None]:
# K-Nearest Neighbors (KNN)
print("K-Nearest Neighbors (KNN):")
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

y_pred_knn = knn.predict(X_test_scaled)

In [None]:
# Support Vector Machines (SVM)
print("Support Vector Machines (SVM):")
svm = SVC(kernel='linear', C=1.0)
svm.fit(X_train_scaled, y_train)

y_pred_svm = svm.predict(X_test_scaled)

3. **Evaluación de Modelos**:
   - Comparar los modelos implementados utilizando métricas como precisión (accuracy), matriz de confusión, sensibilidad y especificidad.
   - Visualizar los resultados utilizando gráficos y tablas.

In [None]:
# Regresión Logística
print(f'Accuracy: {accuracy_score(y_test, y_pred_lr)}\n')
print("Classification Report:\n", classification_report(y_test, y_pred_lr),"\n")
print('Matriz de confusión:\n')
# Visualizar la matriz de confusión para Regresión Logística
plt.figure(figsize=(6, 4))
sns.heatmap(confusion_matrix(y_test, y_pred_lr), annot=True, fmt='d', cmap='Blues')
plt.title("Confusion Matrix - Regresión Logística")
plt.xlabel("Predicted")
plt.ylabel("True")
plt.show()

In [None]:
# K-Nearest Neighbors (KNN)
print("Accuracy:", accuracy_score(y_test, y_pred_knn),"\n")
print("Classification Report:\n", classification_report(y_test, y_pred_knn),"\n")
print("Confusion Matrix:\n")

# Visualizar la matriz de confusión para KNN
plt.figure(figsize=(6, 4))
sns.heatmap(confusion_matrix(y_test, y_pred_knn), annot=True, fmt='d', cmap='Blues')
plt.title("Confusion Matrix - KNN")
plt.xlabel("Predicted")
plt.ylabel("True")
plt.show()

In [None]:
# Support Vector Machines (SVM)
print("Accuracy:", accuracy_score(y_test, y_pred_svm),"\n")
print("Classification Report:\n", classification_report(y_test, y_pred_svm),"\n")
print("Confusion Matrix:\n")

# Visualizar la matriz de confusión para SVM
plt.figure(figsize=(6, 4))
sns.heatmap(confusion_matrix(y_test, y_pred_svm), annot=True, fmt='d', cmap='Greens')
plt.title("Confusion Matrix - SVM")
plt.xlabel("Predicted")
plt.ylabel("True")
plt.show()


4. **Selección del Modelo Óptimo**:
   - Basándose en el desempeño de los modelos, seleccionar el más adecuado para el problema planteado.
   - Justificar la selección mediante un análisis detallado.

## Preguntas
1. ¿Cuál fue el modelo que mostró el mejor desempeño? Justifique su respuesta basándose en las métricas de evaluación.
2. ¿Qué desafíos enfrentó al implementar los algoritmos de clasificación y cómo los resolvió?
3. ¿Qué pasos adicionales tomaría para mejorar el desempeño del modelo seleccionado?
4. ¿Cómo podría aplicarse este modelo en un contexto del mundo real?

## Requerimientos Entregables
1. Un reporte en formato PDF que contenga:
   - Introducción y descripción del problema.
   - Análisis de los datos (incluyendo gráficos y tablas relevantes).
   - Resultados de los modelos de clasificación y su evaluación.
   - Conclusiones y recomendaciones.
2. Código fuente en Python en formato Jupyter Notebook (*.ipynb*).