# Análisis discriminante
*¿Para qué se utiliza?*
El análisis discriminante es una técnica de clasificación supervisada utilizada cuando se desea predecir o explicar una variable dependiente cualitativa (categórica), como por ejemplo si un individuo es "comprador" o "no comprador". Su objetivo es encontrar combinaciones lineales de variables independientes que maximicen la separación entre dos o más grupos predefinidos. A partir de estas combinaciones se construyen funciones discriminantes que permiten:
- Determinar si existen diferencias significativas entre los grupos,
- Identificar la importancia relativa de cada variable independiente,
- Desarrollar reglas para clasificar nuevas observaciones,
- Evaluar la precisión del modelo para predecir correctamente las categorías.

*Variables consideradas*
- Variable dependiente: debe ser cualitativa, con dos o más categorías mutuamente excluyentes (por ejemplo: tipo de cliente, decisión de compra, nivel de riesgo).
- Variables independientes: deben ser cuantitativas y continuas, ya que el modelo calcula combinaciones lineales de estas para construir las funciones discriminantes.

*Requisitos y recomendaciones*
Para aplicar correctamente el análisis discriminante, es importante verificar que se cumplan ciertos supuestos estadísticos:
- Las variables independientes deben seguir una distribución normal multivariada dentro de cada grupo.
- Las matrices de covarianza deben ser iguales entre grupos, es decir, debe haber homogeneidad de varianzas y covarianzas. Para evaluar esto se puede utilizar la prueba M de Box
- No debe haber multicolinealidad significativa entre las variables independientes.
- Se recomienda que los tamaños de grupo sean relativamente similares.
 Es importante revisar y, si es necesario, excluir valores atípicos.
- En cuanto al tamaño muestral, se sugiere tener al menos 20 observaciones por variable independiente, con un mínimo absoluto de 5 observaciones por variable

*Comparación con la regresión logística*

Aunque tanto el análisis discriminante como la regresión logística son técnicas de clasificación supervisada utilizadas para predecir una variable dependiente categórica, difieren en varios aspectos clave. El análisis discriminante requiere que las variables independientes sean cuantitativas y que cumplan supuestos estadísticos más estrictos, como la normalidad multivariada y la igualdad de matrices de covarianza entre los grupos. En cambio, la regresión logística es más flexible, ya que permite variables independientes tanto cuantitativas como categóricas y no requiere normalidad ni homocedasticidad. Además, la regresión logística estima probabilidades mediante el método de máxima verosimilitud, mientras que el análisis discriminante construye funciones que maximizan la separación entre grupos con base en varianzas. Por ello, la regresión logística suele ser preferida cuando los supuestos del análisis discriminante no se cumplen.


In [None]:
import pandas as pd
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Suponemos que ya tienes un DataFrame llamado df
# con variables independientes en columnas X_cols y la variable dependiente en 'y'

# Definir columnas independientes y la columna objetivo
X_cols = ['col1', 'col2', 'col3', 'col4']  # ← ajusta según tu DataFrame
X = df[X_cols]
y = df['y']

# División en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Aplicar Análisis Discriminante Lineal
lda = LinearDiscriminantAnalysis()
lda.fit(X_train, y_train)

# Predicciones
y_pred = lda.predict(X_test)

# Reporte de clasificación
print("Reporte de clasificación:\n")
print(classification_report(y_test, y_pred))

# Mostrar matriz de confusión
ConfusionMatrixDisplay.from_estimator(lda, X_test, y_test, cmap='Blues')
plt.title("Matriz de Confusión - LDA")
plt.show()
