# **Aprendizaje no supervisado**
# UL09. Análisis discriminante lineal - Opcional - SOLUCIÓN

<img src="https://drive.google.com/uc?export=view&id=1UT8QmOplTfNn0iH3FTtAQhXCHzS0M6si" width="100" align="left" />
<br clear="left">

## <font color='blue'>**¿Qué es la reducción de dimensionalidad?**</font>

- La mayoría de las veces, tratamos con conjuntos de datos que tienen muchos __características redundantes__ que no nos brindan una cantidad significativa de información nueva.
- El uso de estas características en __la construcción de nuestro modelo no ayudará a aumentar nuestra precisión para la predicción__ y podría __disminuirla__ también.

- Una forma de solucionarlo podría ser __eliminando__ estas características, pero esto __conduciría a una pérdida significativa de datos__ si hay muchas de esas características.

Por lo tanto, la reducción de la dimensionalidad entra en escena.

Diferentes técnicas para la reducción de dimensionalidad:
- Análisis de componentes principales (PCA)
- Análisis discriminante lineal (LDA)


## <font color='blue'>**Linear Discriminant Analysis**</font>

El Análisis Discriminante Lineal es una técnica de __reducción de dimensionalidad__ utilizada como __paso de preprocesamiento__ en Aprendizaje Automático y __aplicaciones de clasificación de patrones__.

El objetivo principal de las técnicas de reducción de dimensionalidad es __reducir las dimensiones__ eliminando las características redundantes y dependientes transformando las características de un espacio de __dimensiones más altas__ a un espacio con __dimensiones más bajas__.

El análisis discriminante lineal es una __técnica de clasificación supervisada__ que tiene en cuenta las etiquetas.

A diferencia de PCA, donde nuestro objetivo era __retener la varianza máxima__, aquí intentamos proyectar un conjunto de datos en un espacio dimensional inferior con __buena seperabilidad de clases__ para evitar el sobreajuste.


## Propósito de LDA

El propósito del análisis discriminante es __clasificar__ objetos (personas, clientes, cosas, etc.) en uno de dos o más grupos según un __conjunto de características__ que __describen__ los objetos (por ejemplo, género, edad, ingresos, peso, puntuación de preferencia, etc. ).

En general, asignamos un objeto a uno de varios grupos predeterminados __basados ​​en las observaciones realizadas sobre el objeto__. <br> <br>
- Tenga siempre presente que los __grupos__ son _conocidos o predeterminados_ y no tienen orden. <br>
- El problema de clasificación da varios objetos con características determinadas medidas a partir de esos objetos. <br> <br>

Lo que buscamos son dos cosas:

1. ¿Qué __conjunto de características__ puede determinar mejor la pertenencia al grupo del objeto?
2. ¿Cuál es la __regla__ o __modelo__ de clasificación para separar mejor esos grupos?

### Entendiendo con ejemplos

Por ejemplo, queremos saber si un producto de jabón es bueno o malo basándonos en varias medidas del producto, como peso, volumen, __puntaje preferencial de la gente__, olor, contraste de color, etc. El objeto aquí es jabón y la categoría de clase o el grupo __"bueno" y "malo"__ es lo que estamos buscando (también se le llama __variable dependiente__). Cada medida en el producto se llama __características__ que describen el objeto (también se llama variable independiente).

Por lo tanto, en el análisis discriminante, la variable dependiente (Y) es el grupo y las variables independientes (X) son las características del objeto que podrían describir a ese grupo. La variable dependiente es siempre variable de categoría (escala nominal) mientras que las variables independientes pueden ser cualquier escala de medición.

Si asumimos que los grupos son linealmente separables, podemos usar el modelo discriminante lineal (LDA). Linealmente separable sugiere que los grupos pueden separarse mediante una combinación lineal de características que describen los objetos. Si solo hay dos características, los separadores entre el grupo de objetos se convertirán en líneas. Si las características son tres, el separador es un plano y el número de características (es decir, variables independientes) es más de 3, los separadores se convierten en un hiperplano.


### Aplicaciones de LDA

El análisis discriminante se ha utilizado con éxito para muchas aplicaciones. <br> Siempre que podamos transformar el problema en un problema de clasificación, podemos aplicar la técnica. <br> Podemos usar el análisis discriminante para aplicaciones originales si tiene una nueva combinación adicional de características y objetos que quizás nunca hayan sido considerados por otras personas. <br> Aquí hay algunos campos y ejemplos:

| Aplicaciones | Descripción | Imagenes |
| --- | --- | --- |
| __Identificación__ | __Identificar__ el tipo de clientes que es probable que compren ciertos productos en una tienda | ![image.png](https://raw.githubusercontent.com/insaid2018/Term-4/master/images/buy_or_not.png) |
| __Decision Making__ | El médico __diagnosticando la enfermedad__ puede ver qué enfermedad tiene el paciente | ![image.png](https://raw.githubusercontent.com/insaid2018/Term-4/master/images/hiv-positive-negative-3961118.jpg) |
| __Prediction__ | __¿Va a llover hoy?__ Se puede pensar como predicción | ![image.png](https://raw.githubusercontent.com/insaid2018/Term-4/master/images/prediction.jpg) |
| __Pattern recognition__ | Para __distinguir__ a los peatones de los perros y los automóviles en la imagen capturada | ![image.png](https://raw.githubusercontent.com/insaid2018/Term-4/master/images/pattern_recog.jpg) |
| __Learning__ | Científico quiere __ensenarle al robot__ a aprender a hablar | ![image.png](https://raw.githubusercontent.com/insaid2018/Term-4/master/images/scientific.jpg) |

<a id=section106></a>
### PCA vs LDA

La diferencia entre la elección de un espacio de dimensión inferior para proyectar el conjunto de datos es evidente. Si usamos PCA en el conjunto de datos, seleccionará una línea similar al límite de decisión, ya que tendrá la varianza máxima a lo largo de él.

En la práctica, a menudo la LDA se realiza después de realizar PCA.


## <font color='blue'>**Ejemplo: IBM Attrition and Performance (HR Analytics)**</font>

Descubra los factores que conducen a la deserción de los empleados y explore preguntas importantes como "mostrarme un desglose de la distancia desde el hogar por función laboral y deserción" o "comparar los ingresos mensuales promedio por educación y deserción". Este es un conjunto de datos ficticios creado por científicos de datos de IBM.

__Education__
1. Below College
2. College
3. Bachelor
4. Master
5. Doctor

__EnvironmentSatisfaction__
1. Low
2. Medium
3. High
4. Very High

__JobInvolvement__
1. Low
2. Medium
3. High
4. Very High

__JobSatisfaction__
1. Low
2. Medium
3. High
4. Very High

__PerformanceRating__
1. Low
2. Good
3. Excellent
4. Outstanding

__RelationshipSatisfaction__
1. Low
2. Medium
3. High
4. Very High

__WorkLifeBalance__
1. Bad
2. Good
3. Better
4. Best

<a id=section3></a>
### Carga de datos y descripción

## Importar paquetes

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
from collections import Counter
import time

## Importar dataset

In [None]:
data = pd.read_csv('https://raw.githubusercontent.com/insaid2018/Term-4/master/CaseStudy/Attrition.csv')
data.head()

Los datos anteriores consisten en una variable dependiente "Attrition" y otras como variables independientes. Explorar los datos proporcionaría una explicación de qué modelo utilizar.

## Exploración de datos

### Mapa de calor de Correlación

In [None]:
plt.figure(figsize=(14,10))
sns.heatmap(data.corr(),yticklabels=False,cbar=True,linewidths=0)
plt.show()

Los datos anteriores muestran que existe una correlación severa en los datos. Eliminar estas características puede hacer que se pierda suficiente información. Intentaremos usar la descomposición para resolver este problema.

### Visualice el recuento de Sí y No en la variable Attrition.

In [None]:
sns.countplot(x=data['Attrition'])
plt.show()

### Revise las columnas presentes en el dataset.

In [None]:
data.columns

### Ingeniería de Características

In [None]:
data.info()

<b> De lo anterior, podemos ver que hay 9 datos categóricos. Aquí tenemos que crear variables ficticias de ellos.</b>

In [None]:
BusinessTravel = pd.get_dummies(data['BusinessTravel'],drop_first=True)

In [None]:
Department = pd.get_dummies(data['Department'],drop_first=True)

In [None]:
EducationField = pd.get_dummies(data['EducationField'],drop_first=True)

In [None]:
Gender = pd.get_dummies(data['Gender'],drop_first=True)

In [None]:
JobRole  = pd.get_dummies(data['JobRole'],drop_first=True)

In [None]:
MaritalStatus = pd.get_dummies(data['MaritalStatus'],drop_first=True)

In [None]:
Train = data

In [None]:
def StrToBin(a):
    if a == 'Yes':
        return 1
    else:
        return 0


In [None]:
def StrToBinb(a):
    if a == 'Y':
        return 1
    else:
        return 0


In [None]:
Train['Attrition']=Train['Attrition'].apply(StrToBin)

In [None]:
Train['OverTime']=Train['OverTime'].apply(StrToBin)

In [None]:
Train['Over18']=Train['Over18'].apply(StrToBinb)

In [None]:
Train.info()

In [None]:
Train.head()

### Eliminando variables redundantes

In [None]:
Train.drop(['Department','EducationField','Gender','BusinessTravel','JobRole','MaritalStatus'],axis=1,inplace=True)

In [None]:
Train.head()

### Concatenas la data particionada en uno.

In [None]:
Train = pd.concat([Train,Department,EducationField,Gender,BusinessTravel,JobRole,MaritalStatus],axis=1)

In [None]:
Train.head()

Como podemos ver, hay muchas características en estos datos. La eliminación de las funciones puede perder información. En lugar de seleccionar características, vamos a extraer características de estos datos utilizando Análisis discriminante lineal.

In [None]:
m = list(Train.columns)
n = list(filter(lambda t: t not in ['Attrition'], m))

### Preparando X

In [None]:
X = Train[n]

### Preparando y

In [None]:
y = Train['Attrition']

### Particionamiento Entrenamiento y Test

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

### Estandarizar las variables

In [None]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train_sc = sc.fit_transform(X_train)
X_test_sc = sc.transform(X_test)

<a id=section6></a>
### Modelamiento y predicción

In [None]:
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(penalty='l2', solver='sag', C=1)
start_time = time.time()
fit1 = classifier.fit(X_train_sc, y_train)
end_time = time.time()
time2 = end_time-start_time
print(time2)

In [None]:
y_pred = fit1.predict(X_test_sc)

In [None]:
from sklearn.metrics import confusion_matrix,classification_report
matrix = confusion_matrix(y_test, y_pred)
report = classification_report(y_test, y_pred)
print(matrix)
print(report)

### MODEL0 1: Regresión Logística

### Aplicando LDA

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

In [None]:
lda = LDA(n_components = 1)
print(X_train)
X_train = lda.fit_transform(X_train, y_train)
X_test = lda.transform(X_test)
print(X_train)

### Logistic Regression

In [None]:
from sklearn.linear_model import LogisticRegression
classifier = LogisticRegression(penalty='l2', solver='sag', C=1)
start_time = time.time()
fit2 = classifier.fit(X_train, y_train)
end_time = time.time()
time3 = end_time-start_time
print(time3)

In [None]:
y_pred = fit2.predict(X_test)

### Confusion Matrix and Classification Report

In [None]:
from sklearn.metrics import confusion_matrix,classification_report
cm = confusion_matrix(y_test, y_pred)
cr = classification_report(y_test, y_pred)

In [None]:
print(cm)
print(cr)

<b>Aplicar LDA y luego realizar Regresión logística nos da una puntuación de precisión del 87%.

<a id=section7></a>
### Calcular la diferencia de tiempo entre dos modelos de regresión logística diferentes creados

In [None]:
time_diff = time3/time2
print(time_diff)

<a id=section8></a>
### Aplicar KNN, SVM y Decision Tree y comparar usando puntuación de precisión

### Particionamiento entrenamiento y test

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

<b>Aplicando LDA</b>

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA

In [None]:
lda = LDA(n_components = 1,solver='eigen',shrinkage='auto')
X_train = lda.fit_transform(X_train, y_train)
X_test = lda.transform(X_test)

<b> 1) Entrenando KNN </b>

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=17,weights='distance',algorithm='brute')
knn.fit(X_train,y_train)

In [None]:
pred = knn.predict(X_test)

<b> Eligiendo el mejor K </b>

In [None]:
error_rate = []
for i in range(1,40):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train,y_train)
    pred_i = knn.predict(X_test)
    error_rate.append(np.mean(pred_i != y_test))

In [None]:
plt.figure(figsize=(10,6))
plt.plot(range(1,40),error_rate,color='blue', linestyle='dashed', marker='o',
         markerfacecolor='red', markersize=10)
plt.title('Error Rate vs. K Value')
plt.xlabel('K')
plt.ylabel('Error Rate')

<b> Reporte </b>

In [None]:
from sklearn.metrics import classification_report,confusion_matrix
print(confusion_matrix(y_test,pred))
print(classification_report(y_test,pred))

### Evaluación del modelo usando la métrica Accuracy.

In [None]:
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, pred))

###  MODELO 2: SVM

### Particionamiento Entrenamiento y test

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3, random_state = 0)

<b> Aplicando LDA </b>

In [None]:
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
lda = LDA(n_components = 1,solver='svd')
X_train = lda.fit_transform(X_train, y_train)
X_test = lda.transform(X_test)

In [None]:
from sklearn.svm import SVC
model = SVC(C=100,kernel = 'rbf')
model.fit(X_train,y_train)

In [None]:
predictions = model.predict(X_test)

<b> Reporte </b>

In [None]:
from sklearn.metrics import classification_report,confusion_matrix
print(confusion_matrix(y_test,predictions))
print(classification_report(y_test,predictions))

In [None]:
print(accuracy_score(y_test, predictions))

## <font color='green'>Actividad 1</font>

Aplique LDA a los datos y implemente un Arbol de Decision. Reporte la matriz de confusion y un reporte de clasificacion. Compare los resultados de los datos originales versus los resultados despues de aplicar LDA y proyectarlos a 2 dimensiones.

<font color='green'>Fin Actividad 1</font>

<img src="https://drive.google.com/uc?export=view&id=1bqkJJ7QiIOTsp-7jm5eUtK-XYWMEq2_K" width="100" align="left" />
<br clear="left">

## <font color='blue'>**Resumen**</font>

El Análisis de Discriminante Lineal (LDA) es una técnica de aprendizaje automático supervisado utilizada para clasificar y separar datos en diferentes clases. Su objetivo principal es encontrar una combinación lineal de características que maximice la separación entre las clases y minimice la variabilidad dentro de cada clase. Como tambien es utilizada para reducción de dimensionalidad puede ser considerada una tecnica de aprendizaje no supervisado.

Funcionamiento:

1. Maximización de la separación: LDA busca el hiperplano que maximiza la distancia entre las medias de las clases y minimiza la dispersión intra-clase.

2. Transformación lineal: Proyecta los datos en un espacio de menor dimensión, preservando la información discriminante para clasificarlos en función de sus clases.

Ventajas de LDA:

1. Reducción de dimensionalidad: LDA reduce la dimensionalidad del conjunto de datos mientras conserva la información relevante para la clasificación.

2. Mejora de la clasificación: Es eficiente para problemas de clasificación, especialmente cuando las clases están bien separadas y los datos están distribuidos normalmente.

3. Menos propenso al sobreajuste: A diferencia de otras técnicas de reducción de dimensionalidad, LDA utiliza información de las etiquetas de clase, lo que ayuda a reducir el riesgo de sobreajuste.

Desventajas de LDA:

1. Sensibilidad a la distribución de datos: LDA asume que los datos están distribuidos normalmente y que las clases tienen matrices de covarianza iguales. Puede no funcionar bien si estas suposiciones no se cumplen.

2. No es adecuado para datos no linealmente separables: LDA es una técnica lineal y puede tener dificultades para separar clases en espacios no lineales.

Ejemplos de aplicaciones de LDA:

1. Reconocimiento de patrones: LDA se utiliza en aplicaciones de reconocimiento facial y de caracteres para clasificar y separar diferentes personas o letras.

2. Bioinformática: En análisis de expresión genética, LDA puede clasificar diferentes tipos de tejidos o identificar patrones en datos genómicos.

3. Procesamiento de imágenes: LDA es utilizado para reducir la dimensionalidad de características de imágenes y clasificar objetos o escenas.

4. Finanzas: En análisis financiero, LDA se aplica para predecir tendencias del mercado o para clasificar el riesgo crediticio de clientes.

En resumen, el Análisis de Discriminante Lineal (LDA) es una técnica eficiente para la clasificación y reducción de dimensionalidad cuando las clases están bien separadas y los datos están distribuidos normalmente. Sin embargo, es importante considerar sus limitaciones y adecuación al problema específico antes de aplicarlo.