<img src="images/usm.jpg" width="480" height="240" align="left"/>

# MAT281 - Laboratorio N°04

## Objetivos del laboratorio

* Reforzar conceptos básicos de reducción de dimensionalidad.

## Contenidos

* [Problema 01](#p1)


<a id='p1'></a>
## I.- Problema 01


<img src="https://www.goodnewsnetwork.org/wp-content/uploads/2019/07/immunotherapy-vaccine-attacks-cancer-cells-immune-blood-Fotolia_purchased.jpg" width="360" height="360" align="center"/>


El **cáncer de mama**  es una proliferación maligna de las células epiteliales que revisten los conductos o lobulillos mamarios. Es una enfermedad clonal; donde una célula individual producto de una serie de mutaciones somáticas o de línea germinal adquiere la capacidad de dividirse sin control ni orden, haciendo que se reproduzca hasta formar un tumor. El tumor resultante, que comienza como anomalía leve, pasa a ser grave, invade tejidos vecinos y, finalmente, se propaga a otras partes del cuerpo.

El conjunto de datos se denomina `BC.csv`, el cual contine la información de distintos pacientes con tumosres (benignos o malignos) y algunas características del mismo.


Las características se calculan a partir de una imagen digitalizada de un aspirado con aguja fina (FNA) de una masa mamaria. Describen las características de los núcleos celulares presentes en la imagen.
Los detalles se puede encontrar en [K. P. Bennett and O. L. Mangasarian: "Robust Linear Programming Discrimination of Two Linearly Inseparable Sets", Optimization Methods and Software 1, 1992, 23-34].


Lo primero será cargar el conjunto de datos:

In [1]:
import os
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split


%matplotlib inline
sns.set_palette("deep", desat=.6)
sns.set(rc={'figure.figsize':(11.7,8.27)})

In [3]:
#### cargar datos
df = pd.read_csv(os.path.join("data","BC.csv"), sep=",")
df['diagnosis'] = df['diagnosis'] .replace({'M':1,'B':0})
df.head()

FileNotFoundError: [Errno 2] No such file or directory: 'data\\BC.csv'

Basado en la información presentada responda las siguientes preguntas:

1. Normalizar para las columnas numéricas con procesamiento **StandardScaler**.

In [None]:
scaler = StandardScaler()
x=scaler.fit_transform(df.drop(['id','diagnosis'],axis=1))
y=df.loc[:,['id','diagnosis']]


2. Realice un gráfico de correlación. Identifique la existencia de colinealidad.

In [None]:
fig, ax = plt.subplots(figsize=(10, 10))
df_corre=df.drop(['id','diagnosis'],axis=1).corr()
sns.heatmap(df_corre)

3. Realizar un ajuste PCA con **n_components = 10**. Realice un gráfico de la varianza y varianza acumulada. Interprete.

In [None]:
pca = PCA(n_components=10)
principalComponents = pca.fit_transform(x)
principalDataframe = pd.DataFrame(data = principalComponents, columns = ['PC1', 'PC2','PC3', 'PC4', 'PC5', 'PC6','PC7', 'PC8', 'PC9', 'PC10'])
targetDataframe = df[['diagnosis']]
percent_variance = np.round(pca.explained_variance_ratio_* 100, decimals =2)
columns = ['PC1', 'PC2','PC3', 'PC4', 'PC5', 'PC6','PC7', 'PC8', 'PC9', 'PC10']

plt.figure(figsize=(15,4))
plt.bar(x= range(1,11), height=percent_variance, tick_label=columns)
plt.ylabel('Percentate of Variance Explained')
plt.xlabel('Principal Component')
plt.title('PCA Scree Plot')
percent_variance_cum = np.cumsum(percent_variance)
columns = ['PC1', 'PC1+PC2', 'PC1+PC2+PC3', 'PC1+...+PC4', 'PC1+...+PC5', 'PC1+...+PC6', 'PC1+...+PC7', 'PC1+...+PC8', 'PC1+...+PC9', 'PC1+...+PC10']

plt.figure(figsize=(15,4))
plt.bar(x= range(1,11), height=percent_variance_cum, tick_label=columns)
plt.ylabel('Percentate of Variance Explained')
plt.xlabel('Principal Component Cumsum')
plt.title('PCA Scree Plot')
plt.show()
plt.show()

4. Devuelva un dataframe con las componentes principales.

In [None]:
newDataframe = pd.concat([principalDataframe, targetDataframe],axis = 1)
newDataframe.head()

5. Aplique al menos tres modelos de clasificación. Para cada modelo, calule el valor de sus métricas.

In [None]:
# split dataset
X_train, X_test, Y_train, Y_test = train_test_split(principalDataframe, targetDataframe, test_size=0.2, random_state = 42) 
Y_test['diagnosis']

In [None]:
from sklearn.linear_model import LogisticRegression
rlog = LogisticRegression()
rlog.fit(X_train, Y_train) # ajustando el modelo

In [None]:
# metrics

from metrics_classification import *
from sklearn.metrics import confusion_matrix

y_true1 =  list(Y_test['diagnosis'])
y_pred1 = list(rlog.predict(X_test))


print('\nMatriz de confusion:\n ')
print(confusion_matrix(y_true1,y_pred1))

df_temp = pd.DataFrame(
    {
        'y':y_true1,
        'yhat':y_pred1
        }
)

df_metrics = summary_metrics(df_temp)
print("")
print(df_metrics)

In [None]:
from sklearn import svm
clf = svm.SVC()
clf.fit(X_train, Y_train)

In [None]:
from metrics_classification import *
from sklearn.metrics import confusion_matrix

y_true2 =  list(Y_test['diagnosis'])
y_pred2= list(clf.predict(X_test))


print('\nMatriz de confusion:\n ')
print(confusion_matrix(y_true2,y_pred2))

df_temp = pd.DataFrame(
    {
        'y':y_true2,
        'yhat':y_pred2
        }
)

df_metrics = summary_metrics(df_temp)
print("")
print(df_metrics)

In [None]:
from sklearn.ensemble import RandomForestClassifier
clf1 = RandomForestClassifier(max_depth=2, random_state=42)
clf1.fit(X_train, Y_train)

In [None]:
from metrics_classification import *
from sklearn.metrics import confusion_matrix

y_true3 =  list(Y_test['diagnosis'])
y_pred3= list(clf1.predict(X_test))


print('\nMatriz de confusion:\n ')
print(confusion_matrix(y_true3,y_pred3))

df_temp = pd.DataFrame(
    {
        'y':y_true3,
        'yhat':y_pred3
        }
)

df_metrics = summary_metrics(df_temp)
print("")
print(df_metrics)