#**Ciencia de Datos - Trabajo Práctico Final**

Enunciado - Integrantes



*Integrantes:*


*   Assenza, Micaela
*   Herrmann Cristian


Conjunto de datos:

Para esta actividad se utilizará un dataset que incluye detalles como: sexo, edad,
ocupación, duración del sueño, calidad del sueño, nivel de actividad física, niveles de
estrés, categoría de IMC, presión arterial, frecuencia cardíaca, pasos diarios y presencia o
ausencia de trastornos del sueño, en un conjunto de personas.

---
Práctica:

Utilizando Python, sin recurrir a otros paquetes externos que no sean los vistos en la
cátedra:


1) Realizar un análisis exploratorio de datos y presentar los resultados más
importantes.


2) Preprocesar el conjunto de datos para que pueda utilizarse en los distintos tipos de
modelos vistos en clase.
Tener en cuenta si es necesario:
- Análisis de las variables.
- Valores erróneos/faltantes, identificación de variable objetivo.
- Valores atípicos.
- Correlación entre variables.
- Procesamiento de variables categóricas.
- Balance del conjunto de datos.
- Normalización del conjunto de datos.


3) Entrenar y mostrar los resultados obtenidos con al menos dos de los modelos vistos.
Tener en cuenta:
- División del conjunto de datos para entrenamiento y prueba.
- Instanciación y entrenamiento de modelos.
- Técnicas para análisis y ajuste de hiperparámetros.
- Evaluación de modelos (Accuracy y F1-Score).
---

#1) Análisis exploratorio

##Datos

In [None]:
# Hacemos importaciones necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder

In [None]:
# Leemos el conjunto de datos
df = pd.read_csv('sleep_dataset.csv', delimiter=';')

In [None]:
# Visualizamos los primeros registros del conjunto de datos
df.head()

Realizamos un análisis inicial viendo:

*   Cantidad de registros
*   Variables
*   tipos
*   etc


In [None]:
# Vemos información sobre el dataset
df.info()

In [None]:
#Consultamos forma del Datasheet
df.shape

El data set tiene 374 registros con 13 columnas

In [None]:
# Vemos los nombres de las distintas columnas
df.columns

In [None]:
#Vemos medidas de tendencia central y dispersión de las variables numericas
df.describe(include=np.number)

Si analizamos la fila de valores de 'count' podemos notar que hay valores faltantes en 'Age' y 'Heart Rate'.

Tambien notamos que se incluye la columna 'Person ID' pero este campo solo es para identificar a las personas, no aporta valor en el análisis (luego se eliminará)

In [None]:
df.describe(include=object)

Vemos que la variable 'Blood Pressure' tiene muchos valores unicos, y que esta representado de la forma [Presion Sistólica]/[Presión Diastólica] por lo que proponemos crear dos columnas separando estos valores

In [None]:
# Separamos estos valores de presion
df[['Systolic Pressure', 'Diastolic Pressure']] = df['Blood Pressure'].str.split('/', expand=True)
df['Systolic Pressure'] = pd.to_numeric(df['Systolic Pressure'])
df['Diastolic Pressure'] = pd.to_numeric(df['Diastolic Pressure'])

Ahora procedemos a eliminar del conjunto de datos la columna 'Blood Pressure' ya que tendriamos redundancia en los datos

In [None]:
df = df.drop ('Blood Pressure', axis = 1)
df

##Gráficos

Vemos algunos gráficos de las variables para tener una mejor visualizacion de los datos

In [None]:
fig, ax = plt.subplots(6, 2)
fig.set_figheight(15)
fig.set_figwidth(10)
fig.suptitle('Graficos')

# Columna 'Age'
ax[0, 0].hist(df['Age'], color='green')
ax[0, 0].set_xlabel('Edad')
ax[0, 0].set_ylabel('Frecuencia')
ax[0, 0].set_title('Distribución de edad')

# Columna 'Sleep Duration'
ax[0, 1].hist(df['Sleep Duration'], color='blue')
ax[0, 1].set_xlabel('Duracion del sueño')
ax[0, 1].set_ylabel('Frecuencia')
ax[0, 1].set_title('Distribución de la duracion del sueño')

# Columna 'Quality of Sleep'
# Esta columna califica la calidad del sueño (supongo que de 1 a 10)
ax[1, 0].bar(df['Quality of Sleep'].unique(), df['Quality of Sleep'].value_counts(), color='pink')
ax[1, 0].set_xlabel('Calidad del sueño')
ax[1, 0].set_ylabel('Frecuencia')
ax[1, 0].set_title('Distribución de la calidad del sueño')

# Columna 'Gender'
ax[1, 1].pie(df['Gender'].value_counts(), labels=df['Gender'].unique(), autopct='%1.1f%%')
ax[1, 1].set_title('Distribución de genero')

# Columna 'Physical Activity Level'
ax[2,0].bar(df['Physical Activity Level'].unique(), df['Physical Activity Level'].value_counts(), color='salmon')
ax[2,0].set_xlabel('Nivel de actividad fisica')
ax[2,0].set_ylabel('Frecuencia')
ax[2,0].set_title('Distribución del nivel de actividad fisica')

# Columna 'Stress Level'
ax[2,1].bar(df['Stress Level'].unique(), df['Stress Level'].value_counts(), color='orange')
ax[2,1].set_xlabel('Nivel de estrés')
ax[2,1].set_ylabel('Frecuencia')
ax[2,1].set_title('Distribución del nivel de estrés')

# Columna 'BMI Category'
ax[3,0].pie(df['BMI Category'].value_counts(), labels=df['BMI Category'].unique(), autopct='%1.1f%%')
ax[3,0].set_title('Distribución de la categoría de IMC')

# Columna 'Heart Rate'
ax[3,1].hist(df['Heart Rate'], color='red')
ax[3,1].set_xlabel('Frecuencia cardiaca')
ax[3,1].set_ylabel('Frecuencia')
ax[3,1].set_title('Distribución de la frecuencia cardiaca')

# Grafico de dispersion de las presiones
ax[4,0].scatter(df['Systolic Pressure'],df['Diastolic Pressure'])
ax[4,0].set_xlabel('Presion Sistólica')
ax[4,0].set_ylabel('Presión Diastólica')
ax[4,0].set_title('Distribución de la presión arterial')

# Columna 'HDaily Steps'
ax[4,1].hist(df['Daily Steps'], color='purple')
ax[4,1].set_xlabel('Pasos diarios')
ax[4,1].set_ylabel('Frecuencia')
ax[4,1].set_title('Distribución de los pasos diarios')

# Columna 'Sleep Disorder'
ax[5,0].pie(df['Sleep Disorder'].value_counts(), labels=df['Sleep Disorder'].unique(), autopct='%1.1f%%')
ax[5,0].set_title('Distribución de los trastornos del sueño')

plt.tight_layout()
plt.show()



#2) Preprocesamiento de datos

##Analisis de las variables

Eliminamos la columna ID como propusimos anteriormente ya que no aporta información relevante al modelo

In [None]:
df = df.drop ('Person ID', axis = 1)


In [None]:
df.head()

##Datos Faltantes

In [None]:
df.isnull().sum()

Vemos que las columnas 'Age' y 'Heart Rate' tienen valores nulos. Antes hemos calculado medidas de tendencia central de estas columnas y habíamos observado en el valor ¨count¨que había faltantes

In [None]:
# Analizamos las filas con valores faltantes de la columna Age
df[pd.isnull(df.Age)]

In [None]:
# Analizamos las filas con valores faltantes de la columna Heart Rate
df[pd.isnull(df['Heart Rate'])]

In [None]:
# Optamos por reemplazar los valores por la media de los valores encontrados
df.loc[pd.isnull(df.Age), 'Age'] = df[pd.notnull(df.Age)].Age.mean()
df.loc[pd.isnull(df['Heart Rate']), 'Heart Rate'] = df[pd.notnull(df['Heart Rate'])]['Heart Rate'].mean()

In [None]:
df.isnull().sum()

##Valores atípicos

In [None]:
## Boxplot para visualizar valores atípicos
# Visualizamos la distribución de las distintas variables
fig, ax = plt.subplots(figsize=(15,6))
df.plot(kind='box', ax=ax)

In [None]:
#Analizamos por separado la variable que identificamos posee valores atípicos
df['Heart Rate'].plot(kind='box')

##Procesamiento de variables categóricas

In [None]:
#Estudiamos las variables categóricas
df.describe(include=object)

Utilizamos unique para conocer los valores de las variables categoricas para las columnas 'Gender', 'Occupation', 'BMI Category', 'Blood Pressire', y 'Sleep Disorder'

In [None]:
df['Gender'].unique()

In [None]:
df['Occupation'].unique()

In [None]:
df['BMI Category'].unique()

In [None]:
df['Sleep Disorder'].unique()

In [None]:
# Adaptamos las variables categóricas de texto a categorías numéricas
def label_encoding(df):
    for col in df.columns:
        if df[col].dtype == 'object':
                label_encoder = LabelEncoder()
                df[col] = label_encoder.fit_transform(df[col])

label_encoding(df)

In [None]:
df

##Correlación entre Variables

In [None]:
# Calcula todos los coeficientes de correlación
corr=df.corr(numeric_only=True)
corr

In [None]:
# Visualizamos la matriz de correlación
plt.figure(figsize=(12, 8))
sns.heatmap(corr, xticklabels=corr.columns, yticklabels=corr.columns, annot=True, cmap=sns.diverging_palette(220, 20, as_cmap=True))
plt.show()

Analizamos las gráficas de dispersión de las variables más correlacionadas

In [None]:
# Correlación entre Stress Level y Quality of Sleep, valor -0.90
plt.scatter(df['Stress Level'],df['Quality of Sleep'])

In [None]:
df[['Stress Level', 'Quality of Sleep']].corr()

Comprobamos gráficamente la estrecha correlación negativa entre ambas variables

In [None]:
# Correlación entre Sleep Duration y Quality of Sleep, valor 0.88
plt.scatter(df['Sleep Duration'],df['Quality of Sleep'])

In [None]:
df[['Sleep Duration', 'Quality of Sleep']].corr()

Comprobamos gráficamente la estrecha correlación positiva entre ambas variables

In [None]:
# Correlación entre Systolic Pressure y Diastolic Pressure, valor 0.97
plt.scatter(df['Systolic Pressure'],df['Diastolic Pressure'])

In [None]:
df[['Systolic Pressure', 'Diastolic Pressure']].corr()

Comprobamos la estrecha correlacion entre las variables

In [None]:
# Calculamos un vector con las medias de cada columna
column_mean = corr.mean(axis=1)
column_mean

Se propone eliminar las Columna Quality of Sleep y Diastolic Pressure

In [None]:
df = df.drop ('Quality of Sleep', axis = 1)
df = df.drop ('Diastolic Pressure', axis = 1)

In [None]:
df.head()

##Balance del conjunto de Datos


In [None]:
# Visualizar el balance del dataset
sns.countplot(x=df['Sleep Disorder'])

Como vemos la variable Sleep Disorder se encuentra desbalanceada. Optamos por utilizar OverSample para aumentar la cantidad de muestras de la clase minoritaria para alcanzar a la más abundante

In [None]:
# Seleccionar las columnas del dataset que corresponden a las entradas del modelo y la salida esperada.
X = df.drop('Sleep Disorder', axis=1)
y = df['Sleep Disorder']

In [None]:
# Importar el paquete imblearn
import imblearn
from imblearn.over_sampling import RandomOverSampler

In [None]:
# Generar un nuevos conjunto de datos balanceado por Over-sampling
# Definimos la estrategia de Oversampling, las clases minoritaria tendrán la misma cantidad que la mayoritaria.
oversample = RandomOverSampler(sampling_strategy='auto')

In [None]:
# Generamos el nuevo dataset balanceado
X_over, y_over = oversample.fit_resample(X, y)

In [None]:
# Visualizar el balance del dataset generado
sns.countplot(x=y_over)

##Normalización

In [None]:
# Copiar el DataSheet a otra variable
df_normal = df.copy()

# Normalizamos
columns = ['Age', 'Occupation', 'Sleep Duration', 'Physical Activity Level', 'Stress Level', 'BMI Category', 'Heart Rate', 'Daily Steps', 'Systolic Pressure']
for column in columns:
    df_normal[column] = (df_normal[column] - df_normal[column].min()) / (df_normal[column].max() - df_normal[column].min())

# Visualizamos la distribución nueva de las distintas variables
fig, ax = plt.subplots(figsize=(15,6))
df_normal.loc[:,columns].plot(kind='box', ax=ax)

#3) Entrenar

Primeros hacemos las importaciones necesarias del paquete Scikit-Learn

In [None]:
# Importaciones necesarias
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import accuracy_score, f1_score, confusion_matrix, classification_report
from sklearn.model_selection import GridSearchCV

##División del conjunto de datos para entrenamiento y prueba.


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X_over, y_over, test_size=0.3)

In [None]:
# Visualizar el resultado de la función (shape)
print( X_train.shape, X_test.shape)
print( y_train.shape, y_test.shape)

##Instanciación, entrenamiento del modelo y ajuste de hiperparámetros.


Utilizaremos dos modelos. Uno sera el modelo de bosques aleatorios (random forest) y otro de vecinos cercanos (KNN, k Nearest Neighbor)

###Bosques Aleatorios

Comenzaremos por el modelo de bosques aleatorios

Estableceremos una Grilla para modificar los hiperparámetros

---



In [None]:
# Grilla para ajustar hiperparametros para los bosques aleatorios
param_grid_rf = {
    'n_estimators' : [100, 200, 300],
    'max_features': [5,6,7,8],
    'max_depth' : [2,4,5,6],
    'random_state' : [18]
}


In [None]:
model_RF = GridSearchCV(estimator=RandomForestClassifier(), param_grid=param_grid_rf, cv=5)
model_RF.fit(X_train, y_train)

In [None]:
model_RF.best_estimator_

In [None]:
model_RF_test_predict = model_RF.predict(X_test)

####Evaluación del modelo (Accuracy y F1-Score).

In [None]:
model_RF_train_score = model_RF.score(X_train, y_train)
model_RF_test_score = model_RF.score(X_test, y_test)
print(f"Train Score: {model_RF_train_score}")
print(f"Test Score: {model_RF_test_score}")

In [None]:
from sklearn import tree
fig = plt.figure(figsize = (30,12))
tree.plot_tree(model_RF.best_estimator_.estimators_[0], filled=True)
plt.show()

In [None]:
print(classification_report(y_test, model_RF_test_predict))

In [None]:
# Matriz de confusion
confusion_matrix(y_test, model_RF_test_predict)

In [None]:
# Generamos graficamente la matriz de confusión
cm = confusion_matrix(y_test, model_RF_test_predict)
class_names = ['Normal', 'Sleep Apnea', 'Insomnio']

# Creamos un gráfico de calor (heatmap) con Seaborn
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=class_names, yticklabels=class_names)

# Configuramos el título y los ejes
plt.title('Matriz de Confusión - Bosques Aleatorios')
plt.xlabel('Clase Predicha')
plt.ylabel('Clase Real')
plt.show()

###Modelo KNN

Crearemos una grilla para el modelo KNN modificando el valor de los vecinos

In [None]:
knn_param_grid = {'n_neighbors': [3, 5, 7, 9]}

In [None]:
model_KNN = GridSearchCV(estimator=KNeighborsClassifier(), param_grid=knn_param_grid)
model_KNN.fit(X_train, y_train)

In [None]:
model_KNN.best_estimator_

In [None]:
model_KNN_Test_Predict = model_KNN.predict(X_test)

####Evaluación del modelo (Accuracy y F1-Score).

In [None]:
model_KNN_train_score = model_KNN.score(X_train, y_train)
model_KNN_test_score = model_KNN.score(X_test, y_test)
print(f"Train Score: {model_KNN_train_score}")
print(f"Test Score: {model_KNN_test_score}")

In [None]:
print(classification_report(y_test, model_KNN_Test_Predict))

In [None]:
confusion_matrix(y_test, model_KNN_Test_Predict)

In [None]:
# Generamos graficamente la matriz de confusión
cm = confusion_matrix(y_test, model_KNN_Test_Predict)
class_names = ['Normal', 'Sleep Apnea', 'Insomnio']

# Creamos un gráfico de calor (heatmap) con Seaborn
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=class_names, yticklabels=class_names)

# Configuramos el título y los ejes
plt.title('Matriz de Confusión - KNN')
plt.xlabel('Clase Predicha')
plt.ylabel('Clase Real')
plt.show()