# **Exploratory Data Analysis**

**Equipo Blue Leg**

Diego Sú Gómez - A01620476

Vanessa Méndez Palacios - A01639925

Estefanía Pérez Yeo - A01639270

Francisco Javier Sanchez Panduro - A01639832

## **Importación de las librerías**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import glob

## **Manipulación y concatenación de los datos**

Al observar que se tenían 15 archivos .csv pertenecientes a cada uno de los pacientes, se decidió que la mejor manera de cargar la información sería concatenar todos los archivos .csv en un DataFrame y posteriormente descargarlo en formato .csv y únicamente cargar ese archivo al momento, para evitar tener que hacer la concatenación manual cada vez que se requiera hacer uso de los datos.

In [None]:
# Código de un solo uso - Leer los archivos .csv de cada paciente y concatenarlos en un DataFrame que será descargado

#Leer los dataframes y añadir una columna con el id del paciente para poder combinarlos
'''archivos_csv = glob.glob('/content/*.csv')

df_global = pd.DataFrame()
num_paciente = 1'''

#Leer cada uno de los .csv, añadir la columna patient_id y señalar los registros con el número de paciente correspondiente
'''for archivo in archivos_csv:
    df_paciente = pd.read_csv(archivo)
    df_paciente.insert(0,"patient_id",num_paciente)
    df_global = pd.concat([df_global, df_paciente])
    num_paciente +=1'''


Tras ejecutar este bloque de código, el Dataframe ya cuenta con todos los registros de los pacientes y con un ID que identifica cada registro con el paciente correspondiente. Ahora lo siguiente será descargar ese mismo DataFrame en formato .csv para no tener que ejecutar este código cada vez que se ejecute este archivo o cuando se requiera la información.

In [None]:
#Descargar el archivo en formato .csv

# df_global.to_csv("patients_data.csv")

## **Carga de datos**

Tras haber descargado el archivo con todos los datos de los pacientes, lo único necesario para poder leer los datos de todos los pacientes es cargar el archivo en el entorno y leerlo.

In [None]:
#Leer el archivo con los datos de los pacientes
df = pd.read_csv("patients_data.csv")

## **Limpieza y Exploración de los datos**

Tras cargar el archivo, lo siguiente es ver cómo se encuentra la distribución de los datos, lo que se puede realizar fácilmente con un .head()

In [None]:
df.head()

Primeramente, se puede observar que, al concatenar los datos en un sólo dataframe, se creó una columna extra la cual no es útil, por lo que se debe borrar antes de proseguir con la exploración.

In [None]:
#Borrar la columna sin nombre
df = df.drop(["Unnamed: 0"],axis=1)

Ya con la columna innecesaria eliminada, lo siguiente por hacer es analizar el conjunto en sí mismo, para entender cómo está estructurado y poder comenzar a tener una percepción de los datos.

In [None]:
#Encontrar las dimensiones del DataFrame
df.shape

In [None]:
#Observar los tipos de datos que tiene el DataFrame
df.info()

In [None]:
#Observar la cantidad de fechas únicas
df["timestamp"].unique().size

In [None]:
#Observar la cantidad de "labels" únicos
df["label"].unique()

Primeramente, se puede observar que el DataFrame con el que se trabajará cuenta con 1,832,560 observaciones y 9 variables. Además, casi todas las variables disponibles en el DataFrame son numéricas, exceptuando el timestamp. Se tiene el conocimiento de que cada observación (fila del DataFrame) corresponde a una medición de los sensores de cada paciente. Por cada observación se tiene el ID del paciente, una marca de tiempo única que indica cuándo se tomó dicha medición, y cada uno de los valores del acelerómetro de cada sensor, uno por cada eje. Finalmente, también se encuentra el label, que corresponde al tipo de actividad que se estaba realizando según las medidas de los sensores. Se observa que hay 7 tipos de actividades diferentes, a las cuales corresponde un número.

Antes de proseguir con el análisis de las variables y observaciones, sería prudente asegurar que el DataSet no contenga valores nulos o duplicados.

In [None]:
#Encontrar el total de valores nulos en cada columna
pd.isna(df).sum()

In [None]:
#Encontrar los valores duplicados en el DataFrame
df[df.duplicated()]

Tras ejecutar estas dos líneas de código, se puede observar que en el DataFrame no hay valores nulos ni duplicados, por lo que no hay necesidad de eliminar o modificar observaciones dentro del conjunto de información.

Realizando un análisis más a fondo del dataset, en el DataFrame se observa que "label" es una variable numérica. Sin embargo, corresponde a un tipo de actividad, por lo que sería útil poner una columna que indique el nombre al que se refiere el label, para evitar tener que buscarlo en el diccionario cuando se necesite, y si se llegase a realizar un modelo, se puede remover o declarar otra variable para hacerlo.

De acuerdo con el sitio donde se obtuvo el Dataset, se sabe que cada número corresponde a una actividad, y se relacionan de la siguiente forma:

* 1: walking
* 3: shuffling
* 4: stairs (ascending)
* 5: stairs (descending)
* 6: standing
* 7: sitting
* 8: lying

Con este conocimiento, se puede agregar la columna al DataFrame.

In [None]:
#Añadir la columna del nombre de la actividad que corresponde a cada Label para facilitar el entendimiento de los datos
df["activity_type"] = np.select([df["label"]==1,df["label"]==3,df["label"]==4,df["label"]==5,df["label"]==6,df["label"]==7,df["label"]==8],["walking", "shuffling","stairs (up)", "stairs (down)", "standing", "sitting", "lying"])
df.head()

## **Análisis y Visualización de los datos**

Después de haber asegurado que los datos no tuvieran duplicados ni valores vacíos, y tras ya tener todos los datos del Dataset disponibles en el DataFrame, se puede empezar a analizar el mismo, para encontrar relaciones entre los datos, su significancia y otros parámetros que sean útiles para conocer la información con la que se va a trabajar.

Lo primero que se puede realizar es utilizar el método **describe** de Pandas para encontrar información acerca de los datos en el DataFrame, como su dispersión, tendencias e información estadística básica de los datos.

In [None]:
#Obtener información general del DataFrame
df.describe()

Como se puede observar, el resultado de ejecutar esta línea de código es un resumen estadísitico de cada una de las variables numéricas que se encuentran dentro del DataFrame. Se puede ver el total de valores, la media, la desviación estándar, el valor mínimo y máximo y los cuartiles de cada una de las variables. Sin embargo, estas están expresadas en exponenciales debido a la configuración del método, y a la estructura de los datos del conjunto, por lo que para poder obtener correctamente el resumen de los 5 números, lo mejor sería calcularlos de forma separada y luego hacer la interpretación.

In [None]:
#Encontrar los valores extremos de cada variable
df.min(numeric_only=True)

In [None]:
df.max(numeric_only=True)

In [None]:
#Encontrar la mediana de cada variable
df.median(numeric_only=True)

In [None]:
#Encontrar los cuartiles de cada variable
df.quantile([0.25,0.5,0.75],numeric_only=True)

Tras haber obtenido los 5 valores, se puede observar que las medidas de los acelerómetros suelen estar entre valores de -2 y 2, con algunas excepciones puntuales. Se puede ver que los valores más pequeños de la aceleración en los sensores son de -2, -4, -5 y -7, mientras que los valores máximos son de 1, 3 y 5. Otra cosa que se puede obtener de estos parámetros es que la mayoría de las mediciones de los acelerómetros son negativas. Esto se obtiene de los cuartiles de los datos, y se observa que la gran mayoría de ellos son negativos, y los que son positivos son con valores cercanos al 0. Con esta información, se podría interpretar que los valores de aceleración son negativos debido a que los sujetos de prueba son adultos mayores, que suelen tener algunas dificultades en términos de movilidad, lo que confirma que los datos del Dataset son congruentes.

Tras haber analizado brevemente las variables numéricas, lo siguiente que se podría hacer es revisar las variables categóricas para tener una idea de los resultados del modelo del estudio.

### **Diagramas de caja de cada una de las variables**

In [None]:
#Realizar el diagrama de caja de cada variable
plt.boxplot(df[["back_x","back_y","back_z","thigh_x","thigh_y","thigh_z"]])
plt.title("Diagrama de caja de las variables numéricas")

### **Histograma de los tipos de actividad**

In [None]:
#Realizar un histograma con los tipos de actividad
activity_freq = sns.countplot(data=df,x=df["activity_type"])
activity_freq.set_xticklabels(activity_freq.get_xticklabels(), rotation=45)
activity_freq.set(title="Histograma de los tipos de actividad en el DataFrame")

### **Diagrama de pastel sobre los tipos de actividad**

In [None]:
#Graficar la frecuencia de cada actividad en un diagrama de pastel
df.activity_type.value_counts().plot(kind="pie",autopct='%.0f%%')
plt.title("Distribución de cada tipo de actividad modelada")

A partir de histograma y del diagrama pastel, se puede observar mediante estas representaciones la contabilidad con respecto al tipo de actividad. De dicha manera el histograma nos muestra la cantidad explicita de registros por actividad y en el diagrama pastel se observa a memdida de porcentaje dichos registros.

Gracias al histograma este nos ayuda a identificar patrones y anomalías en lo que tenemos, y nos permite comprender mejor lo que estamos analizando. El diagrama de pastel nos da una idea rápida de la distribución proporcional de los datos, pero sobre todo, la facilidad para sumar sectores, siempre y cuando la suma de en total su 100%

Se puede observar que la gran mayoría de las observaciones reconocieron la actividad de caminar, siendo casi el 50% de los datos. Las siguientes actividades más comunes fueron estar sentado y parado, seguido de acostado, arrastrar los pies y, por último subir y bajar escaleras. Si bien es cierto que en este punto del análisis aún no se puede inferir el porqué, el analizar ahora los valores de los acelerómetros podría dar una idea de cómo se selecciona el tipo de actividad dependiendo de los valores de aceleración.

### **Histograma de observaciones por paciente (número de pacientes)**

In [None]:
#Realizar un histograma del número de registros de cada paciente
patients_freq = sns.countplot(data=df,x=df["patient_id"])
patients_freq.set(title="Histograma de los registros por Paciente")

Para comprender la información dentro de cada registro podemos observar como cada paciente contribuyó al total de registros, donde el paciente 8 comparado con el paciente 3 mantiene una diferencia mayor a comparación de otros pacientes. Cabe mencionar que dentro de los 15 pacientes, todos mantienen un número de registros alto, aproximadamente entre 9000 y 15000 registros, aunque ninguno con la misma cantidad.Sin embargo, todos los pacientes, a excepción del #3 tienen un número de registros relativamente similar, por lo que si se quisiera predecir por paciente, es importante considerar la cantidad de registros. Tomando en cuenta esta representación ahora se comprende qué paciente contribuye más al momento de observar los futuros gráficos.

### **Histogramas de cada sensor clasificado por tipo de actividad**

En base a estos 6 sensores que se observan, se decidió realizar un histograma con cada sensor, clasificándolo por tipo actividad, donde cada sensor es reconocido por las variables de:

* back_x
* back_y
* back_z
* thigh_x
* thigh_y
* thigh_z

Mediante a los diferentes colores que ayudan a la percepción de la distribucion de los datos, se puede observar como cada tipo de activad difiere dependiendo del sensor utilizado, el cual se puede observar en el eje x de cada histograma.

In [None]:
#Analizar la distribución de cada uno de los datos
sns.histplot(data=df, x=df["back_x"], hue="activity_type")
plt.title("Histograma del sensor back_x clasificado por actividad")

En este histograma se puede observar la dispersión de los datos recabados por el sensor de la espalda, específicamente orientados en el eje x. De acuerdo con el sitio donde se obtuvo el dataset, se sabe que los valores positivos corresponden a aceleración hacia abajo, mientras que los valores negativos corresponden a aceleración hacia arriba. El histograma muestra que la mayoría de los registros de este eje se encuentran entre -2  y 0, teniendo la mayor concentración en -1. Además de eso, se puede ver que la gran mayoría de estos valores corresponden a estar parado o a estar caminando. Esta interpretación tiene sentido debido a que en ambos escenarios el sujeto de prueba se encuentra de pie, por lo que la aceleración en ese eje debería ir hacia arriba, y por ende es negativa. Por otro lado, también se puede ver que los valores de aceleración más cercanos a 0 corresponden a estar acostado, lo que también coincide con que no haya aceleración en ese eje puesto que estaría recargado a la superficie donde el sujeto de prueba se hubiera acostado. Finalmente los valores intermedios entre -1 y 0 corresponden al resto de las actividades en las que el sujeto de prueba se mueve tanto hacia arriba como hacia abajo.

In [None]:
sns.histplot(data=df, x=df["back_y"], hue="activity_type")
plt.title("Histograma del sensor back_y clasificado por actividad")

En este histograma se puede observar que el sensor de la espalda tiene mediciones más dispersas en el eje de y, el cual si es positivo significa aceleración hacia la izquierda y si es negativo hacia la derecha. Para este escenario, se puede observar que las mediciones tienden a 0, inclinándose un poco más hacia los valores negativos. Se puede observar que cuando los valores de la aceleración están cercanos a 0 el sujeto de prueba está parado, pero al igual puede estar caminando, y esto fluctúa entre -0.5 y 0.5. Esto se debe a que el sujeto puede estar caminando en cierta dirección, además de que es muy difícil caminar en una línea completamente recta, por lo que es entendible que cuando los valores oscilen en cantidades tan pequeñas se interprete que está parado o caminando. Para el resto de actividades, se puede observar que el sujeto está acostado cuando los valores de aceleración son menores a -0.5. Esto se debe a que el sujeto de prueba podría estar girando o moviéndose pero acostado, lo que explica que se haya seleccionado esta actividad.

In [None]:
sns.histplot(data=df, x=df["back_z"], hue="activity_type")
plt.title("Histograma del sensor back_z clasificado por actividad")

Finalmente, el último histograma del sensor de la espalda corresponde a la aceleración en el eje z. Se observa que la mayoría de registros se condensan entre -0.5 y 0. También se puede observar que cuando se eligió la actividad de caminar es desde cuando la aceleración en este eje oscila entre -1 y 0.5. Esto se debe a que al referirse a la dirección hacia adelante, puede interpretarse como que el sujeto está caminando, deteniéndose o incluso estando completamente parado. Por otro lado, se ve que cuando la aceleración es positiva y mayor a 0, se distingue también que está sentado o acostado. Esto se podría deber a que el sujeto al sentarse se inclina hacia adelante, o inclusive que se está poniendo de pie, lo que también aplica para cuando está acostado.

In [None]:
sns.histplot(data=df, x=df["thigh_x"], hue="activity_type")
plt.title("Histograma del sensor thigh_x clasificado por actividad")

En el primer histograma del sensor de la cadera, se observan las mediciones del eje de x. Se puede ver que los valores fluctúan mucho, concentrándose la mayoría entre -2 y 0. Se puede ver que la gran mayoría de registros está cercana al -1 aproximadamente, y esta concentración de registros corresponde a caminar y estar parado. Sin embargo, los valores cercanos a 0 tienen que ver con estar sentado. Se sabe que el sensor de la cadera midiendo el eje x, el positivo significa aceleración hacia abajo y el negativo hacia arriba. Esto tiene sentido debido a que cuando el sujeto de prueba se sienta está agachándose y por consiguiente, incrementando su velocidad hacia abajo. Sin embargo, cuando el valor es negativo significa que se dirige hacia arriba. Y esto se relaciona con las actividades debido a que el movimiento de las piernas indicaría que hay una mayor aceleración, lo que significa que el sujeto está moviéndose o de pie. El resto de las actividades no se puede distinguir claramente en este histograma, por lo que no se pueden hacer interpretaciones justificadas sobre estos datos.

In [None]:
sns.histplot(data=df, x=df["thigh_y"], hue="activity_type")
plt.title("Histograma del sensor thigh_y clasificado por actividad")

En cuanto al eje y del sensor de la cadera, el histograma muestra que los valores se concentran cercanos al 0, con valores que oscilan desde el -2 hasta el 2. El eje y de este sensor corresponde a la dirección derecha, por lo que los valores positivos indican que la aceleración es hacia esta dirección, y los negativos a la izquierda. Se vuelve a ver que la mayoría de los valores corresponden a caminar o estar parado, lo que tiene sentido debido a que una aceleración 0 indica que el sujeto no se está moviendo hacia ninguno de los lados, lo que se puede interpretar como estar caminando o parado, dependiendo del resto de los parámetros del sensor. Otra cosa observable en este histograma es que cuando la aceleración en este eje es positiva se interpreta que el sujeto está acostado. Esto, igualmente, depende de los otros parámetros pero se podría interpretar como que el sujeto de prueba se está girando sobre sí mismo acostado.

In [None]:
sns.histplot(data=df, x=df["thigh_z"], hue="activity_type")
plt.title("Histograma del sensor thigh_z clasificado por actividad")

Finalmente, para el eje z del sensor de la cadera, se puede observar de nuevo, que la mayoría de los registros se concentran alrededor del 0, con valores oscilando de -2 a 2. Sin embargo, este histograma tiene una particularidad, y es que hay una gran cantidad de valores concentrados también en el -1. Estos valores corresponden a estar sentado, mientras que el resto a caminar o estar parado. Esta dirección se define como positivo ir con aceleración hacia atrás, y negativo hacia adelante. Esto se podría interpretar cómo que cuando la aceleración de este eje tiende a -1, el sujeto está sentado debido a que al sentarse mueve las piernas y el cuerpo, lo que hace que ese acelerómetro tome estos parámetros. Sin embargo, cuando la aceleración es más cercana a 0 es porque está caminando o parado ya que la cadera no tiene tanto movimiento cuando se realiza esta actividad. Sin embargo, se deben considerar también el resto de los parámetros para poder hacer una suposición acertada.

En conclusión, tras haber analizado por separado las mediciones de cada uno de los sensores en cada dirección, lo único que queda por mencionar es que las predicciones del tipo de actividad se hicieron en base a las 6 medidas en conjunto, ya que es muy difícil predecir el tipo de actividad realizada en base únicamente a un eje. Sin embargo, el analizar por separado cada uno de los ejes permite entender más a fondo a qué corresponden los valores, y tener una percepción y un panorama más completo de las mediciones y cómo reflejan el movimiento.

### **Análisis bivariante de los datos numéricos**

In [None]:
#Analizar cómo están relacionadas las variables numéricas entre sí
df_num = df[["back_x","back_y","back_z","thigh_x","thigh_y","thigh_z"]]
sns.pairplot(df_num)

Para interpretar este análisis bivariante, se deben buscar variables que tengan correlación, es decir, que los datos formen una línea diagonal similar a una relación 1 a 1, que se puede expresar como y=x. Al observar estas gráficas, se puede decir que no hay variables correlacionadas, ya que la gran mayoría están dispersas alrededor de la gráfica y no forman adecuadamente una diagonal. Que no haya correlación entre las variables significa que estas serán valiosas para el modelo y poder predecir el tipo de actividad. Sin embargo, para poder comprobar que no haya correlación alguna, lo mejor que se puede realizar es una matriz de correlación y evaluar cada uno de los coeficientes de correlación entre todos los pares posibles de las variables del DataFrame.

### **Análisis de correlación de las variables**

Tras haber analizado los datos tanto visualmente como numéricamente, lo último que queda por hacer del análisis exploratorio es revisar si hay variables correlacionadas que pudieran llegar a inferir en el modelo de clasificación que se quiere realizar. Para poder hacer esto, se puede modelar la matriz de correlación con todas las variables numéricas, además de luego modelar dicha matriz en un mapa de calor donde se descubriría si hay variables correlacionadas o no.

In [None]:
#Buscar si hay datos correlacionados con la matriz de correlación
df_num.corr()

In [None]:
#Graficar la matriz de correlación para ver de mejor forma los datos
sns.heatmap(df_num.corr(numeric_only=True), cmap="Reds", annot=True)

Tras haber obtenido y graficado la matriz de correlación, se puede observar que no hay variables altamente correlacionadas. Se considera que existe una alta correlación cuando el valor se encuentra entre 0.95 y 1 y, por defecto, entre -0.95 y -1. En este caso, en el heatmap graficado no se observan correlaciones en estos rangos, siendo el valor más cercano 0.67 (Back_z & Thigh_X, Back_X y Back_Z) Se puede observar que el resto de los coeficientes son más pequeños, siendo algunos muy cercanos a 0 y el resto oscilando entre estos extremos.

Esta matriz confirma que no hay variables con alta correlación, por lo que se podrían incluir en el modelo de clasificación que se usará para modelar el tipo de actividad realizada dependiendo de las medidas de aceleración de cada sensor.