<a href="https://colab.research.google.com/github/cesaenv/buscaminas/blob/main/1_An%C3%A1lisisDataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Parte 1. Análisis de datos

En este primer notebook lo que vamos a realizar va a ser un análisis del dataset que vamos a tratar en el entregable. Principalmente utilizaremos la librería de **[Pandas](http://pandas.pydata.org)**, una librería que proporciona gran cantidad de métodos para el análisis de datos. Además, también utilizaremos la librería [numpy](http://www.numpy.org/), una librería de cálculo científico muy utilizada para aprendizaje automático en Python.En la siguiente celda las importamos.

In [None]:
import numpy as np  #librería para análisis de datos
import pandas as pd #librería para aprendizaje automático

## Carga del dataset

Vamos a leer los datos, usando la función `read_csv` y almacenando el resultado en un DataFrame llamado `df`. A continuación mostramos las 5 primeras instancias del dataset usando el método `head` del DataFrame:

In [None]:
df = pd.read_csv("train.csv")
df.head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
0,4019.64,-1600.0,13,79,317,3
1,2191.03,-1146.08,20,54,165,2
2,2787.99,-1263.38,46,67,224,2
3,9545.98,-2848.93,26,138,554,4
4,14148.8,-2381.15,85,120,809,4


En los notebooks de Jupyter, los DataFrames de Pandas se muestran usando las tablas vistas en la celda anterior.

En este caso cada fila corresponde con un cliente, una **instancia**, y las columnas son los **descriptores** de dicha instancia.

Vamos ahora a ver las dimensiones de nuestros datos, los nombres de los descriptores, y los tipos de los descriptores.

La siguiente función nos muestra la dimensión del dataset.

In [None]:
print(df.shape)

(11999, 6)


A partir de la salida anterior, podemos ver que la tabla contiene 11.999 filas y 6 columnas.

Vamos a mostrar los nombres de las columnas usando el atributo `columns` del DataFrame:

In [None]:
print(df.columns)

Index(['SL', 'EEG', 'BP', 'HR', 'CIRCULATION', 'ACTIVITY'], dtype='object')


Nuestro dataset constituye a una recopilación de datos por cada paciente, por lo que vamos a describir cada una de las columnas (o datos). A continuación se muestra la descripción de las distintas características de este dataset.


|  Name  | Description | Value Type |
|---         |---       |---    
| **SL** | Nivel de azúcar | Numerical |
| **EEG** | Ratio monitor EEG | Numerical |
| **BP** | Presión en sangre | Numerical |
| **HR** | Ratio de latidos | Numerical |
| **CIRCULATION** | Circulación de sangre | Numerical |

Por otro lado, *ACTIVITY* es la predicción de la actividad que estaba realizando un paciente a partir de los anteriores datos. Es el que tenemos que predecir. Posibles valores:

|  Valor  | Description
|---         |---         
| **0** | De pie |
| **1** | Caminando |
| **2** | Sentado |
| **3** | Cayendo |
| **4** | Con calambres |
| **5** | Corriendo |


También podemos udar el método `info()` para mostrar información general sobre el DataFrame.

In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11999 entries, 0 to 11998
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   SL           11999 non-null  float64
 1   EEG          11999 non-null  float64
 2   BP           11999 non-null  int64  
 3   HR           11999 non-null  int64  
 4   CIRCULATION  11999 non-null  int64  
 5   ACTIVITY     11999 non-null  int64  
dtypes: float64(2), int64(4)
memory usage: 562.6 KB
None


`int64` y `float64`  son los tipos de datos de nuestros descriptores. En la celda anterior podemos ver que hacen un total de (2+4) 6 descriptores numéricos, se corresponde al número total de columnas. Con el mismo método podemos ver si faltan valores para alguna instancia gracias al count de la 4ª columna. En nuestro caso, siempre hay el mismo número que el de filas, por lo que nos asegura que todas las celdas están rellenas.

El método `describe` muestra características estadísticas básicas de cada descriptor numérico. En concreto, el número de valores nulos, la media, la desviación típica, el rango (mediante los valores mínimo y máximo), la mediana (indicado mediante el cuartil 50), y los cuartiles 0.25 y 0.75.

In [None]:
df.describe()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
count,11999.0,11999.0,11999.0,11999.0,11999.0,11999.0
mean,75660.22,-22291.12,58.483874,212.415535,2900.695058,2.368947
std,126669.2,128476.5,48.146245,130.375027,3789.822123,1.736608
min,42.2242,-3396800.0,0.0,33.0,5.0,0.0
25%,10062.2,-5889.5,25.0,120.0,587.0,0.0
50%,32435.3,-3498.58,45.0,180.0,1626.0,3.0
75%,81563.2,-2290.0,79.0,271.0,3539.0,4.0
max,2352450.0,1410000.0,533.0,981.0,41819.0,5.0


### Ordenando

Un DataFrame se puede ordenar por el valor de uno de sus descriptores. Por ejemplo, podemos ordenar nuestro dataset por el valor de nivel de azúcar en sangre: *SL*

In [None]:
df.sort_values(by='SL', ascending=False).head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
6793,2352450.0,-25390.0,302,962,38971,0
4686,1857700.0,-19959.0,200,807,40369,0
6895,1566640.0,-96449.0,163,874,37040,0
1689,1557190.0,-18151.0,178,819,34369,0
5224,1508290.0,-26917.0,139,874,41819,0


Vamos a usar esta construcción para responder a la pregunta de **¿cuál es el menor valor de nivel en sangre registrado?** Pista: (usamos `ascending=False` para ordenar en orden decreciente):

In [None]:
df.sort_values(by='SL', ascending=True).head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
2334,42.2242,-195.0,96,33,5,3
10432,43.5905,-637.0,94,33,5,4
7125,45.7832,-533.0,6,33,5,2
5257,46.0085,-262.0,6,33,5,1
11206,46.1404,-492.0,6,33,5,2


También es posible ordenar por múltiples descriptores. Vamos a utilizar dicha función para conseguir la respuesta de **¿cuál es la persona con un nivel de azúcar en sangre menor pero con una presión en sangre mayor?**

In [None]:
df.sort_values(by=['SL', 'BP'],
        ascending=[True, False]).head(10)

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
2334,42.2242,-195.0,96,33,5,3
10432,43.5905,-637.0,94,33,5,4
7125,45.7832,-533.0,6,33,5,2
5257,46.0085,-262.0,6,33,5,1
11206,46.1404,-492.0,6,33,5,2
10126,46.5214,-368.0,96,33,5,4
8802,47.4192,-460.0,8,33,5,1
446,47.7134,-336.0,6,33,5,1
8211,47.8229,-518.0,6,33,5,1
3971,47.9959,-283.0,96,33,5,3


Las respuestas aquí son claras: a un nivel de azúcar en sangre menor, los resultados ante 10 filas es que la presión en sangre es menor.

### Indexando y obteniendo datos

Un DataFrame se puede indexar de diferentes maneras.

Para obtener una única fila, se puede usar la construcción `DataFrame['Name']`. Vamos a usar esta construcción para responder a la pregunta de **¿cuál es la media de presión en sangre?**

In [None]:
df['BP'].mean()

58.48387365613801

Una presión diastólica de menos de 58 mmHg sería extremadamente baja y podría ser peligrosa para la salud. En condiciones normales, la presión arterial sistólica generalmente debe estar por encima de 90 mmHg y la presión arterial diastólica por encima de 60 mmHg.

En este caso, nuestros pacientes podrían haber sufrido mareos, desmayos, confusión...

También podemos usar el **indexado condicional**, cuya sintaxis es: `df[P(df['Name'])]`, donde  `P` es alguna condición lógica que es comprobada para cada elemento de la columna `Name`.

Vamos a utilizarlo para responder a la siguiente pregunta: **¿se podría decir que hay relación entre una presión arterial baja y el nivel de azúcar?**

In [None]:
df['SL'].mean()

75660.22427377282

In [None]:
df[df['BP'] < 58.48387365613801]['SL'].mean()

42522.62703433679

Como vemos en el anterior caso, la media del nivel de azucar es muy diferente a la media de los casos en donde la presión arterial es menor a la media calculada anteriormente. Por lo que podemos indicar una relación entre ambos atributos.

### Aplicando funciones a las celdas, columnas y filas

Para aplicar funciones a una columna se usa el método `apply()`. Por ejemplo, a continuación mostramos cómo obtener el valor máximo de los distintos descriptores del dataset.


In [None]:
df.apply(np.max)

SL             2352450.0
EEG            1410000.0
BP                 533.0
HR                 981.0
CIRCULATION      41819.0
ACTIVITY             5.0
dtype: float64

Pregunta: **¿Cómo podríamos ver los valores mínimos de los distintos descriptores del dataset?**

In [None]:
df.apply(np.min)

SL             4.222420e+01
EEG           -3.396800e+06
BP             0.000000e+00
HR             3.300000e+01
CIRCULATION    5.000000e+00
ACTIVITY       0.000000e+00
dtype: float64

También podemos cambiar el valor de las columnas. Por ejemplo en el caso de la columna ACTIVITY, podemos crear una función que nos represente a simple vista la información (no de forma numérica teniendo una leyenda).

Para ello debemos de crear una función que reemplace el número por el nivel.

In [None]:
# Definimos un diccionario para facilitar la función
asociacion = {
    0: 'De pie',
    1: 'Caminando',
    2: 'Sentado',
    3: 'Cayendo',
    4: 'Con calambres',
    5: 'Corriendo'
}

def cambioActivity(x):
  return asociacion.get(x)

Y ahora tenemos que cambiar únicamente la columna ACTIVITY por los nuevos datos

In [None]:
dfNuevo = pd.read_csv("train.csv")
dfNuevo["ACTIVITY"] = dfNuevo["ACTIVITY"].apply(cambioActivity)
dfNuevo.head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
0,4019.64,-1600.0,13,79,317,Cayendo
1,2191.03,-1146.08,20,54,165,Sentado
2,2787.99,-1263.38,46,67,224,Sentado
3,9545.98,-2848.93,26,138,554,Con calambres
4,14148.8,-2381.15,85,120,809,Con calambres


### Agrupando

En general, para hacer grupos de datos en Pandas debemos utilizar una construcción como la siguiente.


```python
df.groupby(by=grouping_columns)[columns_to_show].function()
```

1. Primero, el método `groupby` divide `grouping_columns` por sus valores, que se convierten en un nuevo índice en el dataframe resultante.
2. Seguidamente, las columnas de interés se seleccionan (`columns_to_show`). Si no se incluye `columns_to_show` se muestran todas las clausulas que no hayan sido agrupadas.
3. Finalmente, una o varias funciones se aplican para obtener los grupos por las columnas seleccionadas.

Por ejemplo, a continuación se muestra cómo agrupar los datos con respecto a los valores del descriptor  `ACTIVITY` y se muestran estadísticas del resto de atributos

In [None]:
columns_to_show = ['SL', 'EEG','BP','HR','CIRCULATION']

df.groupby(['ACTIVITY'])[columns_to_show].describe(percentiles=[])

Unnamed: 0_level_0,SL,SL,SL,SL,SL,SL,EEG,EEG,EEG,EEG,...,HR,HR,HR,HR,CIRCULATION,CIRCULATION,CIRCULATION,CIRCULATION,CIRCULATION,CIRCULATION
Unnamed: 0_level_1,count,mean,std,min,50%,max,count,mean,std,min,...,std,min,50%,max,count,mean,std,min,50%,max
ACTIVITY,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
0,3344.0,115259.184758,181722.043441,490.0,52750.5,2352450.0,3344.0,-10439.162174,98944.152707,-3396800.0,...,147.681077,35.0,228.0,981.0,3344.0,4035.958433,4875.254325,35.0,2327.0,41819.0
1,371.0,18772.605988,26779.84013,46.0085,4775.39,143758.0,371.0,-4347.166846,40809.181559,-787551.0,...,77.912161,33.0,85.0,449.0,371.0,927.053908,1263.037025,5.0,343.0,5537.0
2,1849.0,50162.730818,84833.48493,45.7832,10171.5,476183.0,1849.0,-60734.703564,218980.91525,-998816.0,...,121.927624,33.0,128.0,537.0,1849.0,2051.018388,2979.956043,5.0,587.0,15505.0
3,2625.0,74155.773681,96383.348617,42.2242,39413.5,479361.0,2625.0,-14340.714846,95613.53408,-995508.0,...,123.511765,33.0,196.0,540.0,2625.0,2946.511619,3204.935414,5.0,1922.0,15505.0
4,2569.0,63937.618342,105893.794064,43.5905,27563.8,521716.0,2569.0,-14377.418756,90557.444977,-993327.0,...,114.418725,33.0,174.0,540.0,2569.0,2613.268587,3614.996102,5.0,1415.0,18067.0
5,1241.0,51402.210873,73177.98838,49.7314,30432.4,482830.0,1241.0,-35512.76884,148018.75982,-980095.0,...,101.516783,33.0,179.0,540.0,1241.0,2195.684932,2447.928577,5.0,1747.0,15505.0


### Transformaciones de un DataFrame

En Pandas también es posible añadir columnas a un DataFrame (lo cual nos resultará útil para el método de selección secuencial hacia adelante)

Por ejemplo, si queremos poner una columna nueva que incluya la asociación de ACTIVITY, llamada `ACTIVITY_NAME`. Aprovechando la función anterior:

In [None]:
dfNuevo = pd.read_csv("train.csv")
dfNuevo.insert(loc=len(df.columns),column="ACTIVITY_NAME",value=dfNuevo['ACTIVITY'].apply(cambioActivity))
dfNuevo.head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY,ACTIVITY_NAME
0,4019.64,-1600.0,13,79,317,3,Cayendo
1,2191.03,-1146.08,20,54,165,2,Sentado
2,2787.99,-1263.38,46,67,224,2,Sentado
3,9545.98,-2848.93,26,138,554,4,Con calambres
4,14148.8,-2381.15,85,120,809,4,Con calambres


También podemos eliminar esas columnas (lo que nos resultará útil para el método de selección secuencial hacia atrás)

In [None]:
dfNuevo.drop(columns=["ACTIVITY_NAME"],inplace=True) #es necesario el inplace=True para modificar el DataFrame
dfNuevo.head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
0,4019.64,-1600.0,13,79,317,3
1,2191.03,-1146.08,20,54,165,2
2,2787.99,-1263.38,46,67,224,2
3,9545.98,-2848.93,26,138,554,4
4,14148.8,-2381.15,85,120,809,4
