<a href="https://colab.research.google.com/github/pacastl/PruebaIA/blob/main/An%C3%A1lisis_datos_dataset(P3).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Práctica 3 Parte I. Análisis de datos usando Pandas

## Principales métodos de Pandas

**[Pandas](http://pandas.pydata.org)** es una librería que proporciona una gran cantidad de métodos para el análisis de datos. Los científicos de datos suelen trabajar con datos almacenados en tablas usando ficheros con formatos como `.csv`, `.tsv`, o `.xlsx`. La librería Pandas proporciona la funcionalidad necesaria para cargar, procesar y analizar dichos datos tabulares usando *queries* al estilo SQL. 

Las principales estructuras de datos en Pandas se implementan con las clases `Series` y `DataFrame`. La primera de ellas es un array indexado de una dimensión donde todos los elementos de dicho array tienen el mismo tipo. La segunda es una estructura de dos dimensiones (es decir, una tabla) donde todos los datos de una columna tienen el mismo tipo. Los `DataFrames` son una buena manera de representar datos reales: las filas se corresponden con las instancias (ejemplos, observaciones, etc.), y las columnas corresponden a los descriptores de dichas instancias. 

Para este notebook comenzamos cargando, además de la librería pandas, la librería [numpy](http://www.numpy.org/), una librería de cálculo científico muy utilizada para aprendizaje automático en Python.

In [7]:
import numpy as np
import pandas as pd

Vamos a leer los datos, usando la función `read_csv` y almacenando el resultado en un DataFrame llamado `df`. A continuación mostramos las 5 primeras instancias del dataset usando el método `head` del DataFrame:

In [8]:
import pandas as pd

# url del repositorio de github para poder leerlos
url_train = 'https://raw.githubusercontent.com/pacastl/PruebaIA/main/train.csv'
url_test = 'https://raw.githubusercontent.com/pacastl/PruebaIA/main/test.csv'

# Leemos los CSV como Pandas DataFrames
df = pd.read_csv(url_train)
#test_df = pd.read_csv(url_test)

#otra forma de leerlos porque los descargué en mi pc
train_file = r'C:\Users\Pablo\Downloads\train.csv'
test_file = r'C:\Users\Pablo\Downloads\test.csv'

df = pd.read_csv(train_file)
test_df = pd.read_csv(test_file)
# Mostramos los datos para comprobar que se han leído
print(df.head())
print(test_df.head())



FileNotFoundError: ignored

En los notebooks de Jupyter, los DataFrames de Pandas se muestran usando las tablas vistas en la celda anterior. 

En este caso cada fila corresponde con un cliente, una **instancia**, y las columnas son los **descriptores** de dicha instancia.

Vamos ahora a ver las dimensiones de nuestros datos, los nombres de los descriptores, y los tipos de los descriptores. 

La siguiente función nos muestra la dimensión del dataset. 

In [9]:
print(df.shape)

(11999, 6)


A partir de la salida anterior, podemos ver que la tabla contiene 3333 filas y 20 columnas. 

Vamos a mostrar los nombres de las columnas usando el atributo `columns` del DataFrame:

In [10]:
print(df.columns)

Index(['SL', 'EEG', 'BP', 'HR', 'CIRCULATION', 'ACTIVITY'], dtype='object')


También podemos udar el método `info()` para mostrar información general sobre el DataFrame.

In [11]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11999 entries, 0 to 11998
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   SL           11999 non-null  float64
 1   EEG          11999 non-null  float64
 2   BP           11999 non-null  int64  
 3   HR           11999 non-null  int64  
 4   CIRCULATION  11999 non-null  int64  
 5   ACTIVITY     11999 non-null  int64  
dtypes: float64(2), int64(4)
memory usage: 562.6 KB
None


`int64`, `float64`son los tipos de datos de los descriptores

El método `describe` muestra características estadísticas básicas de cada descriptor numérico. En concreto, el número de valores nulos, la media, la desviación típica, el rango (mediante los valores mínimo y máximo), la mediana (indicado mediante el cuartil 50), y los cuartiles 0.25 y 0.75.

In [12]:
df.describe()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
count,11999.0,11999.0,11999.0,11999.0,11999.0,11999.0
mean,75660.22,-22291.12,58.483874,212.415535,2900.695058,2.368947
std,126669.2,128476.5,48.146245,130.375027,3789.822123,1.736608
min,42.2242,-3396800.0,0.0,33.0,5.0,0.0
25%,10062.2,-5889.5,25.0,120.0,587.0,0.0
50%,32435.3,-3498.58,45.0,180.0,1626.0,3.0
75%,81563.2,-2290.0,79.0,271.0,3539.0,4.0
max,2352450.0,1410000.0,533.0,981.0,41819.0,5.0


Para ver estadísticas de descriptores no númericos, es necesario indicar explícitamente los tipos de datos que nos interesan en el parámetro `include`.


### Indexando y obteniendo datos

Un DataFrame se puede indexar de diferentes maneras. 

Para obtener una única fila, se puede usar la construcción `DataFrame['Name']`. Vamos a usar esta construcción para responder a la pregunta de **¿Cuál es la proporción de abandonos de nuestra compañía?**


En el siguiente ejemplo decimos *dame los valores de las 5 primeras filas en las tres primeras columnas* (daros cuenta que estamos usando el mismo formato que utilizabamos para realizar el slicing de listas).

In [13]:
df.iloc[0:5, 0:3]

Unnamed: 0,SL,EEG,BP
0,4019.64,-1600.0,13
1,2191.03,-1146.08,20
2,2787.99,-1263.38,46
3,9545.98,-2848.93,26
4,14148.8,-2381.15,85


Si necesitamos la primera o última instancia de un dataframe podemos usar respectivamente `df[:1]` y `df[-1:]`.

In [14]:
df[:1]

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
0,4019.64,-1600.0,13,79,317,3


In [15]:
df[-1:]

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
11998,280014.0,-9684.44,68,468,9276,5


## Ejercicios

A continuación se proponen 5 preguntas y se da su respuesta 


In [16]:
# url del repositorio de github para poder leerlos
url_train = 'https://raw.githubusercontent.com/pacastl/PruebaIA/main/train.csv'
url_test = 'https://raw.githubusercontent.com/pacastl/PruebaIA/main/test.csv'

# Leemos los CSV como Pandas DataFrames
df = pd.read_csv(url_train)
#test_df = pd.read_csv(url_test)

#otra forma de leerlos porque los descargué en mi pc
train_file = r'C:\Users\Pablo\Downloads\train.csv'
test_file = r'C:\Users\Pablo\Downloads\test.csv'

#df = pd.read_csv(train_file)

Carga dicho dataset en la variable `df`.

In [17]:
df.head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
0,4019.64,-1600.0,13,79,317,3
1,2191.03,-1146.08,20,54,165,2
2,2787.99,-1263.38,46,67,224,2
3,9545.98,-2848.93,26,138,554,4
4,14148.8,-2381.15,85,120,809,4


Muestra los tipos de los distintos descriptores del dataset.

In [18]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11999 entries, 0 to 11998
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   SL           11999 non-null  float64
 1   EEG          11999 non-null  float64
 2   BP           11999 non-null  int64  
 3   HR           11999 non-null  int64  
 4   CIRCULATION  11999 non-null  int64  
 5   ACTIVITY     11999 non-null  int64  
dtypes: float64(2), int64(4)
memory usage: 562.6 KB
None


¿Cuál es la tasa de actividad media de los pacientes con una lectura de EEG superior a 75?

In [19]:
df[df['EEG'] > 75]['ACTIVITY'].mean()

3.261904761904762

¿Cuántos pacientes tienen una presión arterial (BP) superior a 120 y una frecuencia cardíaca (HR) superior a 80?

In [20]:
df[(df['BP'] > 120) & (df['HR'] > 80)].shape[0]

1106

¿Cuántos registros hay en cada combinación de valores de la actividad y la presión arterial (BP)?

In [21]:
pd.crosstab(df['BP'], df['ACTIVITY'])


ACTIVITY,0,1,2,3,4,5
BP,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,1,0,3,5,5,3
1,3,0,0,0,0,0
2,4,0,0,0,0,1
3,10,0,0,0,0,7
4,13,0,1,5,1,6
...,...,...,...,...,...,...
468,1,0,0,0,0,0
479,1,0,0,0,0,0
480,1,0,0,0,0,0
506,1,0,0,0,0,0


¿Cuál es el valor promedio de la actividad del sujeto cuando su nivel de sueño es mayor o igual a 8?

In [22]:
df[df['SL'] >= 8]['ACTIVITY'].mean()

2.3689474122843572

¿Cuál es la actividad con la duración promedio más larga y cuál es la duración promedio correspondiente en minutos?

In [23]:
# Calcular la duración de cada actividad
threshold = 5  # umbral de tiempo para considerar que se inicia una nueva actividad
df['duration'] = df.groupby('ACTIVITY')['SL'].diff().fillna(0)
df['activity_change'] = df['duration'] > threshold
df['activity_id'] = df['activity_change'].cumsum()

# Agrupar por actividad y calcular la duración promedio
grouped = df.groupby('ACTIVITY')['duration'].mean()

# Imprimir resultados
print(grouped)


ACTIVITY
0     22.457237
1   -185.515961
2     18.683597
3     13.558461
4      6.701059
5    219.723779
Name: duration, dtype: float64


Es la actividad 5, con una duración promedio de 219.72 minutos.