<a href="https://colab.research.google.com/github/pacastl/PruebaIA/blob/main/An%C3%A1lisis_datos_dataset(P3).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Práctica 3 Parte I. Análisis de datos usando Pandas

En este primer notebook vamos a ver cómo se utiliza la librería Pandas para el análisis de datos. En el notebook se combinan explicaciones junto con celdas de código, que deberás ir ejecutando, y con ejercicios que deberás ir completando. Es importante que no dejes sin ejecutar ninguna de las celdas de código, ya que de lo contrario puedes obtener errores. En caso de que en algún momento veas una celda con el texto *n hidden cells*, debes pulsar sobre ella para que se expanda.  

Recuerda que para que los cambios realizados se almacenen en el repositorio debes usar la opción *Save a copy in GitHub...* del menú *File*. 



## Principales métodos de Pandas

**[Pandas](http://pandas.pydata.org)** es una librería que proporciona una gran cantidad de métodos para el análisis de datos. Los científicos de datos suelen trabajar con datos almacenados en tablas usando ficheros con formatos como `.csv`, `.tsv`, o `.xlsx`. La librería Pandas proporciona la funcionalidad necesaria para cargar, procesar y analizar dichos datos tabulares usando *queries* al estilo SQL. 

Las principales estructuras de datos en Pandas se implementan con las clases `Series` y `DataFrame`. La primera de ellas es un array indexado de una dimensión donde todos los elementos de dicho array tienen el mismo tipo. La segunda es una estructura de dos dimensiones (es decir, una tabla) donde todos los datos de una columna tienen el mismo tipo. Los `DataFrames` son una buena manera de representar datos reales: las filas se corresponden con las instancias (ejemplos, observaciones, etc.), y las columnas corresponden a los descriptores de dichas instancias. 

Para este notebook comenzamos cargando, además de la librería pandas, la librería [numpy](http://www.numpy.org/), una librería de cálculo científico muy utilizada para aprendizaje automático en Python.

In [4]:
import numpy as np
import pandas as pd

Vamos a demostrar los principales métodos de pandas usando un [dataset de la fidelidad de clientes de una compañía de telefonía](https://bigml.com/user/francisco/gallery/dataset/5163ad540c0b5e5b22000383). Lo primero que hacemos es descargar dicho dataset. 

In [None]:
!wget https://raw.githubusercontent.com/IA1819/Datasets/master/telecom_churn.csv -O telecom_churn.csv

--2023-03-29 13:13:06--  https://raw.githubusercontent.com/IA1819/Datasets/master/telecom_churn.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.111.133, 185.199.108.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.111.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 279997 (273K) [text/plain]
Saving to: ‘telecom_churn.csv’


2023-03-29 13:13:07 (8.50 MB/s) - ‘telecom_churn.csv’ saved [279997/279997]



Vamos a leer los datos, usando la función `read_csv` y almacenando el resultado en un DataFrame llamado `df`. A continuación mostramos las 5 primeras instancias del dataset usando el método `head` del DataFrame:

In [None]:
import pandas as pd

# url del repositorio de github para poder leerlos
url_train = 'https://raw.githubusercontent.com/pacastl/PruebaIA/main/train.csv'
url_test = 'https://raw.githubusercontent.com/pacastl/PruebaIA/main/test.csv'

# Leemos los CSV como Pandas DataFrames
df = pd.read_csv(url_train)
#test_df = pd.read_csv(url_test)

#otra forma de leerlos porque los descargué en mi pc
train_file = r'C:\Users\Pablo\Downloads\train.csv'
test_file = r'C:\Users\Pablo\Downloads\test.csv'

df = pd.read_csv(train_file)
test_df = pd.read_csv(test_file)
# Mostramos los datos para comprobar que se han leído
print(df.head())
print(test_df.head())



         SL      EEG  BP   HR  CIRCULATION  ACTIVITY
0   4019.64 -1600.00  13   79          317         3
1   2191.03 -1146.08  20   54          165         2
2   2787.99 -1263.38  46   67          224         2
3   9545.98 -2848.93  26  138          554         4
4  14148.80 -2381.15  85  120          809         4
         SL      EEG  BP   HR  CIRCULATION
0  28146.00 -3670.00  29  194         1521
1  12064.90 -1796.28   8  105          765
2   3041.75 -1220.95  35   71          249
3   9918.52 -2570.00  44  154          587
4  26464.00 -3133.00  34  161         1523


En los notebooks de Jupyter, los DataFrames de Pandas se muestran usando las tablas vistas en la celda anterior. 

En este caso cada fila corresponde con un cliente, una **instancia**, y las columnas son los **descriptores** de dicha instancia.

Vamos ahora a ver las dimensiones de nuestros datos, los nombres de los descriptores, y los tipos de los descriptores. 

La siguiente función nos muestra la dimensión del dataset. 

In [None]:
print(df.shape)

(11999, 6)


A partir de la salida anterior, podemos ver que la tabla contiene 3333 filas y 20 columnas. 

Vamos a mostrar los nombres de las columnas usando el atributo `columns` del DataFrame:

In [None]:
print(df.columns)

Index(['SL', 'EEG', 'BP', 'HR', 'CIRCULATION', 'ACTIVITY'], dtype='object')


También podemos udar el método `info()` para mostrar información general sobre el DataFrame.

In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11999 entries, 0 to 11998
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   SL           11999 non-null  float64
 1   EEG          11999 non-null  float64
 2   BP           11999 non-null  int64  
 3   HR           11999 non-null  int64  
 4   CIRCULATION  11999 non-null  int64  
 5   ACTIVITY     11999 non-null  int64  
dtypes: float64(2), int64(4)
memory usage: 562.6 KB
None


`bool`, `int64`, `float64` y `object` son los tipos de datos de nuestros descriptores. En la celda anterior podemos ver que hay un descriptor lógico (de tipo `bool`), 3 descriptores categóricos (los de tipo `object`), y 16 descriptores numéricos. Con el mismo método podemos ver si faltan valores para alguna instancia. Aquí vemos que no ya que cada columna contiene 3333  observaciones, el mismo número de filas que vimos anteriormente con `shape`.

Es posible cambiar el tipo de una  columna con el método `astype`. Vamos aplicar este método al descriptor `Churn` para convertirlo al tipo `int64`:

In [5]:
df['Churn'] = df['Churn'].astype('int64')

NameError: ignored

El método `describe` muestra características estadísticas básicas de cada descriptor numérico. En concreto, el número de valores nulos, la media, la desviación típica, el rango (mediante los valores mínimo y máximo), la mediana (indicado mediante el cuartil 50), y los cuartiles 0.25 y 0.75.

In [None]:
df.describe()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
count,11999.0,11999.0,11999.0,11999.0,11999.0,11999.0
mean,75660.22,-22291.12,58.483874,212.415535,2900.695058,2.368947
std,126669.2,128476.5,48.146245,130.375027,3789.822123,1.736608
min,42.2242,-3396800.0,0.0,33.0,5.0,0.0
25%,10062.2,-5889.5,25.0,120.0,587.0,0.0
50%,32435.3,-3498.58,45.0,180.0,1626.0,3.0
75%,81563.2,-2290.0,79.0,271.0,3539.0,4.0
max,2352450.0,1410000.0,533.0,981.0,41819.0,5.0


Para ver estadísticas de descriptores no númericos, es necesario indicar explícitamente los tipos de datos que nos interesan en el parámetro `include`.

In [None]:
df.describe(include=['object', 'bool'])

Para descriptores categóricos (de tipo `object`) y booleanos (tipo `bool`), podemos usar el método `value_counts`. Vamos a ver la distribución de valores del descriptor `Churn` (que indica si un cliente es leal a la empresa):

In [None]:
df['Churn'].value_counts()

2850 usuarios son leales a la empresa, su valor de `Churn` es 0. Para calcular porcentajes, hay que pasar `normalize=True` a la función `value_counts`.

In [None]:
df['Churn'].value_counts(normalize=True)


### Ordenando

Un DataFrame se puede ordenar por el valor de uno de sus descriptores. Por ejemplo, podemos ordenar nuestro dataset por el valor de *Total day charge* (usamos `ascending=False` para ordenar en orden decreciente):


In [None]:
df.sort_values(by='Total day charge', ascending=False).head()

KeyError: ignored

También es posible ordenar por múltiples descriptores. 

In [None]:
df.sort_values(by=['Churn', 'Total day charge'],
        ascending=[True, False]).head()

KeyError: ignored


### Indexando y obteniendo datos

Un DataFrame se puede indexar de diferentes maneras. 

Para obtener una única fila, se puede usar la construcción `DataFrame['Name']`. Vamos a usar esta construcción para responder a la pregunta de **¿Cuál es la proporción de abandonos de nuestra compañía?**


In [None]:
df['Churn'].mean()


El 14.5%, un valor bastante malo. 

El **indexado condicional** de una columna también es algo muy útil. La sintaxix es `df[P(df['Name'])]`, donde  `P` es alguna condición lógica que es comprobada para cada elemento de la columna `Name`. El resultado de dicho indexado es el Dataframe que consta solo de las filas que satisfacen la condición `P` en la columna `Name`.

Vamos a usar esto para responder a las siguientes preguntas: **¿Cuál es la media de los atributos numéricos de los usuarios que abandonan la compañía?**


In [None]:
df[df['Churn'] == 1].mean()

KeyError: ignored

**¿Cuánto tiempo (en media) pasan los clientes que abandonan la compañía hablando por telefono durante el día?**

In [None]:
df[df['Churn'] == 1]['Total day minutes'].mean()

KeyError: ignored

**¿Cuál es la duración máxima de las llamadas internacionales entre los clientes fieles (`Churn == 0`) que no tienen un plan internacional?**



In [None]:
df[(df['Churn'] == 0) & (df['International plan'] == 'No')]['Total intl minutes'].max()

KeyError: ignored

Los DataFrames se pueden indexar por el nombre de la columna (etiqueta), por el nombre de la fila (índice) o por el número de serie de una fila. El método `loc` se usa para indexar por nombre, mientras que el método `iloc()` se utiliza para indexar por número. 

En el siguiente ejemplo, estamos diciendo *dame los valores de las filas con los índices de 0 a 5 (ambos incluídos) y de las columnas de State a Area code (ambas incluídas)*. 


In [None]:
df.loc[0:5, 'State':'Area code']

KeyError: ignored

En el siguiente ejemplo decimos *dame los valores de las 5 primeras filas en las tres primeras columnas* (daros cuenta que estamos usando el mismo formato que utilizabamos para realizar el slicing de listas).

In [None]:
df.iloc[0:5, 0:3]

Unnamed: 0,SL,EEG,BP
0,4019.64,-1600.0,13
1,2191.03,-1146.08,20
2,2787.99,-1263.38,46
3,9545.98,-2848.93,26
4,14148.8,-2381.15,85


Si necesitamos la primera o última instancia de un dataframe podemos usar respectivamente `df[:1]` y `df[-1:]`.

In [None]:
df[:1]

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
0,4019.64,-1600.0,13,79,317,3


In [None]:
df[-1:]

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
11998,280014.0,-9684.44,68,468,9276,5



### Aplicando funciones a las celdas, columnas y filas

Para aplicar funciones a una columna se usa el método `apply()`. Por ejemplo, a continuación mostramos cómo obtener el valor máximo de los distintos descriptores del dataset. 


In [None]:
df.apply(np.max) 

SL             2352450.0
EEG            1410000.0
BP                 533.0
HR                 981.0
CIRCULATION      41819.0
ACTIVITY             5.0
dtype: float64

El método `apply` también se puede aplicar a las filas. Para ello es necesario especificar `axis=1`. La funciones lambda suelen ser muy útiles en estos casos. Por ejemplo, si necesitamos seleccionar todos los estados que comienzan por W podemos hacer algo como lo siguiente:

In [None]:
df[df['State'].apply(lambda state: state[0] == 'W')].head()

KeyError: ignored

El método `map` se puede utilizar para reemplazar valores en una columna pasándole un diccionario de la forma `{old_value: new_value}` como argumento:

In [None]:
d = {'No' : False, 'Yes' : True}
df['International plan'] = df['International plan'].map(d)
df.head()

KeyError: ignored

Lo mismo se puede hacer con el método `replace`:

In [None]:
df = df.replace({'Voice mail plan': d})
df.head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
0,4019.64,-1600.0,13,79,317,3
1,2191.03,-1146.08,20,54,165,2
2,2787.99,-1263.38,46,67,224,2
3,9545.98,-2848.93,26,138,554,4
4,14148.8,-2381.15,85,120,809,4



### Agrupando

En general, para hacer grupos de datos en Pandas debemos utilizar una construcción como la siguiente. 



```python
df.groupby(by=grouping_columns)[columns_to_show].function()
```

1. Primero, el método `groupby` divide `grouping_columns` por sus valores, que se convierten en un nuevo índice en el dataframe resultante.
2. Seguidamente, las columnas de interés se seleccionan (`columns_to_show`). Si no se incluye `columns_to_show` se muestran todas las clausulas que no hayan sido agrupadas.
3. Finalmente, una o varias funciones se aplican para obtener los grupos por las columnas seleccionadas.

Por ejemplo, a continuación se muestra cómo agrupar los datos con respecto a los valores del descriptor  `Churn` y se muestran estadísticas de tres columnas para cada grupo:

In [None]:
columns_to_show = ['Total day minutes', 'Total eve minutes', 
                   'Total night minutes']

df.groupby(['Churn'])[columns_to_show].describe(percentiles=[])

KeyError: ignored

Vamos a hacer algo parecido, pero en este caso pasando una lista de funciones a `agg()`:

In [None]:
columns_to_show = ['Total day minutes', 'Total eve minutes', 
                   'Total night minutes']

df.groupby(['Churn'])[columns_to_show].agg([np.mean, np.std, np.min, np.max])

KeyError: ignored


### Tablas resumen

Suponed que queremos ver cómo las muestras de nuestro dataset se distribuyen en el contexto de dos variables: `Churn` e `International plan`. Para ello podemos construir una tabla de contingencia usando el método `crosstab`:



In [None]:
pd.crosstab(df['Churn'], df['International plan'])

International plan,False,True
Churn,Unnamed: 1_level_1,Unnamed: 2_level_1
0,2664,186
1,346,137


Podemos ver que la mayoría de usuarios son leales a la compañía (Churn 0) y que no usan un Plan Internacional (International plan con valor False), 2664 usuarios. 


### Transformaciones de un DataFrame 

En Pandas también es posible añadir columnas a un DataFrame.

Por ejemplo, si queremos calcular el número total de llamadas para cada usuario podemos crear un objeto de tipo Series llamado `total_calls` y pegarlo en el DataFrame:



In [None]:
total_calls = df['Total day calls'] + df['Total eve calls'] + \
              df['Total night calls'] + df['Total intl calls']
df.insert(loc=len(df.columns), column='Total calls', value=total_calls) 
# El parámetro loc indica la posición detrás de la que se insertará el objeto Series.
# En este caso queremos insertarlo al final, por lo que usamos el valor de len(df.columns).
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,...,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn,Total calls
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,...,16.78,244.7,91,11.01,10.0,3,2.7,1,0,303
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,...,16.62,254.4,103,11.45,13.7,3,3.7,1,0,332
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,...,10.3,162.6,104,7.32,12.2,5,3.29,0,0,333
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,...,5.26,196.9,89,8.86,6.6,7,1.78,2,0,255
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,...,12.61,186.9,121,8.41,10.1,3,2.73,3,0,359


También es posible crear una columna sin necesidad de usar un objeto de tipo Series. Por ejemplo, a continuación mostramos cómo crear una columna con el coste total de las llamadas para cada usuario. 

In [None]:
df['Total charge'] = df['Total day charge'] + df['Total eve charge'] + \
                     df['Total night charge'] + df['Total intl charge']
df.head()

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,...,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn,Total calls,Total charge
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,...,244.7,91,11.01,10.0,3,2.7,1,0,303,75.56
1,OH,107,415,False,True,26,161.6,123,27.47,195.5,...,254.4,103,11.45,13.7,3,3.7,1,0,332,59.24
2,NJ,137,415,False,False,0,243.4,114,41.38,121.2,...,162.6,104,7.32,12.2,5,3.29,0,0,333,62.29
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,...,196.9,89,8.86,6.6,7,1.78,2,0,255,66.8
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,...,186.9,121,8.41,10.1,3,2.73,3,0,359,52.09


Para eliminar filas o columnas se usa el método `drop` al que se le pasan los índices requeridos y el parámetro `axis` (donde `1` indica que eliminas columnas, y `0` o nada que eliminas filas). El argumento `inplace` indica si se cambia el DataFrame original (con `inplace=False`, el método `drop` no cambia el DataFrame existente y devuelve un nuevo Dataframe donde se han eliminado las filas o columnas; con `inplace=True`, por el contrario, se modifica el DataFrame).

In [None]:
df.drop(['Total charge', 'Total calls'], axis=1, inplace=True) 
df.drop([1, 2]).head() 

Unnamed: 0,State,Account length,Area code,International plan,Voice mail plan,Number vmail messages,Total day minutes,Total day calls,Total day charge,Total eve minutes,Total eve calls,Total eve charge,Total night minutes,Total night calls,Total night charge,Total intl minutes,Total intl calls,Total intl charge,Customer service calls,Churn
0,KS,128,415,False,True,25,265.1,110,45.07,197.4,99,16.78,244.7,91,11.01,10.0,3,2.7,1,0
3,OH,84,408,True,False,0,299.4,71,50.9,61.9,88,5.26,196.9,89,8.86,6.6,7,1.78,2,0
4,OK,75,415,True,False,0,166.7,113,28.34,148.3,122,12.61,186.9,121,8.41,10.1,3,2.73,3,0
5,AL,118,510,True,False,0,223.4,98,37.98,220.6,101,18.75,203.9,118,9.18,6.3,6,1.7,0,0
6,MA,121,510,False,True,24,218.2,88,37.09,348.5,108,29.62,212.6,118,9.57,7.5,7,2.03,3,0


## Ejercicios

A continuación se proponen una serie de ejercicios con un nuevo dataset. 

Comenzamos descargando el dataset de los supervivientes del Titanic. 

In [8]:
# url del repositorio de github para poder leerlos
url_train = 'https://raw.githubusercontent.com/pacastl/PruebaIA/main/train.csv'
url_test = 'https://raw.githubusercontent.com/pacastl/PruebaIA/main/test.csv'

# Leemos los CSV como Pandas DataFrames
df = pd.read_csv(url_train)
#test_df = pd.read_csv(url_test)

#otra forma de leerlos porque los descargué en mi pc
train_file = r'C:\Users\Pablo\Downloads\train.csv'
test_file = r'C:\Users\Pablo\Downloads\test.csv'

#df = pd.read_csv(train_file)

Carga dicho dataset en la variable `df`.

In [9]:
df = pd.read_csv(url_train)

Muestra las primeras instancias de dicho dataset.

In [None]:
df.head()

Unnamed: 0,SL,EEG,BP,HR,CIRCULATION,ACTIVITY
0,4019.64,-1600.0,13,79,317,3
1,2191.03,-1146.08,20,54,165,2
2,2787.99,-1263.38,46,67,224,2
3,9545.98,-2848.93,26,138,554,4
4,14148.8,-2381.15,85,120,809,4


Muestra los tipos de los distintos descriptores del dataset.

In [None]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11999 entries, 0 to 11998
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   SL           11999 non-null  float64
 1   EEG          11999 non-null  float64
 2   BP           11999 non-null  int64  
 3   HR           11999 non-null  int64  
 4   CIRCULATION  11999 non-null  int64  
 5   ACTIVITY     11999 non-null  int64  
dtypes: float64(2), int64(4)
memory usage: 562.6 KB
None


¿Cuál es la tasa de actividad media de los pacientes con una lectura de EEG superior a 75?

In [None]:
df[df['EEG'] > 75]['ACTIVITY'].mean()

3.261904761904762

¿Cuántos pacientes tienen una presión arterial (BP) superior a 120 y una frecuencia cardíaca (HR) superior a 80?

In [None]:
df[(df['BP'] > 120) & (df['HR'] > 80)].shape[0]

1106

**Respuesta**:

¿Cuántos registros hay en cada combinación de valores de la actividad y la presión arterial (BP)?

In [13]:
pd.crosstab(df['BP'], df['ACTIVITY'])


ACTIVITY,0,1,2,3,4,5
BP,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,1,0,3,5,5,3
1,3,0,0,0,0,0
2,4,0,0,0,0,1
3,10,0,0,0,0,7
4,13,0,1,5,1,6
...,...,...,...,...,...,...
468,1,0,0,0,0,0
479,1,0,0,0,0,0
480,1,0,0,0,0,0
506,1,0,0,0,0,0


¿Cuál es el valor promedio de la actividad del sujeto cuando su nivel de sueño es mayor o igual a 8?

In [None]:
df[df['SL'] >= 8]['ACTIVITY'].mean()

¿Cuál es la actividad con la duración promedio más larga y cuál es la duración promedio correspondiente en minutos?

In [25]:
# Calcular la duración de cada actividad
threshold = 5  # umbral de tiempo para considerar que se inicia una nueva actividad
df['duration'] = df.groupby('ACTIVITY')['SL'].diff().fillna(0)
df['activity_change'] = df['duration'] > threshold
df['activity_id'] = df['activity_change'].cumsum()

# Agrupar por actividad y calcular la duración promedio
grouped = df.groupby('ACTIVITY')['duration'].mean()

# Imprimir resultados
print(grouped)


ACTIVITY
0     22.457237
1   -185.515961
2     18.683597
3     13.558461
4      6.701059
5    219.723779
Name: duration, dtype: float64


Es la actividad 5, con una duración promedio de 219.72 minutos.