![Logo de AA1](logo_AA1_texto_small.png) 
# Sesión 2 - Pandas I
En esta práctica vamos a ver algunas funcionales interesantes de la librería `pandas` para el tratamiento y preparación de los datos mediante el uso de `DataFrames`.

**IMPORTANTE**: las funciones que vamos a ver en esta práctica pueden utilizarse de diversas maneras y con diferentes parámetros, lo que hará que su comportamiento varíe. Esta práctica no pretende explicar todoas las funcionalidades de la librería `pandas` (se necesitarían muchas horas para ello) sino que pretende únicamente ser una introducción a algunas de las características más importantes que tiene esta librería de cara a su uso en el tratamiento de conjuntos de datos. Información más detallada podréis encontrar en <https://pandas.pydata.org/docs/index.html>

Para ello vamos a trabajar con el conjunto de datos **Irish_certificate.xlsx**. Lo primero que haremos será cargar los datos como ya vimos en sesiones anteriores:

In [1]:
# se importa la librería pandas nombrándola pd
import pandas as pd

# cargamos los datos de una hoja Excel
df = pd.read_excel('Irish_certificate.xlsx', sheet_name='Data', header=0)

display(df)

Unnamed: 0,Sex,DVRT,Educational_level,Prestige_score,Type_school,Leaving_certificate
0,male,113,Junior_cycle_incomplete-secondary_school,28.0,secondary,not_taken
1,male,101,Primary_terminal_leaver,28.0,primary_terminal_leaver,not_taken
2,male,110,Senior_cycle_terminal_leaver-secondary_school,69.0,secondary,taken
3,male,121,Junior_cycle_terminal_leaver-secondary_school,57.0,secondary,not_taken
4,male,82,Junior_cycle_terminal_leaver-vocational_school,18.0,vocational,not_taken
...,...,...,...,...,...,...
495,male,137,3rd_level_complete,62.0,secondary,taken
496,male,136,3rd_level_complete,18.0,secondary,taken
497,male,132,3rd_level_complete,37.0,secondary,taken
498,female,135,3rd_level_complete,62.0,secondary,taken


## 2.1 Ver parte del `DataFrame` y algunas estadísticas
Al imprimir el `DataFrame` que hemos cargado en la variable `df`, podemos ver un resumen de los datos contenidos. A la izquierda aparece el índice que se ha asignado a cada uno de los ejemplos (cada fila es un ejemplo) y en la parte superior vemos el nombre de cada columna.

Como vemos, los datos que almacena un `DataFrame`pueden ser de cualquier tipo (`str`, `float`, `int`, `boolean`,...).

Además, en la parte inferior ya nos indica que contiene 500 filas y 6 columnas. **Es importante tener en cuenta que los índices que se asignan tanto a filas como a columnas empiezan en 0**.

Si queremos podemos mostrar únicamente los primero ejemplos o los últimos utilizando `head()` y `tail()`:


In [2]:
print('\n############## Inicio ##############')
# se imprimen las primeras filas (se puede indicar cuántas)
display(df.head())

print('\n############## Final ##############')
# se imprimen las últimas filas (se puede indicar cuántas)
display(df.tail())


############## Inicio ##############


Unnamed: 0,Sex,DVRT,Educational_level,Prestige_score,Type_school,Leaving_certificate
0,male,113,Junior_cycle_incomplete-secondary_school,28.0,secondary,not_taken
1,male,101,Primary_terminal_leaver,28.0,primary_terminal_leaver,not_taken
2,male,110,Senior_cycle_terminal_leaver-secondary_school,69.0,secondary,taken
3,male,121,Junior_cycle_terminal_leaver-secondary_school,57.0,secondary,not_taken
4,male,82,Junior_cycle_terminal_leaver-vocational_school,18.0,vocational,not_taken



############## Final ##############


Unnamed: 0,Sex,DVRT,Educational_level,Prestige_score,Type_school,Leaving_certificate
495,male,137,3rd_level_complete,62.0,secondary,taken
496,male,136,3rd_level_complete,18.0,secondary,taken
497,male,132,3rd_level_complete,37.0,secondary,taken
498,female,135,3rd_level_complete,62.0,secondary,taken
499,female,134,3rd_level_complete,,secondary,taken


Los `DataFrames` también cuentan con la propiedad `shape` para obtener el número de filas y de columnas del mismo. Además, el método `describe()` nos mostrará una serie de estadísticas de las columnas de tipo numérico.

In [3]:
# se obtiene el número de filas y columnas
filas, columnas = df.shape
print("\nDimensión:", filas, "x", columnas)

print('\n############## Estadísticas de las columnas numéricas ##############')
display(df.describe())


Dimensión: 500 x 6

############## Estadísticas de las columnas numéricas ##############


Unnamed: 0,DVRT,Prestige_score
count,500.0,474.0
mean,100.152,38.934599
std,15.456348,15.333707
min,65.0,18.0
25%,90.0,28.0
50%,101.0,37.0
75%,111.0,46.0
max,140.0,75.0


## 2.2 Acceso a los elementos del `DataFrame`
Para acceder a elementos concretos del `DataFrame` disponemos de `iloc[]` y de `loc[]`.
- `iloc[]` se utiliza cuando queremos acceder a determinadas posiciones del `DataFrame` utilizando su índice numérico
- `loc[]` se utiliza cuando queremos acceder utilizando etiquetas o utilizando un array booleano. También se puede utilizar *slicing* tanto de etiquetas como de índices, pero hay que tener en cuenta una cosa importante: **en contra de lo que es habitual con el slice en Python, ambos extremos son incluidos**. Más info: <https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html?highlight=loc#pandas.DataFrame.loc>

Ya sea explícita o implícitamente, los `DataFrames` siempre tienen identificadas las filas y las columnas mediante índices. Si se da nombre a las filas o a las columnas, entonces en la visualización del `DataFrame` aparecerán esas etiquetas, aunque los índices numéricos siempre estarán disponibles para su uso.

Veamos algunos ejemplo de uso de `iloc[]`:

In [4]:
print('\n############## Se muestra el ejemplo en la posición 0 ##############')
display(df.iloc[0])

print('\n############## Se muestra el dato en la posición [0, 4] ##############')
display(df.iloc[0, 4])

print('\n############## Se muestran los ejemplos en las posiciones 1 y 2 ##############')
display(df.iloc[1:3])

print('\n############## Se muestran los datos en las posiciones 1 y 2 (de la columna 3 en adelante) ##############')
display(df.iloc[1:3,3:])


############## Se muestra el ejemplo en la posición 0 ##############


Sex                                                        male
DVRT                                                        113
Educational_level      Junior_cycle_incomplete-secondary_school
Prestige_score                                             28.0
Type_school                                           secondary
Leaving_certificate                                   not_taken
Name: 0, dtype: object


############## Se muestra el dato en la posición [0, 4] ##############


'secondary'


############## Se muestran los ejemplos en las posiciones 1 y 2 ##############


Unnamed: 0,Sex,DVRT,Educational_level,Prestige_score,Type_school,Leaving_certificate
1,male,101,Primary_terminal_leaver,28.0,primary_terminal_leaver,not_taken
2,male,110,Senior_cycle_terminal_leaver-secondary_school,69.0,secondary,taken



############## Se muestran los datos en las posiciones 1 y 2 (de la columna 3 en adelante) ##############


Unnamed: 0,Prestige_score,Type_school,Leaving_certificate
1,28.0,primary_terminal_leaver,not_taken
2,69.0,secondary,taken


Como vemos, dentro de los corchetes del `iloc` podemos indicar únicamente filas o filas y columnas. Además, también se puede utilizar el *slicing* (`:`) para seleccionar grupos de datos.

Vamos a ver un par de ejemplos de acceso mediante etiquetas utilizando `loc[]`:

In [5]:
print('\n############## Se muestra el "Educational_Level" de todos los ejemplos ##############')
display(df.loc[:,'Educational_level'])

print('\n############## Se muestra el "Educational_Level" de 5 ejemplos ##############')
display(df.loc[100:105,'Educational_level'])
print('\nOJO: se incluyeron ambos extremos del slice')


############## Se muestra el "Educational_Level" de todos los ejemplos ##############


0            Junior_cycle_incomplete-secondary_school
1                             Primary_terminal_leaver
2       Senior_cycle_terminal_leaver-secondary_school
3       Junior_cycle_terminal_leaver-secondary_school
4      Junior_cycle_terminal_leaver-vocational_school
                            ...                      
495                                3rd_level_complete
496                                3rd_level_complete
497                                3rd_level_complete
498                                3rd_level_complete
499                                3rd_level_complete
Name: Educational_level, Length: 500, dtype: object


############## Se muestra el "Educational_Level" de 5 ejemplos ##############


100    Junior_cycle_terminal_leaver-vocational_school
101     Junior_cycle_terminal_leaver-secondary_school
102     Senior_cycle_terminal_leaver-secondary_school
103     Junior_cycle_terminal_leaver-secondary_school
104     Senior_cycle_terminal_leaver-secondary_school
105    Junior_cycle_terminal_leaver-vocational_school
Name: Educational_level, dtype: object


OJO: se incluyeron ambos extremos del slice


Y ahora el uso de `loc[]` mediante un array de `boolean`que se obtiene mediante una comparación dentro del propio `DataFrame`:

In [6]:
print('\n############## Se utiliza una máscara booleana para mostrar los de tercer nivel imcompleto ##############')
display(df.loc[df['Educational_level'] == '3rd_level_incomplete'])


############## Se utiliza una máscara booleana para mostrar los de tercer nivel imcompleto ##############


Unnamed: 0,Sex,DVRT,Educational_level,Prestige_score,Type_school,Leaving_certificate
164,male,104,3rd_level_incomplete,69.0,secondary,taken
340,female,114,3rd_level_incomplete,57.0,secondary,taken
378,female,109,3rd_level_incomplete,43.0,secondary,taken
465,male,119,3rd_level_incomplete,69.0,secondary,taken
472,male,121,3rd_level_incomplete,37.0,secondary,taken
473,male,129,3rd_level_incomplete,,secondary,taken
490,male,134,3rd_level_incomplete,62.0,secondary,taken


## 2.3 Reemplazar datos
También se pueden reemplazar cadenas dentro de un `DataFrame` mediante el uso de `replace()`:

In [7]:
df = df.replace('female','girl')
display(df)

Unnamed: 0,Sex,DVRT,Educational_level,Prestige_score,Type_school,Leaving_certificate
0,male,113,Junior_cycle_incomplete-secondary_school,28.0,secondary,not_taken
1,male,101,Primary_terminal_leaver,28.0,primary_terminal_leaver,not_taken
2,male,110,Senior_cycle_terminal_leaver-secondary_school,69.0,secondary,taken
3,male,121,Junior_cycle_terminal_leaver-secondary_school,57.0,secondary,not_taken
4,male,82,Junior_cycle_terminal_leaver-vocational_school,18.0,vocational,not_taken
...,...,...,...,...,...,...
495,male,137,3rd_level_complete,62.0,secondary,taken
496,male,136,3rd_level_complete,18.0,secondary,taken
497,male,132,3rd_level_complete,37.0,secondary,taken
498,girl,135,3rd_level_complete,62.0,secondary,taken


En esta instrucción hemos reemplazado "female" por "girl" y el `DataFrame` que devuelve la instrucción lo hemos asignado a la misma variable `df` que estábamos utilizando. 

Esto mismo podríamos haberlo logrado utilizando el parámetro `inplace=True` y habríamos modificado `df` sin necesidad de tener que realizar la autoasignación. No lo hemos hecho así porque en determinadas circunstacias, cuando se encadenan varias órdenes dentro de la misma instrucción, a veces, el uso de `inplace` genera situaciones no controladas que llevan a resultados inesperados difíciles de depurar. Hay otros métodos que también cuentan este parámetro.

En la siguiente instrucción se hace otro reemplazo similar:

In [8]:
df = df.replace('male','boy')
display(df)

Unnamed: 0,Sex,DVRT,Educational_level,Prestige_score,Type_school,Leaving_certificate
0,boy,113,Junior_cycle_incomplete-secondary_school,28.0,secondary,not_taken
1,boy,101,Primary_terminal_leaver,28.0,primary_terminal_leaver,not_taken
2,boy,110,Senior_cycle_terminal_leaver-secondary_school,69.0,secondary,taken
3,boy,121,Junior_cycle_terminal_leaver-secondary_school,57.0,secondary,not_taken
4,boy,82,Junior_cycle_terminal_leaver-vocational_school,18.0,vocational,not_taken
...,...,...,...,...,...,...
495,boy,137,3rd_level_complete,62.0,secondary,taken
496,boy,136,3rd_level_complete,18.0,secondary,taken
497,boy,132,3rd_level_complete,37.0,secondary,taken
498,girl,135,3rd_level_complete,62.0,secondary,taken


## 2.4 Algunas estadísticas
Se pueden calcular estadísticas sobre las columnas numéricas mediante el uso de métodos que ya tiene el `DataFrame`:

In [9]:
print('\n############## Estadísticas de una columna ##############')
print('Maximum:', df['DVRT'].max()) 
print('Minimum:', df['DVRT'].min()) 
print('Mean:', df['DVRT'].mean()) 
print('Sum:', df['DVRT'].sum()) 
print('Count:', df['DVRT'].count())

print('\n############## Número de datos en cada columna ##############')
display(df.count())


############## Estadísticas de una columna ##############
Maximum: 140
Minimum: 65
Mean: 100.152
Sum: 50076
Count: 500

############## Número de datos en cada columna ##############


Sex                    500
DVRT                   500
Educational_level      494
Prestige_score         474
Type_school            500
Leaving_certificate    500
dtype: int64

## 2.5 Valores desconocidos (se verán en futuras sesiones)
Al observar el número de datos que hay en cada columna, puede llamarnos la atención que no todas las columnas cuentan con 500 aunque haya 500 ejemplos. Esto se debe a que algunos ejemplos no tienen datos en todas las columnas y es algo que se conoce como **missing values** o valores desconocidos.

Si volvemos al inicio del notebook, veremos que en la primera impresión de `df` el último ejemplo, en la columna 'Presige_score' tiene `NaN`, que es *not-a-number*, e implica que ese dato se desconoce.

En sesiones posteriores veremos cómo se tratan estos valores desconocidos. 

## 2.6 Eliminar filas y columnas

Como no sabemos cómo tratarlos todavía, podríamos optar por eliminar la columna que tenga valores deconocidos o los ejemplos que tengan valores desconocidos

In [10]:
print('\n############## Eliminamos una columna utilizando drop ##############')
df = df.drop('Prestige_score', axis=1)
print(df.count())

print('\n############## Eliminamos las filas 10 y 20 utilizando drop ##############')
df = df.drop([10, 20], axis=0)
print(df.count())

print('\n############## Eliminamos las filas con NaN ##############')
df = df[df['Educational_level'].notna()]
print(df.count())



############## Eliminamos una columna utilizando drop ##############
Sex                    500
DVRT                   500
Educational_level      494
Type_school            500
Leaving_certificate    500
dtype: int64

############## Eliminamos las filas 10 y 20 utilizando drop ##############
Sex                    498
DVRT                   498
Educational_level      492
Type_school            498
Leaving_certificate    498
dtype: int64

############## Eliminamos las filas con NaN ##############
Sex                    492
DVRT                   492
Educational_level      492
Type_school            492
Leaving_certificate    492
dtype: int64


Para realizar las eliminaciones hemos utilizado en los dos primeros casos el método `drop()` que elimina columnas cuando `axis=1` y filas cuando `axis=0`.

En el tercer caso hemos utilizado primero `notna()` para obtener un vector de `boolean` que nos indica las posiciones que no tienen `NaN` y luego hemos creado otro `df` con los ejemplos que no tienen `NaN`.

## 2.7 Datos de columnas no numéricas

Para finalizar, vamos a ver cómo podemos obtener cierta información de las columnas categóricas:

In [11]:
print('\n############## Valores distintos en la columna ##############')
display(df['Educational_level'].unique())

print('\n############## Número de valores distintos en la columna ##############')
display(df['Educational_level'].nunique())

print('\n############## Número de ejemplos con cada posible valor de la columna ##############')
display(df['Educational_level'].value_counts())




############## Valores distintos en la columna ##############


array(['Junior_cycle_incomplete-secondary_school',
       'Primary_terminal_leaver',
       'Senior_cycle_terminal_leaver-secondary_school',
       'Junior_cycle_terminal_leaver-secondary_school',
       'Junior_cycle_terminal_leaver-vocational_school',
       'Junior_cycle_incomplete-vocational_school', '3rd_level_complete',
       'Senior_cycle_incomplete-vocational_school',
       'Senior_cycle_incomplete-secondary_school', '3rd_level_incomplete'],
      dtype=object)


############## Número de valores distintos en la columna ##############


10


############## Número de ejemplos con cada posible valor de la columna ##############


Senior_cycle_terminal_leaver-secondary_school     158
Junior_cycle_terminal_leaver-vocational_school     67
Junior_cycle_terminal_leaver-secondary_school      65
3rd_level_complete                                 57
Junior_cycle_incomplete-vocational_school          50
Primary_terminal_leaver                            36
Junior_cycle_incomplete-secondary_school           30
Senior_cycle_incomplete-vocational_school          13
Senior_cycle_incomplete-secondary_school            9
3rd_level_incomplete                                7
Name: Educational_level, dtype: int64

## Ejercicios

Haz un programa que cargue el fichero **biomed.data** (es un archivo de texto) y realice lo siguiente:
1. Muestra las 11 primeras filas. Verás que el último ejemplo que se muestra tiene '?' en 'm2'. Esto es debido a que los *missing values* suelen señalarse de diferentes maneras y una de ellas es escribir un '?'.
2. Utiliza el parámetro `na_values` de `read_csv()` para que en la lectura del fichero ya se tenga en cuenta que los valores desconocido vienen indicados con '?' (este mismo parámetro existe en `read_excel()`).
3. Muestra los datos que hay entre las filas 45 y 50 para los atributos 'Hospital', 'Age_of_patient' y 'Date' (lo hago con iloc y a ver si se puede con loc)
4. Muestra el número de datos que hay en cada columna
5. Elimina las columnas 'Observation_number' y 'Hospital'
6. Analiza la columna categórica 'class'

Estos ejercicios no es necesario entregarlos.