<a href="https://colab.research.google.com/github/Eduardo-Coyto/CICADA/blob/Gesti%C3%B3n-de-Datos/Taller_pandas_ICD.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Taller del paquete Pandas

En la programación en general, y en el análisis de datos en particular, es común que queramos usar funcionalidades que no están incluídas en los lenguajes de programación (ej. algún análisis específico, manipulaciones de tablas de datos, etc).

Para estos casos, existen *paquetes* que podemos cargar en el lenguaje de programación, que proveen estas funcionalidades. Diferentes paquetes ofrecen diferentes funcionalidades.

En este cuaderno introduciremos el paquete Pandas, que nos permite cargar datos en formato de tablas, y nos da varias herramientas para manipular estas tablas de datos de forma simple.

El cuaderno se basa en el cuaderno 2 del libro Introduction to Data Science (https://github.com/DataScienceUB/introduction-datascience-python-book)

## Importar los paquetes:



Primero, tenemos que *importar* los paquetes a nuestro entorno de programación, para poder acceder a sus funcionalidades. Usamos el comando *import*, seguido del paquete que queremos importar, y luego le damos un alias al paquete, para referirnos a él de forma cómoda.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pylab as plt
pd.options.mode.chained_assignment = None

## Cargar los datos

Ahora, cargaremos un set de datos a nuestra sesión de Python, usando para ello la función read_csv del paquete Pandas.

Primero corremos una línea de código que descarga la tabla de datos del github del libro a Google Colab.

Luego, usamos *pd.read_csv* para cargar el archivo de datos a Python. El prefijo *pd.* indica que usaremos una función del paquete Pandas (cargado como *pd* más arriba). Luego nos referimos a la función *read_csv* para cargar los datos indicados en la entrada de la función.

(Los datos cargados son datos gubernamentales públicos, y se encuentran disponibles en el github del libro).

In [None]:
!wget -qO datos_educacion.csv Viajes por día, tipo de servicio y trayecto - 2022CSV


In [None]:
# Indicamos en read_csv que los valores ':' en la tabla son NaN (datos faltantes, de Not a Number), y
# que sólo queremos cargar las columnas TIME, GEO y Value
edu = pd.read_csv('./datos_educacion.csv', na_values=':', usecols=['TIME', 'GEO', 'Value'])
edu

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.00
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
...,...,...,...
379,2007,Finland,5.90
380,2008,Finland,6.10
381,2009,Finland,6.81
382,2010,Finland,6.85


**EJERCICIO 1:** ¿Cuantas filas y cuantas columnas tiene la tabla cargada arriba? Mire el output de la celda anterior.

## DataFrames

Los datos cargados mediante Pandas en la variable *edu* están guardados en formato **DataFrame**. 

El DataFrame es una clase de objeto del lenguaje Pandas, que permite guardar y manipular tablas de datos (aunque también da muchas más posibilidades).

Como se ve en lo imprimido en la celda anterior, el DataFrame tiene filas y columnas. Las filas tienen índices que nos permiten referirnos a las mismas. Las columnas tienen nombres, indicados en negrita en la celda anterior. 


Podemos ver los nombres de las columnas pidiendo el atributo *columns"

In [None]:
edu.columns

Index(['TIME', 'GEO', 'Value'], dtype='object')

Podemos también tener un resumen estadístico rápido del DataFrame usando la función *describe*. Esta función nos devuelve cuantos valores hay en cada columna, la media de los valores, el desvío estándar, entre otros.

In [None]:
edu.describe()

Unnamed: 0,TIME,Value
count,384.0,361.0
mean,2005.5,5.203989
std,3.456556,1.021694
min,2000.0,2.88
25%,2002.75,4.62
50%,2005.5,5.06
75%,2008.25,5.66
max,2011.0,8.81


Para ver los primero 5 valores del DataFrame, en lugar de imprimir todo, podemos usar la función *.head()*

In [None]:
edu.head()

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),
1,2001,European Union (28 countries),
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95


## Selección de datos

Es muy común que queramos seleccionar un subconjunto de nuestros datos. Para hacer la selección, ponemos paréntesis cuadrados [] después de nuestro DataFrame, e indicamos en los paréntesis qué datos queremos seleccionar.

Podemos seleccionar sólo una columna, poniendo el nombre de la columna entre los paréntesis:

In [None]:
valores = edu['Value']
valores

0       NaN
1       NaN
2      5.00
3      5.03
4      4.95
       ... 
379    5.90
380    6.10
381    6.81
382    6.85
383    6.76
Name: Value, Length: 384, dtype: float64

Si queremos elegir más de una columna, podemos poner adentro de los paréntesis una lista con los nombres de las columnas que queremos. Las listas se generan con paréntesis cuadrados [], asique tendremos doble paréntesis en este caso:

In [None]:
dosColumnas = edu[['TIME', 'Value']]

El *loc* indexing nos permite hacer más selecciones de los datos del DataFrame. Para esto, escribimos *.loc* luego del DataFrame, e indicamos entre paréntesis cuadrados qué valores del DataFrame queremos (ponemos las filas y las columnas separadas por una coma, en ese orden).

Por ejemplo, si queremos elegir las filas en las posiciones 90 a 93, y todas las columnas, escribimos lo siguiente:

In [None]:
subconjunto1 = edu.loc[90:94,:]
subconjunto1

Unnamed: 0,TIME,GEO,Value
90,2006,Belgium,5.98
91,2007,Belgium,6.0
92,2008,Belgium,6.43
93,2009,Belgium,6.57
94,2010,Belgium,6.58


Notamos que el carácter ":" sólo significa "seleccionar todos", se mantienen todas las columnas.

Si queremos elegir las filas de índices 10, 20, 30 y 40, pasamos estos índices en una lista:

In [None]:
subconjunto2 = edu.loc[[10,20,30,40],:]
subconjunto2

Unnamed: 0,TIME,GEO,Value
10,2010,European Union (28 countries),5.41
20,2008,European Union (27 countries),5.04
30,2006,European Union (25 countries),4.93
40,2004,Euro area (18 countries),4.8


## Filtrado de datos

Normalmente, las selecciones de datos que queremos hacer obecen algún criterio que nos interesa. Por ejemplo, analizar los datos de cierto período de tiempo, de cierta subpoblación, etc.

En estos casos, podemos hacer la selección de datos implementando el criterio de interés con operaciones lógicas.

Por ejemplo, supongamos que queremos las filas del DataFrame que tienen un valor mayor a 6.5. Usando el operador lógico ">" podemos obtener un vector que indica, para cada entrada de la columna *Value*, si la misma es mayor que 6.5:

In [None]:
edu['Value'] > 6.5

0      False
1      False
2      False
3      False
4      False
       ...  
379    False
380    False
381     True
382     True
383     True
Name: Value, Length: 384, dtype: bool

Podemos usar este vector lógico para seleccionar las filas que cumplen con esta condición.

In [None]:
edu.loc[edu['Value']>6.5,:].head()

Unnamed: 0,TIME,GEO,Value
93,2009,Belgium,6.57
94,2010,Belgium,6.58
95,2011,Belgium,6.55
120,2000,Denmark,8.28
121,2001,Denmark,8.44


**EJERCICIO 2:** ¿Puede hacer una selección de los datos que tengan *Value* **menor** que 6.4?

Una operación muy frequente es la de eliminar las filas que tienen datos faltantes. Para ello podemos usar la función *.isnull()*, que indica si un valor es NaN, devolviendo un vector Booleano.

Para eliminar los valores NaN, usamos el operador "~" que significa "no", y junto con *.isnull()* nos devuelve un vector indicando los valores que **no** son null.

In [None]:
~edu['Value'].isnull()

0      False
1      False
2       True
3       True
4       True
       ...  
379     True
380     True
381     True
382     True
383     True
Name: Value, Length: 384, dtype: bool

In [None]:
edu.loc[~edu['Value'].isnull(),:].head()

Unnamed: 0,TIME,GEO,Value
2,2002,European Union (28 countries),5.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95
5,2005,European Union (28 countries),4.92
6,2006,European Union (28 countries),4.91


Ahora generamos un nuevo data frame, conteniendo sólo las filas de *edu* que no tienen Value NaN.

In [None]:
eduLimpio = edu.loc[~edu['Value'].isnull(),:]

**EJERCICIO 3:** Seleccione las filas que tienen NaN en *Value*

**EJERCICIO 4:** Seleccione las filas con *GEO* igual a *Denmark*. Use el operador "==" que significa "es igual a".*italicized text*

Otra forma conveniente de eliminar filas con valores NaN es usar la función **DataFrame.dropna()**. Esta función elimina las filas que tienen un valor NaN en cualquiera de sus columnas.

In [None]:
# Función para remover todas las filas con valores NaN
eduLimpio2 = edu.dropna()

## Manipulación de datos

Ahora que sabemos elegir los datos deseados, veremos como manipular los datos.

Una de las cosas más simples que podemos hacer es hacer operaciones que calculan resumenes de los datos. La siguiente lista tiene algunas de las operaciones más comunes.

| Function  | Description | 
|-----------|-------------|
| count()   |Número de observaciones no NaN|  
| sum()     |Suma de todos los valores|
| mean()    |Promedio de los valores| 
| median()  |Mediana de los valores|
| min()     |Valor mínimo|
| max()     |Valor máximo|
| prod()    |Producto de todos los valores|
| std()     |Estimado (no sesgado) del desvío estándar|
| var()     |Estimado (no sesgado) de la varianza|


Podemos aplicar estas operaciones sobre filas o columnas, y las mismas nos devuelven un número.


In [None]:
eduLimpio['Value'].min()

2.88

También podemos aplicar las funciones a un DataFrame entero, indicando si queremos que se realice sobre cada columna (indicando **axis=0**) o sobre cada fila (indicando **axis=1**).


In [None]:
eduLimpio.min(axis=0)

TIME        2000
GEO      Austria
Value       2.88
dtype: object

**EJERCICIO 5:** Busque cuál es el TIME máximo en el DataFrame

Notamos que en los ejemplos anteriores usamos las funciones de Pandas, poniendo el nombre del DataFrame seguido por *.funcion()*. Estas no siempre funcionan igual que las mismas funciones del lenguaje Python básico. Por ejemplo, las funciones de Pandas excluyen los valores NaN, pero las de Python básico no

In [None]:
print('Pandas max function:', edu['Value'].max())
print('Python max function:', max(edu['Value']))

Pandas max function: 8.81
Python max function: nan


Además de estas operaciones que agregan los datos, podemos hacer operaciones sobre todos los valores por separado. Por ejemplo, podemos dividir todos los valores de la columna *Value* por 100.

In [None]:
eduLimpio['Value'] / 100

2      0.0500
3      0.0503
4      0.0495
5      0.0492
6      0.0491
        ...  
379    0.0590
380    0.0610
381    0.0681
382    0.0685
383    0.0676
Name: Value, Length: 361, dtype: float64

**EJERCICIO 6:** Divida los valores de la columna *Value* por el máximo valor de esta columna. De esta forma, podemos obtener valores relativos al máximo.

## Asignar valores

También podemos modificar los valores de nuestra tabla de datos, o agregarle nuevos valores. Para ello usamos el símbolo "=". Del lado izquiero del símbolo elegimos los valores que queremos asignar. Del lado derecho ponemos sus nuevos valores.

Por ejemplo, supongamos que quiero convertir en 0 los primeros 3 valores de *edu* (que copiamos en una nueva variable de prueba).



In [None]:
eduPrueba = edu.copy() # Usamos la función copy(), para generar un nuevo DataFrame, y no modificar el original.
eduPrueba.loc[0:2,'Value'] = 0
eduPrueba.head()

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),0.0
1,2001,European Union (28 countries),0.0
2,2002,European Union (28 countries),0.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95


Ahora creamos una columna nueva en *eduPrueba*, donde pondremos los valores de TIME divididos 100:

In [None]:
eduPrueba.loc[:,'TIME_normalizado'] = eduPrueba['TIME']/100
eduPrueba.head()

Unnamed: 0,TIME,GEO,Value,TIME_normalizado
0,2000,European Union (28 countries),0.0,20.0
1,2001,European Union (28 countries),0.0,20.01
2,2002,European Union (28 countries),0.0,20.02
3,2003,European Union (28 countries),5.03,20.03
4,2004,European Union (28 countries),4.95,20.04


**EJERCICIO 7:** Genere una nueva columna en eduLimpio que contenga los valores de *Value*, pero normalizados por el valor máximo de la columna (como hizo en el ejercicio anterior).

**EJERCICIO 8:** Convierta en 0 los *Value* menores a 6.5. (Use la indexación con Booleanos, como se mostró antes en el tutorial).

Si queremos eliminar una columna de nuestro DataFrame, podemos usar la función ".drop()", indicando el nombre de la columna a eliminar. Por ejemplo, borramos la última columna que creamos (el parámetro *axis=1* indica que queremos borrar una columna, y el *inplace=True* indica que queremos que el cambio quede guardado en el DataFrame):

In [None]:
eduPrueba.drop('TIME_normalizado', axis=1, inplace=True)
eduPrueba.head()

Unnamed: 0,TIME,GEO,Value
0,2000,European Union (28 countries),0.0
1,2001,European Union (28 countries),0.0
2,2002,European Union (28 countries),0.0
3,2003,European Union (28 countries),5.03
4,2004,European Union (28 countries),4.95


## Agrupar datos

Otra funcionalidad útil es la de agrupar datos según algún criterio, para poder procesar los datos de forma separada según los grupos. Para esto usamos la función ".groupby()".

Por ejemplo, si queremos calcular cual es el Valor medio para cada locación de nuestro DataFrame, primero agrupamos el dataframe por locación (columna *GEO*), y luego calculamos la media:

In [None]:
eduGrupo = edu[['GEO', 'Value']].groupby('GEO')
eduGrupo.mean().head()

Unnamed: 0_level_0,Value
GEO,Unnamed: 1_level_1
Austria,5.618333
Belgium,6.189091
Bulgaria,4.093333
Cyprus,7.023333
Czech Republic,4.168333


## Reorganizar los datos

Otra acción que frecuentemente queremos hacer sobre los datos es cambiar su organización. Diferentes análisis sobre los datos pueden verse facilitados por diferentes organizaciones de los datos, o incluso requerir una organización específica.

Por ejemplo, en el DataFrame *edu*, para cada país tenemos varias filas, cada una indicando un año (*TIME*) distinto, y el *Value* asociado al mismo. Una organización alternativa que podemos querer es usar una única fila para cada locación, y una columna diferente para cada año, conteniendo el valor correspondiente al mismo. Abajo mostramos cómo hacemos esta reorganización:

In [None]:
eduAncha = pd.pivot_table(edu, values='Value', index=['GEO'], columns=['TIME'])
eduAncha.head()

TIME,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011
GEO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Austria,5.66,5.74,5.68,5.53,5.48,5.44,5.4,5.33,5.47,5.98,5.91,5.8
Belgium,,5.99,6.09,6.02,5.95,5.92,5.98,6.0,6.43,6.57,6.58,6.55
Bulgaria,3.88,3.7,3.94,4.09,4.4,4.25,4.04,3.88,4.44,4.58,4.1,3.82
Cyprus,5.42,5.98,6.6,7.37,6.77,6.95,7.02,6.95,7.45,7.98,7.92,7.87
Czech Republic,3.83,3.93,4.15,4.32,4.2,4.08,4.42,4.05,3.92,4.36,4.25,4.51


En la celda de arriba, usamos la función *pd.pivot_table()*, con el parámetro *index* que indica qué columna (o columnas) mantener en la tabla, el parámetro *columns*, que indica a partir de qué columna del DataFrame original construir las nuevas columnas, y el parámetro *values*, que indica de qué columna extraer los valores que llenarán la tabla modificada.

Notamos que la columna usada como *index* ahora le da nombre a las filas. Podemos acceder a las filas directamente por el nombre de este índice:

In [None]:
eduAncha.loc[['Austria', 'Bulgaria'], [2000, 2003]]

TIME,2000,2003
GEO,Unnamed: 1_level_1,Unnamed: 2_level_1
Austria,5.66,5.53
Bulgaria,3.88,4.09


Si queremos convertir una tabla ancha en una tabla larga, podemos usar la función *pd.melt()*. A continuación deshacemos el último cambio, convirtiendo *eduAncha* en la tabla original:

In [None]:
eduAncha['GEO'] = eduAncha.index # Al ensanchar la tabla la columna GEO se convirtió en índice. Reconstruimos la columna para usarla luego
eduLarga = pd.melt(eduAncha, id_vars='GEO', var_name='TIME', value_name='Value') # Elegimos en id_vars las columnas 
eduLarga.head()

Unnamed: 0,GEO,TIME,Value
0,Austria,2000,5.66
1,Belgium,2000,
2,Bulgaria,2000,3.88
3,Cyprus,2000,5.42
4,Czech Republic,2000,3.83


## Ejercicio final:

Para poner en práctica lo aprendido, usaremos una nueva tabla de datos, extraída de http://www.precios.uy/marzo-2022/ (y ligeramente modificada para que el código sea más simple). Esta es una tabla que da los precios de varios productos en diferentes cadenas de supermercados en Uruguay.

In [None]:
!wget -qO cadenas_marzo_2022.csv https://www.dropbox.com/s/mkbfabm6pypr2ky/cadenas_marzo_2022.csv?dl=0
precios = pd.read_csv('./cadenas_marzo_2022.csv', na_values='--')
precios

Unnamed: 0,Producto,Devoto,Devoto Express,Disco,El Clon,El Dorado,FarmaGlobal,Farmashop,Frog,Kinko,Macro,Micro Macro,Pigalle,San Roque,Ta - Ta,Tienda Inglesa
0,Aceite de girasol Óptimo Envase 900 cc,118.0,122.0,118.0,113.0,109.9,,,,123.0,112.9,116.3,,,119.0,123.0
1,Aceite de girasol Río de la Plata Envase 900 cc,140.0,144.0,140.0,,139.9,,,119.0,124.0,,,,,149.0,150.0
2,Aceite de girasol Uruguay Envase 900 cc,,,,109.0,104.9,,,,,107.8,113.2,,,105.0,
3,Aceite de maíz Delicia Envase 900 cc,126.0,130.0,126.0,118.0,119.9,,,,,122.9,127.8,,,135.0,131.0
4,Aceite de maíz Río de la Plata Envase 900 cc,144.0,148.0,144.0,139.0,139.0,,,139.0,155.0,,,,,149.0,151.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
194,Protector solar SPF 30 Hawaiian Tropic 180 ml.,,,,,,830.0,826.0,,,881.1,,,,,
195,Protector solar SPF 50 Eucerin 150 ml.,,,,,,,1550.0,,,,,1550.0,1779.0,,1550.0
196,Protector solar SPF 60 Soundown 120 ml.,,,,,591.0,602.0,711.0,,,694.9,,,711.0,,563.0
197,Protector solar SPF 80 Hawaiian Tropic 240 ml.,,,,,,709.0,,,,,,,,,


Haga lo siguiente con la tabla anterior:
* Alargue la tabla, haciendo que en vez de tener una columna para cada supermercado, haya una columna que indica el supermercado, y otra columna que indica el valor del producto. Es decir, el DataFrame final tendrá 3 columnas: Producto, Supermercado y Precio (aunque no necesariamente tienen porqué tener estos nombres).
* Filtre la tabla de datos, quedándose sólo con los supermercados Devoto, Disco, Frog, Kinko, Macro.
* Agrupe la tabla de datos filtrada por producto.
* Usando la tabla agrupada, calcule el precio promedio, y el precio máximo de cada producto entre las cadenas seleccionadas anteriormente.