[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://drive.google.com/file/d/1LBbf1w52f1ZVgqi51QGkv9M5JB4OwRHn/view?usp=sharing)

# Programando diversidades - Sesión 5

## Taller de pandas básico

#### Por: Carolina Herrera

In [None]:
import numpy as np # Librería extra

## Sobre `pandas`

`pandas` es una librería de Python que ofrece muy buenas herramientas para el procesamiento y análisis de datos. Pueden encontrar información general, instalación y tutoriales (en inglés) en la [documentación oficial](https://pandas.pydata.org/docs/getting_started/index.html).

In [None]:
import pandas as pd

## Trabajando con `pandas`: DataFrames

En `pandas`, la información va a ser almacenada en una estructura llamada `DataFrame`. Los data frames son similares a una tabla (de Excel o en general), donde la información está organizada en filas y columnas.

![Data frame](https://pandas.pydata.org/docs/_images/01_table_dataframe.svg)

Podemos crear un data frame desde cero o cargar la información desde un archivo. Para crearlo, llamamos la función `pd.DataFrame()`. Podemos utilizar diccionarios, listas o arreglos para generar el data frame.

In [None]:
dic = {'Nombre': ['Manuel', 'Luisa', 'María'],
       'Edad': [23, 31, 27],
       'Asiste': [True, True, False]}

df1 = pd.DataFrame(dic)

In [None]:
df1

In [None]:
array = np.array([[35, 28, 83], [5, 15, 57], [43, 1, 92]])

df2 = pd.DataFrame(array,
                   columns=['Columna1', 'Columna2', 'Columna3'])

In [None]:
df2

Para ilustrar algunas funciones básica de `pandas`, en este notebook trabajaremos con una base de datos de participantes de los juegos olímpicos desde Atenas 1896 hasta Río 2016. Pueden descargar la base de datos desde Kaggle [aquí](https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results) o usar el link al repositorio, como mostramos a continuación.

In [None]:
!wget https://github.com/colectivafemcen/Programando-Diversidades/raw/main/Python/OlympicsData.zip

In [None]:
!unzip OlympicsData.zip

Para cargar los datos desde un archivo, usamos la función `read_csv`. En caso de tener otro tipo de archivo, existen funciones como `read_excel`, `read_sql`, entre otras. Todas estas funciones tienen parámetros útiles que pueden facilitar la lectura de los datos. Pueden encontrar más información en la documentación. Ejemplo: [read_csv](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html).

In [None]:
atletas = pd.read_csv('athlete_events.csv',
                      sep=',')

In [None]:
atletas

Los data frames tienen asociados un gran número de funciones o métodos, que llamamos por medio del operador `.`.


Podemos ver las primeras filas del data frame con `head()`.

In [None]:
atletas.head(6) # El número especifica el número de filas a mostrar

Para ver explícitamente el tamaño del data frame, usamos `shape`.

In [None]:
atletas.shape

Podemos ver los tipos de elementos que hay en cada columna con `dtypes`.

In [None]:
atletas.dtypes

### Series

En `pandas` existen arreglos de una dimensión a los que se les llama Series. Las series pueden obtenerse a partir de data frames cuando se selecciona una columna o al aplicar ciertos tipos de operaciones. Por ejemplo, `atletas.dtypes` entrega una serie.

En general, las series tienen propiedades muy similares a los data frames, aunque existen algunas diferencias con el tipo de operaciones que podemos aplicar.

In [None]:
serie = pd.Series(np.arange(100))

In [None]:
serie.head()

In [None]:
serie.dtype

In [None]:
serie.shape

Podemos transformar las series en data frames con `to_frame()`.

In [None]:
serie.to_frame()

### Valores especiales: NaN

Los NaN (abreviación del inglés "Not a Number") son valores que están asociados a celdas vacías o información faltante en el data frame. A pesar de su nombre, los NaN pueden aparecer en columnas numéricas o de texto. La función `isna()` permite detectar cuáles celdas contienen un NaN y cuáles no.

In [None]:
atletas.isna().head()

En la mayoría de los casos, operar con NaN da como resultado un NaN o es tratado como un cero. En columnas tipo objeto también es posible encontrar datos tipos `None`, que tienen propiedades similares.

### NaT

Pandas tiene un formato especial para fechas llamado `datetime64`. Los NaT son el equivalente a NaN para este formato y sus propiedades son equivalentes.

In [None]:
pd.to_datetime('10/05/2021')

In [None]:
pd.to_datetime(np.nan)

## Indexación

Los índices son formas de nombrar o categorizar las filas de un data frame. Si al cargar los datos no se especifica un índice, las filas son numeradas automáticamente, como puede verse en los ejemplos anteriores. Podemos especificar al momento de la lectura cuál columna queremos que sea el índice o ajustarlo luego de cargar los datos.

In [None]:
atletas_index = pd.read_csv('athlete_events.csv',
                            index_col='Name'
                           )

In [None]:
atletas_index.head()

Para asignar un índice usamos `set_index()`.

In [None]:
atletas_copy = atletas.set_index('Name')

In [None]:
atletas_copy.head()

Con `index` podemos ver los valores correspondientes al índice.

In [None]:
atletas_copy.index

Podemos volver a la forma original con `reset_index()`.

In [None]:
atletas_copy.reset_index(inplace=True)

In [None]:
atletas_copy.head()

## Seleccionar datos

### Seleccionar filas

Podemos seleccionar filas con *slices*, es decir, el operador `:`.

In [None]:
atletas[:5] # Seleccionamos las primeras 5 filas

In [None]:
atletas[42:47] # Seleccionamos de la fila 42 a la 46

También podemos usar las funciones `loc[]` y `iloc[]`. `loc[]` muestra la información asociada al índice.

In [None]:
atletas_copy.set_index('Name', inplace=True)

In [None]:
atletas_copy.loc['Paavo Johannes Aaltonen']

Por otro lado, `iloc[]` selecciona filas con valores enteros.

In [None]:
atletas.iloc[5]

Con listas de enteros obtenemos un data frame que contiene únicamente las filas pertenecientes a la lista.

In [None]:
atletas.iloc[[5]]

In [None]:
atletas.iloc[[300, 511]]

Y también podemos usar *slices*.

In [None]:
atletas.iloc[:6]

### Seleccionar columnas

Podemos llamar las columnas de un data frame por su nombre, de forma similar a como se hace con los diccionarios.

In [None]:
atletas['Name']

In [None]:
atletas[['Name', 'Team']]

También podemos utilizar `iloc[]`.

In [None]:
atletas.iloc[:, 4]

Si el nombre de la columna no contiene espacios ni caracteres especiales, puede llamarse como un atributo del data frame.

In [None]:
atletas.Sex

Sabiendo esto, podemos seleccionar filas que cumplan ciertas condiciones. Por ejemplo, seleccionar solo los atletas que participaron en judo.

In [None]:
atletas[atletas.Sport == 'Judo'].head()

O seleccionar la información a partir del año 2000.

In [None]:
atletas[atletas.Year >= 2000].head()

Para filtrar columnas con la celda `Medal` vacía:

In [None]:
atletas[atletas['Medal'].isna()].head()

Finalmente, para seleccionar una celda o conjuntos de celdas podemos usar algunas combinaciones de los anteriores ejemplos.

In [None]:
atletas.iloc[2, 2]

In [None]:
atletas.loc[23:30, 'Sport']

## Editar filas y columnas

Podemos editar el data frame asignando nuevas variables a las celdas o conjuntos de celdas. Para el último caso, hay que ser cuidadosos con las dimensiones.

In [None]:
atletas_copy.iloc[2, 1] = 'N'

In [None]:
atletas_copy

In [None]:
atletas_copy.iloc[2:6, 13] = 'N'

In [None]:
atletas_copy.head(7)

## Funciones básicas

Podemos explorar algunas caracterísitcas de cada columna con `describe()`. Esto solo funciona para datos numéricos.

In [None]:
atletas.describe()

Podemos contar las celdas llenas con `count()`.

In [None]:
atletas.count()

Y saber los tipos de valores que hay en cada columna con `value_counts()`.

In [None]:
atletas.City.value_counts()

Podemos sumar todas las entradas de una columna con `sum()`.

In [None]:
atletas.Height.sum()

Encontrar el mínimo y el máximo con la funciones `min()` y `max()` respectivamente.

In [None]:
atletas.Age.min()

In [None]:
atletas.Age.max()

Calcular promedios con `mean()`.

In [None]:
atletas.Weight.mean()

Para encontrar filas duplicadas utilizamos `duplicated()`.

In [None]:
atletas.duplicated()

In [None]:
atletas.duplicated().sum()

Para eliminarlas, existe la función `drop_duplicates()`.

La función `unique()` muestra los valores únicos de una serie.

In [None]:
atletas.Sport.unique()

## Crear nuevas columnas

De igual manera que con un diccionario, podemos crear nuevas columnas indicando el nombre y los valores que tendrá cada fila.

In [None]:
atletas_copy['Numeros'] = np.arange(len(atletas))

In [None]:
atletas_copy.head()

También podemos crear nuevas columnas operando con las ya existentes.

In [None]:
atletas_copy['Razon'] = atletas_copy.Height/atletas_copy.Weight # Razón entre la altura y el peso

In [None]:
atletas_copy.head()

Nótese que en los casos donde se opera con NaN, el resultado es un NaN.

## Agrupación

La función `groupby()` permite agrupar los valores de una columna que son iguales. Para poder visualizar el resultado, siempre es necesario aplicar otra operación como suma o agregación. Veamos algunos ejemplos.

Queremos saber el número de personas que participaron cada año en los juegos olímpicos. Podemos encontrar esta información de la siguiente forma:

Dentro del argumento de `groupby` debemos incluir la columna que queremos agrupar. En nuestro caso, es la columna con la información del año. Luego, podemos proceder de dos formas: la primera es aplicar una operación directamente. En nuestro ejemplo, queremos contar el número de personas, así que podemos utilizar la columna `Name` y aplicar la operación `count`.

In [None]:
atletas.groupby('Year').Name.count() #**

La segunda forma consiste en aplicar una operación de agregación `agg` a la que debemos pasarle un diccionario que indique la columna con la que vamos a operar y la operación que deseamos realizar con ella.

In [None]:
agg = {'Name': 'count'}

numero_particip = atletas.groupby('Year').aggregate(agg)

In [None]:
numero_particip.tail()

También es posible agrupar varias columnas al mismo tiempo. Como ejemplo:

Queremos saber el número de hombres y mujeres que han participado en los juegos olímpicos cada año. Podemos encontrar esta información realizando dos agrupaciones: una respecto a la columna `Year` y otra respecto a la columna `Sex`. Para contar podemos usar cualquier otra columna, como `Name`.

In [None]:
agg = {'Name': 'count'}

particip_year = atletas.groupby(['Year', 'Sex']).aggregate(agg)

In [None]:
particip_year.head(10)

Para utilizar otro tipo de operaciones, podemos hallar la edad promedio por país dentro del total histórico de participantes.

In [None]:
agg = {'Age': 'mean'}

edad_prom = atletas.groupby('NOC').aggregate(agg)

In [None]:
edad_prom.head(10)

`aggregate` permite ejecutar varias agregaciones al mismo tiempo incluyendo más entradas en el diccionario. Como ejemplo, podemos contar el número de medallas, hallar la altura promedio y la edad máxima de los participantes según el país.

In [None]:
agg = {'Medal': 'count',
       'Height': 'mean',
       'Age': 'max'
      }

medal_pais = atletas.groupby('NOC').aggregate(agg)

In [None]:
medal_pais.head()

## Guardar a un archivo

Al igual que para lectura de datos, existen diferentes funciones de escritura de datos según el tipo de archivo que queramos guardar. Como ejemplo usamos la función `to_csv`, pero también existen las funciones `to_excel`, `to_xlm`, entre otras. Además, podemos editar algunos atrbiutos del archivo por medio de los parámetros de la función.

In [None]:
medal_pais.to_csv('data_por_pais.csv', # Nombre del archivo
                 sep=';' # Tipo de separador
                )

In [None]:
medal_pais.to_excel('data_por_pais.xlsx', # Nombre del archivo
                 )