# **Python para Ciencia de Datos: Pandas**

___

**Saúl Arciniega Esparza** | Ph.D. Profesor Asociado C Tiempo Completo

* [Twitter](https://twitter.com/zaul_arciniega) | [LinkedIn](https://www.linkedin.com/in/saularciniegaesparza/) | [ResearchGate](https://www.researchgate.net/profile/Saul-Arciniega-Esparza)
* [Hydrogeology Group](https://www.ingenieria.unam.mx/hydrogeology/), [Facultad de Ingeniería de la UNAM](https://www.ingenieria.unam.mx/)
___

### **Contenido**

0. [Introducción a Pandas](#Introducción-a-Pandas)
1. [Pandas Series](#1.-Pandas-Series)
    1. [Creación de Series](#1.1-Creación-de-Series)
    2. [Series desde archivos delimitados](#1.2-Series-desde-archivos-delimitados)
    3. [Llamando elementos de una Serie](#1.3-Llamando-elementos-de-una-Serie)
    4. [Remplazar elementos de una Serie](#1.4-Remplazar-elementos-de-una-Serie)
    5. [Agregar elementos a una Serie](#1.5-Agregar-elementos-a-una-Serie)
    6. [Estadísticos de una Serie](#1.6-Estadísticos-de-una-Serie)
    7. [Operaciones algebráicas](#1.7-Operaciones-algebráicas)
2. [Pandas DataFrames](#2.-Pandas-DataFrames)
    1. [Creación de DataFrames](#2.1-Crear-un-DataFrame-manualmente)
    2. [Crear un DataFrame a partir de Series](#2.2-Crear-un-DataFrame-a-partir-de-varias-Series)
    3. [Trabajar con NaNs](#2.3-Trabajar-con-valores-NaN)
    4. [DataFrames desde archivos delimitados](#2.4-DataFrames-desde-archivos-delimitados)
    5. [Manipulación de fechas](#2.5-Trabajar-con-fechas)
    6. [Renombrar columnas e índices](#2.6-Renombrar-columnas-y-cambiar-indices)
    7. [Llamar renglones y columnas](#2.7-Llamar-renglones-y-columnas)
    8. [Llamar renglones con fechas](#2.8-Llamar-renglones-con-fechas)
    9. [Condicionales](#2.9-Condicionales)
    10. [Estadísticos de DataFrames](#2.10-Estadisticos-de-DataFrames)
    11. [Operaciones algebráicas](#2.11-Operaciones-algebráicas-con-DataFrames)
3. [Agrupaciones](#3.-Agrupaciones)
    1. [Agregaciones de series temporales](#3.1-Agregaciones-de-series-temporales)
4. [Exportar y leer archivos delimitados](#4.-Exportar-y-leer-archivos-delimitados)
5. [Operaciones de DataFrames con Series](#5.-Operaciones-de-DataFrames-con-Series)
    1. [Trabajar con arrays](#5.1-Trabajar-con-arrays)

___
# Introducción a Pandas

[Ir a Inicio](#Contenido)

[**Pandas**](https://pandas.pydata.org/) es una librería de python destinada al análisis de datos, que proporciona unas estructuras de datos flexibles y que permiten trabajar con ellos de forma muy eficiente. Pandas ofrece las siguientes estructuras de datos:

- **Series**: Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios o de listas.
     
- **DataFrame**: Son estructuras de datos similares a las tablas de bases de datos relacionales como SQL.

La forma convencional de importar la librería de Pandas es mediante:

In [None]:
import pandas as pd

In [None]:
# Importaremos algunas librerías adicionales
import numpy as np

___
# 1. Pandas Series

[Ir a inicio](#Contenido)

El primer ejemplo que vamos a poner va a ser el de definir una estructura de datos "Series" que como ya comentamos es un array de datos unidimensional con idexación.

## 1.1 Creación de Series

Las "Series" se definen de la siguiente manera: 

In [None]:
data = np.random.rand(6)
index = [1, 2, 3, 4, 5, 6]

serie = pd.Series(data, index=index)
serie

El primer parámetro le indicamos los datos del array y en el segundo parámetro los índices.
También podemos definir índices y valores como texto, o datos mixtos:

In [None]:
data = np.random.rand(6)
index = ['a', 'b', 'c', 'd', 'e', 'f']

serie = pd.Series(data, index=index)
serie

Cuando no especificamos el parámetro de índice, se crea una numeración desde cero al número de elementos:

In [None]:
data = np.random.rand(6)

serie = pd.Series(data)
serie

Podemos crear una serie desde un diccionario de forma muy sencilla:

In [None]:
data = {'a':1, 'b':3, 'c': 4, 'd':2}
serie = pd.Series(data)
serie

## 1.2 Series desde archivos delimitados

Frecuentemente nos veremos en la necesidad de trabajar con series de tiempo almacenadas en archivos, en donde lo más común (y recomendado) es utilizar archivos de texto plano delimitados por comas (csv) o por tabuladores (txt).

Para leer una serie almecenada en alguno de estos formatos podemos utilizar el comando **pd.read_csv**.

Aqui podemos tener dos escenarios:

1. **Serie SIN una primera línea de encabezados**:

In [None]:
serie1 = pd.read_csv(
    './Datos/Serie_sin_encabezado.csv', # nombre del archivo 
    sep=',',                           # delimitación de columnas
    index_col=[0],                     # qué columna usaremos de índice
    header=None,  # indicamos que no hay una primera línea de encabezado
)
serie1 = serie1.squeeze()  # necesario para cargarlo como serie

serie1

2. **Serie CON una primera línea de encabezados**:

In [None]:
serie2 = pd.read_csv(
    './Datos/Serie_con_encabezado.csv', # nombre del archivo 
    sep=',',                           # delimitación de columnas
    index_col=[0],                     # qué columna usaremos de índice
)
serie2 = serie2.squeeze()  # necesario para cargarlo como serie

serie2

## 1.3 Llamando elementos de una Serie

A diferencia de los otros objetos en Python que utilizan **[]** para llamar a algún un elemento, los objetos de pandas utilizan dos métodos: **.iloc[]** y **.loc[]**:

- **.iloc**: se utiliza para llamar a algún elemento a partir de su índice numérico (que va de cero al número de elementos menos uno).
- **.loc**: se utiliza para llamar a algún elemento a partir del índice que establece el usuario.


In [None]:
# Llamando elementos con .iloc
print(serie1.iloc[0])   # llamar al primer elemento
print(serie1.iloc[-1])  # llamar al ultimo elemento

In [None]:
# Llamando elementos con .loc
print(serie1.loc[1981])   # llamar al primer elemento
print(serie1.loc[2017])  # llamar al ultimo elemento

In [None]:
# LLamar un rango de elementos
print(serie1.iloc[1:4])
print(serie1.loc[1982:1984])

## 1.4 Remplazar elementos de una Serie

In [None]:
# Ver los primeros 5 elementos de la serie
serie1.head()

Reemplazar usando el indice de la Serie:

In [None]:
serie1.loc[1981] = 100
serie1.head()

Reemplazar usando la posición del elemento dentro de la serie:

In [None]:
serie1.iloc[0] = 1700
serie1.head()

## 1.5 Agregar elementos a una Serie

In [None]:
# Visualizar los 5 últimos elementos de una serie
serie1.tail()

Podemos agregar los elementos utilizando **.loc** o **.iloc**:

In [None]:
serie1.loc[2018] = 1500
serie1.tail()

O también sólo utilizando corchetes **[nuevo indice]**:

In [None]:
serie1[2019] = 1000
serie1.tail()

## 1.6 Estadísticos de una Serie

In [None]:
# Leer una serie desde un archivo csv
df = pd.read_csv(
    './Datos/Serie_sin_encabezado.csv', # nombre del archivo 
    sep=',',                           # delimitación de columnas
    index_col=[0],                     # qué columna usaremos de índice
    header=None,  # indicamos que no hay una primera línea de encabezado
)
df = df.squeeze()  # necesario para cargarlo como serie
df.head()

In [None]:
# Estadisticos descriptivos
df.describe()

In [None]:
# Estadisticos
print('mean: ', df.mean())
print('std : ', df.std())
print('min : ', df.min())
print('25% : ', df.quantile(0.25))
print('50% : ', df.median())
print('25% : ', df.quantile(0.75))
print('max : ', df.max())

In [None]:
# asimetria y kurtosis
print('asimetria: ', df.skew())
print('kurtosis : ', df.kurtosis())

In [None]:
# Suma acumulada
df_acum = df.cumsum()
df_acum.head()

## 1.7 Operaciones algebráicas

In [None]:
s1 = pd.read_csv('./Datos/serie1.csv', sep=',', index_col=[0], header=None).squeeze()
s2 = pd.read_csv('./Datos/serie2.csv', sep=',', index_col=[0], header=None).squeeze()

In [None]:
s1 + s2      # suma de dos series

In [None]:
s1 / s2      # división de dos series

In [None]:
s1 ** 0.5    # elevar las series a una potencia

In [None]:
s1.corr(s2)  # correlacion de la serie 1 con la serie 2

In [None]:
# Como remover los nans de una serie
s3 = s2 - s1 
s3.dropna()

___
# 2. Pandas DataFrames

[Ir a Inicio](#Contenido)

Los Dataframes se componen de múltiples Series y comparten muchos métodos en común, pero existen algunos dedicados exclusivamente a los DataFrames.

Para crear un DataFrame debemos indicar los datos de entrada, el índice y las columnas:

## 2.1 Crear un DataFrame manualmente

In [None]:
data = np.random.rand(6, 2)
index = [1, 2, 3, 4, 5, 6]
columns = ['A', 'B']

df = pd.DataFrame(data, index=index, columns=columns)
df

In [None]:
df.info()  # obtener informacion de las columnas del dataframe

In [None]:
df.head(3) # regresa los primeros tres renglones del dataframe

In [None]:
df.tail(2)  # regresa los ultimos tres renglones del dataframe

In [None]:
# generar un dataframe a partir de un diccionario
data = {'a':[1.6, 5.6], 'b':[3.5, 6.3], 'c': [4.1, 2.8], 'd':[2.8, 5], 'e': [8.0, 3.0]}
df = pd.DataFrame(data)
df

In [None]:
# generar un dataframe a partir de un diccionario
data = {'a':[1.6, 5.6], 'b':[3.5, 6.3], 'c': [4.1, 2.8], 'd':[2.8, 5], 'e': [8.0, 3.0]}
df = pd.DataFrame(data).transpose()   # Transpuesta de tabla
df

## 2.2 Crear un DataFrame a partir de varias Series

Un DataFrame puede ser creado a partir de series existentes, para ello existen distintas funciones para combinar las series, una de las más sencillas de utilizar es **pd.concat**

In [None]:
s1 = pd.read_csv('./Datos/serie1.csv', sep=',', index_col=[0], header=None).squeeze()
s2 = pd.read_csv('./Datos/serie2.csv', sep=',', index_col=[0], header=None).squeeze()

In [None]:
df = pd.concat((s1, s2))  # une dos series en la misma columna
df

In [None]:
df = pd.concat((s1, s2), axis=1)  # une dos series en diferentes columnas
df

## 2.3 Trabajar con valores NaN

In [None]:
s1 = pd.read_csv('./Datos/serie1.csv', sep=',', index_col=[0], header=None).squeeze()
s2 = pd.read_csv('./Datos/serie2.csv', sep=',', index_col=[0], header=None).squeeze()

In [None]:
# Remover NaNs
df = pd.concat((s1, s2), axis=1)
df = df.dropna()
df

In [None]:
# Rellenar NaNs
df = pd.concat((s1, s2), axis=1)
df = df.fillna(0)
df

## 2.4 DataFrames desde archivos delimitados

La función **pd.read_csv** también permite leer tablas con múltiples columnas y convertirlas a DataFrames:

In [None]:
df = pd.read_csv('./Datos/Precipitacion_mm-d.csv', index_col=[0])
df.head()

## 2.5 Trabajar con fechas

Cuando trabajamos con tablas que contienen fechas debemos realizar una serie de transformaciones ya que por defecto, las celdas con fechas dentro de un archivo delimitado son interpretadas como texto.

Por ejemplo, el siguiente caso tratamos de importar una serie de datos diarios, en donde la primer columna corresponde a la fecha:

In [None]:
df = pd.read_csv('./Datos/Precipitacion_mm-d.csv', index_col=[0])
df.index

Si quisieramos utilizar el índice como si fuera una fecha **nos arrojará un error** ya que se trata de un string:

In [None]:
df.index.year   # tratar de obtener el año del indice

Lo más fácil en este caso es convertir la primer columna a un formato de fechas desde que se importa la información, para ello se ingresa el parametro opcional **parse_dates**:

In [None]:
df = pd.read_csv('./Datos/Precipitacion_mm-d.csv', index_col=[0], parse_dates=[0])
df.index

In [None]:
df.index.year   # obtener el año

In [None]:
df.index.month   # obtener el mes

In [None]:
df.index.day   # obtener el dia

## 2.6 Renombrar columnas y cambiar indices

In [None]:
# Importamos los datos sin indicar la columna de indice
df = pd.read_csv('./Datos/Precipitacion_mm-d.csv', parse_dates=[0])
df.head()

In [None]:
# Renombrar columnas. Se debe ingresar el mismo numero de elementos segun el numerod de columnas
df.columns = ["Fecha", "Serie1", "Serie2", "Serie3"]
df.head()

In [None]:
# Asignar una columa como indice
df = df.set_index("Fecha")
df.head()

In [None]:
# Convertir indice a columna
df = df.reset_index()
df.head()

In [None]:
# Agregar una nueva columna con un valor constante
df["Factor"] = 0.5
df.head()

In [None]:
# Agregar una nueva columna con diferentes valores
df["K"] = df["Serie1"] + df["Serie2"]
df.head()

## 2.7 Llamar renglones y columnas

In [None]:
df = pd.read_csv('./Datos/DataFrame1.csv', index_col=[0], sep=',')
df.head()

In [None]:
# Llamar la primer columna de precipitacion directamente
df["Prec"]

In [None]:
# Llamar la primer columna de usando punto **.**
df.Prec

In [None]:
# Llamar a la primer columa
df.iloc[:, 0]

In [None]:
# Llamar a la primer columa
df.loc[:, "Prec"]

In [None]:
# Llamar todas las columnas del 2000 al 2005
df.loc[2000:2005, :]

In [None]:
# Llamar AET del 2001 al 2009
df.loc[2001:2009, "AET"]

In [None]:
# Crear nueva columna a partir de otras columnas
df["EI"] = df["AET"] / df["Prec"]
df

In [None]:
# Llamar multiples columnas
df.loc[2000:2005, ["Prec", "EI"]]

## 2.8 Llamar renglones con fechas

In [None]:
df = pd.read_csv('./Datos/Precipitacion_mm-d.csv', index_col=[0], parse_dates=[0])
df.columns = ["Serie1", "Serie2", "Serie3"]
df.head()

In [None]:
# Llamar todas las columnas para un conjunto de fechas
df.loc["1981-01-01":"1981-01-10", :]

In [None]:
# Llamar una columna para un conjunto de fechas
df.loc["1981-01-01":"1981-01-10", "Serie1"]

In [None]:
# Llamar varias columnas para un conjunto de fechas
df.loc["1981-01-01":"1981-01-10", ["Serie3", "Serie1"]]

## 2.9 Condicionales

In [None]:
df = pd.read_csv('./Datos/DataFrame1.csv', sep=',', index_col=[0])
df.head()

In [None]:
# condicionales simples
mask = df["Prec"] > df["Prec"].mean()
df.loc[mask, :]

In [None]:
mask1 = df["Prec"] >= df["Prec"].mean()
mask2 = df["AET"] >= df["AET"].mean()

In [None]:
# multiples condicionales
mask1 = df["Prec"] >= df["Prec"].mean()
mask2 = df["AET"] >= df["AET"].mean()
df.loc[mask1 | mask2, :]  # mask1 o mask2

In [None]:
# usar condicionales para clasificar datos
df["Clima"] = "Seco"
df

In [None]:
mask = df["Prec"] >= df["Prec"].mean()
df.loc[mask, "Clima"] = "Humedo"
df

## 2.10 Estadisticos de DataFrames

Los estadísticos para DtafRames se pueden aplicar por columnas (por defecto) o por renglones. En todos los casos, pandas omite los nans a la hora de calcular estadísticos.

In [None]:
df = pd.read_csv('./Datos/DataFrame1.csv', sep=',', index_col=[0])
df.head()

In [None]:
df.describe()

In [None]:
# Media de todas las columas
df.mean()

In [None]:
# Desviacion estandar de todas las columas
df.std()

In [None]:
# Media de todas las columas
df.loc[2000:2005, :].mean(axis=0)

In [None]:
# Media de todas los renglones
df.loc[2000:2005, :].mean(axis=1)

In [None]:
# Correlacion entre todos las columnas
df.corr()

In [None]:
# Contar elementos no nans
df.count()

## 2.11 Operaciones algebráicas con DataFrames

Los DataFrames nos permiten realizar operaciones algebráicas con múltiples columnas de forma muy sencilla.

In [None]:
df = pd.read_csv('./Datos/DataFrame1.csv', sep=',', index_col=[0])
df.head()

In [None]:
df1 = df * 0.9
df1

In [None]:
# Sumar dos DataFrames
(df1 + df).head(10)

In [None]:
# Debemos de tener cuidado cuando intentamos realizar operaciones entre una serie y un DataFrame
(df1.loc[:, "Prec"] + df).head(10)

In [None]:
(df1.mean() + df).head(10)

In [None]:
# Cuando un DataFrame no contiene todos lon índices del otro,
# las operaciones se realizan en los índices en común
df1 + df.loc[2000:2010, :]

___
# 3. Agrupaciones

[Ir a Inicio](#Contenido)

Las agrupaciones en pandas funcionan como las tablas dinámicas en Excel.

In [None]:
df = pd.read_csv('./Datos/DataFrame1.csv', index_col=[0])
df.head()

In [None]:
mask = df["Prec"] >= df["Prec"].mean()
df["Clima"] = "Seco"
df.loc[mask, "Clima"] = "Humedo"
df

In [None]:
# Generar grupo poor tipo de clima
grupo = df.groupby("Clima")
grupo

In [None]:
# Estadisticos por tipo de clima
grupo.describe()

In [None]:
# Estadisticos por tipo de clima (un poco ordenado)
grupo.describe().transpose()

In [None]:
# calcular la media de cada grupo
grupo.mean()

In [None]:
# calcular múltiples estadísticos
grupo.agg(['mean', 'std']).transpose()

## 3.1 Agregaciones de series temporales

Las agrupaciones con **groupby** son muy útiles cuando tenemos tablas categorizadas, pero qué pasa cuando tenemos series temporales y queremos cambiar de escala temporal, digamos de escala diaria a mensual o de mensual a anual?

Para ello usamos el método **.resample**:

In [None]:
# Importar un DataFrame delimitado por comas
prec = pd.read_csv('./Datos/Precipitacion_mm-d.csv', index_col=[0], parse_dates=[0])
prec.columns = ["Serie1", "Serie2", "Serie3"]
prec.head()

In [None]:
# Agregacion mensual
prec.resample("1M")

Resample sólo realiza agrupaciones, necesitamos indicacar una función estadística a realizar:

In [None]:
# Agregacion de suma mensual
prec.resample("1M").sum()

In [None]:
# Agregacion de promedio mensual
prec.resample("1M").mean()

In [None]:
# Agregacion suma cada dos meses
prec.resample("2M").mean()

In [None]:
# Agregacion de suma anual
prec.resample("1Y").sum()

___
# 4. Exportar y leer archivos delimitados

[Ir a Inicio](#Contenido)

In [None]:
# Importar un DataFrame delimitado por comas
prec = pd.read_csv('./Datos/Precipitacion_mm-d.csv', delimiter=',', index_col=[0], parse_dates=[0])
prec.columns = ["Serie1", "Serie2", "Serie3"]
prec.head()

In [None]:
# Realizar la suma anual de precipitacion
prec_anual = prec.groupby(prec.index.year).sum()
prec_anual.head()

In [None]:
# Exportar tabla
prec_anual.to_csv("export1.csv")              # Exportar delimitado por comas
prec_anual.to_csv("export2.csv", index=False) # Exportar delimitado por comas sin el indice
prec_anual.to_csv("export3.txt", sep="\t")    # Exportar delimitado por tabulador

___
# 5. Operaciones de DataFrames con Series

[Ir a Inicio](#Contenido)

Se pueden realizar operaciones en DataFrames con Series, en este caso, las Series se toman como un escalar que se utilizará para efectuar alguna operación algebráica para cada columna del DataFrame. en este caso, los índices de la Serie deben de coincidir con las columnas del DataFrame.

Para este ejemplo multiplicaremos el area de la cuenca por la precipitación annual acumulada para sacar el volumen de agua por cuenca en hectómetros cúbicos.

In [None]:
cuencas = pd.read_csv('./Datos/Propiedades_cuencas.txt', delimiter='\t')
cuencas

In [None]:
# Primero generamos una serie con las areas de las cuencas
# En este caso, los indices deben de ser definidos por la columna ID
# Además, extraemos las areas solo de las cuencas 1 a 3
area = cuencas.set_index("ID").loc[1:3, "Area"]
area

Antes de hacer la operacion debemos verificar que los indices de la Serie y las columnas del DataFrame sean del mismo tipo:

In [None]:
print(area.index)
print(prec_anual.columns)

Vemos que los indices de la Serie son enteros mientras que las columnas del DataFrame son objetos (texto).
Debemos convertir alguno de ellos para poder realizar una operación directa:

In [None]:
# igualamos el tipo de elementos en columnas e indices
area.index = ["Serie1", "Serie2", "Serie3"]
area.head()

Ahora realizamos la operacion:

In [None]:
prec_anual_hm3 = (prec_anual / 1000) * (area * 1e6) / 1e6
# (prec_anual / 1000)  convertir precipitation de mm a m
# (area * 1e6) convertir area de km2 a m2
# / 1e6     convertir de m3 a Hm3
prec_anual_hm3.head()

## 5.1 Trabajar con arrays

In [None]:
# Importar un DataFrame delimitado por comas
prec = pd.read_csv('./Datos/Precipitacion_mm-d.csv', delimiter=',', index_col=[0], parse_dates=[0])
prec.columns = ["Serie1", "Serie2", "Serie3"]
prec.head()

In [None]:
# Extraer valores de una tabla como array
prec.values

In [None]:
# Extraer la primer columna del array
prec.values[:, 0]

In [None]:
# Extraer la primer columna como array
prec.iloc[:,0].values