---
### Universidad de Costa Rica
#### IE0405 - Modelos Probabilísticos de Señales y Sistemas
---

# `Py3` - *Librerías de manipulación de datos*

> **Pandas** es una útil librería de manipulación de datos que ofrece estructuras de datos para el análisis de tablas numéricas y series de tiempo. Esta es una introducción al objeto `DataFrame` y otras características básicas.

---

## Librería Pandas

Para trabajar con una gran cantidad de datos, es deseable un conjunto de herramientas que nos permitan efectuar operaciones comunes de forma intuitiva y eficiente. Pandas, es la solución por defecto para hacerlo en Python, y es parte del ecosistema de SciPy. Viene instalado con Anaconda.

Esta guía está basada en ["10 minutes to pandas"](https://pandas.pydata.org/docs/getting_started/10min.html).

**Nota 1**: Para toda esta guía se hará la siguiente importación de librerías.

**Nota 2**: Por convención, el *alias* de Pandas es `pd`.

In [None]:
import numpy as np
import pandas as pd
import datetime

---
## 3.1. - `Series`

En Python, las `Series` corresponden a un arreglo de una dimensión que admite diversos tipos de datos (números enteros, palabras, números flotantes, objetos de Python, etc.) que además están etiquetados mediante un índice que el usuario puede definir o permitir que Python lo cree por defecto. De manera que para crear una lista de valores y dejando que Python los etiquete, se utiliza el siguiente comando:

In [None]:
s = pd.Series([1, 3, 5, np.nan, "modelos", 8.5])
print(s)

Utilizado el comando de NumPy `random.randn` es posible generar datos aleatorios para la lista y si se desea agregar indices distintos a los numéricos se utiliza el parámetro `index`.

In [None]:
s = pd.Series(np.random.randn(5), index = ['a', 'b', 'c', 'd', 'e'])
print(s)

Una vez creada la `Serie` se pueden ejecutar operaciones vectoriales con la misma o agregar atributos como un nombre (el ejemplo usa la definición de `s` anterior).

In [None]:
d = pd.Series(s + s, name = 'suma')
print(d)

---
## 3.2. - `DataFrame`

En Python, la asignación de `DataFrames` corresponde a un arreglo de **dos dimensiones**, etiquetado, semejante a concatenar varias `Series` y que también admite varios tipos de datos. Puede entenderse como una hoja de cálculo o una tabla SQL. 

La asignación de las etiquetas puede ser decidida por el usuario y Python hará coincidir los valores, en caso de diferencias en los tamaños de las listas agregadas, rellenará esos espacios siguiendo reglas de sentido común. A continuación un ejemplo de dos `Series` de diferentes tamaños.

Observar las diferencias en el orden de los índices.

In [None]:
# Creación de un diccionario con las series
d = {'este': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'otro': pd.Series([1., 2., 3., 4.], index=['a', 'c', 'd', 'b'])}

# Creación del DataFrame a partir del diccionario
df1 = pd.DataFrame(d)

df1

Estos indices también pueden indicar una estampa de tiempo (*timestamp*), tal como se muestra en el siguiente ejemplo:

In [None]:
# Creación de un rango de fechas
fechas = pd.date_range('20200101', periods=6)

# Creación de un DataFrame con las fechas como índices
df = pd.DataFrame(np.random.randn(6, 4), index=fechas, columns=list('ABCD'))

df    

Como en las `Series`, los `DataFrame` pueden utilizar diferentes tipos de datos en cada columna y asignarse como diccionarios.

In [None]:
df = pd.DataFrame({'A': 1.,
                   'B': pd.Timestamp('20200101'),
                   'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                   'D': np.array([3] * 4, dtype='int32'),
                   'E': pd.Categorical(["ceviche", "pizza", "nachos", "chifrijo"]),
                   'F': 'foo'
                  })

df

Una vez incializada, se pueden ejecutar acciones como extraer, eliminar e insertar columnas, con una sintaxis similar a la de los diccionarios.

In [None]:
df2['E']

In [None]:
# Eliminar columna 'C'
del df2['C']

# Mostrar nuevo DataFrame
df2

In [None]:
# Asignar nuevos datos a la columna 'A'
df2['A'] = pd.Series(np.random.randn(4), index=list(range(4)))

# Crear nueva columna y agregar valores
df2['A > 0.5'] = df2['A'] > 0.5

# Mostrar nuevo DataFrame
df2

---
## 3.3. - Visualizar datos

En Python, la visualización de datos permite decidir cuáles datos se quieren ver.

Es posible "echar un vistazo" a los primeros y últimos datos. Por ejemplo, del `DataFrame` llamado `df` se pueden ver las primeras **dos** filas de datos se utiliza el comando `head`.

In [None]:
df.head(2)

Pero si sólo se desea visualizar las útimas tres líneas se utiliza el comando `tail`:

In [None]:
df.tail(3)

Si bien solo se desean visualizar los indices, se utiliza:

In [None]:
df.index

Además, en el caso de un `DataFrame` con elementos del mismo tipo de datos, se puede transformar en un dato compatible con NumPy.

In [None]:
df.to_numpy()

Incluso si el `DataFrame` tiene diversos tipos de datos, también se puede transferir los datos a un arreglo de Numpy:

In [None]:
df2.to_numpy()

Sin embargo, si todos los elementos son del mismo tipo, se pueden ejecutar más funciones como una rápida revisión de las principales características estadísticas de cada columna:

In [None]:
df.describe()

O también reordenar los datos con alguna columna de referencia:

In [None]:
df.sort_values(by='B')

---
## 3.4. - Seleccionar datos

En Python, la selección de datos utilizando Pandas es más eficiente que las expresiones para seleccionar y obtener datos en Numpy. Por ejemplo, para ubicar una **fila** de datos, se puede utilizar el comando  `loc`:

In [None]:
df2.loc[2]

También se pueden seleccionar un rango de columnas al mismo tiempo:

In [None]:
df[0:3]

Para obtener una posición en específico, se debe indicar la fila y la columna mediante el comando `at`:

In [None]:
df.at[dates[2], 'A']

Se puede ubicar ese mismo elemento por medio de la posición en lugar de los indices, utilizando el comando `iloc`:

In [None]:
df.iloc[2, 0]

Se pueden ubicar los datos que cumplan con cierta condición booleana:

In [None]:
df[df['A'] > 0]

---
## 3.5. - Operaciones sobre datos

En Python, las operaciones se ejecutan sobre todos los datos arrojando el valor de salida por filas o columnas, por ejemplo para calcular la media estadística de los datos de cada columna, se utiliza el comando `mean` de la siguiente manera:

In [None]:
df.mean()

Si en cambio se desea conocer la media de los valores por filas, se utiliza la siguiente variación:

In [None]:
df.mean(1)

También se pueden aplicar operaciones tales como el conteo (o "apariciones de cada uno") sobre dichos datos:

In [None]:
f = pd.Series(np.random.randint(0, 7, size=10))
f

In [None]:
f.value_counts()

También existen operaciones que se pueden aplicar sobre `Series` de palabras:

In [None]:
g = pd.Series(['ARbOL', 'BLanCO', 'AvE', 'BuRRo', np.nan])

print(g)
print(g.str.lower())

---
## 3.6. - Fusionar datos

En Python, para concatenar datos se utiliza el comando `concat()` de la siguiente forma:

In [None]:
# Definir DataFrames
df_a = pd.DataFrame(np.random.randn(10,2))
df_b = pd.DataFrame(np.random.randn(10,2))

# Extraer fragmentos y concatenarlos
fragmentos = [df_a[:], df_b[:]]
pd.concat(fragmentos)

---
## 3.7. - Agrupar datos

En Python, la agrupación se refiere a:
- Separar los datos en grupos basandose en un criterio.
- Aplicar una función a cada grupo independientemente.
- Combinar los resultados en una estructura de datos.
A continuación un ejemplo de agrupación aplicando una suma a los datos:

In [None]:
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo',
                         'bar', 'foo', 'foo'],
                  'B': ['one', 'one', 'two', 'three', 'two',
                       'two', 'one', 'three'],
                  'C': np.random.randn(8),
                  'D': np.random.randn(8)})
df

In [None]:
df.groupby('A').sum()

In [None]:
df.groupby(['A', 'B']).sum()

---
## 3.8. - Reacomodar datos

En Python, una forma de reacomodar los datos es comprimiéndolos mediante el comando `stack`:

In [None]:
stacked = df.stack()
stacked

También se puede cambiar la forma de ordenar los datos como tablas de pivot:

In [None]:
df=pd.DataFrame({'A': ['one', 'one', 'two', 'three']*3,
                'B': ['A', 'B', 'C']*4,
                'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar']*2,
                'D': np.random.randn(12),
                'E': np.random.randn(12)})
df

In [None]:
pd.pivot_table(df, values='D', index=['A', 'B'], columns=['C'])

---
## 3.9. - Series de tiempo

En Python, la asignación de series de tiempo permite generar secuencias con una frecuencia fija y un lapso de tiempo, como por ejemplo:

In [None]:
dti = pd.date_range('1-5-2020', periods=3, freq='H')
dti

Cuya hora se puede convertir a una zona horaria diferente, como *Central Time*:

In [None]:
dti = dti.tz_localize('UTC')
dti

También se pueden convertir una serie de tiempo a una frecuencia particular:

In [None]:
idx = pd.date_range('2020-05-01', periods=5, freq='H')
ts = pd.Series(range(len(idx)), index=idx)
ts

In [None]:
ts.resample('2H').mean()

---
## 3.10. - Gráficas

En Python, se utiliza la asignación estándar para utilizar los comandos del API de `matplotlib`, con el cuál se puede graficar una `Serie` de datos:

In [None]:
import matplotlib.pyplot as plt

plt.close('all')

ts = pd.Series(np.random.randn(1000),
              index=pd.date_range('1/5/2020', periods=1000))
ts = ts.cumsum()
ts.plot()

También se pueden graficar arreglos del tipo `DataFrame` de manera que se grafican varias curvas en una misma gráfica como se muestra a continuación:

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index,
                 columns=['A', 'B', 'C', 'D'])
df=df.cumsum()
plt.figure()
df.plot()
plt.legend(loc='best')

---
## 3.11. - Importar y exportar datos

En Python, se puede escribir en un archivo de excel mediante el siguiente comando:

In [None]:
df.to_csv('modelos')

Cuyo contenido se puede llamar desde python utilizando el comando:

In [None]:
pd.read_csv('modelos')

---
### Más información

* [Página oficial de Pandas](https://pandas.pydata.org/)

---

---

**Universidad de Costa Rica**

Facultad de Ingeniería

Escuela de Ingeniería Eléctrica

---