# Pandas: DataFrame

**Objetivo.**
Revisar los concepto básicos de DataFrame de la biblioteca Pandas.

 <p xmlns:cc="http://creativecommons.org/ns#" xmlns:dct="http://purl.org/dc/terms/"><a property="dct:title" rel="cc:attributionURL" href="https://github.com/luiggix/HeCompA/blob/main/02_DataScience/T2_Pandas_Dataframes.ipynb">HeCompA - T2_Pandas_Dataframes</a> by <a rel="cc:attributionURL dct:creator" property="cc:attributionName" href="https://www.macti.unam.mx">Luis M. de la Cruz</a> is licensed under <a href="http://creativecommons.org/licenses/by-sa/4.0/?ref=chooser-v1" target="_blank" rel="license noopener noreferrer" style="display:inline-block;">Attribution-ShareAlike 4.0 International<img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/cc.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/by.svg?ref=chooser-v1"><img style="height:22px!important;margin-left:3px;vertical-align:text-bottom;" src="https://mirrors.creativecommons.org/presskit/icons/sa.svg?ref=chooser-v1"></a></p> 

In [None]:
import numpy as np
import pandas as pd

# DataFrames

- La idea principal de los DaraFrames se basa en las hojas de cálculo.
- La estructura de un DataFrame es una tabla, similar a las hojas de cálculo.
- Contiene una colección ordenada de columnas.
- Cada columna consiste de un tipo de dato único.
- Pero, diferentes columnas pueden tener diferens tipos: la primera columna podría contener cadenas, la segunda flotantes, la tercera Boleanos, etc.
- También tiene una columna de índice: es como un diccionario de Series con un índice común.


In [None]:
np.arange(12).reshape(4,3)  # Un arreglo de 4 x 3

In [None]:
# Mi primer DataFrame
dframe = pd.DataFrame(np.arange(12).reshape(4,3))

In [None]:
dframe

En este ejemplo `dframe` se construye convirtiendo un arreglo multidimensional de **numpy** con la forma 4 renglones por 3 columnas, en un objeto de tipo DataFrame, pre-llenado con los valores del 0 al 11. Los índices por omisión de los renglones van de 0 a 3 y los de las columnas de 0 a 2.  

In [None]:
print(type(dframe))

## Construir un DataFrame a partir de un diccionario

In [None]:
datos = {'Delegación':['Coyoacán','Tlalpan','Xochimilco'],
         'Población':[837000,3880000,8400000]}
delegaciones = pd.DataFrame(datos)
delegaciones

Observa que se construyen dos columnas, una para `Delegación` y otra para `Población`, las cuales son las *Keys* del diccionario.

Otra manera de construir el DataFrame es usando los nombres de la delegaciones como índices de cada renglón:

In [None]:
delegaciones = pd.DataFrame(datos['Población'], index = datos['Delegación'])
delegaciones

También es posible poner un nombre a cada columna de manera explícita para una mejor identificación:

In [None]:
delegaciones = pd.DataFrame(datos['Población'], columns = ['Población'], index = datos['Delegación'])
delegaciones

## Agregar una Serie a un DataFrame

Supongamos que tenemos los datos del **Índice Metropolitano de Calidad del Aire** ([IMECAS](https://es.wikipedia.org/wiki/%C3%8Dndice_metropolitano_de_la_calidad_del_aire), para cada delegación. Es posible agregar esta información al DataFrame existente:

In [None]:
# Primero creamos una serie
IMECAS = pd.Series([90,100,120], index = datos['Delegación'])
print(type(IMECAS))
print(IMECAS)

In [None]:
# Agregamos una nueva columna al DataFrame
delegaciones['Cal. Aire'] = IMECAS
delegaciones

Observa que la nueva columna, en este caso almacenada originalmente en una serie, debe tener los mismos índices que el DataFrame donde se va a agregar.

Se puede agregar directemente desde una lista (la longitud de la lista debe ser igual al número de renglones):

In [None]:
delegaciones['Autos'] = [10000,20000,15000]

In [None]:
delegaciones

## Leyendo información de archivos *txt*

In [None]:
df_pets = pd.read_table('./pets.txt',sep=' ')
df_pets

## Leyendo archivos *csv*

In [None]:
# Lectura de CSV, ojo, en este caso la separación de los datos es con ;
red_wine = pd.read_csv('./winequality-red.csv',sep=';') 
red_wine

## Formatos de archivos, para lectura y escritura.

Pandas ofrece una multitud de herramientas para leer y guardar información en diferentes formatos: txt, csv, xlsx, json, hdf5, etc.
La información completa de estas herramientas la puedes encontrar en el siguiente enlace: [IO tools](https://pandas.pydata.org/docs/user_guide/io.html).

Por ejemplo, guardar la información del DataFrame `red_wine` en un archivo tipo MS Excel se hace de la siguiente manera:

In [None]:
red_wine.to_excel('./winequality-red.xlsx')

Y para leer la información del archivo tipo MS Excel hacemos lo siguiente:

In [None]:
red_wine_excel = pd.read_excel('./winequality-red.xlsx')
red_wine_excel

<div class="alert alert-danger">
<b>Observación.</b>
Algunos de estos formatos requieren de la instalación de bibliotecas adicionales.
</div>



## Un primer vistazo a la información: `head`, `tail`, `columns`, `index`, `loc`, `iloc`

In [None]:
red_wine.head() # Revisar los primeros 5 renglones del DataFrame

In [None]:
red_wine.head(10) # Revisar los primeros 10 renlgones del DataFrame

In [None]:
red_wine.tail() # Revisar los últimos 5 renglones del DataFrame

In [None]:
red_wine.tail(10) # Revisar los últimos 10 renglones del DataFrame

In [None]:
red_wine.columns # Conocer las columnas

In [None]:
red_wine.index # Conocer los índices

In [None]:
#list(red_wine.index) # En forma de lista

In [None]:
red_wine['alcohol'] # Acceder a los datos de una columna

In [None]:
red_wine.alcohol # Otra manera de acceder a los datos de una columna

In [None]:
red_wine.iloc[3]  # Renglón con índice 3

In [None]:
red_wine.iloc[[3, 6]] # Extrae parte del DataFrame: renglones 3 y 6

In [None]:
type(red_wine.iloc[[3, 6]]) # Esto es un DataFrame

In [None]:
red_wine.iloc[3:8] # Slicing

In [None]:
# Se obtienen 6 renglones, de 3 a 9, luego solo se muestran los que tienen True
red_wine.iloc[3:10].iloc[ [True, True, False, False, True, False, True] ]

In [None]:
# Se puede usar una función anónima para obtener ciertos renglones
red_wine.iloc[lambda x: x.index % 5 == 0] # Solo aquellos múltiplos de 5

In [None]:
# Se muestran solo aquellos renglones cuya calidad es mayor a 6
# Observa que se usa la función loc().
red_wine.loc[lambda x: x.quality > 6] 

In [None]:
red_wine.iloc[[0, 2, 5], [1, 3, 7]] # Extracto de renglones y columnas

In [None]:
red_wine.iloc[2:5, 1:6:2] # Extracto de renglones y columnas

In [None]:
# Solo se muestran algunas columnas
red_wine.iloc[3:8:2, [True, False, True, False, False, True, True, True, False, True, True, True]]

In [None]:
# Los renglones de 0 a 4, y las columnas 0 y 2
red_wine.iloc[:5, lambda df: [0, 2]]

Se puede usar `loc` si los índices no tienen etiqueta entera:

In [None]:
df = pd.DataFrame({"A": [1, 1, 2, 2], "B": [1, 2, 3, 4],
                   "C": [0.362838, 0.227877, 1.267767, -0.562860],}, 
                  index=['alpha', 'beta', 'gamma', 'delta'])

In [None]:
df

In [None]:
df.iloc[2]

In [None]:
df.loc['gamma']

## Agrupación (`groupby`, `describe`, `get_group`, `agg`)

Estas operaciones son de mucha utilidad. Para mostrar su uso vamos a generar un nuevo DataFrame.

In [None]:
demo = pd.DataFrame({"A": [1, 1, 2, 2], 
                     "B": [1, 2, 3, 4],
                     "C": [0.362838, 0.227877, 1.267767, -0.562860],})

In [None]:
demo

Una función muy útil es `describe()` que proporciona información estadística del DataFrame:

In [None]:
demo.describe()

Como se puede observar, se muestra por columna la cantidad de elementos (`count`), la media (`mean`), la desviación estándar (`std`), el mínimo (`min`), los cuartiles y el máximo (`max`).

Ahora agrupamos los renglones haciendo una clasificación de acuerdo al valor de la columna `A`.

In [None]:
demo_A = demo.groupby('A')
demo_A

Observa que el objeto `demo_A` no es un objeto de tipo `DataFrame`, es un objeto de tipo `DataFrameGroupBy`. Para obtener una descripción del objeto `demo_A` hacemos lo siguiente:

In [None]:
demo_A.describe()

Observa que se muestra la misma información que antes, pero esta vez es por cada categoría de la clasificación.

Podemos obtener los grupos de la clasificación como sigue:

In [None]:
demo_A.get_group(1)

In [None]:
demo_A.get_group(2)

Cada grupo es un DataFrame:

In [None]:
type(demo_A.get_group(1))

Es posible usar la función `agg` para "agregar" una función para que se aplique sobre un DataFrame o una agrupación:

In [None]:
demo.agg('min') # La función min() se aplica sobre cada columa del DataFrame

In [None]:
demo_A.agg('min') # La función min() se aplica sobre cada grupo.

Veamos otras funciones:

In [None]:
demo_A.agg('max')

In [None]:
demo_A.mean()

Podemos definir nuestra propia función a aplicar:

In [None]:
def difMaxMin(arr):
    """
    Calcula la diferencia entre el valor mínimo y máximo de un arreglo.
    """
    return arr.max() - arr.min()

In [None]:
demo_A.agg(difMaxMin) # Ahora aplicamos nuestra función

Podemos usar una función anónima:

In [None]:
demo_A.agg(lambda arr: arr.max() - arr.min())

Apliquemos lo anterior al DataFrame `red_wine`

In [None]:
red_wine.head(5)

In [None]:
wino = red_wine.groupby('quality')

In [None]:
wino.describe() 

In [None]:
wino.agg('mean')

In [None]:
wino.agg(difMaxMin)

In [None]:
wino_5 = wino.get_group(5)
wino_5

Podemos aplicar algunas funciones a una columna particular

In [None]:
wino_5['fixed acidity'].mean()

In [None]:
wino_5['fixed acidity'].agg('mean')

In [None]:
wino_5['fixed acidity'].agg(difMaxMin)

## Agregando una columna a nuestro DataFrame

In [None]:
red_wine.head()

Agregamos una nueva columna realizando un cálculo entre valores de otras columnas

In [None]:
red_wine['qual/alc ratio'] = red_wine['quality'] / red_wine['alcohol']

In [None]:
red_wine.head()

## Ordenamiento 

Se puede ordenar un DataFrame de acuerdo con los valores de una columna

In [None]:
red_wine.sort_values('alcohol', ascending = False, inplace=True)
red_wine

## Contar elementos.

Se puede contar el número de elementos que tengan un cierto valor en cada columna.

In [None]:
red_wine['quality'].value_counts()

## Estilo de despliegue

In [None]:
wino_5.loc[10:25].style.background_gradient(cmap='summer')

Existen varios tipos de desplique del DataFrame, revisa [Table Visualization](https://pandas.pydata.org/docs/user_guide/style.html) para más detalles.

## Visualización

Pandas contiene herramientas para graficación que se basan en matplotlib.

### Graficación de Series.

In [None]:
# Un DataFrame con datos pseudo-aleatorios.
df_ts = pd.Series(np.random.randn(1000), 
               index=pd.date_range("1/1/2000", periods=1000))
df_ts

In [None]:
df_ts.plot()

In [None]:
df_ts_cs = df_ts.cumsum()
df_ts_cs

In [None]:
df_ts_cs.plot()

### Graficación de DataFrames.

Véase [Chart visualization](https://pandas.pydata.org/docs/user_guide/visualization.html) para más detalles.

In [None]:
red_wine.plot(kind='scatter', x='quality', y='alcohol')

In [None]:
dummy_df = pd.DataFrame(np.random.rand(10, 4), columns=["a", "b", "c", "d"])
dummy_df

In [None]:
dummy_df.plot.area()

In [None]:
dummy_df.plot.area(stacked=False, colormap='winter')

In [None]:
dummy_df.iloc[:,1:3]

In [None]:
dummy_df.iloc[:,1:3].plot.pie(subplots=True,figsize=(10,4))

In [None]:
dummy_df.iloc[:,1:3].plot.pie(subplots=True,figsize=(10,4), 
                        labels=['A','B','C','D','E','F','G','H', 'I', 'J'], 
                        autopct="%.2f",fontsize=10)

In [None]:
from pandas.plotting import scatter_matrix
df = pd.DataFrame(np.random.randn(1000, 4), columns=["a", "b", "c", "d"])
df

In [None]:
scatter_matrix(df, alpha=0.5, figsize=(6, 6), diagonal="kde");

#### Parallel Coordinates

In [None]:
iris_data = pd.read_csv("./iris.data")

pd.plotting.parallel_coordinates(iris_data, "Name");

#### RadViz

In [None]:
pd.plotting.radviz(iris_data, "Name");

#### Andrews curves

In [None]:
pd.plotting.andrews_curves(iris_data, "Name")

#### Combinando con Matplotlib

In [None]:
precio = pd.Series(np.random.randn(150).cumsum(), 
                   index=pd.date_range("2000-1-1", periods=150, freq="B"))
precio

In [None]:
precio.plot()

In [None]:
ma = precio.rolling(14).mean()
mstd = precio.rolling(14).std()
print(ma)
print(mstd)

In [None]:
import matplotlib.pyplot as plt
plt.plot(precio.index, precio, "k", label='Precio')
plt.plot(ma.index, ma, "b", label='Promedio móvil (14)')
plt.fill_between(mstd.index, ma - 2 * mstd, ma + 2 * mstd, color="b", alpha=0.2)
plt.xticks(rotation=45)
plt.legend()