# <center> <span style='color:#3c3b5f'>Introducción a Pandas</span></center>

Módulo 7 - Parte teórica

**Profesor Adjunto:** Mag. Bioing. Baldezzari Lucas

<p style='text-align: left;'> V2022 </p>

<hr style="border:1px solid gray"> </hr>

## <span style='color:#f06553'>Instalando Pandas</span>

La forma rápida y sencilla es usando *pip* desde consola.

```Python
pip install pandas
```

Recordar antes activar el ambiente de trabajo mediante *conda actívate miEnv*, de esta manera numpy se instalará en el ambiente de trabajo.

Si ya tenemos numpy instalado podemos ver su versión ejecutando,

```Python
import pandas
pandas.__version__
```

In [None]:
import pandas
pandas.__version__

## <span style='color:#f06553'>¿Qué es Pandas?</span>

Es una librería de código abierto para el análisis de datos. Utiliza Numpy para administrar y manipular datos. Por otro lado, utiliza algunas funcionalidades básicas de Matplotlib para graficar.

Con Pandas introducimos dos tipos de datos nuevos,

- [DataFrame](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html): Representa nuestra tabla de datos o spreadshet.
- [Series](https://pandas.pydata.org/docs/reference/api/pandas.Series.html): Que representa una columna dentro de mi DataFrame. Los *pandas.series* contienen información **indexada**. Esta indexación puede ser por número o bien podría tener un nombre.

[Sitio oficial](https://pandas.pydata.org/docs/index.html).

## <span style='color:#f06553'>Primeros pasos: Cargando archivos en DataFrames</span>

Pandas posee varios métodos de Entrada/Salida (Input/Ouput, IO) para leer y escribir archivos de diferentes formatos. Algunos de los formatos disponibles, según la [documentación oficial](https://pandas.pydata.org/docs/user_guide/io.html), son,

<img src="figs/io.png" style=" width:520px;" />

En este curso trabajaremos mayoritariamente con archivos de texto y csv, por lo tanto, utilizaremos el método, [*pandas.read_csv()*](https://pandas.pydata.org/docs/user_guide/io.html#io-read-csv-table).

El constructor del método mencionado recibe una gran cantidad de parámetros, como podemos ver debajo. No obstante, en este curso sólo utilizaremos los básicos.

```python
pandas.read_csv(filepath_or_buffer, sep=NoDefault.no_default, delimiter=None, header='infer', names=NoDefault.no_default, index_col=None, usecols=None, squeeze=None, prefix=NoDefault.no_default, mangle_dupe_cols=True, dtype=None, engine=None, converters=None, true_values=None, false_values=None, skipinitialspace=False, skiprows=None, skipfooter=0, nrows=None, na_values=None, keep_default_na=True, na_filter=True, verbose=False, skip_blank_lines=True, parse_dates=None, infer_datetime_format=False, keep_date_col=False, date_parser=None, dayfirst=False, cache_dates=True, iterator=False, chunksize=None, compression='infer', thousands=None, decimal='.', lineterminator=None, quotechar='"', quoting=0, doublequote=True, escapechar=None, comment=None, encoding=None, encoding_errors='strict', dialect=None, error_bad_lines=None, warn_bad_lines=None, on_bad_lines=None, delim_whitespace=False, low_memory=True, memory_map=False, float_precision=None, storage_options=None)
```

Si el archivo pudo ser abierto, el método *pandas.read_csv()* nos devuelve un *DataFrame*.

A continuación trabajaremos con el set de datos de Eficiencia energética visto en la ejercitación del módulo de Numpy.

Cargamos el archivo en un DataFrame.

In [None]:
import pandas as pd

datos = pd.read_csv("datasets/eficienciaEnergética.csv")
print(type(datos)) ## vemos que el tipo de datos es 'pandas.core.frame.DataFrame'

### <span style='color:#381c88'>Conociendo un poco más sobre los *DataFrame*</span></center>

Vimos como abrir un archivo csv y formar un data frame. Ahora bien, vamos a analizar qué datos tenemos dentro del dataframe cargado, para esto utilizaremos algunos métodos propios de los objetos *DataFrame*, a saber:

- *DataFrame.head()*: Retorna las primeras filas del dataframe.
- *DataFrame.info()*: Muestra información de cada columna, como ser el tipo de datos y la cantidad de valores *perdidos* (los cuales pandas no pudo cargar).
- *DataFrame.shape*: Retorna el número de filas y columnas. No confundir con el *shape* de Numpy.
- *DataFrame.describe()*: Retorna un resúmen de algunos valores estadísticos de aquellas columnas que contienen datos numéricos.

##### [DataFrame.head()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.head.html)

El método esta definido cómo,

```Python
DataFrame.head(n=5)
```

La documentación oficial dice:

> This function returns the first n rows for the object based on position. It is useful for quickly testing if your object has the right type of data in it.

Veamos esto con los datos que hemos cargado.

In [None]:
datos.head()

##### [DataFrame.info()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html)

El método esta definido cómo,

```Python
DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None, null_counts=None)
```

La documentación oficial nos dice,

> This method prints information about a DataFrame including the index dtype and columns, non-null values and memory usage.

Veamos.

In [None]:
datos.info()

A partir del método *.info()* podemos ver que el rango de datos va de 0 a 767, dándonos 768 filas. Al mismo tiempo nos dice que tenemos un total de 10 columnas, numeradas del 0 a 9. Además nos informa del nombre asociada a cada columna, por ejemplo, *Relative_Compactness* la cual posee 768 datos *non-null* con valores del tipo *float64*.

##### DataFrame.shape

Este es un **atributo** y no un método (observar que no tiene paréntesis). *DataFrame.shape* nos retorna el número de filas y columnas que posee.

Veamos.

In [None]:
datos.shape

##### [DataFrame.describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)

El método esta definido cómo,

```Python
DataFrame.describe(percentiles=None, include=None, exclude=None, datetime_is_numeric=False)
```

La documentación oficial nos dice,

> Generate descriptive statistics.

> Descriptive statistics include those that summarize the central tendency, dispersion and shape of a dataset’s distribution, excluding NaN values.

> Analyzes both numeric and object series, as well as DataFrame column sets of mixed data types. The output will vary depending on what is provided. Refer to the notes below for more detail.

In [None]:
datos.describe(percentiles=[0.1,0.5,0.9])

## Sin la columna Orientation
# datos.drop(columns = "Orientation").describe(percentiles=[0.25,0.5,0.75])

### <span style='color:#381c88'>Valores, columnas e índices de un DataFrame</span></center>

Hay tres atributos importantes dentro de un DataFrame que son de utilidad, estos son,

DataFrame.values: Array 2D con los valores que componen el DataFrame.
DataFrame.columns: Una lista con los nombres de las columnas.
DataFrame.index: Índices numéricos para cada fila. O podrían ser con nombres.

Veamos esto en acción.

In [None]:
## .values
print(type(datos.values)) ##array de numpy
print(datos.values)
print()
print(datos.values.shape)

## Podríamos indexar el array de .values como hemos visto en el módulo de numpy
print(datos.values[1,:]) ## segunda fila de mi dataFrame

In [None]:
## ¿Cuales son las columnas del dataframe?
print(datos.columns)
print(datos.columns[2])

In [None]:
## ¿Qué podemos decir acerca de los índices de nuestro dataframe?
datos.index

#### <span style='color:#55aa74'>Utilizando *DataFrame.loc[]* para obtener datos de un renglón</span></center>

Podemos usar [*DataFrame.loc[]*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) para acceder a un renglón en particular de mi set de datos, aprovechando que Pandas utiliza *indexación* para acceder a los datos, ya sea por un valor numérico o bien por nombre.

Veamos esto con un ejemplo.

In [None]:
df = pd.DataFrame([[1, 2], [4, 5], [7, 8]],
     index=['cobra', 'viper', 'sidewinder'],
     columns=['max_speed', 'shield'])
df

En el ejemplo anterior vemos que tenemos tres renglones con tres nombres, podríamos acceder al renglón utilizando el nombre del mismo.

Veamos.

In [None]:
print(df.loc["viper"])

**Nota:** Veremos más adelante otras formas de usar .loc[].

## <span style='color:#f06553'>Obteniendo subsets</span>

Con Pandas es posible obtener subsets a partir de otro set de datos.

Podríamos utilizar el atributo *dataframe.values* para tener acceso al array 2D con toda la info del dataframe y utilizar el slicing como hemos visto en el módulo de Numpy.

O bien, podríamos aprovechar la versatilidad de Pandas y usar los nombres de las columnas para decirle a Pandas de cuales columnas queremos formar un subset.

Vamos a seguir trabajando con el set de datos *eficienciaEnergética.csv*

Si quisieramos formar un subset de datos formado por las columnas *Relative_Compactness*, *Heating_Load* y *Cooling_Load* podríamos hacer lo siguiente,

```python
subset = datos[["Relative_Compactness", "Heating_Load", "Cooling_Load"]]
```

Entonces, para obtener un subset estamos pasando una **lista** con los nombres de las columnas, del set de datos original, que queremos tomar para formar el subset.

Veamos...

In [None]:
subset = datos[["Relative_Compactness", "Heating_Load", "Cooling_Load"]]
subset.head()

In [None]:
## Notar que el orden en el cual pasemos la lista de nombres de columnas, tiene un efecto.
test = datos[["Heating_Load", "Relative_Compactness", "Cooling_Load"]]
test.head()

### <span style='color:#381c88'>Ordenando los datos dentro del dataframe</span></center>

Los DataFrame posee un método llamado [*DataFrane.sort_values()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) el cual nos permite ordenar los datos dentro del set especificando una o más columnas, de manera ascendente o descendente.

Su implementación es,

```python
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None
```

Nota: Si colocamos el atributo **inplace = True** estaremos indicando a Pandas que cambie el orden de los datos en el dataFrame original sin retornar nada.

Según la documentación, el método *.sort_values()* retorna,

    Returns
    DataFrame or None. DataFrame with sorted values or None if inplace=True.

Veamos.

In [None]:
print(datos.sort_values("Relative_Compactness", ascending = True).head())

In [None]:
## Podríamos ordenar por dos columnas
datos.sort_values(["Relative_Compactness","Surface_Area"], ascending = [True,False]).head()

Cuando hicimos, 

```python
print(datos.sort_values(["Relative_Compactness","Surface_Area"], ascending = [True,False]).head())
```

primero ordenamos los valores de manera ascendente según la columna *Relative_Compactness* y luego de manera descendente por la columna *Surface_Area*.

### <span style='color:#381c88'>Creando subsets a partir de filtros</span></center>

Con Pandas podemos crear subsets a partir de los valores dentro de una o más columnas del set de datos que cumplan con una o más condiciones. Esto es similar a lo que hemos visto en el módulo de Numpy, pero con la ventaja que podemos usar nombres de columnas para hacer el trabajo más ameno.

Podríamos hacer,

```python
filtro1 = DataFrame["Columna de interes"] < 50.
filtro2 = DataFrame["Otra columna de interes"] == "unaPalabra".

subsetFiltrado = datosOriginales[filtro1]
otroSubSet = datosOriginales[filtro2]
subSet2Filtros = datosIRiginales[ filtro1 & filtro2 ]
```

<mark>**Importante**</mark>: Cuando creamos un filtro a partir de una o más condiciones, pandas nos devuelve un objeto del tipo *Series*. Los *pandas.series* contienen información **indexada**.

Veamos algunos ejemplos con nuestro set *eficienciaEnergética.csv*.

In [None]:
##Generando un filtro

## Queremos los datos de Relative_Compactness mayores a 0.9
filtro1 = datos["Relative_Compactness"]>0.9
## Veamos qué tipo de datos nos da el filtrado
print(type(filtro1))
print()
print(filtro1)


##queremos los datos de Surface_Area menores a la media
filtro2 = datos["Surface_Area"] < datos["Surface_Area"].mean()

In [None]:
## Generamos nuestro subset
subSetFiltrado = datos[filtro1 & filtro2]
subSetFiltrado.info()

In [None]:
## Podemos hacer lo anterior en una sola línea
subSet = datos[(datos["Relative_Compactness"]>0.9) & (datos["Surface_Area"] < datos["Surface_Area"].mean())]

## IMPORTANTE: Los filtros deben estar entre paréntesis
subSet.info()

#### <span style='color:#55aa74'>Utilizando el método *.isin()* para filtrar por variables categóricas</span>

En ocasiones podemos utilizar la función [*DataFrame.isin()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html) para filtrar todos los datos que le pasemos como parámetro. Es útil en general cuando tenemos variables categóricas.

Supongamos que quisieramos formar un subset de datos con todas las casas que apuntan al norte y al sur dentro de *eficienciaEnergética.csv*.

In [None]:
filtrNorteYsur = datos["Orientation"].isin([2,3])
subSetNyS = datos[filtrNorteYsur]
subSetNyS.info()

### <span style='color:#381c88'>Creando nuevas columnas</span>

En ocasiones es útil crear columnas que contengan información relevante a partir de realizar cálculos sobre los datos existentes en un dataframe.

Con pandas es muy sencillo crear columnas nuevas.

Supongamos que quisieramos crear una columna nueva con el total de carga de calor y carga de enfriamiento para cada hogar dentro del set de datos *eficienciaEnergética.csv*. Esto lo podemos hacer de la siguiente forma,

```python
datos["totalsLoad"] = datos["Heating_Load"] + datos["Cooling_Load"]
```

Cuando hacemos *datos["totalsLoad"]* le decimos a pandas que genere una nueva columna llamada *totalsLoad* y le asignamos, fila a fila, la suma de cada valor de *Heating_Load* y *Cooling_Load*.

In [None]:
datos["totalsLoad"] = datos["Heating_Load"] + datos["Cooling_Load"]
datos.info()

Podemos ver que ahora nuestro set de datos contiene una nueva columna llamada *totalsLoad*.

### <mark>**A practicar**</mark>

Ejercicio 1 de *Ejercitación Teoría - Módulo Pandas*

## <span style='color:#f06553'>Sacando valores estadísticos del set de datos</span>

Los pandas.DataFrame traen varios métodos para obtener parámetros estadísticos a partir de sus columnas.

Entre estas funciones tenemos:

- mean()
- median()
- mode()
- min()
- max()
- var()
- std()
- sum()
- quantile()
- cumsum()

La forma de utilizarlas es muy sencilla, sólo pasamos la columna (o columnas) que queremos estudiar y aplicamos alguna de las funciones mencionadas.

Supongamos que quisiéramos obtener algunos valores estadísticos de la carga de calor dentro de los datos de *eficienciaEnergética.csv*.

Podríamos hacer...

In [None]:
media = datos["Heating_Load"].mean()
moda = datos["Heating_Load"].mode()
mediana = datos["Heating_Load"].median()
minimo = datos["Heating_Load"].min()
maximo = datos["Heating_Load"].max()
varianza = datos["Heating_Load"].var()
desvio = datos["Heating_Load"].std()
q30 = datos["Heating_Load"].quantile(0.3)

In [None]:
print(f"La media es {media}")
print(f"La moda es {moda}")
print(f"La mediana es {mediana}")
print(f"Mínimo es {minimo}. Máximo es {maximo}")
print(f"La varianza es {varianza}. El desvío estándar es {desvio}")
print(f"El cuantil 30 es {q30}")

La función *cumsum()* nos devuelve la suma acumulada y contiene la misma cantidad de datos que de filas tenga el set.

Veamos.

In [None]:
cumsumHeating = datos["Heating_Load"].cumsum()
print(cumsumHeating.shape)

In [None]:
import matplotlib.pyplot as plt

plt.plot(cumsumHeating)
plt.xlabel("Número de hogar")
plt.ylabel("Suma acumulada de carga de calor")
plt.title("Suma acumulada para columna Heating_Load")
plt.show()

### <span style='color:#381c88'>Función *agg()*</span>

La función [*agg()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html) nos permite implementar una función o varias, a lo largo de un axis del data frame.

Su sintaxis es,

```python
DataFrame.agg(func=None, axis=0, *args, **kwargs)
```

Veamos algunos ejemplos.

In [None]:
datos.agg("min")

Podemos ver que al hacer **datos.agg("min")**, obtenemos los valores mínimos de todas las columnas.

Podríamos crear nuestra propia función para hacer algo sobre una columna.

In [None]:
def func(dato):
    return dato/100
    
datos[["Heating_Load", "Cooling_Load"]].agg(func)

In [None]:
## Calculando el rango intercuartil de Heating_Load
def interq(columna):
    return columna.quantile(0.75) - columna.quantile(0.25)

print(datos["Heating_Load"].agg(interq))

In [None]:
## Calculando medias y medianas usando funciones de numpy
import numpy as np

print(datos[["Heating_Load", "Cooling_Load"]].agg([np.mean, np.median]))

## <span style='color:#f06553'>Sacando valores estadísticos del set de datos</span>

En ocasiones necesitamos contabilizar ocurrencias que cumplan ciertas condiciones dentro del data frame.

Pandas ofrece algunos métodos para realizar un conteo de cuántas veces cierto valor aparece en una columna del dataframe.

En general, antes de realizar un conteo es necesario limpiar y/u obtener un subset de datos para realizar nuestro análisis o conteo.

### <span style='color:#381c88'>Obteniendo valores únicos con *.drop_duplicates()*</span>

Supongamos que tenemos un pequeño set de datos que muestra la visita de diferentes perros a una veterinaria.

Cargamos el archivo

In [None]:
visitas = pd.read_csv("datasets/visitasVet.csv")
visitas

Lo primero que debemos notar es que algunos perros han visitado la veterinaria más de una vez.

Creemos un subset donde figuren solo una visita de cada perro a partir de su nombre.

Esto lo podemos hacer con el método [*.drop_duplicates()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)

```python
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False, ignore_index=False)
```

In [None]:
visitas.drop_duplicates(subset = "nombre")

Ahora tenemos un subset donde aparecen los perros sin repetir nombres. 

Pero **ojo**, <mark>¿donde está el perro Max de raza Chow Chow?</mark> Vemos que en el set original tenemos un perro llamado Max de raza Chow Chow pero que al descartar los duplicados, ya no aparece.

¿Cómo podemos solucionar esto? Pasando una lista de subsets que contemeple los nombres y las razas de los perros a la función *.drop_duplicates()*.

Veamos

In [None]:
unicos = visitas.drop_duplicates(subset = ["nombre", "raza"])
unicos

Ahora sí tenemos a los dos perros llamados Max y podemos contabilizar realmente las razas en base a las visitas de perros.

### <span style='color:#381c88'>Contando con *.value_counts()*</span>

Los dataframe tienen un método llamado [*.value_counts()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.value_counts.html) que nos permite contar las ocurrencias dentro de una columna de datos. 

El método es

```python
DataFrame.value_counts(subset=None, normalize=False, sort=True, ascending=False, dropna=True)
```

Utilicemos el mismo para contabilizar las razas que tenemos dentro del subset unicos.

In [None]:
unicos.value_counts("raza")

In [None]:
unicos.value_counts(subset = "raza", normalize = True)

De la celda anterior podemos ver que el 28.5% de los perros son ChowChow o Labradores.

##### Alternativa

Podemos hacer lo mismo que antes sin pasarle una columna al parámetro *subset*. Simplemente tomamos la columna que queremos contabilizar y aplicamos *.value_counts()*.

Veamos

In [None]:
print(unicos["raza"].value_counts())
print()
print(unicos["raza"].value_counts(normalize = True))

### <span style='color:#381c88'>Aplicando operaciones por grupos usando *.groupby()*</span>

La documentación oficial dice,

> Group DataFrame using a mapper or by a Series of columns.

> A groupby operation involves some combination of splitting the object, applying a function, and combining the results. This can be used to group large amounts of data and compute operations on these groups.

Lo anterior nos dice que podemos usar el agrupamiento para aplicar operaciones a cada grupo.

```python
DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True)
```

Es importante notar que esta función nos retorna un objeto especial llamado *pandas.core.groupby.generic.DataFrameGroupBy*, el cual es un objeto especial de Pandas.

Veamos un ejemplo de como usarlo.

##### ¿Cual raza es más pesada?

Supongamos que quisieramos saber si alguna raza pesa más que la otra en promedio.

In [None]:
## Agrupamos por raza
meidasPorRaza = visitas.groupby("raza").mean()
meidasPorRaza ##es un dataframe

Lo anterior es equivalente a,

```python
visitas[visitas["raza"] == "Beagle"]["peso_kg"].mean()
visitas[visitas["raza"] == "Chihuahua"]["peso_kg"].mean()
visitas[visitas["raza"] == "ChowChow"]["peso_kg"].mean()
visitas[visitas["raza"] == "Dalmata"]["peso_kg"].mean()
visitas[visitas["raza"] == "Labrador"]["peso_kg"].mean()
```

Esto último puede ser complicado para grandes cantidades de datos y además puede ser fuente de errores o bugs en nuestro programa.

Podemos formar un DataFrame con una mayor cantidad de datos referentes a los pesos por cada raza <mark>**agrupando datos con *.groupby()***</mark>, veamos.

In [None]:
medidasPorRaza = visitas[["raza","peso_kg"]].groupby("raza").agg(["mean","max","min"])
medidasPorRaza

Podríamos también agrupar por *raza* y *color* y obtener su media.

In [None]:
## Agrupamos por raza
meidasPorRazaYColor = visitas[["raza","peso_kg","color"]].groupby(["raza", "color"]).agg(["mean","max","min"])
meidasPorRazaYColor ##es un dataframe

##### Trabajando con los datos de eficiencia energética

Supongamos que quisieramos comparar la carga total media necesaria para enfriar/calentar una casa en base a la orientación de las mismas.

Podríamos usar lo visto hasta ahora sobre el set de datos de eficiencia energética, veamos.

In [None]:
gruposPorOrientation = datos.groupby("Orientation")[["Heating_Load","Cooling_Load","totalsLoad"]].mean()
gruposPorOrientation

Vemos que no hay mucha diferencia entre las cargas de frío y calor en base a las orientaciones.

¿Qué hay de las alturas de las casas?

In [None]:
datos.groupby("Overall_Height")[["Heating_Load","Cooling_Load","totalsLoad"]].mean()

Evidentemente la altura de las casas tiene un impacto significatívo en lo que la carga de frío/calor para enfriar/calentar un hogar respecta.

¿Y respecto de la cantidad de ventanas en los hogares?

In [None]:
datos.groupby(["Glazing_Area"])[["Heating_Load","Cooling_Load","totalsLoad"]].mean()

### <span style='color:#381c88'>Creando tablas dinámicas</span>

Con las tablas pivote podemos formar tablas dinamicas. El método [*dataframe.pivot_table()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.pivot_table.html) reconstruye el dataframe, para esto le decimos qué columna debe ocupar para formar los *valores* que formarán la tabla y la columna de la cual sus datos se convertirán en los nombres de las columnas de la tabla. Opcionalmente podemos pasarle a la función los índices, es decir, los nombres de las filas.

Las tablas pivot son similares a las tables dinámicas de Excel o de Google Sheet.

El método es el siguiente,

```python
DataFrame.pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=False, sort=True)
```

Veamos.

In [None]:
tablaPivote = visitas.pivot_table(values = "peso_kg", index = "color", columns = "raza")
tablaPivote

##### Missing values o Valores perdidos

En la tabla anterior vemos algunos campos con valores *NaN*. Esto significa que no hay valores o se han perdido, para este caso particular es esperable, ya que nuestro set de datos no cuenta con Beagles de color blanco o perros de raza ChowChow de color blanco.

Podríamos reemplazar estos valores *NaN* por algo mas conveniente utilizando el atributo *fill_value*, veamos.

In [None]:
tablaPivote = visitas.pivot_table(values = "peso_kg", index = "color", columns = "raza", fill_value = 0)
tablaPivote

Si hacemos el atributo *margins = True* obtendremos una fila y una columna con los valores medios de cada columna y cada fila, respectivamente, pero **sin contar los ceros**.

Veamos

In [None]:
tablaPivote = visitas.pivot_table(values = "peso_kg", index = "color", columns = "raza", fill_value = 0, margins = True)
tablaPivote

Utilizar *margins = TRue* nos otorga información valiosa desde el punto de vista estadístico ya que podemos, por ejemplo, saber el peso promedio para los Beagles que han visitado la veterinaria o bien el peso promedio para los perros de color marron, por citar un ejemplo.

##### Tabla pivote con datos de eficiencia energética

Armemos una tabla pivote de los datos de eficiencia energética.

In [None]:
otraPivote = datos.pivot_table(values = "totalsLoad", columns = "Glazing_Area", index = "Relative_Compactness",
                               aggfunc=["mean"], margins = True)
otraPivote

En la tabla anterior podemos ver que los hogares con niveles de compactación por encima de 0.76 requieren una mayor cantidad de carga de frio/calor que los hogares de compactación por debajo de 0.76.

In [None]:
plt.figure(figsize=(8, 6), dpi=80)
data = otraPivote.values
labels = [glazing[1] for glazing in otraPivote.columns.tolist()]
compact = otraPivote.index.tolist()
   
for i in range(data.shape[1]-1):
    plt.scatter(compact[:len(compact)-1],data[:-1,i], label = f"Glazing area {labels[i]}")
    
plt.title("Carga de frío/calor medias para cada nivel de compactación")
plt.legend(loc = 'upper right')
plt.xlabel("Compactación")
plt.ylabel("Valores medios de frío/calor")
plt.show()

#### <span style='color:#55aa74'>Obteniendo datos estadísticos por fila y columna</span>

Si quisiéramos, podríamos aplicar algunas funciones a lo largo de filas o columnas de una tabla dinámica. Esto lo hacemos especificando la función a aplicar (mean(), sum(), min(), etc) y el axis sobre el cual queremos aplicarla, veamos.

In [None]:
## media sobre las filas
tablaPivote.mean(axis = "index")

In [None]:
## media sobre columnas
tablaPivote.mean(axis = "columns")

In [None]:
##máximos y mínimos
otraPivote = datos.pivot_table(values = "totalsLoad", columns = "Glazing_Area", index = "Relative_Compactness",
                               aggfunc=['max','min'], margins = True)
otraPivote

In [None]:
## Imprimiendo solo los valores máximos
print(otraPivote["max"])

##obteniendo los máximos entre los máximos
print(otraPivote["max"].max())

## <span style='color:#f06553'>Creando índices en nuestros DataFrames</span>

Hemos visto que en general cuando creamos un DataFrame a partir de leer un CSV obtenemos una tabla 2D con datos formados por filas y columnas. Por defecto, Pandas otorga un valor numérico, un **index**, a cada fila.

Sin embargo, podríamos necesitar de crear tablas en donde los *index* no sean números sino que contengan algún tipo de información, de tal manera de poder obtener datos del DataFrame de manera diferente a cómo lo veníamos haciendo.

Pandas nos ofrece algunos métodos para setear índices en nuestras tablas.

Veamos el dataset de visitas de perros al veterinario.

In [None]:
print(visitas.index)
visitas

Podemos ver que la tabla de *visitas* contiene índices que van del 0 al 13, con pasos de a 1.

Mediante el método [*DataFrame.set_index()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.set_index.html) podemos generar índices a partir de los valores de una o más columnas.

```python
DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)
```

Veamos...

In [None]:
## Seteando los índices según los nombres
tablaPorNombre = visitas.set_index("nombre")
print(tablaPorNombre.index)
tablaPorNombre

Los índices ya no son numéricos sino que son los nombres de cada mascota.

Ahora, con el meétodo [*.loc[]*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) podemos facilmente obtener información de uno o más perros utilizando estos nuevos índices.

In [None]:
## Imprimimos los datos de Branca
print(tablaPorNombre.loc["Branca"])

## imprimimos los datos de Branca y de Max
print(tablaPorNombre.loc[["Branca", "Max"]])

In [None]:
## Lo anterior es equivalente a
visitas[visitas["nombre"].isin(["Branca","Max"])].sort_values("nombre")

##### Reiniciando índices

Con el método *.reset_index()* logramos que pandas vuelva a formatear el dataframe para obtener su formato original.

In [None]:
tablaPorNombre.reset_index() ##vemos que la tabla ahora tiene la forma del dataframe original

### <span style='color:#381c88'>Slicing de DataFrames</span>

Podríamos hacer slicing en nuestros DataFrames utilizando los métodos [*.loc()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) e [*.iloc()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html). Debemos notar que estas funciones se buscan entre **índices y entre columnas**.

Sigamos trabajando con los datos de mascotas visitando una veterinaria.

Lo primero que debemos hacer es setear uno o más índices y luego **ordenar** el data fram usando *.sort_index()*.

Veamos...

In [None]:
## Creamos un dataframe con los índices de raza y anidados los índices por color.
## luego lo ordenamos.
grupoRazaColor = visitas.set_index(["raza", "color"]).sort_index()
grupoRazaColor

In [None]:
## NOTA: la función .sort_index() por defecto ordena los datos desde el índice externo (raza) hacia adentro (color)
## En el caso anterior primero se ordena por raza y luego por color. Podríamos ordenar de otras maneras.
## Ver documentación para mayor información.

#### ¿Cual es el shape de *grupoRazaColor*?

In [None]:
grupoRazaColor.shape ## ¿Qué paso con los índices?

#### <span style='color:#55aa74'>Realizando slicing con *.loc()*</span>

Una vez que tenemos ordenados los datos dentro del dataframe podemos realizar slicing.

En los siguientes ejemplos usaremos la función *.loc()*. Para indicar desde donde hasta donde queremos tomar datos, basta con poner **entre corchetes** los nombres de los índices, similar a lo que hemos hecho con numpy, pero en vez de utilizar números, usamos strings.

```python
DataFrame.loc["valor1":"valor2"]
```

In [None]:
grupoRazaColor.loc["Beagle":"ChowChow"]

**Importante**: Notar que los datos arrojados luego del Slicing **toman** a los perros correspondientes a *ChowChow*.

#### <span style='color:#55aa74'>Slicing con índices anidados</span>

En los casos donde tegamos índices anidados debemos pasar una tupla con los valores que queremos obtener.

In [None]:
grupoRazaColor.loc[("Beagle", "negro_marron_blanco"):("Dalmata","blanco_negro")]

**Nota:** Si intentáramos hacer slicing usando los índices internos pandas nos arrojaría un dataframe vacío.

In [None]:
grupoRazaColor.loc["negro":"marron"]

#### <span style='color:#55aa74'>Slicing de columnas</span>

También podríamos realizar slicing de columnas. Para esto separamos con una coma dentro de los corchetes para diferenciar las filas de las columnas (similar a lo que hacemos con slicing de ndarrays).

In [None]:
grupoRazaColor.loc[("Beagle", "negro_marron_blanco"):("Dalmata","blanco_negro") , "nombre":"peso_kg"]

#### <span style='color:#55aa74'>Slicing con *iloc[ ]*</span>

Finalmente podríamos realizar slicing con iloc[], el cual nos permite seleccionar filas y columnas con valores enteros, exactamente igual a lo que hacemos con los ndarray de numpy.

**Nota**: Al igual que con los slicing de ndarrays, si hacemos *.iloc[1:5,1:3]* estaremos indicando que queremos ir de la fila 1 hasta la 4 y de la columna 1 hasta la 2.

In [None]:
grupoRazaColor.iloc[1:5, 1:3]

## <span style='color:#f06553'>Graficando nuestros datos</span>

Pandas posee métodos para graficar nuestros datos haciendo uso de la librería Matplotlib.

A continuación veamos algunos de los métodos comúnmente utilizados.

- *.hist()*
- *.line()*
- *.scatter()*
- *.bar()*

Utilizaremos los datos del dataset de visitas de perros.

**Importante:** Para poder usar las funciones de graficación de Pandas debemos antes importar la librería matplotlib.

```python
import matplotlib as plt
```

In [None]:
## cargamos el archivo
visitas.head()

### <span style='color:#381c88'>Graficando histogramas</span>

El método [*DataFrame.hist*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html) nos permite obtener rápidamente el histograma a partir de datos numéricos y/o categóricos.

El método posee los siguientes parámetros,

```python
DataFrame.hist(column=None, by=None, grid=True, xlabelsize=None, xrot=None, ylabelsize=None, yrot=None, ax=None, sharex=False, sharey=False, figsize=None, layout=None, bins=10, backend=None, legend=False, **kwargs)
```

In [None]:
### Histograma de pesos
## Para no repetir conteos vamos a sacar los valores repetidos

visitas["peso_kg"].hist(bins = 20)
plt.show()

In [None]:
## Graficando pesos por sexo
visitas[visitas["sexo"] == "F"]["peso_kg"].hist(label = "Fem", grid = False)
visitas[visitas["sexo"] == "M"]["peso_kg"].hist(label = "Mas", alpha = 0.8, grid = False)
plt.legend()
plt.show()

### <span style='color:#381c88'>Gráficas de *dispersi+on* usando *.plot</span>

Pandas posee el método [*DataFrame.plot*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html) el cual integra la potencialidad del método *.plot()* de matplotlib, pero con la ventaja de que los datos a graficar ya están dentro del DataFrame.

El método posee los siguientes parámetros,

```python
DataFrame.plot(*args, **kwargs)
```

Veamos algunos ejemplos.

#### <span style='color:#55aa74'>Gráficas de *dispersión* usando *.plot</span>

Si reemplazamos el parámetro *kind* con la palabra *scatter* podemos obtener una gráfica de dispersión, veamos.

In [None]:
## Graficando altura vs peso con gráfico de dispersión
visitas.plot(x = "altura_cm", y = "peso_kg", kind = "scatter")
plt.show()

#### <span style='color:#55aa74'>Gráficas de *linea* usando *.plot</span>

Si reemplazamos el parámetro *kind* con la palabra *line* podemos obtener una gráfica de línea, veamos.

In [None]:
visitas[visitas["nombre"] == "Branca"].plot(x = "fecha", y  ="peso_kg", rot = 45, title = "Evolución peso de Branca",
                                           ylabel = "Kg")
plt.show()

#### <span style='color:#55aa74'>Gráficas de *barra* usando *.plot</span>

Si reemplazamos el parámetro *kind* con la palabra *bar* podemos obtener una gráfica de barras, veamos.

*Nota:* Los gráficos de barra esperan datos **numéricos**.

Vamos a graficar los pesos promedio por cada perro. Para esto vamos a agrupar por perro y luego calculamos los pesos promedios.

Veamos.

In [None]:
pesosPromedios = visitas.groupby("nombre")["peso_kg"].mean()

Una vez que tenemos los pesos promedio para cada perro pasamos a graficar.

In [None]:
pesosPromedios.plot(kind = "bar", title = "Pesos promedio por cada mascota", ylabel = "Kg", rot = 15)
plt.show()

Pesos promedios para cada raza.

In [None]:
visitas.groupby("raza")["peso_kg"].mean().plot(kind = "bar", title = "Pesos promedio por raza", ylabel = "Kg", rot = 15)

## <span style='color:#f06553'>Datos faltantes</span>

Es habitual encontrar lista de datos con valores perdidos. Cuando Pandas carga datos desde un archivo con datos faltantes, los reemplaza con la palabra <mark>**NaN**</mark>.

Podemos detectarlos con el método [*.isna()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isna.html) el cual nos devuelve valores booleanos por cada dato dentro del dataframe y en caso de haber un *NaN* nos devuelve True.

Carguemos ahora el set de datos *visitasVetNan* el cual representa la lista de visitas de diferentes perros a la veterinaria pero ahora con datos faltantes.

In [None]:
visitasConNAN = pd.read_csv("datasets/visitasVetNan.csv")
visitasConNAN.head()

Podemos ver que tenemos datos faltantes en los nbombres y también en los pesos. 

Podríamos ver si tenemos al menos **un** NaN en alguna de las columnas usando **.any()**. Veamos...

In [None]:
## buscando NaN
visitasConNAN.isna()[:6]

In [None]:
visitasConNAN.isna().any()

Vemos que tenemos al menos un valor *NaN* en las columnas *nombre*, *peso_kg* y *altura_cm*.

Podemos contabilizar la cantidad de valores *NaN* usando *.sum()*.

In [None]:
visitasConNAN.isna().sum()

Con lo anterior vemos la cantidad de valores NaN por cada columna.

Ahora bien, ¿Qué hacemos con estos datos perdidos?

Usamos la función [*fillna()*](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html) para reemplazar los NaN.

Una posibilidad es usar *.dropna()* para elimnar todas las filas que tienen valores perdidos, pero esto puede ser perjudicial si tenemos muchos datos faltantes en nuestro set de datos.

Otra posibilidad es llenar los datos con algún valor determinado. Existen muchas técnicas, algunas muy complejas y otras sencillas.

Por ejemplo, podríamos llenar los perros con nombre desconocidos con la palabra "NN". Aquellos valores faltantes en las columnas de *peso_kg* y *altura_cm* podemos completarlos con los valores medios de cada columna (una técnica mas compleja podría ser sacar las medias por cada raza y en base a eso completar los valores faltantes).

In [None]:
## completando columna nombre
visitasConNAN["nombre"] = visitasConNAN["nombre"].fillna("NN")
visitasConNAN["peso_kg"] = visitasConNAN["peso_kg"].fillna(visitasConNAN["peso_kg"].mean())
visitasConNAN["altura_cm"] = visitasConNAN["altura_cm"].fillna(visitasConNAN["altura_cm"].mean())

In [None]:
## revisando datos
visitasConNAN

## <span style='color:#f06553'>Creando DataFrames a partir de diccionarios</span>

Es evidente que los DataFrame pueden ser vistos como diccionarios, donde cada columna puede ser visto como un key. Con esta idea es que podemos crear dataframe o agregar datos a uno ya existente.

Como ya sabemos, la sintáxis general para crear un diccionario es la siguiente,

```python
dic = {
    "key1":valor1,
    "key2":valor2,
    "keye":valor3
}
```

Luego con el método DataFrame de Pandas creamos el dataframe a partir de pasar una lista con el (o los diccionarios)

```python
dataframe = pd.DataFrame(data = [dic])
```

Si quisieramos seguir con el formato del set de datos de visitas de perros a la veterinaria podríamos hacer:

```python
dic = {
    "fecha":"1/17/2018",
    "nombre":"Perro de John",
    "raza":"Beagle",
    "peso_kg":1.5,
    "altura_cm":10.2,
    "color":"negro_marron_blanco",
    "sexo":"F"
}
```

In [None]:
dic1 = {
    "fecha":"1/17/2018",
    "nombre":"Perro de John",
    "raza":"Beagle",
    "peso_kg":1.5,
    "altura_cm":10.2,
    "color":"negro_marron_blanco",
    "sexo":"F"
}

dic2 = {
    "fecha":"1/25/2019",
    "nombre":"Morfeo",
    "raza":"Labrador",
    "peso_kg":42.5,
    "altura_cm":45.5,
    "color":"marron",
    "sexo":"M"
}


df = pd.DataFrame(data = [dic1,dic2])

In [None]:
df

#### <span style='color:#55aa74'>DataFrame a partir de diccionario de listas</span></center>

Una alternativa a la creación del DataFrame de las celdas anteriores es crear un diccionario que contenga las *key* y por cada una de esta, una lista con los datos del DataFrame, veamos.

In [None]:
dicList = {
    "fecha":["1/17/2018", "1/25/2019"],
    "nombre":["Perro de John", "Morfeo"],
    "raza":["Beagle", "Labrador"],
    "peso_kg":[1.5, 42.5],
    "altura_cm":[10.2, 45.5],
    "color":["negro_marron_blanco", "marron"],
    "sexo":["F", "M"]
}

df2 = pd.DataFrame(data = dicList)
df2

#### <span style='color:#55aa74'>Crear un DataFrame con índices a partir de un Diccionario</span></center>

Podríamos crear un dataframe con índices en las filas. Para esto anidamos diccionarios, donde el diccionario más externo es el que indicará el nombre del índice.

Veamos el siguiente ejemplo obtenido de [acá](https://realpython.com/pandas-read-write-files/).

In [None]:
## Diccionario
dic = {
    'CHN': {'COUNTRY': 'China', 'POP': 1_398.72, 'AREA': 9_596.96,
            'GDP': 12_234.78, 'CONT': 'Asia'},
    'IND': {'COUNTRY': 'India', 'POP': 1_351.16, 'AREA': 3_287.26,
            'GDP': 2_575.67, 'CONT': 'Asia', 'IND_DAY': '1947-08-15'},
    'USA': {'COUNTRY': 'US', 'POP': 329.74, 'AREA': 9_833.52,
            'GDP': 19_485.39, 'CONT': 'N.America',
            'IND_DAY': '1776-07-04'},
    'IDN': {'COUNTRY': 'Indonesia', 'POP': 268.07, 'AREA': 1_910.93,
            'GDP': 1_015.54, 'CONT': 'Asia', 'IND_DAY': '1945-08-17'},
    'BRA': {'COUNTRY': 'Brazil', 'POP': 210.32, 'AREA': 8_515.77,
            'GDP': 2_055.51, 'CONT': 'S.America', 'IND_DAY': '1822-09-07'},
    'PAK': {'COUNTRY': 'Pakistan', 'POP': 205.71, 'AREA': 881.91,
            'GDP': 302.14, 'CONT': 'Asia', 'IND_DAY': '1947-08-14'},
    'NGA': {'COUNTRY': 'Nigeria', 'POP': 200.96, 'AREA': 923.77,
            'GDP': 375.77, 'CONT': 'Africa', 'IND_DAY': '1960-10-01'},
    'BGD': {'COUNTRY': 'Bangladesh', 'POP': 167.09, 'AREA': 147.57,
            'GDP': 245.63, 'CONT': 'Asia', 'IND_DAY': '1971-03-26'},
    'RUS': {'COUNTRY': 'Russia', 'POP': 146.79, 'AREA': 17_098.25,
            'GDP': 1_530.75, 'IND_DAY': '1992-06-12'},
    'MEX': {'COUNTRY': 'Mexico', 'POP': 126.58, 'AREA': 1_964.38,
            'GDP': 1_158.23, 'CONT': 'N.America', 'IND_DAY': '1810-09-16'},
    'JPN': {'COUNTRY': 'Japan', 'POP': 126.22, 'AREA': 377.97,
            'GDP': 4_872.42, 'CONT': 'Asia'},
    'DEU': {'COUNTRY': 'Germany', 'POP': 83.02, 'AREA': 357.11,
            'GDP': 3_693.20, 'CONT': 'Europe'},
    'FRA': {'COUNTRY': 'France', 'POP': 67.02, 'AREA': 640.68,
            'GDP': 2_582.49, 'CONT': 'Europe', 'IND_DAY': '1789-07-14'},
    'GBR': {'COUNTRY': 'UK', 'POP': 66.44, 'AREA': 242.50,
            'GDP': 2_631.23, 'CONT': 'Europe'},
    'ITA': {'COUNTRY': 'Italy', 'POP': 60.36, 'AREA': 301.34,
            'GDP': 1_943.84, 'CONT': 'Europe'},
    'ARG': {'COUNTRY': 'Argentina', 'POP': 44.94, 'AREA': 2_780.40,
            'GDP': 637.49, 'CONT': 'S.America', 'IND_DAY': '1816-07-09'},
    'DZA': {'COUNTRY': 'Algeria', 'POP': 43.38, 'AREA': 2_381.74,
            'GDP': 167.56, 'CONT': 'Africa', 'IND_DAY': '1962-07-05'},
    'CAN': {'COUNTRY': 'Canada', 'POP': 37.59, 'AREA': 9_984.67,
            'GDP': 1_647.12, 'CONT': 'N.America', 'IND_DAY': '1867-07-01'},
    'AUS': {'COUNTRY': 'Australia', 'POP': 25.47, 'AREA': 7_692.02,
            'GDP': 1_408.68, 'CONT': 'Oceania'},
    'KAZ': {'COUNTRY': 'Kazakhstan', 'POP': 18.53, 'AREA': 2_724.90,
            'GDP': 159.41, 'CONT': 'Asia', 'IND_DAY': '1991-12-16'}
}

columns = ('COUNTRY', 'POP', 'AREA', 'GDP', 'CONT', 'IND_DAY')

In [None]:
## obteniendo un DataFrame
otroDF = pd.DataFrame(data = dic).T
otroDF.head()

Podríamos acceder a los datos de alguno de los países usando los índices y la función *.loc[ ]*

In [None]:
print(otroDF.loc["IND"])

<hr style="border:1px solid #55E227"> </hr>

### FIN