# Diccionarios y pandas

## Diccionarios 

Veremos un nuevo tipo de objeto en Python: los diccionarios, que son bastante útiles en la manipulación de datos, pongamos un ejemplo para ver su uso: queremos la analizar la población de varios países, para ellos, podemos usar listas, hagamos primero una lista que indique la población por país (en millones):

In [None]:
pob = [30.55,2.77,39.21]

Ahora, creamos una lista que indique el correspodiente nombre de los países:

In [None]:
pais = ['Afganistan','Albania','Algeria']

Supongamos que ahora queremos obtener la población de Albania, así que primero hay que encontrar el índice que le corresponde a ese país, para eso, usamos el método **index()** de la siguiente manera:

In [None]:
ind_alb = pais.index('Albania')

In [None]:
ind_alb

Una vez obtenido el índice, lo podemos utilizar en la lista **pob** para acceder a su correspondiente población:

In [None]:
pob[ind_alb]

Así que através de los índices, podemos acceder a elementos entre ambas listas, pero no es un método conveniente. Para conectar directamente cada país con su población, es mucho mejor usar los **diccionarios**.

Convirtamos estos datos sobre la población en un diccionario, para crear este objeto, usamos **{ }**, después, dentros de los corchetes, colocamos pares llamados **key:value** pares, en este caso, **key** corresponde a los nombres de los países, y **value** corresponde a la población:

In [None]:
mundo = {'Afganistan':30.55,'Albania':2.77,'Algeria':39.21}

Si queremos encontrar la población de Albania con el diccionario mundo, simplemente escribimos lo siguiente:

In [None]:
mundo['Albania']

Aquí podemos ver el potencial de los diccionarios, incluso con ellos podemos acceder a la formación contenido en diccionarios grandes.

Para un uso eficiente en los diccionarios, cada _key_ debe ser único, supongamos que agregamos otro par _key:value_ a _mundo_ con el mismo nombre de Albania:

In [None]:
mundo = {'Afganistan':30.55,'Albania':2.77,'Algeria':39.21,'Albania':2.81}

In [None]:
mundo

Vemos que el diccionario contiene sólo tres pares, con esto podemos ver que los keys son objetos inmutables. Las cadenas, booleanos, enteros y reales son objetos inmutables, mientras que las listas son mutables, porque puedes cambiar sus elementos una vez creadas, es por eso que un diccionario como el siguiente:

In [None]:
{0:'hola',True:'mundo'}

mientras que un diccionario así:

In [None]:
{['haciendo','una','prueba']: 'value'}

Arroja un error, porque no es válido usar una lista como key.

Ahora que ya sabemos cómo crear un diccionario válido y a acceder a sus elementos, veamos cómo agregar elementos a diccionarios ya creados. Supongamos que queremos agregar a nuestro diccionario _mundo_ la cantidad de habitantes que tiene el Principado de Sealand, Sealand es una micronación y principado autoproclamado que tiene solamente 27 habitantes. Para agregar un par key:value que contenga la información de esta micronación, simplemente usamos corchetes cuadrados después del nombre del diccionario, dentro de los corchetes, ponemos el nombre del key que vamos a usar, en este caso **'Sealand'**, fuera de los corchetes y con el signo **=**, asignamos la cantidad de población, representada en millones de habitantes, en este caso **0.000027**, la estructura quedaría de la siguiente manera:

In [None]:
mundo['Sealand'] = 27E-6

In [None]:
mundo

Vemos que Sealand ahora está ahí.

Con la misma sintaxis podemos cambiar los valores de cada uno de los pares, por ejemplo, aumentemos la población de Sealand a 28:

In [None]:
mundo['Sealand'] = 28E-6

In [None]:
mundo

Ahora, si queremos eliminar Sealand del diccionario, sólo hay que usar la función **del()**:

In [None]:
del(mundo['Sealand'])

In [None]:
mundo

Recapitulemos: los diccionarios están compuestos por una secuencia de valores, que, a diferencia de las listas, estos valores están indexados por claves únicas, que pueden ser de cualquier tipo inmutable.

## Pandas

Para lidiar con muchos datos, podemos reducir los datos a una estructura tabular, como en una hoja de cálculo. Imaginemos que trabajamos en una planta química y tenemos que analizar toneladas de mediciones

In [None]:
temperatura = [76,86,72,88,68,78]
fecha = ['2021-10-21 14:00:01','2021-10-21 14:00:01','2021-10-21 15:00:01','2021-10-21 15:00:01','2021-10-21 16:00:01','2021-10-21 16:00:01']
localizacion = ['Valvula', 'Compresor','Valvula','Compresor','Valvula','Compresor']

In [None]:
datos = list(zip(temperatura,fecha,localizacion))

In [None]:
import matplotlib.pyplot as plt
fig, ax = plt.subplots(1,1)
ax.table(cellText = datos, colLabels = ['Temperatura', 'Fecha', 'Localización'], colColours = ['yellow']*3, loc = 'center')
ax.axis('tight')
ax.axis('off')
plt.show()

Para comenzar a trabajar con estos datos en Python, se necesitará alguna clase de estructura rectagular de datos, como los arreglos de Numpy, pero no necesariamente es la mejor estructura. En el ejemplo anterior, estamos trabajando con diferentes tipos de objetos, y con los arreglos sólo podemos usar el mismo tipo para cada uno de los elementos.

Para manejar de forma fácil y eficiente estos datos, existe el paquete **Pandas**. Pandas es una herramienta de manipulación de datos de alto nivel, aquí podemos poner los datos de forma tabular con un objeto llamado **DataFrame**. Hay diferentes formas de construir un objeto de este tipo, primero, podemos partir de un diccionario:

In [None]:
dic = {
    'pais':['Brasil','Rusia','India','China','Sudáfrica'],
    'capital':['Brasilia','Moscú','Nueva Delhi','Beijing','Pretoria'],
    'area': [8.516,17.10,3.286,9.597,1.221],
    'poblacion':[200.4,143.5,1252,1357,52.98]
}

Aquí, los keys son los nombres de las columnas, y los values son los valores de la categoría que les corresponde, organizados columna por columna. Ahora importamos el paquete Pandas con la abreviación **pd**:

In [None]:
import pandas as pd

In [None]:
type(dic)

In [None]:
dict_to_df = pd.DataFrame(dic)

In [None]:
dict_to_df

Aquí vemos que Pandas en autómatico ha asignado índices a las filas, para especificarlos manualmente, se puede usar el atributo **index**:

In [None]:
dict_to_df.index = ['BR','RU','IN','CH','SA']

In [None]:
dict_to_df

Ya vimos que se puede construir un objeto DataFrame manualmente, pero, qué pasa si vamos a analizar muchos datos? para ello, hay que recurrir a la importación. Supongamos que tenemos los datos que acabamos de usar en un archivo con formato .csv (comma separated values), para importarlo, usamos la función de Pandas **pd.read_csv()**:

In [None]:
ejemplo_pd = pd.read_csv(
    '/home/lorena/Escritorio/Fossion/Trabajo_durante_doctorado/Proyecto_con_Luis_Mnez/Fisica_Biologica_2022-1/ejemplo_pandas.csv', encoding="utf-8")

**Nota:** el argumento **enconding="utf-8"** nos ayuda a que al momento de descargar un archivo, no aparezcan caracteres raros.

In [None]:
ejemplo_pd

In [None]:
ejemplo_pd.shape

### Indexación y selección de datos

Hay varias formas de seleccionar datos dentro de DataFrame, primero, veremos cómo hacerlo a través de los corchetes cuadrados. Supongamos que queremos solamente la columna que pertenece al país en **ejemplo_pd**, con los corchetes cuadrados escribimos lo siguiente:

In [None]:
ejemplo_pd['pais']

En la última línea, vemos que no estamos trabajando con un objeto DataFrame regular, veamos qué tipo de objeto es:

In [None]:
type(ejemplo_pd['pais'])

Estamos trabajando con un objeto tipo Pandas Series, de una forma simple, podemos pensar que con Series tenemos un arreglo 1-dimensional que puede ser etiquetado, justo como con DataFrame.  

Si queremos seleccionar una columna de DataFrame manteniéndola con el mismo tipo de objeto, hay que usar corchetes dobles:

In [None]:
ejemplo_pd[['pais']]

In [None]:
type(ejemplo_pd[['pais']])

Con esta estructura, podemos perfectamente escoger más de una columna:

In [None]:
ejemplo_pd[['pais','poblacion']]

Para escoger filas específicas, usamos la misma estructura que con las listas y los arreglos, así por ejemplo, si queremos los elementos de la segunda a la cuarta fila, escribimos:

In [None]:
ejemplo_pd[1:4]

Una forma más avanzada de seleccionar elementos, en la que podemos poner en un sólo comando la fila y columnas a selecccionar, es con los métodos **loc** y **iloc**. Comencemos con **loc**.

Tomemos la fila correspondiente a Rusia, la función loc utiliza las etiquetas para seleccionar los elementos, así que antes de continuar, agreguemos etiquetas a las filas:

In [None]:
ejemplo_pd.index = ['BR','RU','IN','CH','SA']

In [None]:
ejemplo_pd

Si seleccionamos la fila correspondiente a Rusia, podemos escribir:

In [None]:
ejemplo_pd.loc['RU']

De nuevo, tenemos un objeto tipo Series, así que debemos escribir corchetes dobles para obtener un objeto DataFrame.

In [None]:
ejemplo_pd.loc[['RU']]

Para seleccionar más filas, simplemente agregamos más etiquetas de ellas, por ejemplo, si también queremos los datos de India y China, escribimos:

In [None]:
ejemplo_pd.loc[['RU','IN','CH']]

Para extender la selección a columnas específicas, colocamos una coma después de las filas que queremos, seguido de las etiquetas de las columnas deseadas, así por ejemplo, si queremos sólo el país y el área, escribimos:

In [None]:
ejemplo_pd.loc[['RU','IN','CH'],['pais','area']]

Si queremos todas las filas y sólo esas dos columnas, usamos los dos puntos para indicarlo:

In [None]:
ejemplo_pd.loc[:,['pais','area']]

Si queremos seleccionar elementos dentro de un objeto dataFrame basado en los índices y no en las etiquetas, es necesarios usar **iloc**. Seleccionemos los elementos anteriores ahora con esta función, para escoger la fila correspondiente a Rusia escribimos:

In [None]:
ejemplo_pd.iloc[[1]]

Entonces, si queremos además las filas correspondientes a India y China, usamos una lista que indique los índices de sus correspondientes filas:

In [None]:
ejemplo_pd.iloc[[1,2,3]]

Así que si queremos especificar las columnas correspondientes a pais y area, escribimos:

In [None]:
ejemplo_pd.iloc[[1,2,3],[0,2]]

Y seleccionando todas las filas:

In [None]:
ejemplo_pd.iloc[:,[0,2]]

In [None]:
ejemplo_pd

In [None]:
ejemplo_pd.describe()

In [None]:
ejemplo_pd.columns

In [None]:
ejemplo_pd.index

In [None]:
ejemplo_pd.tail(2)

In [None]:
help(pd.read_csv)

### Operadores de comparación 

Pandas está construído sobre Numpy, así que podemos usar los operadores de comparación sobre los DataFrame de la misma forma que sobre los arreglos. Sólo que cuando hagamos la comparación debemos pedir un objeto tipo **Series** en vez de uno tipo DataFrame.

**Nota:** otra forma de usar una columna en específico de un DataFrame es con la sintaxis de un método, quedando el nombre de la columna después del punto, claro, esto sólo cuando no se usan espacios en el nombre de dicha columna. 

In [None]:
ejemplo_pd.columns

In [None]:
ejemplo_pd.poblacion > 1000

In [None]:
ejemplo_pd[ejemplo_pd.poblacion > 1000]

In [None]:
ejemplo_pd

In [None]:
import numpy as np

In [None]:
dos_comp = np.logical_and(ejemplo_pd['poblacion'] > 200, ejemplo_pd['area'] > 9)

In [None]:
dos_comp

In [None]:
ejemplo_pd[dos_comp]