# Motivation for dictionaries

Para ver de forma más clara como los diccionarios nos pueden ser de ayuda supongamos el siguiente ejemplo: supongamos que tenemos dos listas una que contiene el nombre de países y otra lista que contiene las capitales de estos países. 

In [1]:
#Nos creamos una lista con los nombres de los países
countries = ['spain', 'france', 'germany', 'norway']
capitals = ['madrid', 'paris', 'berlin', 'oslo']

Ahora supongamos que deseamos acceder a la capital de Alemania, para hacer esto en primer lugar debemos encontrar el índice en el cuál se encuentra alemania en la lista de países y una vez tengamos este índice accedemos al elemento con dicho índice a la lista de capitales.

In [3]:
index_germany = countries.index('germany')
print(capitals[index_germany])

berlin


# Create a dictionary

Lo realizado anteriormente para poder acceder a la capital de Alemania, no es muy intuitiva ni tampoco eficiente. Sería mejor si tuviesemos algún tipo de estructura de forma clave-valor que nos permitiese acceder a la capital de Alemania simplemente escribiendo el nombre de Alemania. Bien, pues esto es justo lo que nos permiten hacer los diccionarios. Un diccionario se trata de una nueva estructura de almacenamiento de datos en Python donde los datos se almacenan en forma de clave-valor. Para crearnos un diccionario hacemos uso de las llaves ({}), y dentro de estos introducimos la información de la forma clave:valor. LAS CLAVES DE UN DICCIONARIO DEBEN DE SER ÚNICAS.

In [4]:
#Nos creamos nuestro primer diccionario que contiene como clave el nombre del país y como valor su capital
my_dict = {'spain':'madrid', 'france':'paris', 'germany':'berlin', 'norway':'oslo'}
#Mostramos el resultado por pantalla
print(my_dict)

{'spain': 'madrid', 'germany': 'berlin', 'norway': 'oslo', 'france': 'paris'}


# Access dictionary

Una vez tenemos nuestro diccionario creado, para acceder a un determinada valor, basta con introducir su clave. Python dispone del método keys() que nos permite mostrar todas las claves de un diccionario.

In [5]:
#Mostramos las claves de nuestro diccionario
print(my_dict.keys())

dict_keys(['spain', 'germany', 'norway', 'france'])


In [6]:
#Accedemos a la capital de Alemania
print(my_dict['germany'])

berlin


# Dictionary Manipulation (I)

A la hora de agregar un nuevo elemento a un diccionario debemos de hacer uso de la sintaxis: dict\[key\]=value.

In [1]:
#Nos creamos un diccionario
my_dict = {'spain':'madrid', 'france':'paris', 'germany':'berlin', 'norway':'oslo'}
#Agregamos un nuevo elemento al diccionario ya creado 
my_dict['italy'] = 'rome'
#Vemos si hemos agregado de forma correcta dicho elemento
print('italy' in my_dict)

True


In [2]:
#Añadimos un nuevo elemento a nuestro diccionario
my_dict['poland'] = 'warsaw'
#MOstramos por pantalla el resultado
print(my_dict)

{'france': 'paris', 'spain': 'madrid', 'norway': 'oslo', 'italy': 'rome', 'poland': 'warsaw', 'germany': 'berlin'}


# Dictionary Manipulation (II)

Python también nos permite cambiar el valor de una determinada clave y eliminar elementos de un diccionario. Supongamos el siguiente diccionario:

In [3]:
#Nos creamos el diccionario
europe = {'spain':'madrid', 'france':'paris', 'germany':'bonn',
          'norway':'oslo', 'italy':'rome', 'poland':'warsaw',
          'australia':'vienna' }
#Cambiamos la capital de Alemania a Berlín
europe['germany'] = 'berlin'
#Eliminamos australia ya que no pertenece a europa
del(europe['australia'])
#Mostramos el resultado
print(europe)

{'france': 'paris', 'spain': 'madrid', 'norway': 'oslo', 'italy': 'rome', 'poland': 'warsaw', 'germany': 'berlin'}


# Dictionariception

Al igual que las listas, un diccionario puede contener a otro diccionario. Veamos el siguiente ejemplo:

In [4]:
europe = { 'spain': { 'capital':'madrid', 'population':46.77 },
           'france': { 'capital':'paris', 'population':66.03 },
           'germany': { 'capital':'berlin', 'population':80.62 },
           'norway': { 'capital':'oslo', 'population':5.084 } }
#Accedemos a la capital de Francia
print(europe['france']['capital'])

paris


In [6]:
#Agregamos un nuevo elemento a nuestro diccionario
europe['italy'] = {'capital':'rome', 'population':59.83}
#Mostramos el resultado
print(europe)

{'germany': {'capital': 'berlin', 'population': 80.62}, 'italy': {'capital': 'rome', 'population': 59.83}, 'norway': {'capital': 'oslo', 'population': 5.084}, 'france': {'capital': 'paris', 'population': 66.03}, 'spain': {'capital': 'madrid', 'population': 46.77}}


# Dictionary to DataFrame (I)

Pandas se trata de una librería open source. que proporciona un alto rendimiento, y es fácil de usar para datos estructurados y con herramientas de análisis de datos.
El DataFrame es una de las estructuras de datos más importantes en Pandas. Básicamente se trata de una forma de almacenar datos tabulares donde podemos etiquetar filas y columnas. Una forma de construir un DataFrame es a partir de un diccionario. A continuación vamos trabajar con información de vehículos de diferentes países. Cada observación corresponde con información de un país y cada columna nos da información sobre el número de vehículos por cápita. Tenemos tres listas que nos dan la siguiente información:

1. names: contiene el nombre de los países.
2. dr: lista booleana que nos indica si la gente conduce por la izquierda o por la derecha.
3. cpc: número de vehículos por cada 1000 habitantes.

In [2]:
#Importamos pandas
import pandas as pd
#Definimos las listas
names = ['United States', 'Australia', 'Japan', 'India', 'Russia', 'Morocco', 'Egypt']
dr =  [True, False, False, False, True, True, True]
cpc = [809, 731, 588, 18, 200, 70, 45]
#Nos creamos un diccionario a partir de las listas
my_dict = {'country':names, 'drives_right':dr, 'cars_per_cap':cpc}
#Nos creamos un DataFrame
cars = pd.DataFrame(my_dict)
#Mostramos el resultado por pantalla
print(cars)

   cars_per_cap        country  drives_right
0           809  United States          True
1           731      Australia         False
2           588          Japan         False
3            18          India         False
4           200         Russia          True
5            70        Morocco          True
6            45          Egypt          True


# Dictionary to DataFrame (II)

En el ejercicio anterior podemos ver como en este caso las filas han sido indexadas de forma automática con números del 1 al 6. Para resolver este problema podemos hacer uso del método index que tiene un DataFrame e indicarle una lista con los índice adecuados.

In [3]:
#Nos creamos la lista para el indexado
row_labels = ['US', 'AUS', 'JAP', 'IN', 'RU', 'MOR', 'EG']
#Indexamos de forma adecuada
cars.index = row_labels
#Mostramos el resultado 
print(cars)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False
IN             18          India         False
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True


# CSV to DataFrame (I)

Construir un DataFrame a partir de un diccionario funciona, pero no es la forma más eficiente. ¿Qué ocurre si tenemos millones de observaciones? En este tipo de casos los datos se nos proporcionan en ficheros con una estructura regular. Uno de los ficheros más típicos es el denominado CSV.
Para importar datos a partir de este tipo de ficheros a un Pandas DataFrame Python dispone de la función read_csv(). 

In [4]:
#Importamos la información del fichero cars.csv
cars = pd.read_csv('cars.csv')
print(cars)

  Unnamed: 0  cars_per_cap        country  drives_right
0         US           809  United States          True
1        AUS           731      Australia         False
2        JAP           588          Japan         False
3         IN            18          India         False
4         RU           200         Russia          True
5        MOR            70        Morocco          True
6         EG            45          Egypt          True


# CSV to DataFrame (II)

Podemos ver que aunque los datos se han cargado, estos no se han cargado de la forma esperada, ya que nuestro DataFrame ha sido indexado por valores del 1 al 6 de forma automática, además la columna que se supone que debería ser la que indexe aparece con Unnamed: 0. Para solucionar este problema la función read_csv() dispone del argumne index_col, donde indicamos la columna mediante la cual queremos indexar.

In [5]:
#Importamos los datos de forma adecuada
cars = pd.read_csv('cars.csv', index_col = 0)
#Mostramos el resultado por pantalla
print(cars)

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False
IN             18          India         False
RU            200         Russia          True
MOR            70        Morocco          True
EG             45          Egypt          True


# Square Brackets (I)

A la hora de seleccionar elementos en un Pandas Dataframe existen diversas formas. La más simple, pero en este caso no la más poderosa son los corchetes. Si hacemos uso de los corchetes simples esto nos retornará un Pandas Series, si hacemos uso de los dobles corchetes esto si nos retornará un Pandas DataFrame.

In [9]:
#Obtenemos un pandas series a partir de la columna country
print(cars['country'])
print(type(cars['country']))

US     United States
AUS        Australia
JAP            Japan
IN             India
RU            Russia
MOR          Morocco
EG             Egypt
Name: country, dtype: object
<class 'pandas.core.series.Series'>


In [12]:
#Obtenemos un pandas DataFrame a partir de la columna country
print(cars[['country']])
print(type(cars[['country']]))

           country
US   United States
AUS      Australia
JAP          Japan
IN           India
RU          Russia
MOR        Morocco
EG           Egypt
<class 'pandas.core.frame.DataFrame'>


In [14]:
#Obtenemos un pandas DataFrame a partir de las columnas country y drives_rigth
print(cars[['country', 'drives_right']])

           country  drives_right
US   United States          True
AUS      Australia         False
JAP          Japan         False
IN           India         False
RU          Russia          True
MOR        Morocco          True
EG           Egypt          True


# Square Brackets (II)

Además de seleccionar columnas, con los corcheter podemos seleccionar filas, para ello debemos de especificar el slice que queremos seleccionar. 

In [15]:
#Mostramos las tres primeras observaciones
print(cars[0:3])

     cars_per_cap        country  drives_right
US            809  United States          True
AUS           731      Australia         False
JAP           588          Japan         False


In [16]:
#Mostramos de la cuarta a la quinta observación
print(cars[3:6])

     cars_per_cap  country  drives_right
IN             18    India         False
RU            200   Russia          True
MOR            70  Morocco          True


# loc and iloc (I)

Con los métodos loc e iloc podemos realizar cualquier operación de selección de datos en un DataFrame. loc se trata de un método basado en etiquetas, lo cual significa que tenemos que especificar filas y columnas basándonos en sus etiquetas. Mientras que iloc está basado en índices enteros, por lo que especificamos las filas y las columnas basándonos en sus valores enteros.

In [18]:
#Seleccionamos la fila que corresponde a Japón
print(cars.loc['JAP'])

cars_per_cap      588
country         Japan
drives_right    False
Name: JAP, dtype: object


In [19]:
#Seleccionamos las observaciones correspondientes a Egipto y Australia
print(cars.loc[['AUS', 'EG']])

     cars_per_cap    country  drives_right
AUS           731  Australia         False
EG             45      Egypt          True


In [20]:
#Seleccionamos las observación de Japón haciendo uso de iloc
print(cars.iloc[2])

cars_per_cap      588
country         Japan
drives_right    False
Name: JAP, dtype: object


In [21]:
#Seleccionamos las observaciones de Australia y Egipto haciendo uso de iloc
print(cars.iloc[1:3])

     cars_per_cap    country  drives_right
AUS           731  Australia         False
JAP           588      Japan         False


# loc and iloc (II)

Los métodos loc e iloc nos permiten seleccionar filas y columnas (a diferencia de los corchetes que solo nos permiten seleccionar o bien filas o bien columnas). 

In [22]:
#Seleccionamos la columna country de Marruecos con loc
print(cars.loc['MOR', 'country'])

Morocco


In [24]:
#Seleccinamos de Rusia y Marruecos las columnas country y drives_right
print(cars.loc[['RU', 'MOR'], ['country', 'drives_right']])

     country  drives_right
RU    Russia          True
MOR  Morocco          True


In [26]:
#Seleccinamos la columna country de Marruecos con iloc
print(cars.iloc[5, 1])

Morocco


In [29]:
#Seleccionamos de Rusia y Marruecos las columnas country y drives_right
print(cars.iloc[[4,6], [1,2]])

   country  drives_right
RU  Russia          True
EG   Egypt          True


# loc and iloc (III)

También es posible seleccionar solo columnas haciendo uso de loc e iloc.

In [31]:
#Seleccionamos la columna country haciendo uso de loc como Pandas Series
print(cars.loc[:, 'country'])

US     United States
AUS        Australia
JAP            Japan
IN             India
RU            Russia
MOR          Morocco
EG             Egypt
Name: country, dtype: object


In [32]:
#Seleccionamos la columna country haciendo uso de loc como Pandas DataFrame
print(cars.loc[:, ['country']])

           country
US   United States
AUS      Australia
JAP          Japan
IN           India
RU          Russia
MOR        Morocco
EG           Egypt


In [34]:
#Seleccionamos las columnas country y drives_right haciendo uso de iloc
print(cars.iloc[:, [1,2]])

           country  drives_right
US   United States          True
AUS      Australia         False
JAP          Japan         False
IN           India         False
RU          Russia          True
MOR        Morocco          True
EG           Egypt          True
