<a href="https://colab.research.google.com/github/jose-gomezm/hacking-civico/blob/master/notebooks/03_Colecciones.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="http://codeandomexico.org/resources/img/codeandomexico.png" width="500" alt="Codeando México"><br>
<a href="http://www.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/website-CodeandoMexico-00D88E.svg"></a>
<a href="http://slack.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/slack-CodeandoMexico-EC0E4F.svg"></a>
</p>
<!-- __ -->

# Curso de Datos Abiertos y Hacking Cívico

Este curso tiene como objetivo habilitar las capacidades de la ciudadanía y los servidores públicos en el uso y generación de datos abiertos para el bien común. Puedes encontrar más información [aquí](https://github.com/CodeandoMexico/hacking-civico).

# Python 101: Colecciones

A lo largo de este Notebook se explicarán colecciones en Python. Los contenidos específicos a cubrir en este cuaderno interactivo son los siguientes:

1. Listas
2. Indexación
3. Diccionarios
4. Casos de uso

## Listas

Una lista es una colección ordenada de objetos, donde dichos objetos pueden ser de cualquier tipo (`int`, `float`, etc.).

Las listas se crean de manera similar a una variable, respetando las reglas de nombreamiento y asignación.

Para crear una lista, los elementos se ponen dentro de corchetes `[ ]`.

**Veamos un ejemplo.**

Supongamos que tenemos una lista de periodos (años) en los que se han estado recopilando datos de especies de árboles pertenecientes al vivero municipal de León.

En este ejemplo suponfremos que los datos son almacenados en un archivo de Excel, pero para fines prácticos de este ejemplo, los cargaremos en formato de lista en Python (un poco como motivación, pues en el siguiente módulo podremos acceder a datos desde archivos estructurados).

In [None]:
periodos = [
    '2015',
    '2016',
    '2017',
    '2018'
]

Podemos imprtimir la lista completa de elementos con nuestra ya conocida función `print`:

In [None]:
print(periodos)

De este ejemplo podemos darnos cuenta que en lugar de almacenar una variable para cada periodo, podemos crear una lista que contenga a todos los periodos.

**Ejercicio:** Crea una lista llamada `hobbies`, donde añadas cadenas de texo con tus hobbies favoritos e imprime dicha lista. Un ejemplo sería:

```python
hobbies = [
    'leer',
    'programar',
    'ver series en Netflix'
]
```

In [None]:
# Escribe tu código aquí
hobbies = ["Tocar la guitarrra", "Jugar videojuegos", "Ver películas"]

print(hobbies)

['Tocar la guitarrra', 'Jugar videojuegos', 'Ver películas']


Supongamos que a la lista anterior de periodos queremos agregar dos periodos más `2019` y `2020`. Para ello, las listas tienen un método propio que se llama `append`, donde como argumento le especificamos qué más nos gustaría agregar a la lista:

In [None]:
periodos.append('2019')
periodos.append('2020')
print(periodos)

**Ejercicio:** Añade dos hobbies más a tu lista de hobbies utilizando `append` e imprime la nueva lista.

In [None]:
# Escribe tu código aquí
hobbies.append("Programar")
hobbies.append("Tomar fotos")
print(hobbies)

['Tocar la guitarrra', 'Jugar videojuegos', 'Ver películas', 'Programar', 'Tomar fotos']


## Indexación

Podríamos pensar en que si quisiea accesar a un periodo específico, tendría mayor ventaja el crear una variable para cada valor del periodo, **lo que nos lleva a preguntarnos de qué manera podemos acceder a un valor específico.** Esto podemos resolverlo accediendo a la información de una lista mediante **índices**.

Para nuestro caso, un índice será un valor numérico que especifica la posición del elemento de una lista. Los índices inician en 0 y llegan, de este modo, hasta el número de elementos de la lista, menos 1. Para poder acceder a los elementos de una lista, especificaremos el índice entre corchetes.

Por ejemplo, para imprimir el valor correspondiente al primer, segundo y cuarto elemento de nuestra lista de periodos, haremos:



In [None]:
print(periodos[0]) # Primero elemento de la lista => índice 0
print(periodos[1]) # Segundo elemento de la lista => índice 1
print(periodos[3]) # Cuarto elemento de la lista => índice 3

Los índices será muy útiles porque nos permitirán acceder a información de las listas, ya sea para obtener un dato o para modificarlo.

Si quisiéramos imprimir todas las listas, podemos hacer uso de los ciclos que ya conocemos:

In [None]:
n = len(periodos) # len devuelve la longitud de la lista

for index in range(n):
    print(periodos[index])

Una ventaja de las listas, es que pueden considerarse como una representación abstracta de información tabular, ya que podemos crear listas cuyos contenidos sean listas.

Un ejemplo de lo anterior sería considerar la siguiente tabla:

| Periodo | Árboles |
| ------- | ------- |
|    2015 |     156 |
|    2016 |     230 |
|    2017 |     428 |
|    2018 |     749 |
|    2019 |     921 |
|    2020 |    1048 |

Podríamos representar esta tabla en forma de lista creando una lista de listas (esto es, una matriz) de la siguiente manera:

In [None]:
datos = [
    ['2015', 156],
    ['2016', 230],
    ['2017', 428],
    ['2018', 749],
    ['2019', 921],
    ['2020', 1048]
]

Y como ya hemos mencionado, podemos acceder a elementos específicos utilizando índices:

In [None]:
print("Periodo:", datos[2][0])
print("# Árboles:", datos[2][1])

**Ejercicio:** Considera la siguiente tabla con datos sobre escolaridad en jóvenes:

| Periodo | Jóvenes (18-29) | % con estudios universitarios |
| ------- | --------------- | ----------------------------- |
|    2015 |          256000 |                          46.0 |
|    2016 |          330000 |                          48.5 |
|    2017 |          385000 |                          56.3 |
|    2018 |          476000 |                          49.0 |
|    2019 |          605000 |                          57.2 |
|    2020 |          870000 |                          62.4 |

- Crea una lista de listas que se llame `escolaridad` y que contenga la información de la tabla.
- Utiliza un ciclo para iterar sobre los contenidos de dicha lista.

> **Pista:** Para saber cuántos elementos puedes iterar, utilizar la función `len` será de gran ayuda. Por ejemplo, si haces `n = len(escolaridad)`, `n` contendrá la cantidad de filas de la tabla (o número de elementos en la lista) y `m = len(escolaridad[0])` el número de columnas (o número de elementos por renglón).

In [None]:
# Escribe tu código aquí
datos = [
    ['2015', 256000, 46.0],
    ['2016', 330000, 48.5],
    ['2017', 385000, 56.3],
    ['2018', 476000, 49.0],
    ['2019', 605000, 57.2],
    ['2020', 870000, 62.4]
]

for i in range(len(datos)):
  print(datos[i])

['2015', 256000, 46.0]
['2016', 330000, 48.5]
['2017', 385000, 56.3]
['2018', 476000, 49.0]
['2019', 605000, 57.2]
['2020', 870000, 62.4]


> **Nota:** Además de la indexación, existe otra manera de iterar los contenidos de una lista, y es utilizando una variable que va tomando el valor de los contenidos de una lista, por ejemplo:

In [None]:
comite_evaluador = [
    'José López',
    'Jimena Macías',
    'Mariana Andrade',
    'Mario Pérez'
]

for miembro in comite_evaluador:
    print(miembro)

José López
Jimena Macías
Mariana Andrade
Mario Pérez


## Diccionarios

Los diccionarios nos ayudan a mantener información de manera estructurada, sin embargo, con contenidos con un orden no necesariamente definido. 

A diferencia de las listas, los índices se llaman llaves y son cadenas de texto que representan el contenido o valor que albergan. Asimismo, una diferencia importante es que al no tener índices numéricos, los contenidos de un diccionario no cuentan con un orden particular.

Para crear un diccionario, utilizaremos llaves (o braquets) `{ }` y definiremos sus pares de contenidos (llave-valor).

**Veamos un ejemplo.**

Supongamos que contamos con información de algún senador, podríamos albergar su información como sigue:

In [None]:
senador = {
    "nombre": "Juan Martínez",
    "edad": 48,
    "partido": "Partido del Verdadero Cambio",
    "sesiones": 56,
    "asistencias": 48
}

print(senador)

{'nombre': 'Juan Martínez', 'edad': 48, 'partido': 'Partido del Verdadero Cambio', 'sesiones': 56, 'asistencias': 48}


Los diccionarios cuentan con algunos métodos que nos permiten acceder a la información de manera que podamos iterar sobre la misma, ya sea sólo extrayendo las llaves, los valores o ambos:

In [None]:
# Para extraer las llaves en forma de lista
llaves = list(senador.keys())
print(llaves)

# Para extraer los valores en forma de lista
valores = list(senador.values())
print(valores)

['nombre', 'edad', 'partido', 'sesiones', 'asistencias']
['Juan Martínez', 48, 'Partido del Verdadero Cambio', 56, 48]


In [None]:
# Para iterar ambos
for llave, valor in senador.items():
    print("- Llave:", llave) 
    print("- Valor:", valor)
    print()

- Llave: nombre
- Valor: Juan Martínez

- Llave: edad
- Valor: 48

- Llave: partido
- Valor: Partido del Verdadero Cambio

- Llave: sesiones
- Valor: 56

- Llave: asistencias
- Valor: 48



## Casos de uso

Ya hemos visto que de manera general podemos reunir información diversa a través de colecciones, sin embargo, hay casos de uso más general, por lo que en esta parte exploraremos algunos ejemplos donde se pueden utilizar estos elementos.

### a. Bases de datos - APIs

Un primer ejemplo es crear una lista de diccionarios, donde para nuestro caso crearemos un directorio de miembros de un comité electoral:

In [None]:
directorio = [
    {
        "nombre": "José López",
        "edad": 34,
        "municipio": "León"
    },
    {
        "nombre": "Jimena Macías",
        "edad": 25,
        "municipio": "León"
    },
    {
        "nombre": "Mariana Andrade",
        "edad": 28,
        "municipio": "León"
    },
    {
        "nombre": "Mario Pérez",
        "edad": 26,
        "municipio": "León"
    }
]

In [None]:
for miembro in directorio:
    print("- Nombre:", miembro['nombre'])
    print("- Edad:", miembro['edad'])
    print("- Municipio:", miembro['municipio'])
    print()

- Nombre: José López
- Edad: 34
- Municipio: León

- Nombre: Jimena Macías
- Edad: 25
- Municipio: León

- Nombre: Mariana Andrade
- Edad: 28
- Municipio: León

- Nombre: Mario Pérez
- Edad: 26
- Municipio: León



Esta representación tiene demasiad utilidad, pues nos permite exportar el directorio en uno de los formatos estándares que se utilizan actualmente, el formato JSON.

Un ejemplo de cómo/dónde se utiliza este formato es al consumir portales de datos abiertos a través de su API (protocolo que sirve datos/información). Por ahora no es necesario comprender a profundidad esto, pues más adelante profundizarás en qués son y cómo funcionan las APIs.

### b. Bases de datos - CSV

Si cargásemos algún archivo CSV con información abierta, el archivo cargaría en formato de tabla, por lo que si quisiéramos extraer los valores de una columna, la columna sería extraída en formato de lista.

In [None]:
import pandas as pd

df = pd.read_csv('sample_data/california_housing_test.csv')
df.head()

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value
0,-122.05,37.37,27.0,3885.0,661.0,1537.0,606.0,6.6085,344700.0
1,-118.3,34.26,43.0,1510.0,310.0,809.0,277.0,3.599,176500.0
2,-117.81,33.78,27.0,3589.0,507.0,1484.0,495.0,5.7934,270500.0
3,-118.36,33.82,28.0,67.0,15.0,49.0,11.0,6.1359,330000.0
4,-119.67,36.33,19.0,1241.0,244.0,850.0,237.0,2.9375,81700.0


In [None]:
df[['longitude']].values.tolist()

[[-122.05],
 [-118.3],
 [-117.81],
 [-118.36],
 [-119.67],
 [-119.56],
 [-121.43],
 [-120.65],
 [-122.84],
 [-118.02],
 [-118.24],
 [-119.12],
 [-121.93],
 [-117.03],
 [-117.97],
 [-117.99],
 [-120.81],
 [-121.2],
 [-118.88],
 [-122.59],
 [-122.15],
 [-121.37],
 [-118.16],
 [-122.2],
 [-117.28],
 [-118.03],
 [-122.42],
 [-118.39],
 [-118.45],
 [-118.48],
 [-119.35],
 [-118.3],
 [-121.13],
 [-118.08],
 [-118.32],
 [-118.11],
 [-122.53],
 [-118.02],
 [-118.05],
 [-119.01],
 [-119.32],
 [-116.92],
 [-118.06],
 [-117.27],
 [-118.23],
 [-117.24],
 [-121.91],
 [-118.29],
 [-121.35],
 [-117.99],
 [-120.99],
 [-119.42],
 [-122.21],
 [-118.17],
 [-117.9],
 [-117.99],
 [-121.42],
 [-118.77],
 [-121.93],
 [-121.82],
 [-122.29],
 [-121.78],
 [-118.41],
 [-121.67],
 [-118.0],
 [-117.22],
 [-121.08],
 [-117.53],
 [-117.46],
 [-117.97],
 [-121.92],
 [-118.2],
 [-118.06],
 [-122.05],
 [-123.79],
 [-120.79],
 [-121.89],
 [-118.43],
 [-118.75],
 [-122.47],
 [-120.69],
 [-118.28],
 [-118.44],
 [-122.05],