# Generando Mapas en Python

## Objetivos

Después de completar este laboratorio será capas de:

*   Visualizar datos geospaciales con Folium


## Introducción

En este laboratorio, se verá cómo crear mapas para diferentes objetivos. Para hacer esto, se trabajará con otra biblioteca de visualización de Python, denominada, **Folium**. Lo bueno de **Folium** es que fue desarrollado con el único propósito de visualizar datos geoespaciales. Si bien hay otras bibliotecas disponibles para visualizar datos geoespaciales, como **plotly**, es posible que tengan un límite en la cantidad de llamadas a la API que puede realizar dentro de un marco de tiempo definido. **Folium**, por otro lado, es completamente gratuito.

## Tabla de Contenidos

1.  [Explorando Conjunto de Datos con *pandas*](#0)
2.  [Descarga y Preparación de Datos](#2)
3.  [Introducción a Folium](#4)
4.  [Mapa con Marcadores](#6)
5.  [Mapas Coroplético](#8)


# Explorando Conjunto de Datos con *pandas*<a id="0"></a>

Kit de herramientas: El curso se basa en gran medida en [**pandas**](http://pandas.pydata.org) y [**Numpy**](http://www.numpy.org/) para la manipulación, el análisis y la visualización de datos. La biblioteca principal de visualización que será explorado en este laboratorio es [**Folium**](https://github.com/python-visualization/folium/).

Conjunto de datos:

1. Incidentes del Departamento de Policía de San Francisco para el año 2016 - [Incidentes del Departamento de Policía](https://data.sfgov.org/browse?Department-Metrics_Publishing-Department=Police+Department&category=Public+Safety) del portal de datos públicos de San Francisco. Incidentes derivados del sistema de informes de incidentes delictivos del Departamento de Policía de San Francisco (SFPD). Se actualiza diariamente y muestra los datos de todo el año 2016. La dirección y la ubicación se anonimizaron moviéndose a mitad de cuadra o a una intersección.

2. Inmigración a Canada desde 1980 a 2013 - [International migration flows to and from selected countries - The 2015 revision](http://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows.asp) desde el sitio web de las Naciones Unidas. El conjunto de datos contiene datos anuales sobre los flujos de migrantes internacionales registrados por los países de destino. Los datos presentan tanto las entradas como las salidas según el lugar de nacimiento, ciudadanía o lugar de residencia anterior/próxima tanto para extranjeros como para nacionales. Este laboratorio se concentra en los datos de inmigración canadiense.


# Descarga y Preparación de Datos <a id="2"></a>


Lo primero que hay que realizar es la instalación de **openpyxl** (antiguamente conocido como **xlrd**) que es un módulo que **pandas** requiere para leer archivos Excel.

In [None]:
!pip install openpyxl

A continuación, se procederá a cargar los módulos claves para hacer análisis de datos **pandas** y **numpy**.


In [None]:
import numpy as np  # util para computación científica en Python
import pandas as pd # biblioteca que contienen la estructura de datos de uso principal

# Introducción a Folium <a id="4"></a>


Folium es una poderosa biblioteca de Python que ayuda a crear varios tipos de mapas leaflet. El hecho de que los resultados de Folium sean interactivos hace que esta biblioteca sea muy útil para la creación de cuadros de mando o dashboard.

Desde la página de documentación oficial de Folium:

> Folium se basa en las fortalezas de la manipulación de datos del ecosistema de Python y las fortalezas de mapeo de la biblioteca Leaflet.js. Manipule sus datos en Python, luego visualícelos en un mapa leaflet a través de Folium.

> Folium facilita la visualización de datos que han sido manipulados en Python en un mapa leaflet interactivo. Permite tanto la vinculación de datos a un mapa para visualizaciones de coropletas como el paso de visualizaciones ricas en vector/ráster/HTML como marcadores en el mapa.

> La biblioteca tiene varios tileset integrados de OpenStreetMap, Mapbox y Stamen, y admite tileset personalizados con Mapbox o claves API de Cloudmade. Folium admite superposiciones de imágenes, videos, GeoJSON y TopoJSON.


#### Instalación de **Folium**


**Folium** no está disponible de forma predeterminada. Por lo tanto, primero se debe instalar antes de poder importarlo.


In [None]:
!pip3 install folium

import folium

print('Folium instalado e importado!')

Generar el mapa mundial es sencillo en **Folium**. Simplemente se crea un objeto **Folium** *Map* y luego lo muestra. Lo atractivo de los mapas de **Folium** es que son interactivos, por lo que puede hacer zoom en cualquier región de interés a pesar del nivel de zoom inicial.


In [None]:
# definir el mapa mundial
mapa_mundial = folium.Map()

# desplegar el mapa mundial
mapa_mundial

Intente acercar y alejar el mapa representado arriba.


Se puede personalizar esta definición predeterminada del mapa mundial especificando el centro de su mapa y el nivel de zoom inicial.

Todas las ubicaciones en un mapa están definidas por sus respectivos valores de *Latitud* y *Longitud*. Entonces puede crear un mapa y pasar en un centro de *Latitud* y *Longitud* valores de **\[0, 0]**.

Para un centro definido, también puede definir el nivel de zoom inicial en esa ubicación cuando se representa el mapa. **Cuanto mayor sea el nivel de zoom, más se acercará el mapa al centro**.

Crear un mapa centrado alrededor de Chile y jugar con el nivel de zoom para ver cómo afecta el mapa renderizado.

In [None]:
# definir el mapa mundial centrado alrededor de Chile con un nivel bajo de zoom
mapa_mundial = folium.Map(location=[-35.675, -71.543], zoom_start=4)

# desplegar el mapa mundial
mapa_mundial

Crear el mapa nuevamente con un nivel de zoom más alto.


In [None]:
# definir el mapa mundial centrado alrededor de Chile con un nivel alto de zoom
mapa_mundial = folium.Map(location=[-35.675, -71.543], zoom_start=8)

# desplegar el mapa mundial
mapa_mundial

Como puede ver, cuanto mayor sea el nivel de zoom, más se acercará el mapa al centro dado.


**Pregunta**: Crear un mapa de México con un nivel de zoom de 4.


In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo





Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:   
    
#definir las coordenadas de geolocalozación de Mexico
mexico_latitud = 23.6345 
mexico_longitud = -102.5528

# definir el mapa mundial centrado alrededor de Mexivo con un nivel de zoom 4
mexico_mapa = folium.Map(location=[mexico_latitud, mexico_longitud], zoom_start=4)

# desplegar el mapa
mexico_mapa

-->

Otra característica interesante de **Folium** es que puede generar diferentes estilos de mapas.


### A. Mapas Stamen Toner

Estos son mapas B+N (blanco y negro) de alto contraste. Son perfectos para mashups de datos y para explorar recodo de ríos y zonas costeras.


Crear un mapa de Chile con Stamen Toner y un nivel de zoom de 4.


In [None]:
# crea un mapa Stamen Toner del mundo centrado alrededor de Chile
mapa_mundial = folium.Map(location=[-35.675, -71.543], zoom_start=4, tiles='Stamen Toner')

# desplegar mapa
mapa_mundial

Puede probar el acercar y alejar para ver cómo se compara este estilo con respecto al estilo de mapa predeterminado.


### B. Mapas Stamen Terrain

Estos son mapas que presentan sombreado de colinas y colores de vegetación natural. Muestran el etiquetado avanzado y la generalización de líneas de carreteras de doble calzada.


Crear un mapa de Chile con Stamen Terrain y un nivel de zoom de 4.


In [None]:
# crea un mapa Stamen Terrain del mundo centrado alrededor de Chile
mapa_mundial = folium.Map(location=[-35.675, -71.543], zoom_start=4, tiles='Stamen Terrain')

# desplegar mapa
mapa_mundial

Puede probar el acercar y alejar para ver cómo se compara este estilo con respecto al estilo de mapa Steamen Toner y al mapa predeterminado.


Haga zoom y observe cómo los bordes comienzan a mostrarse a medida que se acerca, y los nombres de los países que se muestran están en inglés.


**Pregunta**: Crear un mapa de México para visualizar el sombreado de las colinas y la vegetación natural. Utilice un nivel de zoom de 6.


In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarloDoble click **aquí** para ver la solución




<!--

#La respuesta correcta es:   
    
#definir las coordenadas de geolocalozación de Mexico
mexico_latitud = 23.6345 
mexico_longitud = -102.5528

# definir el mapa mundial centrado alrededor de Mexivo con un nivel de zoom 4
mexico_mapa = folium.Map(location=[mexico_latitud, mexico_longitud], zoom_start=6, tiles='Stamen Terrain')

# desplegar el mapa
mexico_mapa

-->

# Mapa con Marcadores <a id="6"></a>


Para trabajar con un mapa con marcadores se procederá a cargar los datos sobre los incidentes del departamento de policía de Los Ángeles usando el método *pandas* `read_csv()`.


Leer el conjunto de datos en un dataframe de *pandas*:


In [None]:
df_incidentes = pd.read_csv('datos/Police_Department_Incidents_Previous_Year_2016.csv')

print('Conjunto de datos leído en un dataframe de pandas!')

Mostrar los primeros cinco elementos del conjunto de datos.


In [None]:
df_incidentes.head()

Entonces, cada fila consta de 13 características:

> 1.  **IncidntNum**: Número de Incidencia
> 2.  **Category**: Categoría del delito o incidente
> 3.  **Descript**: Descripción del crimen o incidente
> 4.  **DayOfWeek**: El día de la semana en que ocurrió el incidente
> 5.  **Date**: La fecha en que ocurrió el incidente
> 6.  **Time**: La hora del día en que ocurrió el incidente
> 7.  **PdDistrict**: El distrito del departamento de policía
> 8.  **Resolution**: La resolución del delito en términos de sí el perpetrador fue detenido o no
> 9.  **Address**: La dirección más cercana a donde ocurrió el incidente
> 10. **X**: El valor de longitud de la ubicación del crimen
> 11. **Y**: El valor de latitud de la ubicación del crimen
> 12. **Location**: Una tupla de los valores de latitud y longitud
> 13. **PdId**: El ID del departamento de policía


Mostrar cuántas entradas hay en el conjunto de datos.


In [None]:
df_incidentes.shape

Así, el dataframe consta de 150.500 delitos, que tuvieron lugar en el año 2016. Para reducir el costo computacional, solo se trabajará con los primeros 100 incidentes en este conjunto de datos.

In [None]:
# obtener los primeros 100 crímenes del dataframe df_incidentes 
limite = 100
df_incidentes = df_incidentes.iloc[0:limite, :]

Comprobrar que el dataframe ahora consta solo de 100 delitos.


In [None]:
df_incidentes.shape

Ahora que se redujo un poco los datos, se visualizará dónde ocurrieron estos crímenes en la ciudad de San Francisco. Se usará el estilo predeterminado y se inicializará el nivel de zoom a 12.


In [None]:
# valores de latidud y longitus de la ciudad de San Francisco
latitud = 37.77
longitud = -122.42

In [None]:
# crear el mapa y desplegarlo
sanfran_mapa = folium.Map(location=[latitud, longitud], zoom_start=12)

# desplegar el mapa de San Francisco
sanfran_mapa

Ahora se superponerán las ubicaciones de los crímenes en el mapa. La forma de hacerlo en **Folium** es crear un *grupo de características* con sus propias características y estilo y luego agregarlo a `sanfran_mapa`.


In [None]:
# instanciar un grupo de características para los incidentes en el dataframe
incidentes = folium.map.FeatureGroup()

# recorrer los 100 delitos y agregar cada uno al grupo de características de incidentes
for lat, lng, in zip(df_incidentes.Y, df_incidentes.X):
    incidentes.add_child(
        folium.features.CircleMarker(
            [lat, lng],
            radius=5, # define el tamaño del circulo del marcador
            color='yellow',
            fill=True,
            fill_color='blue',
            fill_opacity=0.6
        )
    )

# agregar incidentes al mapa
sanfran_mapa.add_child(incidentes)

También se puede agregar un texto emergente que se mostrará cuando pase el cursor sobre un marcador. Por ejemplo, se puede hacer que cada marcador muestre la categoría del delito cuando pase el cursor sobre él.

In [None]:
# instanciar un grupo de características para los incidentes en el dataframe
incidentes = folium.map.FeatureGroup()

# recorrer los 100 delitos y agregar cada uno al grupo de características de incidentes
for lat, lng, in zip(df_incidentes.Y, df_incidentes.X):
    incidentes.add_child(
        folium.features.CircleMarker(
            [lat, lng],
            radius=5, # define el tamaño del circulo del marcador
            color='yellow',
            fill=True,
            fill_color='blue',
            fill_opacity=0.6
        )
    )

# agregue texto emergente a cada marcador en el mapa
latitudes = list(df_incidentes.Y)
longitudes = list(df_incidentes.X)
etiquetas = list(df_incidentes.Category)

for lat, lng, etq in zip(latitudes, longitudes, etiquetas):
    folium.Marker([lat, lng], popup=etq).add_to(sanfran_mapa)    
    
# agregar incidentes al mapa
sanfran_mapa.add_child(incidentes)

Ahora se puede saber qué categoría de delito ocurrió en cada marcador.

Si encuentra que el mapa está tan congestionado que todos estos marcadores, hay dos formas de atacar este problema. La solución más simple es eliminar estos marcadores de la ubicación y simplemente agregar el texto a los marcadores de círculo de la siguiente manera:

In [None]:
# crear el mapa y desplegarlo
sanfran_mapa = folium.Map(location=[latitud, longitud], zoom_start=12)

# recorrer los 100 delitos y agregar cada uno al mapa
for lat, lng, etq in zip(df_incidentes.Y, df_incidentes.X, df_incidentes.Category):
    folium.features.CircleMarker(
        [lat, lng],
        radius=5, # define el tamaño del circulo del marcador
        color='yellow',
        fill=True,
        popup=etq,
        fill_color='blue',
        fill_opacity=0.6
    ).add_to(sanfran_mapa)

# show map
sanfran_mapa

Otra forma apropiada de hacerlo es agrupar los marcadores en diferentes grupos. Luego, cada grupo se representa por el número de delitos en cada barrio. Estos grupos se pueden considerar como focos de San Francisco que luego puede analizar por separado.

Para implementar esto, se debe instanciar un objeto *MarkerCluster* y agregar todos los puntos de datos en el dataframe a este objeto.

In [None]:
from folium import plugins

# comenzar con una copia limpia del mapa de San Francisco
sanfran_mapa = folium.Map(location = [latitud, longitud], zoom_start = 12)

# instanciar un objeto de cluster de marcadores para los incidentes en el dataframe
incidentes = plugins.MarkerCluster().add_to(sanfran_mapa)

# recorrer el dataframe y agregar cada punto de dato al cluster de marcadores
for lat, lng, etq, in zip(df_incidentes.Y, df_incidentes.X, df_incidentes.Category):
    folium.Marker(
        location=[lat, lng],
        icon=None,
        popup=etq,
    ).add_to(incidentes)

# desplegar el mapa
sanfran_mapa

Observe cómo, cuando se aleja por completo, todos los marcadores se agrupan en un grupo, *el grupo global*, de 100 marcadores o delitos, que es el número total de delitos en nuestro dataframe. Una vez que se comienza a acercar, el *grupo global* comenzará a dividirse en grupos más pequeños. Al hacer el zoom máximo dará como resultado marcadores individuales.

# Mapas Coroplético <a id="8"></a>

Un *mapa coropletico* es un mapa temático en el que las áreas están sombreadas o modeladas en proporción a la medida de la variable estadística que se muestra en el mapa, como la densidad de población o el ingreso per cápita. El mapa coropletico proporciona una manera fácil de visualizar cómo varía una medida en un área geográfica, o muestra el nivel de variabilidad dentro de una región. A continuación se muestra un mapa coropletico de los EE. UU. que muestra la población por milla cuadrada por estado.

![mapa coropletico](imagenes/2000_census_population_density_map_by_state.png)


Ahora, la idea es crear un **mapa coroplético** del mundo que represente la inmigración de varios países a Canadá.


Ahora, se carga el conjunto de datos con los datos de la inmigración en Canadá usando el método de **pandas** `read_excel()`.

In [None]:
df_can = pd.read_excel(
    'datos/Canada1.xlsx',
    sheet_name='Canada by Citizenship',
    skiprows=range(20),
    skipfooter=2)

print('Datos leídos y cargados en un dataframe de pandas!')

Mostrar las primeras 5 filas del conjunto de datos usando la función `head()`.


In [None]:
df_can.head()

Descubrir cuantas entradas hay en el conjunto de datos.


In [None]:
# dimensión del dataframe (filas, columnas)
print(df_can.shape)

Limpiar datos. Se realizarán algunas modificaciones al conjunto de datos original para que sea más fácil crear visualizaciones. La explicación de estas modificaciones están detalladas en los laboratorios anteriores *"Introducción a Matplotlib y Gráficos de línea"* y *"Gráficos de Área, Barras e Histogramas"*.

In [None]:
# limpiar el conjunto de datos para eliminar columnas innecesarias (epor ejemplo, REG) 
df_can.drop(['AREA', 'REG', 'DEV', 'Type', 'Coverage'], axis=1, inplace=True)

# cambiar el nombre de algunas de las columnas para que tengan sentido
df_can.rename(columns={'OdName':'Country', 'AreaName':'Continent','RegName':'Region'}, inplace=True)

# Para mantener la coherencia, asegúrese de que todas las etiquetas de las columnas sean de tipo cadena de caracteres o string
df_can.columns = list(map(str, df_can.columns))

# Agregar la columna total
df_can['Total'] = df_can.sum(axis=1, numeric_only=True)

# finalmente, se crea una lista de años desde 1980 - 2013, esto será útil cuando comencemos a graficar los datos
years = list(map(str, range(1980, 2014)))
print('Dimensión de los datos:', df_can.shape)

Mostrar elementos de las primeras 5 filas del dataframe procesado.


In [None]:
df_can.head()

Para crear un **mapa Coroplético**, se necesita un archivo GeoJSON que defina las áreas/límites del estado, condado o país de interés. Para este caso, se requiere un GeoJSON que defina los límites de todos los países del mundo. Para facilitar este trabajo, se proporcionará este archivo en formato json llamado **paises_del_mundo.json**.

Como se tiene el archivo GeoJSON, se va a crear un mapa mundial, centrado alrededor de los valores de **\[0, 0]** *latitud* y *longitud*, con un nivel de zoom inicial de 2.


In [None]:
mundial_geo = r'datos/paises_del_mundo.json' # archivo geojson

# crear un mapa del mundo plano
mapa_mundial = folium.Map(location=[0, 0], zoom_start=2)

Ahora, para crear un *mapa coroplético*, se usará el método `choropleth` con los siguientes parámetros principales:

1. `geo_data`, que es el archivo GeoJSON.
2. `data`, que es el dataframe que contiene los datos.
3. `columns`, que representa las columnas en el marco de datos que se usarán para crear el *mapa coroplético*.
4. `key_on`, que es la clave o variable en el archivo GeoJSON que contiene el nombre de la variable de interés. Para determinar eso, deberá abrir el archivo GeoJSON usando cualquier editor de texto y anotar el nombre de la clave o variable que contiene el nombre de los países, ya que los países son nuestra variable de interés. En este caso, **name** es la clave en el archivo GeoJSON que contiene el nombre de los países. Tenga en cuenta que esta clave distingue entre mayúsculas y minúsculas, por lo que debe pasarlo exactamente como está en el archivo GeoJSON.


In [None]:
# generar un mapa coroplético utilizando la inmigración total de cada país a Canadá desde 1980 hasta 2013
mapa_mundial.choropleth(
    geo_data=mundial_geo,
    data=df_can,
    columns=['Country', 'Total'],
    key_on='feature.properties.name',
    fill_color='YlOrRd', 
    fill_opacity=0.7, 
    line_opacity=0.2,
    legend_name='Inmigración a Canadá',
    reset=True
)

# desplegar el mapa
mapa_mundial

Según la leyenda del *mapa coroplético*, cuanto más oscuro es el color de un país y más cercano al rojo, mayor es el número de inmigrantes de ese país. En consecuencia, la mayor inmigración en el transcurso de 33 años (de 1980 a 2013) provino de China, India y Filipinas, seguidos de Polonia, Pakistán y, curiosamente, EE. UU.

Nota: Se podría dar el caso que la leyenda muestre un límite o umbral negativo. Para arreglar esto, se puede definir umbrales propios y comenzar desde 0 a un valor máximo.


In [None]:
mundial_geo = r'datos/paises_del_mundo.json'

# crea una arreglo numpy de longitud 6 y tiene un espacio lineal desde la inmigración total mínima hasta la inmigración total máxima
umbral_escala = np.linspace(df_can['Total'].min(),
                              df_can['Total'].max(),
                              6, dtype=int)
umbral_escala = umbral_escala.tolist() # cambiar la matriz numpy a una lista
umbral_escala[-1] = umbral_escala[-1] + 1 # asegúrese de que el último valor de la lista sea mayor que la inmigración máxima

# dejar que Folium determine la escala.
mapa_mundial = folium.Map(location=[0, 0], zoom_start=2)
mapa_mundial.choropleth(
    geo_data=mundial_geo,
    data=df_can,
    columns=['Country', 'Total'],
    key_on='feature.properties.name',
    threshold_scale=umbral_escala,
    fill_color='YlOrRd', 
    fill_opacity=0.7, 
    line_opacity=0.2,
    legend_name='Inmigración a Canadá',
    reset=True
)
mapa_mundial

Así se ve mejor. Ahora puede jugar con los datos y tal vez crear *mapas coropléticos* para años individuales, o quizás décadas, y ver cómo se comparan con el período completo desde 1980 hasta 2013.