# Generando mapas con Python

## Introducción


En este laboratorio aprenderemos a crear distintos mapas interactivos. Para ello utilizaremos una nueva librería llamada Folium, una librería creada con el objetivo de visualizar datos geoespaciales. También destacamos que estas visualizaciones es posible realizarlas con plotly, pero hay un límite de veces que podemos llamar a la API para datos geoespaciales, a no ser que paguemos. Por otro lado, folium es completamente gratuito y mas potente.



2.  Inmigración a Canadá de 1980 a 2013 - [Flujos migratorios internacionales hacia y desde países seleccionados - La revisión de 2015](http://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows.shtml?utm_medium=Exinfluencer&utm_source=Exinfluencer&utm_content=000026UJ&utm_term=10006555&utm_id=NA-SkillsNetwork-Channel-SkillsNetworkCoursesIBMDeveloperSkillsNetworkDV0101ENSkillsNetwork20297740-2021-01-01) del sitio web de las Naciones Unidas. El conjunto de datos contiene datos anuales sobre los flujos de migrantes internacionales registrados por los países de destino. Los datos presentan tanto las entradas como las salidas según el lugar de nacimiento, ciudadanía o lugar de residencia anterior/posterior tanto para extranjeros como para nacionales. Para esta lección, nos centraremos en los datos de inmigración canadiense


# Importando las librerías


In [1]:
import numpy as np
import pandas as pd
import folium

# Introducción a Folium <a id="4"></a>


Folium es una potente libería de Python que permite crear diferentes tipos de mapas utilizando la librería de javascrip [Leaflet](https://leafletjs.com). Los mapas de Folium son interactivos lo que les da un valor añadido ya que pueden ser integrados en dashboards.

Generar un mapamundi es bastante sencillo, simplemente creamos un objeto `folium.Map()` y lo mostramos:

In [2]:
# definimos el mapamundi
world_map = folium.Map()

# mostramos el mapamundi
world_map

**Ejercicio:**  Interacciona con el mapa anterior para encontrar Madrid.

Vamos a crear un mapa centrado alrededor de Canadá y jugar con el nivel de zoom para ver cómo afecta el mapa renderizado.

Es posible personalizar esta definición básica especificando donde debe ser centrado el mapa añadiendo un parámetro `location=[LATITUD,LONGITUD]`. También es posible modificar el zoom mediante el parámetro `zoom_start=int`, cuanto mayor este número mas zoom se realiza.

#### Ejercicio

Sabiendo que las coordinadas de Canadá son [56.130, -106.35] realiza un mapa centrado en Canadá. Elige un valor para el parámetro `zoom_start` que permita visualizar correctamente el país entero.

In [None]:
#INSERTA AQUÍ TU CÓDIGO
# definimos el mapamundi
world_map = folium.Map(location=[-22.830880894205958, -47.02456313852806])

# mostramos el mapamundi
world_map

Utiliza la página [geodatos](https://www.geodatos.net/coordenadas) para averiguar las coordenadas de España y así realizar un mapa centrado en España.

In [7]:
#INSERTA AQUÍ TU CÓDIGO
# definimos el mapamundi
world_map = folium.Map(location=[39.52175223866396, -2.8069371524599083])

# mostramos el mapamundi
world_map


Otra propiedad interesante de Folium es la posibilidad de generar mapas con diferentes estilos. Por ejemplo:

### Stamen Toner Maps

Estos son mapas en blanco y negro con gran contrastre. Perfectos para estudiar cauces de ríos o zonas costeras. Tienen un gran nivel de detalle de los contornos. Por ejemplo:

In [9]:
world_map = folium.Map(location=[-22.906795602671448, -47.0500171654182], zoom_start=4, tiles='Stamen Toner')
world_map

### Stamen Terrain Maps

Estos mapas contienen relieve del terreno y vegetación natural. También mantienen gran parte de la infrastuctura como carreteras pero reduce la nomenclatura a aquellas mas relevantes. Por ejemplo:

In [11]:
world_map = folium.Map(location=[-22.906795602671448, -47.0500171654182], zoom_start=4, tiles='Stamen Terrain')
world_map

#### Ejercicio

Crea dos mapas centrados en España siguiendo los diferentes estilos estudiados en los ejemplos anteriores.


In [14]:
#INSERTA AQUÍ TU CÓDIGO

spain_map = folium.Map(location=[39.58029037922751, -3.498037257719872], zoom_start=4, tiles='Stamen Terrain')
spain_map


# Mapas con indicadores


En esta sección trabajaremos con el siguiente copnjiunto de datos:
Incidentes del Departamento de Policía de San Francisco del año 2016 del portal de datos públicos de San Francisco. Incidentes derivados del sistema de informes de incidentes delictivos del Departamento de Policía de San Francisco (SFPD). Se actualiza diariamente y muestra los datos de todo el año 2016. La dirección y la ubicación se anonimizaron moviéndose a mitad de cuadra o a una intersección.

Descarguemos e importemos los datos sobre los incidentes del departamento de policía usando el método de *pandas* `read_csv()`.

En esta sección trabajaremos con los datos del departamento de policia de San Francisco, un conjunto de datos con los incidentes de 2016. .

Guarda el dataset en un dataframe de pandas

Descarga el dataset y guárdalo en un dataframe de *pandas*:


In [17]:

URL = 'Police_Incidents.csv'
df_incidents =  pd.read_csv(URL)


Echemos un vistazo al dataset:


In [18]:
df_incidents.head()

Unnamed: 0.1,Unnamed: 0,IncidntNum,Category,Descript,DayOfWeek,Date,Time,PdDistrict,Resolution,Address,X,Y,Location,PdId
0,0,120058272,WEAPON LAWS,POSS OF PROHIBITED WEAPON,Friday,01/29/2016 12:00:00 AM,11:00,SOUTHERN,"ARREST, BOOKED",800 Block of BRYANT ST,-122.403405,37.775421,"(37.775420706711, -122.403404791479)",12005830000000.0
1,1,120058272,WEAPON LAWS,"FIREARM, LOADED, IN VEHICLE, POSSESSION OR USE",Friday,01/29/2016 12:00:00 AM,11:00,SOUTHERN,"ARREST, BOOKED",800 Block of BRYANT ST,-122.403405,37.775421,"(37.775420706711, -122.403404791479)",12005830000000.0
2,2,141059263,WARRANTS,WARRANT ARREST,Monday,04/25/2016 12:00:00 AM,14:59,BAYVIEW,"ARREST, BOOKED",KEITH ST / SHAFTER AV,-122.388856,37.729981,"(37.7299809672996, -122.388856204292)",14105930000000.0
3,3,160013662,NON-CRIMINAL,LOST PROPERTY,Tuesday,01/05/2016 12:00:00 AM,23:50,TENDERLOIN,NONE,JONES ST / OFARRELL ST,-122.412971,37.785788,"(37.7857883766888, -122.412970537591)",16001370000000.0
4,4,160002740,NON-CRIMINAL,LOST PROPERTY,Friday,01/01/2016 12:00:00 AM,00:30,MISSION,NONE,16TH ST / MISSION ST,-122.419672,37.76505,"(37.7650501214668, -122.419671780296)",16000270000000.0


In [22]:
df_incidents['Date'] = pd.to_datetime(df_incidents['Date'])

condicion = df_incidents["Date"] <= "01/01/2016"
df_incidents[condicion]

Unnamed: 0.1,Unnamed: 0,IncidntNum,Category,Descript,DayOfWeek,Date,Time,PdDistrict,Resolution,Address,X,Y,Location,PdId
4,4,160002740,NON-CRIMINAL,LOST PROPERTY,Friday,2016-01-01,00:30,MISSION,NONE,16TH ST / MISSION ST,-122.419672,37.765050,"(37.7650501214668, -122.419671780296)",1.600027e+13
5,5,160002869,ASSAULT,BATTERY,Friday,2016-01-01,21:35,NORTHERN,NONE,1700 Block of BUSH ST,-122.426077,37.788019,"(37.788018555829, -122.426077177375)",1.600029e+13
9,9,160003641,MISSING PERSON,FOUND PERSON,Friday,2016-01-01,10:06,BAYVIEW,NONE,100 Block of CAMERON WY,-122.387182,37.720967,"(37.7209669615499, -122.387181635995)",1.600036e+13
92,92,160014381,NON-CRIMINAL,"DEATH REPORT, CAUSE UNKNOWN",Friday,2016-01-01,08:00,TENDERLOIN,NONE,300 Block of ELLIS ST,-122.411988,37.785023,"(37.7850226622786, -122.411987643595)",1.600144e+13
132,132,160000211,OTHER OFFENSES,INTERFERRING WITH A POLICE OFFICER,Friday,2016-01-01,00:50,SOUTHERN,"ARREST, BOOKED",MARKET ST / BEALE ST,-122.397388,37.792405,"(37.7924047319625, -122.397387796127)",1.600002e+13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
30871,30871,160009752,MISSING PERSON,FOUND PERSON,Friday,2016-01-01,07:30,MISSION,NONE,800 Block of CAPP ST,-122.417499,37.753085,"(37.753084671409, -122.417499429971)",1.600098e+13
31525,31525,160095820,VEHICLE THEFT,STOLEN AND RECOVERED VEHICLE,Friday,2016-01-01,09:00,BAYVIEW,NONE,2000 Block of JERROLD AV,-122.398465,37.744072,"(37.7440720247576, -122.398464926801)",1.600958e+13
32122,32122,160121679,OTHER OFFENSES,FALSE PERSONATION TO RECEIVE MONEY OR PROPERTY,Friday,2016-01-01,12:00,BAYVIEW,NONE,1700 Block of NEWCOMB AV,-122.392644,37.736785,"(37.7367848800513, -122.392643753605)",1.601217e+13
32262,32262,160004649,VEHICLE THEFT,STOLEN AUTOMOBILE,Friday,2016-01-01,22:30,INGLESIDE,NONE,PERSIA AV / OCEAN AV,-122.436447,37.723789,"(37.7237886108944, -122.436447441054)",1.600046e+13


El dataset tiene 13 columnas:
> 1.  **IncidntNum**: Numero identificativo del incidente
> 2.  **Category**: Categoría del incidente
> 3.  **Descript**: Descripción del incidente
> 4.  **DayOfWeek**: Día de la semana que se produjo el incidente
> 5.  **Date**: Fecha que se produjo el incidente
> 6.  **Time**: Hora que se produjo el incidente
> 7.  **PdDistrict**: Departamento de policia que asistió.
> 8.  **Resolution**: Resolución del incidente.
> 9.  **Address**: Dirección.
> 10. **X**: La longitud del punto donde se produjo el incidente.
> 11. **Y**: La latituddel punto donde se produjo el incidente.
> 12. **Location**: Una tulpa con la longitud y la latitud.
> 13. **PdId**: ID del departamento de policia.


Como intuiremos el dataset no es precisamente pequeño. Veamos el tamaño:

In [20]:
df_incidents.shape

(32901, 14)

Así pues, el conjunto de datos consiste en 150,500 incidentes que sucedieron en 2016. Realizar la  visuliazación de todos los datos será realmente costoso desde el punto de vista computacional. Por tanto, vamos a limitarnos a los primeros 100.


In [23]:
# obtenemos los primeros 100 incidentes en el dataframe df_incidents
limit = 100
df_incidents = df_incidents.iloc[0:limit, :]

Vamos a confirmar que nuestro dataframe ahora consta solo de 100 incidentes.


In [24]:
df_incidents.shape

(100, 14)

Ahora que redujimos un poco los datos, visualicemos dónde ocurrieron estos crímenes en la ciudad de San Francisco. Usaremos el estilo predeterminado e inicializaremos el nivel de zoom a 12.


In [26]:
# Valores de latitud y longitud de San Francisco
latitude = 37.77
longitude = -122.42

In [27]:
# creamos el mapa y lo mostramos
sanfran_map = folium.Map(location=[latitude, longitude], zoom_start=12)

# mostramos el mapa de San Francisco
sanfran_map

Ahora superpongamos las ubicaciones de los crímenes en el mapa. La forma de hacerlo en **Folium** es crear un *feature group* (grupo de caractarísticas) con sus propias características y estilo y luego agregarlo a `sanfran_map`.


In [28]:
# instanciamos un feature group para los incidentes en el dataframe
incidents = folium.map.FeatureGroup()

# recorremos los 100 delitos y agregamos cada uno al feature group de incidentes
for lat, lng, in zip(df_incidents.Y, df_incidents.X):
    incidents.add_child(
        folium.features.CircleMarker(
            [lat, lng],
            radius=5, # definimos cuan grande queremos que sean los marcadores circulares
            color='yellow',
            fill=True,
            fill_color='blue',
            fill_opacity=0.6
        )
    )

# añadimos los incidentes al mapa
sanfran_map.add_child(incidents)

También podemos agregar un texto emergente que se mostrará cuando pase el cursor sobre un marcador. Hagamos que cada marcador muestre la categoría del incidente cuando pase el cursor sobre él.


In [29]:
# instanciamos un feature group para los incidentes en el dataframe
incidents = folium.map.FeatureGroup()

# recorremos los 100 delitos y agregamos cada uno al feature group de incidentes
for lat, lng, in zip(df_incidents.Y, df_incidents.X):
    incidents.add_child(
        folium.features.CircleMarker(
            [lat, lng],
            radius=5, # definimos cuan grande queremos que sean los marcadores circulares
            color='yellow',
            fill=True,
            fill_color='blue',
            fill_opacity=0.6
        )
    )

# añadimos el texto emergente a cada marcador en el mapa
latitudes = list(df_incidents.Y)
longitudes = list(df_incidents.X)
labels = list(df_incidents.Category)

for lat, lng, label in zip(latitudes, longitudes, labels):
    folium.Marker([lat, lng], popup=label).add_to(sanfran_map)

# añadimos los incidentes al mapa
sanfran_map.add_child(incidents)

¿No es esto realmente genial? Ahora puedes saber qué categoría de incidente ocurrió en cada marcador.

Si encuentras que el mapa está tan congestionado con todos estos marcadores, hay dos soluciones para este problema. La más simple es eliminar estos marcadores de ubicación y simplemente agregar el texto a los marcadores de círculo de la siguiente manera:


In [30]:
# creamos el mapa y lo mostramos
sanfran_map = folium.Map(location=[latitude, longitude], zoom_start=12)

# recorremos los 100 delitos y agregamos cada uno al mapa
for lat, lng, label in zip(df_incidents.Y, df_incidents.X, df_incidents.Category):
    folium.features.CircleMarker(
        [lat, lng],
        radius=5, # definimos cuan grande queremos que sean los marcadores circulares
        color='yellow',
        fill=True,
        popup=label,
        fill_color='blue',
        fill_opacity=0.6
    ).add_to(sanfran_map)

# mostramos el mapa
sanfran_map

La otra solución es agrupar los marcadores en diferentes grupos. Luego, cada grupo se representa por el número de delitos en cada barrio. Estos grupos se pueden considerar como focos de San Francisco que pueden ser analizados por separado.

Para implementar esto, comenzamos instanciando un objeto *MarkerCluster* y agregando todos los puntos de datos en el dataframe a este objeto.


In [32]:
from folium import plugins

# empecemos de nuevo con una copia limpia del mapa de San Francisco
sanfran_map = folium.Map(location = [latitude, longitude], zoom_start = 12)

# instanciamos un objeto mark cluster para los incidentes en el dataframe
incidents = plugins.MarkerCluster().add_to(sanfran_map)

# recorremos el dataframe y agregamos cada punto de datos al mark cluster
for lat, lng, label, in zip(df_incidents.Y, df_incidents.X, df_incidents.Category):
    folium.Marker(
        location=[lat, lng],
        icon=None,
        popup=label,
    ).add_to(incidents)

# mostramos el mapa
sanfran_map

Observa cómo, cuando se aleja por completo, todos los marcadores se agrupan en un grupo, *el global cluster*, de 100 marcadores o incidentes, que es el número total de incidentes en nuestro dataframe. Una vez que comiences a acercar, el *global cluster* comenzará a dividirse en grupos más pequeños. Acercar por completo dará como resultado marcadores individuales.


# Mapas de Coropletas <a id="8"></a>

Un mapa de `Coropletas` es un mapa temático en el que las áreas están sombreadas o modeladas en proporción a la medida de la variable estadística que se muestra en el mapa, como la densidad de población o el ingreso per cápita. El mapa de coropletas proporciona una manera fácil de visualizar cómo varía una medida en un área geográfica, o muestra el nivel de variabilidad dentro de una región. A continuación se muestra un mapa de `Coropletas` de los EE. UU. que muestra la población por milla cuadrada por estado.

<img src = "https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMDeveloperSkillsNetwork-DV0101EN-SkillsNetwork/labs/Module%205/images/2000_census_population_density_map_by_state.png" width = 600>


Ahora, vamos a crear nuestro propio mapa de `Coropletas` del mundo que represente la inmigración de varios países a Canadá.


Descarga el dataset de inmigración canadiense y guárdalo en un dataframe de *pandas*.


In [44]:
df_can = pd.read_csv("Canada.csv")


Echemos un vistazo a los primeros cinco elementos de nuestro dataset.


In [45]:
df_can.head()

Unnamed: 0.1,Unnamed: 0,Type,Coverage,OdName,AREA,AreaName,REG,RegName,DEV,DevName,...,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013
0,0,Immigrants,Foreigners,Afghanistan,935,Asia,5501,Southern Asia,902,Developing regions,...,2978,3436,3009,2652,2111,1746,1758,2203,2635,2004
1,1,Immigrants,Foreigners,Albania,908,Europe,925,Southern Europe,901,Developed regions,...,1450,1223,856,702,560,716,561,539,620,603
2,2,Immigrants,Foreigners,Algeria,903,Africa,912,Northern Africa,902,Developing regions,...,3616,3626,4807,3623,4005,5393,4752,4325,3774,4331
3,3,Immigrants,Foreigners,American Samoa,909,Oceania,957,Polynesia,902,Developing regions,...,0,0,1,0,0,0,0,0,0,0
4,4,Immigrants,Foreigners,Andorra,908,Europe,925,Southern Europe,901,Developed regions,...,0,0,1,1,0,0,0,0,1,1


Averigüemos cuántas entradas hay en nuestro dataset.


In [46]:
# imprimimos las dimensiones del dataframe
print(df_can.shape)

(195, 44)


Limpiamos los datos. Haremos algunas modificaciones al dataset original para que sea más fácil crear nuestras visualizaciones. Consulta los cuadernos *Introducción a Matplotlib y gráficos de líneas* y *Gráficos de área, histogramas y gráficos de barras* para obtener una descripción detallada de este preprocesamiento.


In [47]:
# limpiamos el dataset eliminando columnas innecesarias (ej. REG)
df_can.drop(['AREA','REG','DEV','Type','Coverage'], axis=1, inplace=True)

# cambiemos el nombre de las columnas para que tengan sentido
df_can.rename(columns={'OdName':'Country', 'AreaName':'Continent','RegName':'Region'}, inplace=True)

# para ser coherentes, hagamos que todas las etiquetas de las columnas sean de tipo string
df_can.columns = list(map(str, df_can.columns))

# añadimos la columna Total
df_can['Total'] = df_can.sum(axis=1)

# años que usaremos en esta lección - útil para trazar más adelante
years = list(map(str, range(1980, 2014)))
print ('data dimensions:', df_can.shape)

data dimensions: (195, 40)


  df_can['Total'] = df_can.sum(axis=1)


Echemos un vistazo a los primeros cinco elementos de nuestro nuevo dataframe.


In [48]:
df_can.head()

Unnamed: 0.1,Unnamed: 0,Country,Continent,Region,DevName,1980,1981,1982,1983,1984,...,2005,2006,2007,2008,2009,2010,2011,2012,2013,Total
0,0,Afghanistan,Asia,Southern Asia,Developing regions,16,39,39,47,71,...,3436,3009,2652,2111,1746,1758,2203,2635,2004,58639
1,1,Albania,Europe,Southern Europe,Developed regions,1,0,0,0,0,...,1223,856,702,560,716,561,539,620,603,15700
2,2,Algeria,Africa,Northern Africa,Developing regions,80,67,71,69,63,...,3626,4807,3623,4005,5393,4752,4325,3774,4331,69441
3,3,American Samoa,Oceania,Polynesia,Developing regions,0,1,0,0,0,...,0,1,0,0,0,0,0,0,0,9
4,4,Andorra,Europe,Southern Europe,Developed regions,0,0,0,0,0,...,0,1,1,0,0,0,0,1,1,19


Para crear un mapa de `Coropletas`, necesitamos un archivo GeoJSON que defina las áreas/límites del estado, condado o país que nos interesa. En nuestro caso, dado que estamos creando un mapa del mundo, queremos un GeoJSON que defina los límites de todos los países del mundo. Para facilitar la tarea, te proporcionaremos este archivo, así que adelante, cárgalo.


In [49]:

import json

with open("world_countries.json", 'r') as f:
  world_geo=json.load(f)


Ahora que tenemos el archivo GeoJSON, vamos a crear un mapa del mundo, centrado alrededor de los valores **\[0, 0]** *latitud* y *longitud*, con un nivel de zoom inicial de 2.


In [50]:
# creamos un mapa del mundo plano
world_map = folium.Map(location=[0, 0], zoom_start=2)

Y ahora, para crear un mapa de `Coropletas`, usaremos el método *choropleth* con los siguientes parámetros principales:

1.  `geo_data`, que es el archivo GeoJSON.
2.  `data`, que es el dataframe que contiene los datos.
3.  `columns`, que representa las columnas en el dataframe que se usarán para crear el mapa de `Coropletas`.
4.  `key_on`, que es la clave o variable en el archivo GeoJSON que contiene el nombre de la variable de interés. Para determinar esto, deberás abrir el archivo GeoJSON usando cualquier editor de texto y anotar el nombre de la clave o variable que contiene el nombre de los países, ya que los países son nuestra variable de interés. En este caso, **name** es la clave en el archivo GeoJSON que contiene el nombre de los países. Ten en cuenta que esta clave distingue entre mayúsculas y minúsculas, por lo que debes pasar exactamente como está en el archivo GeoJSON.


In [51]:
# generamos un mapa de coropletas utilizando la inmigración total de cada país a Canadá desde 1980 hasta 2013
world_map.choropleth(
    geo_data=world_geo,
    data=df_can,
    columns=['Country', 'Total'],
    key_on='feature.properties.name',
    fill_color='YlOrRd',
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name='Immigration to Canada'
)

# mostramos el mapa
world_map



Según la leyenda de nuestro mapa de "Coropletas", cuanto más oscuro es el color de un país y más cercano al rojo, mayor es el número de inmigrantes de ese país. En consecuencia, la mayor inmigración en el transcurso de 33 años (de 1980 a 2013) provino de China, India y Filipinas, seguidos de Polonia, Pakistán y, curiosamente, EE. UU.


Observa cómo la leyenda muestra un límite o umbral negativo. ¡Arreglemos eso definiendo nuestros propios umbrales y comenzando con 0 en lugar de -6,918!


In [52]:
# creamos un array numpy de longitud 6 y tiene un espacio lineal desde la inmigración total mínima hasta la inmigración total máxima
threshold_scale = np.linspace(df_can['Total'].min(),
                              df_can['Total'].max(),
                              6, dtype=int)
threshold_scale = threshold_scale.tolist() # cambiamos el array numpy a una lista
threshold_scale[-1] = threshold_scale[-1] + 1 # asegúrate de que el último valor de la lista sea mayor que la inmigración máxima

# dejamos que Folium determine la escala
world_map = folium.Map(location=[0, 0], zoom_start=2)
world_map.choropleth(
    geo_data=world_geo,
    data=df_can,
    columns=['Country', 'Total'],
    key_on='feature.properties.name',
    threshold_scale=threshold_scale,
    fill_color='YlOrRd',
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name='Immigration to Canada',
    reset=True
)
world_map



¡Mucho mejor ahora! Siéntete libre de jugar con los datos y tal vez crear mapas de 'Coropletas' para años individuales, o quizás décadas, y ver cómo se comparan con el período completo desde 1980 hasta 2013.
