# API Pandas Folium

En primer lugar, definimos de forma esquemática los elementos con los que vamos desarrollar nuestro proyecto. Una API es una interfaz en la cual diseñaremos el software que vamos a utilizar; la librería *Pandas* es la que vamos a utilizar para este proyecto, es una de las más comunes y nos servirá para manejar grandes cantidades de datos como Big Data. Por último, la librería *Folium* es la encargada de mostrar mapas en nuestro cuaderno de Jupyter, estos serán interactivos y podremos observarlos en linea.

- API
- Pandas
- Folium, mapas

## Instalar ibrerías

Mediante la función `!pip install` instalamos la librería pandas. *Pandas* es una librería de código abierto para Python; gracias a esta librería se pueden manipular grandes datos.

In [26]:
!pip install pandas folium



## Configurar librerías

Procedemos a importar la librería *Pandas* a la cual nombraremos durante el proyecto como `pd`.  Utilizaremos esta nomenclatura para llamar a pandas a lo largo del proyecto. Además, importaremos la librería folium, la función principal de esta librería es que se visualicen los mapas. Esta nace de la unión de dos lenguajes: JavaScript y Python.

In [27]:
import pandas as pd
import folium 

 ## Variables

A continuación, determinamos las variables que vamos a utilizar durante este proyecto, son las siguientes: `url`, `coords_zrgz` y `mapa`. Con el uso de estas etiquetas podremos identificar durante el análisis la función de cada una. 

- url
- coords_zrgz [41.649692,-0.887712]
- mapa

El siguiente paso es determinar las acciones de estas variables. Identificamos la `url` que queremos analizar, las coordenadas exactas que queremos situar en el mapa, las cuales son las de Zaragoza, y la función `folium.Map` muestra el mapa de la `url` analizada. Esta función forma parte de de la biblioteca de Python, crea mapas interactivos en linea en Jupyter.
Esta `url` se trata de una lista, serie, array o vector. Es un tipo de dato en *Pandas* en el lenguaje de Python. Una tabla es una sucesión de varias litas ya sea en la forma de filas o de columnas. Es una de las estructuras de datos más usadas.
Para crear el mapa utilizamos `mapa = folium.Map(location=coords_zrgz)`, llamamos a la librería folium y a la función `maps` que tiene una propiedad `location` y le indicamos las coordenadas de Zaragoza.

In [None]:
url = 'https://www.zaragoza.es/sede/servicio/transporte/accidentalidad-trafico/accidente.csv?rows=20'
coords_zrgz = [41.649693,-0.887712]
mapa = folium.Map(location=coords_zrgz)

In [None]:
mapa

Los dataframes se centran en la creación de tablas, en las cuales podemos consultar la información para realizar un análisis y reflejarlo en los mapas. Con la etiqueta `pd.read_csv` le solicitamos que la librería *Pandas* lea el `csv` de la url determinada previamente. Además, le indicamos que el delimitador entre los datos es el punto y coma. A continuación le pedimos que nos muestre el dataframe.

In [None]:
df = pd.read_csv(url,delimiter=';')
df

Las siguientes funciones nos ayudan a mostrar en una misma tabla la información por columnas, la descripción de la información y la información que contiene. La función `df.columns` nos muestra los nombres de las columnas.

In [77]:
df.columns

Index(['id', 'year', 'type', 'accidentType', 'firstAddress', 'secondAddress',
       'geometry', 'reason', 'area', 'creationDate', 'daniosMateriales',
       'falloMecanico', 'estadoPavimento', 'tipoEstadoPavimento',
       'estadoAtmosfera', 'tipoEstadoAtmosfera', 'afectado', 'vehiculo'],
      dtype='object')

La función `info` está enfocada en la extraccion de datos importantes para nuestro proyecto como el tipo de objeto. Nos muestra los tipos de datos con los que vamos a trabajar: 2 booleanos, 4 decimales, 1 entero y datos objetos 11. Hay tres tipos de datos: numéricos (enteros o decimales), booleanos (verdadero o falso) y objects (caracteres literales, strings, cadenas de caracteres o texto natural).

In [78]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   20 non-null     object 
 1   year                 20 non-null     int64  
 2   type                 20 non-null     object 
 3   accidentType         0 non-null      float64
 4   firstAddress         20 non-null     object 
 5   secondAddress        11 non-null     object 
 6   geometry             20 non-null     object 
 7   reason               20 non-null     object 
 8   area                 18 non-null     float64
 9   creationDate         20 non-null     object 
 10  daniosMateriales     20 non-null     bool   
 11  falloMecanico        20 non-null     bool   
 12  estadoPavimento      20 non-null     object 
 13  tipoEstadoPavimento  0 non-null      float64
 14  estadoAtmosfera      20 non-null     object 
 15  tipoEstadoAtmosfera  0 non-null      float

La función `df.describe()` nos extrae datos relevantes sobre la tabla. Información descriptiva. Esta es interesante si hay datos numéricos. 

In [56]:
df.describe()

Unnamed: 0,year,accidentType,area,tipoEstadoPavimento,tipoEstadoAtmosfera
count,20.0,0.0,18.0,0.0,0.0
mean,2013.45,,3234.0,,
std,0.510418,,1551.515843,,
min,2013.0,,18.0,,
25%,2013.0,,2557.0,,
50%,2013.0,,2602.0,,
75%,2014.0,,4666.25,,
max,2014.0,,4780.0,,


Para acceder a la columna `type` llamamos a la función `df['type'].unique()`. Como hay valores que se repiten, a esta visión del dataframe le decimos que haga una descripción de los valores únicos. Cada uno de los accidentes tiene una coordenada y la idea es pintar el mapa con indicadores de la localización y nos proporcione la información del tipo de accidente que ha ocurrido.

In [57]:
df['type'].unique()

array(['SALIDA CALZADA', 'COLISIÓN ALCANCE', 'COLIS FRONTOLATERAL',
       'OTRAS', 'ATROPELLO', 'CAIDA SOBRE CALZADA', 'COLIS. MARCHA ATRÁS',
       'COLISIÓN LATERAL'], dtype=object)

Volvemos a llamar a la columna `geometry` y obtenemos las filas. Nosotros esto lo comprendemos como coordenadas que se encuentran en el dataframe.

In [58]:
df['geometry']

0     -0.8818527060979306,41.649027473051156
1     -0.8645810716721081,41.661585829868585
2      -0.887776415002892,41.666992622958105
3      -0.8825260453930127,41.62957498750602
4        -0.908314757720389,41.6562121210704
5      -0.8691088511672924,41.65949772773082
6     -0.8880337913721866,41.633353667694024
7       -0.8708838775078237,41.6390382112928
8      -0.8970649943808023,41.64083344974765
9      -0.8718525605769747,41.64904657717317
10     -0.8964627561577849,41.64322365075108
11     -0.8778095796207178,41.68753087470739
12    -0.8812157329722801,41.661646612715046
13      -0.8762000299022707,41.6454384961757
14     -0.9089013552408617,41.65543768899759
15     -0.9004729973337304,41.65180346604993
16     -0.8917562993466011,41.65233828238132
17      -0.888856043735591,41.65040494617356
18    -0.8629911318784169,41.645335650478316
19    -0.8870207060655807,41.609992514227066
Name: geometry, dtype: object

En cambio, Python no lo comprende como coordenadas sino como números de principio a fin. Por lo que volvemos a llamar a la columna `geometry`, lo encapsulamos en la función `type` y nos comunica el tipo de dato que es. Accedemos a la fila `0` de la columna `geometry`. La función type tiene un argumento, el argumento es una celda completa de la tabla. Realizamos este paso para tener la certeza de que es una cadena de caracteres (string o texto natural), no son valores que se puedan utilizar en un mapa ya que en un mapa tenemos que especificar la latitud y la longitud. 

In [59]:
type(df['geometry'][0])

str

¿Qué hacemos a continuación? Debemos separar la cadena de caracteres por el punto, por lo que vamos a crear una columna con los caracteres que están en la derecha y otra con los caracteres de la izquierda. Para ello utilizamos la función `split` y entrecomillamos cual es el separador. Esto nos devuelve una lista con dos elementos independientes. Por ahora tan solo estamos viendo los datos, no hemos realizado ningún cambio. Esta acción la hemos realizado en la primera fila de la columna `geometry`. Este paso lo realizamos para separar los datos por la coma.

In [60]:
df['geometry'][0].split(',')

['-0.8818527060979306', '41.649027473051156']

Ya tenemos una lista, por lo que podemos comenzar a manipular los datos. Por ahora vamos a crear un punto llamado `point`. Creamos un punto geográfico, el cual mira la columna `geometry` y lo divide con la coma. Este paso se centra en la creación de un objeto nuevo que toma los datos de la columna y hace la división de los datos por la coma. 

In [61]:
point = df['geometry'][0].split(',')
point

['-0.8818527060979306', '41.649027473051156']

Comprobamos que `point` ya no es un `string` sino una lista de dos elementos. Debemos realizar los pasos previos en todas las filas, es decir, iniciar el bucle para que el resto de datos se conviertan en una `lista` y no sigan siendo identificados por *Python^* como un `string`.

In [62]:
type(point)

list

Creamos dos columnas para clasificar los datos que obtuvimos. Para ello, creamos una serie llamada `longitudes` para guardar los elementos de las filas. Creamos también latitudes. Los corchetes significan que estos elementos forman parte de una lista. Por ahora vacía.

In [63]:
longitudes = []
latitudes = []

In [64]:
longitudes

[]

Si queremos comprobar si lo hemos hecho bien debemos realizar la misma acción que antes: `type(longitudes)`. Nos da como resultado que se tarat de una lista vacía.

In [65]:
type(longitudes)

list

El siguiente paso es rellenar la lista. ¿Cómo lo hacemos? Ponemos en marcha el bucle for, a veces se utiliza `i`, para cada elemento input o si queremos, podemos utilizar otro nombre para que tenga un significado para nuestro proyecto como por ejemplo:`longitud`. Es recomendable utilizar `i` para utilizar menos caracteres. 

Para cada uno de los elementos de las filas que tengo en el dataframe de la columna `geometry` creamos un objeto llamado `punto_coord`, este se encarga de separar los elementos con la función `split` mediante una coma.
De este `punto_coord` añadimos al objeto `longitudes` el segundo valor de la lista, el elemento += significa que la lista longitudes es igual a ese resultado más el segundo valor.

In [66]:
for i in df['geometry']:
    punto_coord = i.split(',')
    longitudes += [float(punto_coord[1])]
longitudes

[41.649027473051156,
 41.661585829868585,
 41.666992622958105,
 41.62957498750602,
 41.6562121210704,
 41.65949772773082,
 41.633353667694024,
 41.6390382112928,
 41.64083344974765,
 41.64904657717317,
 41.64322365075108,
 41.68753087470739,
 41.661646612715046,
 41.6454384961757,
 41.65543768899759,
 41.65180346604993,
 41.65233828238132,
 41.65040494617356,
 41.645335650478316,
 41.609992514227066]

Realizamos los mismos pasos previamente explicados para la lista `latitudes`.

In [67]:
latitudes

[]

In [68]:
type(latitudes)

list

In [69]:
for i in df['geometry']:
    punto_coord = i.split(',')
    latitudes += [float(punto_coord[0])]
latitudes

[-0.8818527060979306,
 -0.8645810716721081,
 -0.887776415002892,
 -0.8825260453930127,
 -0.908314757720389,
 -0.8691088511672924,
 -0.8880337913721866,
 -0.8708838775078237,
 -0.8970649943808023,
 -0.8718525605769747,
 -0.8964627561577849,
 -0.8778095796207178,
 -0.8812157329722801,
 -0.8762000299022707,
 -0.9089013552408617,
 -0.9004729973337304,
 -0.8917562993466011,
 -0.888856043735591,
 -0.8629911318784169,
 -0.8870207060655807]

Creamos un dataframe de las coordenadas, el cual es igual al dataframe de *Pandas* en el que `long` siginifica longitudes y `lat` significa latitudes. A continuación, le damos la orden de mostrar este dataframe con los términos marcados como ``long`` y ``lat``. De esta forma, obtenemos la tabla con la longitud y la latitud separadas.

In [70]:
df_coord = pd.DataFrame({'long': longitudes,'lat':latitudes})
df_coord

Unnamed: 0,long,lat
0,41.649027,-0.881853
1,41.661586,-0.864581
2,41.666993,-0.887776
3,41.629575,-0.882526
4,41.656212,-0.908315
5,41.659498,-0.869109
6,41.633354,-0.888034
7,41.639038,-0.870884
8,41.640833,-0.897065
9,41.649047,-0.871853


Creamos otro dataframe llamado ``accidentes``, este, junto con la función de *Pandas* ``concat`` va a concatenar la columna ``type`` original con la que hemos creado en el dataframe de coordendas. Nuestro objetivo es la creación de una tabla con el tipo de accidente, longitud y latitud. Con ``axis=1`` le decimos que lo realice en el eje 1, es decir, en horizontal, no debajo.

Con la función ``df_accidentes`` hacemos que nos muestre la tabla.

In [71]:
df_accidentes = pd.concat([df['type'],df_coord], axis=1)
df_accidentes

Unnamed: 0,type,long,lat
0,SALIDA CALZADA,41.649027,-0.881853
1,COLISIÓN ALCANCE,41.661586,-0.864581
2,COLISIÓN ALCANCE,41.666993,-0.887776
3,COLIS FRONTOLATERAL,41.629575,-0.882526
4,SALIDA CALZADA,41.656212,-0.908315
5,OTRAS,41.659498,-0.869109
6,ATROPELLO,41.633354,-0.888034
7,CAIDA SOBRE CALZADA,41.639038,-0.870884
8,COLIS. MARCHA ATRÁS,41.640833,-0.897065
9,COLISIÓN LATERAL,41.649047,-0.871853


A continuación vamos a crear un marcador para que se localice un punto en el mapa mediante la función ``folium.Marker``. Dentro de la función incluiremos las coordenadas de Zaragoza junto con un pop up en el que escribiremos el mensaje que queramos, en nuestro caso hemos puesto ``¡Hola, Zaragoza!``. En este paso el objetivo es definir el marcador y el siguiente paso es añadir como hijo del objeto mapa el marcador que previamente hemos creado. 

Por último, le pedimos que nos muestre el ``mapa``.

In [72]:
marcador = folium.Marker(coords_zrgz, popup="¡Hola, Zaragoza!")
mapa = mapa.add_child(marcador)
mapa

In [85]:
mapa.save('api-pandas-folium-mapa1.html')

El último paso de este proyecto es la creación de diferentes marcadores situados en las coordenadas que hemos indicado. Gracias a este paso podremos localizar con los marcadores los accidentes en Zaragoza. Como vimos en clase, no se mostraba el mapa con la creación del bucle en este notebook: 

``for index , fila in df_tipo.iterrows():
    marcador = folium.Marker([fila['lat'],fila['long']],popup=fila['type'])
    mapa.add_child(marcador)
mapa``

Por lo que he copiado todo el código creado en el otro notebook para situarlo todo junto, ya que se trata del mismo proyecto. La función utilizada va a iterar por cada uno de los elementos, es decir realiza la misma función por cada fila de la lista. 

In [89]:
!pip install pandas folium
import pandas as pd
import folium
url = 'https://www.zaragoza.es/sede/servicio/transporte/accidentalidad-trafico/accidente.csv?rows=20'
coord = [41.64,-0.88]
mapa = folium.Map(location=coord)
df = pd.read_csv(url,delimiter=';')
longitudes = []
for i in df['geometry']:
    longlat = i.split(',')
    longitudes += [float(longlat[0])]
latitudes = []
for i in df['geometry']:
    longlat = i.split(',')
    latitudes += [float(longlat[1])]
df_coord = pd.DataFrame({'long':longitudes,'lat':latitudes})
df_tipo = pd.concat([df['type'],df_coord],axis=1)
for index , fila in df_tipo.iterrows():
    marcador = folium.Marker([fila['lat'],fila['long']],popup=fila['type'])
    mapa.add_child(marcador)
mapa



In [90]:
mapa.save('api-pandas-folium-mapa2.html')

# Mapa con icono y guardar mapa

En la función `Map()` de `folium` hay una propiedad `titles` que puede tener como valor `Stamen Terrain`. Crea un mapa con las coordenadas de Madrid y sobre ese mapa un marcador con la función `Marker()` de folium cuya propiedad `icon` tiene como valor folium.`Icon(color="green")`. Finalmente guardamos el mapa con `save('tipo.html')`

En este ejercicio realizado en clase  hemos realizado los mismos pasos pero con coordenadas distintas, las de Madrid. Además, hemos 

In [80]:
coord = [40.4165,-3.70256]
mapa = folium.Map(location=coord, tiles='Stamen Terrain')
marcador = folium.Marker(coord, icon=folium.Icon(color="green"))
mapa = mapa.add_child(marcador)
mapa

In [91]:
mapa.save('api-pandas-folium-mapa3.html')

In [82]:
type(coord)

list

In [83]:
type(coord[0])

float