
<img src="images/utfsm.png" alt="" width="200px" align="right"/>

<br/>

# Taller de Manejo y Visualización de Datos con Python
Introducción y motivación al taller<br/>
Felipe González P.<br/>
felipe.gonzalezp.12@sansano.usm.cl<br/>

<br/>
Jueves Bloque 7-8<br/>
Campus San Joaquin




<div align="center">
*Data by itself is uselss. Data is only useful if you apply it* <br/>
</div>
<div align="right">
    — Todd Park.
</div>
    


## ¿Qué Haremos?

Desarrollar habilidades  de análisis y visualizacion de información. Se utilizará Python con el framework Anaconda y las librerías Pandas y Matplotlib.


## Objetivos


*  Extraer conjuntos de datos ( datasets ) desde la web

* Aplicar técnicas de limpieza de datos


* Aplicar distintas técnicas de visualización de información


* Conocer aplicaciones de análisis y visualización de información en la industria


* Presentar de manera oral y escrita información sobre un determinado dataset

## Evaluación
 

### NF =  30% Asistencia + 5% Informe Preliminar + 65 % Trabajo Final ( 40 % Presentación + 60 % Informe Escrito)</br>
*Se requiere un mínimo de 80% de Asistencia para aprobar el curso.*

## Referencias

 <div align="center">
    <div >
        <img src ="img/libro.png" height=50% >
    </div>
    <a href="https://github.com/jakevdp/PythonDataScienceHandbook">Leer Libro Aquí</a>
</div>


## Referencias

 <div align="center">
    <div >
        <img src ="img/datagramas.png" height=50% >
    </div>
    <a href="http://datagramas.cl/cursos/taller-ds/"> Visitar Sitio Web</a>
</div>


## Anaconda


* Dice ser: *"The Most Popular Python Data Science Platform"*
* Herramienta freemium que soporta Python y R. 
* Se utiliza para procesar grandes cantidades de datos, análisis predictivo y tareas de computacionación científica. 
* Su objetivo es simplificar la administración y despliegue de paquetes

<div align="center">
    <br/>
<a href="https://www.anaconda.com/download/"> Descarga Anaconda Aquí </a> <br/>
    **Importante: Se utilizará Python 2.7 para el desarrollo del taller**
</div>


# Instalar Anaconda
* <a href="https://medium.com/@GalarnykMichael/install-python-on-windows-anaconda-c63c7c3d1444"> Tutorial de Instalación de Anaconda </a>

# Ejecutar Anaconda
* En linea de comandos escribir: jupyter notebook


<h1 align="center"> ¡COMENCEMOS!</h1>

# OpenStreetMap y red de transporte

Créditos a: Diego Caro y Eduardo Graells-Garrido del Instituto de Data Science, Ingeniería UDD.

[OpenStreetMap](https://www.openstreetmap.org/) es una iniciativa colaborativa para crear el mapa editable del mundo. En otras palabras, Wikipedia es a Encyclopædia Britannica lo que OpenStreetMap es a Google Maps.

En el ejercicio de hoy revisaremos cómo calcular la ruta más corta entre dos localidades utilizando información disponible en OpenStreetMap.

Para procesar los datos de OpenStreetMap utilizaremos el módulo Python [OSMnx](https://github.com/gboeing/osmnx). OSMnx es desarrollado por [Geoff Boeing](https://twitter.com/gboeing). El análisis de la ruta más corta lo realizamos con el módulo [NetworkX](https://networkx.github.io/) 



*OSMnx lets you **download spatial geometries and construct, project, visualize, and analyze complex street networks**. It allows you to **automate the collection and computational analysis of street networks** for powerful and consistent research, transportation engineering, and urban design. OSMnx is built on top of NetworkX, matplotlib, and geopandas for rich network analytic capabilities, beautiful and simple visualizations, and fast spatial queries with R-tree.*

### Documentación: http://osmnx.readthedocs.io/en/stable/osmnx.html

Revisa el [artículo](http://geoffboeing.com/publications/osmnx-complex-street-networks/) de OSMnx: 
* Boeing, G. 2017. “OSMnx: New Methods for Acquiring, Constructing, Analyzing, and Visualizing Complex Street Networks.” Computers, Environment and Urban Systems. 65, 126-139. doi:10.1016/j.compenvurbsys.2017.05.004

In [None]:
import osmnx as ox
import networkx as nx
import matplotlib.pyplot as plt

%config InlineBackend.figure_format = 'retina' # mejor resolución
%matplotlib inline


# Descargando Mapa
La función [ox.graph_from_place(...)](http://osmnx.readthedocs.io/en/stable/osmnx.html?highlight=graph_from_place#osmnx.core.graph_from_place) descarga el mapa de una zona (comuna, región o país). Por ejemplo, el de la comuna de San Joaquín.

In [None]:
# Descargar mapa de la comuna de santiago
#G = ox.graph_from_place('Santiago, Chile', network_type='drive')


# Guardarlo para posterior uso :)
#ox.save_graphml(G, filename='./scl-network.graphml')



In [None]:
# Cargar un mapa ya guardado
G = ox.load_graphml('./scl-network.graphml')


La siguiente figura muestra el mapa de la comuna. Cada nodo (punto) indica alguna esquina o intersección de calles, y cada línea indica una calle.

In [None]:
ox.plot_graph(ox.project_graph(G))


# ¿Cuántos metros cuadrados cubre la comuna de Santiago?

In [None]:
G_proj = ox.project_graph(G)
nodes_proj = ox.graph_to_gdfs(G_proj, edges=False)
graph_area_m = nodes_proj.unary_union.convex_hull.area
graph_area_m
print "La ciudad de santiago está compuesta por "+str(graph_area_m)+" metros cuadrados"
print "La ciudad de santiago está compuesta por "+str(graph_area_m/1000)+" kilómetros cuadrados"


## Ruta más corta

En este ejemplo calcularemos la ruta más corta entre el Palacio Causiño y el Palacio de la Moneda.

Lo primero es traducir una dirección en una coordenada latitud/longitud. Este proceso se conoce como [Geocoding](https://en.wikipedia.org/wiki/Geocoding). Podemos utilizar Google Maps como Geocoder:
* Palacio Causiño https://www.google.cl/maps/place/Palacio+Cousi%C3%B1o/@-33.4497625,-70.6600015,16z/data=!4m8!1m2!2m1!1sla+moneda!3m4!1s0x9662c508abe3af79:0xa6201fda2ff7103b!8m2!3d-33.452104!4d-70.6568125
* Palacio de la Moneda
https://www.google.cl/maps/place/La+Moneda+Palace/@-33.4432722,-70.6560104,17z/data=!4m8!1m2!2m1!1spalacio+la+moneda!3m4!1s0x9662c5a6fd47e465:0x5d0fa12b4d88ae82!8m2!3d-33.4429091!4d-70.6538699?hl=en


Definir los puntos de origen y destino

In [None]:
origin_point = (-33.4497625,-70.6600015) # palacio causiño
destination_point = (-33.4432722,-70.6560104) # Palacio de la moneda


Para encontrar la ruta entre dos localidades, es necesario encontrar el nodo (interesección) más cercano al punto de origen y destino. La función ``ox.get_nearest_node(...)`` lo hace por nosotros.

In [None]:
origin_node = ox.get_nearest_node(G, origin_point) 
destination_node = ox.get_nearest_node(G, destination_point)
origin_node, destination_node #Lo que retorna son ID de nodos dentro del mapa

La distancia más corta se calcula con la función ``nx.shortest_path_length(...)``. La respuesta se entrega en metros.

In [None]:
distance = nx.shortest_path_length(G, origin_node, destination_node, weight='length')
distance


In [None]:
# Encontrar el camino más corto entre los puntos de origen y destino
route = nx.shortest_path(G, origin_node, destination_node, weight='length')
str(route)

In [None]:
# plot the route showing origin/destination lat-long points in blue
fig, ax = ox.plot_graph_route(G, route, origin_point=origin_point, destination_point=destination_point)

# Ejercicios

1. Calcular la distancia más corta entre tu casa y la universidad.
2. ¿Qué otros usos se le pueden dar a estos datos?

In [None]:
#Si se descargar el mapa de toda la región metropolitana
#G = ox.graph_from_place('Provincia de Santiago, Chile', network_type='drive')


<h1 align="center"> Más sobre OSMNX </h1>

In [None]:
import osmnx as ox
import networkx as nx
import matplotlib.cm as cm
import matplotlib.colors as colors
import pandas as pd
%matplotlib inline
ox.config(log_console=True, use_cache=True)

# Descargar Mapa

In [None]:
# Veamos una ciudad de estados unidos
#M = ox.graph_from_place('Piedmont, California', network_type='drive') #walk para ver senderos
#M = ox.project_graph(M)
#ox.save_graphml(M, filename='./USA-piedmont.graphml')



# Cargar mapa y mostrarlo

In [None]:
M = ox.load_graphml('./USA-piedmont.graphml')
fig, ax = ox.plot_graph(M, bgcolor='k', node_size=30, node_color='#999999', node_edgecolor='none', node_zorder=2,
                        edge_color='#555555', edge_linewidth=1.5, edge_alpha=1)

# Calcular y visualizar nodos centrales

In [None]:
node_centrality = nx.closeness_centrality(M)


In [None]:
# Mostremoslo
df = pd.DataFrame(data=pd.Series(node_centrality).sort_values(), columns=['cc'])
df['colors'] = ox.get_colors(n=len(df), cmap='inferno', start=0.2)
df = df.reindex(M.nodes())
nc = df['colors'].tolist()
fig, ax = ox.plot_graph(M, bgcolor='k', node_size=30, node_color=nc, node_edgecolor='none', node_zorder=2,
                        edge_color='#555555', edge_linewidth=1.5, edge_alpha=1)

<h1 align="center"> Revisando el arco del triunfo </h1>

In [None]:
import osmnx as ox
from IPython.display import Image

# configurar 
img_folder = 'images'
extension = 'png'
size = 240

In [None]:
point = (48.873446, 2.294255)
dist = 612
gdf = ox.buildings_from_point(point=point, distance=dist)
gdf_proj = ox.project_gdf(gdf)
bbox = ox.bbox_from_point(point=point, distance=dist, project_utm=True)
fig, ax = ox.plot_buildings(gdf_proj, bgcolor='#333333', color='w', figsize=(4,4), bbox=bbox,
                            save=True, show=False, close=True, filename='paris_bldgs', dpi=90)
Image('{}/{}.{}'.format(img_folder, 'paris_bldgs', extension), height=size, width=size)

# ¡Que engorroso :( !

# Ahora con funciones

In [None]:
# helper funcion to get one-square-mile street networks, building footprints, and plot them
def make_plot(place, point, network_type='drive', bldg_color='orange', dpi=40,
              dist=805, default_width=4, street_widths=None):
    gdf = ox.buildings_from_point(point=point, distance=dist)
    gdf_proj = ox.project_gdf(gdf)
    fig, ax = ox.plot_figure_ground(point=point, dist=dist, network_type=network_type, default_width=default_width,
                                    street_widths=street_widths, save=False, show=False, close=True)
    fig, ax = ox.plot_buildings(gdf_proj, fig=fig, ax=ax, color=bldg_color, set_bounds=False,
                                save=True, show=False, close=True, filename=place, dpi=dpi)

In [None]:
point = (48.873446, 2.294255)
place = 'paris_bldgs'

make_plot(place, point)
Image('{}/{}.{}'.format(img_folder, place, extension), height=size, width=size)


# Obtener principales estadísticas

### Documentación: https://osmnx.readthedocs.io/en/stable/osmnx.html#module-osmnx.stats

In [None]:
basic_stats = ox.basic_stats(M)
for key in basic_stats:
    print key, basic_stats[key]

# Obtener mayor información
### turn on/ turn off análisis topológicos


In [None]:
more_stats = ox.extended_stats(M, ecc=True, bc=True, cc=True) 
for key in sorted(more_stats.keys()):
    print(key)

<h1 align="center"> ¿Preguntas? </h1>