<h1 style="text-align:center;">Análisis de vecindarios de Toronto</h1>

# Introduccion

En esta tarea, se nos pide que exploremos, segmentemos y agrupemos los vecindarios de la ciudad de Toronto. Para este fin, se utilizará una página de Wikipedia que contiene la información necesaria para analizar y agrupar los vecindarios de Toronto. Aunque los datos de vecindarios no están disponibles en Internet, la ciencia de datos nos brinda la oportunidad de enfrentar desafíos únicos y aprender nuevas bibliotecas y herramientas según sea necesario.

Para comenzar, rastrearemos la página de Wikipedia y limpiaremos los datos. Luego, leemos los datos en un marco de datos de pandas, para que estén en un formato estructurado como el conjunto de datos de Nueva York. Una vez que los datos estén estructurados adecuadamente, podremos analizar y agrupar los vecindarios de la ciudad de Toronto, replicando el análisis que se realizó en el conjunto de datos de la ciudad de Nueva York.

La entrega final consistirá en un enlace a un Notebook Jupyter en un repositorio de Github que contenga nuestro análisis, segmentación y agrupamiento de los vecindarios de Toronto.

### 1. Empiece por crear un nuevo Notebook para esta tarea.

### 2. Use el Cuaderno para crear el código para rastrear la siguiente página de Wikipedia, https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M, para obtener los datos que están en la tabla de códigos postales y transformar los datos en un marco de datos de pandas como el que se muestra a continuación:

<img src="https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/7JXaz3NNEeiMwApe4i-fLg_40e690ae0e927abda2d4bde7d94ed133_Screen-Shot-2018-06-18-at-7.17.57-PM.png?expiry=1678665600000&hmac=KQXZAalgxi5kNJCrzgEGQBQ-0CuXD23ge2crFm1DU2o">


### 3. Para crear el marco de datos anterior:

●      El marco de datos constará de tres columnas: CódigoPostal, Municipio y Vecindario

●      Procese únicamente las celdas que tengan un municipio asignado. Ignore las celdas con un municipio que esté No asignado.

●      Puede existir más de un vecindario en un área de código postal. Por ejemplo, en la tabla de la página de Wikipedia, notará que M5A aparece dos veces y tiene dos vecindarios: Harbourfront y Regent Park. Estas dos filas se combinarán en una fila con los vecindarios separados con una coma como se muestra en la fila 11 en la tabla anterior.

●      Si una celda tiene un municipio, pero un vecindario No asignado, entonces el vecindario será el mismo que el municipio.

●      Limpie su Notebook y agregue celdas de Anotación para explicar su trabajo y cualquier suposición que esté haciendo.

●      En la última celda de su notebook, use el método .shape para imprimir el número de filas de su marco de datos.

Nota: Existen diferentes bibliotecas y paquetes de raspado de sitios web en Python. Para indagar minuciosamente la tabla anterior, simplemente puede usar pandas para leer la tabla en un marco de datos de pandas.

Otra forma, que ayudaría a aprender para casos más complicados de rastreo web es usando el paquete BeautifulSoup. Aquí está la página de documentación principal del paquete: http://beautiful-soup-4.readthedocs.io/en/latest/

Use pandas, o el paquete BeautifulSoup, o cualquier otra forma con la que se sienta cómodo para transformar los datos de la tabla en la página de Wikipedia en el marco de datos de pandas anterior.

In [6]:
#Importación de librerías.

import requests # librería para manejar las solicitudes
import pandas as pd # librería para análisis de datos
import numpy as np # librería para manejar datos vectorizados
import io
import folium # librería para graficar 
from geopy.geocoders import Nominatim # módulo para convertir una dirección en valores de latitud y longitud 
from bs4 import BeautifulSoup

Proceso de Web Scraping a través de Beautiful Soup

In [16]:
url="https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M"
response=requests.get(url)

soup = BeautifulSoup(response.content, "html.parser")
contentTable  = soup.find('table')
codes  = contentTable.findAll('b')
boroughs_neighborhoods = contentTable.findAll('span')

Se crea un DataFrame vacío llamado df_toronto para almacenar los datos de la tabla extraída de Wikipedia. También se crean tres arrays vacíos, codes_array, boroughs_array y neighborhoods_array, para almacenar los códigos postales, municipios y vecindarios respectivamente.

In [17]:
df_toronto= pd.DataFrame() # dataframe que contiene los datos de la wikipedia, códdigo postal, municipios y vencindarios.
codes_array = np.array([]) # array de códigos postales.
boroughs_array = np.array([]) # array de municipios.
neighborhoods_array = np.array([]) # array de vecindarios.
for i in range(0, len(codes)):
    codes[i] = codes[i].get_text()
    boroughs_neighborhoods[i] = boroughs_neighborhoods[i].get_text()
    boroughs_neighborhoods[i] = boroughs_neighborhoods[i].replace("(", "*", 1) # Reemplazar carácter ( por * para no separar la cadena dos: boroughs y neighborhoods
    boroughs_neighborhoods[i] = boroughs_neighborhoods[i].split("*") 

    if boroughs_neighborhoods[i][0] != "Not assigned": # Solo procesando información válida
        
        boroughs_neighborhoods[i][1] = boroughs_neighborhoods[i][1].replace("(", ", ") # Eliminando paréntesis
        boroughs_neighborhoods[i][1] = boroughs_neighborhoods[i][1].replace(")", " ") # Eliminando paréntesis
        boroughs_neighborhoods[i][1] = boroughs_neighborhoods[i][1].replace(" /", ",") # Cambiar barra oblicua por comas
        
        codes_array = np.append(codes_array, codes[i])
        boroughs_array = np.append(boroughs_array, boroughs_neighborhoods[i][0])
        neighborhoods_array = np.append(neighborhoods_array, boroughs_neighborhoods[i][1])

In [18]:
# Añadiendo datos a columnas del dataframe
df_toronto['Postal Code'] = codes_array.tolist()
df_toronto['Borough'] = boroughs_array.tolist()
df_toronto['Neighborhood'] = neighborhoods_array.tolist()

In [19]:
df_toronto.shape

(103, 3)

In [20]:
df_toronto

Unnamed: 0,Postal Code,Borough,Neighborhood
0,M3A,North York,Parkwoods
1,M4A,North York,Victoria Village
2,M5A,Downtown Toronto,"Regent Park, Harbourfront"
3,M6A,North York,"Lawrence Manor, Lawrence Heights"
4,M7A,Queen's Park,Ontario Provincial Government
...,...,...,...
98,M8X,Etobicoke,"The Kingsway, Montgomery Road, Old Mill North"
99,M4Y,Downtown Toronto,Church and Wellesley
100,M7Y,East TorontoBusiness reply mail Processing Cen...,Enclave of M4L
101,M8Y,Etobicoke,"Old Mill South, King's Mill Park, Sunnylea, Hu..."


### 4. Obtencion de coordenadas
 

Ahora que ha creado un marco de datos del código postal de cada vecindario junto con el nombre del municipio y el nombre del vecindario, para poder utilizar los datos de ubicación de Foursquare, necesitamos obtener las coordenadas de latitud y longitud de cada vecindario.

En una versión anterior de este curso, estábamos aprovechando la API de codificación geográfica de Google Maps para obtener las coordenadas de latitud y longitud de cada vecindario. Sin embargo, recientemente Google comenzó a cobrar por su API: http://geoawesomeness.com/developers-up-in-arms-over-google-maps-api-insane-price-hike/,así que usaremos el paquete Geocoder Python en su lugar: https://geocoder.readthedocs.io/index.html.

El problema con este paquete es que a veces tiene que ser persistente para obtener las coordenadas geográficas de un código postal determinado. Entonces puede hacer una llamada para obtener las coordenadas de latitud y longitud de un código postal dado y el resultado sería Ninguno, y luego realizar la llamada nuevamente y obtendría las coordenadas. Entonces, para asegurarse de obtener las coordenadas de todos nuestros vecindarios, puede ejecutar un ciclo while para cada código postal. Tomando el código postal M5G como ejemplo, su código se vería así:

In [35]:
!pip install geocoder



In [1]:
import geocoder # import geocoder

# initialize your variable to None
lat_lng_coords = None

# loop until you get the coordinates
while(lat_lng_coords is None):
  g = geocoder.google('{}, Toronto, Ontario'.format(postal_code))
  lat_lng_coords = g.latlng

latitude = lat_lng_coords[0]
longitude = lat_lng_coords[1]

NameError: name 'postal_code' is not defined

Dado que este paquete puede ser muy poco confiable, en caso de que no pueda obtener las coordenadas geográficas de los vecindarios usando el paquete Geocoder, aquí hay un enlace a un archivo csv que tiene las coordenadas geográficas de cada código postal: http://cocl.us/Geospatial_data

Utilice el paquete Geocoder o el archivo csv para crear el siguiente marco de datos:

Este marco de datos es la imagen adjuntoa de los enunciados de la tarea, la respuesta (dataframe creado), se encuentra mas abajo
<img src="https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/HZ3jNHNOEeiMwApe4i-fLg_f44f0f10ccfaf42fcbdba9813364e173_Screen-Shot-2018-06-18-at-7.18.16-PM.png?expiry=1678838400000&hmac=2esg8QDzg-yWM-MInQX13IkjmAPNZBPc4ApRXXp-l_8" alt="imagen">

4.1. Resultado (Extraccion de coordenadas y union de marco de datos)

In [22]:
# Marco de datos de coordenadas
import pandas as pd

coor_path = r'G:\Mi unidad\Coursera\Ciencia de Datos Aplicada caso Capstone (Proyecto Final)\Proyecto final\Geospatial_Coordinates.csv'
df_coord = pd.read_csv(coor_path)
# union de marco de datos
df_geoToronto = pd.merge(df_toronto, df_coord, on = 'Postal Code')
df_geoToronto.head()


Unnamed: 0,Postal Code,Borough,Neighborhood,Latitude,Longitude
0,M3A,North York,Parkwoods,43.753259,-79.329656
1,M4A,North York,Victoria Village,43.725882,-79.315572
2,M5A,Downtown Toronto,"Regent Park, Harbourfront",43.65426,-79.360636
3,M6A,North York,"Lawrence Manor, Lawrence Heights",43.718518,-79.464763
4,M7A,Queen's Park,Ontario Provincial Government,43.662301,-79.389494


In [23]:
# Paso 1: Filtrar los datos para incluir solo los municipios que contienen la palabra "Toronto"
df_toronto_filtered = df_geoToronto[df_geoToronto['Borough'].str.contains('Toronto')]

# Paso 2: Visualizar los vecindarios en un mapa utilizando Folium
import folium

map_toronto = folium.Map(location=[43.6532, -79.3832], zoom_start=12)

for lat, lng, borough, neighborhood in zip(df_toronto_filtered['Latitude'], df_toronto_filtered['Longitude'], df_toronto_filtered['Borough'], df_toronto_filtered['Neighborhood']):
    label = f"{neighborhood}, {borough}"
    label = folium.Popup(label, parse_html=True)
    folium.CircleMarker(
        [lat, lng],
        radius=5,
        popup=label,
        color='blue',
        fill=True,
        fill_color='#3186cc',
        fill_opacity=0.7,
        parse_html=False).add_to(map_toronto)

map_toronto

# Paso 3: Agrupar los vecindarios utilizando Sklearn
from sklearn.cluster import KMeans

kclusters = 5
toronto_clustering = df_toronto_filtered[['Latitude', 'Longitude']]
kmeans = KMeans(n_clusters=kclusters, random_state=0).fit(toronto_clustering)

# Paso 4: Visualizar los grupos en un mapa utilizando Folium
import numpy as np

map_clusters = folium.Map(location=[43.6532, -79.3832], zoom_start=12)

# crear un esquema de colores para los grupos
x = np.arange(kclusters)
ys = [i + x + (i*x)**2 for i in range(kclusters)]
colors_array = ['red', 'blue', 'green', 'purple', 'orange']
color_map = dict(zip(range(kclusters), colors_array))

# agregar marcadores al mapa
for lat, lon, neighborhood, cluster in zip(df_toronto_filtered['Latitude'], df_toronto_filtered['Longitude'], df_toronto_filtered['Neighborhood'], kmeans.labels_):
    label = folium.Popup(f"{neighborhood}, Cluster {cluster}", parse_html=True)
    folium.CircleMarker(
        [lat, lon],
        radius=5,
        popup=label,
        color=color_map[cluster],
        fill=True,
        fill_color=color_map[cluster],
        fill_opacity=0.7).add_to(map_clusters)

map_clusters




Imagen obtenida (para visualizar en github)
<img src="https://live.staticflickr.com/65535/52745186476_48e10c9c5c_z.jpg">

