## Agrupación y Segmentación de Vecindarios en la ciudad de Toronto

 _*Descripción de la actividad:*_
 
 
 En esta tarea, se le pedirá que explore, segmente y agrupe los vecindarios de la ciudad de Toronto. Sin embargo, a diferencia de Nueva York, los datos del vecindario no están disponibles en Internet. Lo interesante del campo de la ciencia de datos es que cada proyecto puede ser desafiante en su forma única, por lo que debe aprender a ser ágil y refinar la habilidad para aprender nuevas bibliotecas y herramientas rápidamente según el proyecto.

Para los datos de vecindarios de Toronto, existe una página de Wikipedia que tiene toda la información que necesitamos para explorar y agrupar los vecindarios de Toronto. Se le pedirá que rastree la página de Wikipedia y discuta los datos, los limpie y luego los lea en un marco de datos de pandas para que esté en un formato estructurado como el conjunto de datos de Nueva York.

Una vez que los datos están en un formato estructurado, puede replicar el análisis que hicimos en el conjunto de datos de la ciudad de Nueva York para explorar y agrupar los vecindarios en la ciudad de Toronto.

In [1]:
import pandas as pd
import numpy as np

In [2]:
#Llamamos a la URL de wikipedia para recuperar la información con la que vamos a trabajar
df = pd.read_html("https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M") #get Canada data From wikipedia
df = df[0]
df = df.melt()['value']
df

0                                        M1ANot assigned
1                        M1BScarborough(Malvern / Rouge)
2      M1CScarborough(Rouge Hill / Port Union / Highl...
3      M1EScarborough(Guildwood / Morningside / West ...
4                                 M1GScarborough(Woburn)
                             ...                        
175    M9VEtobicoke(South Steeles / Silverstone / Hum...
176    M9WEtobicokeNorthwest(Clairville / Humberwood ...
177                                      M9XNot assigned
178                                      M9YNot assigned
179                                      M9ZNot assigned
Name: value, Length: 180, dtype: object

In [3]:
#Recorremos los datos descargados y extraemos los valores de "códigoPostal", "Vecindario" y "Municipio" de los strings 
df_clean = pd.DataFrame()
df_clean['CódigoPostal'] = df.apply(lambda x : x[:3])
df_clean['location_tmp'] = df.apply(lambda x : x[3:])
#Borramos las filas que tienen municipio "no asignado"
df_clean = df_clean[df_clean['location_tmp'] != 'Not assigned']
#df_clean['Vecindario'] = np.where(df['location_tmp'] == 'Not assigned', , )
df_clean['Municipio'] = df_clean['location_tmp'].apply(lambda x: str(x).split('(')[0])
df_clean['Vecindario'] = df_clean['location_tmp'].apply(lambda x: str(x).split('(')[1].replace(')','').replace('/',',' ))
#si el Vecindario está como "No asignado", pero tiene municipio asignado se emplea el valor del Municipio como Vecindario
df_clean['Vecindario'] = np.where(df_clean['Vecindario'] == 'Not assigned', df_clean['Municipio'], df_clean['Vecindario'])
df_clean=df_clean[['CódigoPostal','Municipio', 'Vecindario']].reset_index(drop=True)

In [4]:
df_clean['CódigoPostal'].values

array(['M1B', 'M1C', 'M1E', 'M1G', 'M1H', 'M1J', 'M1K', 'M1L', 'M1M',
       'M1N', 'M1P', 'M1R', 'M1S', 'M1T', 'M1V', 'M1W', 'M1X', 'M2H',
       'M2J', 'M2K', 'M2L', 'M2M', 'M2N', 'M2P', 'M2R', 'M3A', 'M3B',
       'M3C', 'M3H', 'M3J', 'M3K', 'M3L', 'M3M', 'M3N', 'M4A', 'M4B',
       'M4C', 'M4E', 'M4G', 'M4H', 'M4J', 'M4K', 'M4L', 'M4M', 'M4N',
       'M4P', 'M4R', 'M4S', 'M4T', 'M4V', 'M4W', 'M4X', 'M4Y', 'M5A',
       'M5B', 'M5C', 'M5E', 'M5G', 'M5H', 'M5J', 'M5K', 'M5L', 'M5M',
       'M5N', 'M5P', 'M5R', 'M5S', 'M5T', 'M5V', 'M5W', 'M5X', 'M6A',
       'M6B', 'M6C', 'M6E', 'M6G', 'M6H', 'M6J', 'M6K', 'M6L', 'M6M',
       'M6N', 'M6P', 'M6R', 'M6S', 'M7A', 'M7R', 'M7Y', 'M8V', 'M8W',
       'M8X', 'M8Y', 'M8Z', 'M9A', 'M9B', 'M9C', 'M9L', 'M9M', 'M9N',
       'M9P', 'M9R', 'M9V', 'M9W'], dtype=object)

In [5]:
print( 'Nº de filas de la tabla resultante: ' + str(df_clean.shape[0]))

Nº de filas de la tabla resultante: 103
