# Raw Data Wrangling

En este Notebook estuve explorando la base de datos del gobierno con las estaciones del metro para más adelante limpiarla (en el Notebook llamado "data_cleaning_estaciones"). 

In [None]:
import pymongo
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import warnings
warnings.simplefilter('ignore')


In [7]:
metro = pd.read_csv('estaciones-metro.csv', sep=";")

In [8]:
metro.head()

Unnamed: 0,Geometry,stop_id,stop_code,stop_name,stop_desc,stop_lat,stop_lon,trip_heads,agency_id,Geopoint
0,"{""type"": ""Point"", ""coordinates"": [-99.17122364...",14124.0,,Colegio Militar,Metro 2,19.448646,-99.171224,Cuatro Caminos - Tasqueña,METRO,"19.44864628,-99.17122364"
1,"{""type"": ""Point"", ""coordinates"": [-99.17658806...",14119.0,,Chapultepec,Metro 1,19.420256,-99.176588,Observatorio - Pantitlán,METRO,"19.42025648,-99.17658806"
2,"{""type"": ""Point"", ""coordinates"": [-99.10934, 1...",14095.0,,Apatlaco,Metro 8,19.378298,-99.10934,Garibaldi - Constitución de 1917,METRO,"19.378298,-99.10934"
3,"{""type"": ""Point"", ""coordinates"": [-99.08486724...",14234.0,,Calle 11,Metro 12,19.320256,-99.084867,Tláhuac - Mixcoac,METRO,"19.32025578,-99.08486724"
4,"{""type"": ""Point"", ""coordinates"": [-99.08690572...",14061.0,,Oceanía,Metro Línea 5 correspondencia con línea B.,19.445429,-99.086906,Pantitlán - Politécnico,METRO,"19.44542916,-99.08690572"


In [9]:
metro.dtypes

Geometry       object
stop_id       float64
stop_code     float64
stop_name      object
stop_desc      object
stop_lat      float64
stop_lon      float64
trip_heads     object
agency_id      object
Geopoint       object
dtype: object

In [10]:
metro.shape

(195, 10)

In [11]:
metro.isnull().sum()

Geometry        0
stop_id         0
stop_code     195
stop_name       0
stop_desc       0
stop_lat        0
stop_lon        0
trip_heads      0
agency_id       0
Geopoint        0
dtype: int64

In [12]:
metro = metro.drop(columns=['stop_code']) #son puros vacíos

In [13]:
metro = metro.drop(columns=['agency_id']) #todos solo dicen 'METRO'; no aporta información

In [14]:
metro.trip_heads.unique()
#Estas son las líneas; o las direcciones

array(['Cuatro Caminos - Tasqueña', 'Observatorio - Pantitlán',
       'Garibaldi - Constitución de 1917', 'Tláhuac - Mixcoac',
       'Pantitlán - Politécnico', 'Mixcoac - Tláhuac',
       'Tacubaya - Pantitlán', 'Martín Carrera - El Rosario',
       'La Paz - Pantitlán', 'Indios Verdes - Universidad',
       'Martín Carrera - Santa Anita', 'Buenavista - Ciudad Azteca',
       'Barranca del Muerto - El Rosario'], dtype=object)

In [16]:
metro.stop_desc.unique()

array(['Metro 2', 'Metro 1', 'Metro 8', 'Metro 12',
       'Metro Línea 5 correspondencia con línea B.',
       'Metro Línea 12 correspondencia con línea 7.', 'Metro 9',
       'Metro Línea 5 correspondencia con línea 3.',
       'Metro Línea 9 correspondencia con línea 4.', 'Metro 6',
       'Metro Línea 2 correspondencia con línea 7.', 'Metro A', 'Metro 3',
       'Metro 4', 'Metro Línea 6 correspondencia con línea 5.',
       'Metro Línea 1 correspondencia con líneas 5 9 y A.', 'Metro 5',
       'Metro B', 'Metro 7', 'Metro Línea 3 correspondencia con línea 2.',
       'Metro Línea 1 correspondencia con línea 4.',
       'Metro Línea 3 correspondencia con línea 6.',
       'Metro Línea 2 correspondencia con línea 8 y línea 9.',
       'Metro Línea 5 correspondencia con línea 4.',
       'Metro Línea 1 correspondencia con línea 2.',
       'Metro Línea 4 correspondencia con línea B.',
       'Metro Línea 4 correspondencia con línea 9.',
       'Metro Línea B correspondencia con línea

In [126]:
metro[metro.stop_desc == 'Metro Línea A correspondencia con líneas 1 5 y 9.'] #esto es para checar
#que mi método de encontrar las 4 estaciones funciona. 

Unnamed: 0,stop_id,stop_name,stop_desc,stop_lat,stop_lon,trip_heads,Geopoint
81,14215.0,Pantitlán_1,Metro Línea A correspondencia con líneas 1 5 y 9.,19.41461,-99.072626,La Paz - Pantitlán,"19.4146103,-99.07262564"


In [None]:
def clean_estaciones(x):
    x = str(x)
    if "correspondencia" in x:
        x = x[:14]
        return x
    return x
    

In [20]:
#metro.stop_desc = metro.stop_desc.apply(clean_estaciones)
#metro.stop_desc.unique()

In [19]:
#metro.stop_name.unique()

In [22]:
metro.columns

Index(['Geometry', 'stop_id', 'stop_name', 'stop_desc', 'stop_lat', 'stop_lon',
       'trip_heads', 'Geopoint'],
      dtype='object')

In [23]:
metro = metro.drop(columns=['Geometry'])

In [24]:
metro.isnull().sum()

stop_id       0
stop_name     0
stop_desc     0
stop_lat      0
stop_lon      0
trip_heads    0
Geopoint      0
dtype: int64

In [25]:
metro_limpio = metro.copy()

In [75]:
def clean_stations_1(x):
    """ Esta función me ayuda a obtener la línea principal de la que es parte la estación"""
    x = str(x)
    
    if "correspondencia" in x:
        x = x.split("correspondencia con")[0]
        x = x.replace("Línea", "")
        x = x.replace("  ", " ")
        return x.strip()
        
    elif "correspondencia" not in x:
        x = x.replace("Línea", "")
        x = x.replace("  ", " ")
        return x.strip()

In [76]:
lista_1 = metro_limpio.stop_desc.apply(clean_stations_1)

In [77]:
lista_1[:20]

0      Metro 2
1      Metro 1
2      Metro 8
3     Metro 12
4      Metro 5
5     Metro 12
6      Metro 9
7      Metro 5
8      Metro 9
9      Metro 1
10     Metro 6
11     Metro 2
12     Metro 2
13     Metro 2
14     Metro 9
15     Metro 2
16     Metro 8
17     Metro A
18    Metro 12
19     Metro 3
Name: stop_desc, dtype: object

In [66]:
metro_limpio['estacion_principal'] = lista_1

In [78]:
def clean_stations_2(x):
    """Esta función me ayuda a obtener las líneas extras con las que se coordina esa estación."""
  
    x = str(x)
    
    if "correspondencia" in x:
        x = x.split("correspondencia con")[1]
        x = x.replace("Línea", "Metro")
        x = x.replace("línea", "Metro")
        x = x.replace(".", "")
        x = x.replace("  ", " ")
       
        
    elif "correspondencia" not in x:
        x = "Ninguna"
    
    return x.strip()

In [79]:
lista_2 = metro_limpio.stop_desc.apply(clean_stations_2)

In [88]:
metro_limpio['borrador_2'] = lista_2

In [92]:
lista_2[20:40] 

20           Ninguna
21           Ninguna
22           Metro 5
23           Ninguna
24           Ninguna
25           Ninguna
26    Metros 5 9 y A
27           Ninguna
28           Ninguna
29           Ninguna
30           Ninguna
31           Ninguna
32           Ninguna
33           Ninguna
34           Ninguna
35           Ninguna
36           Ninguna
37           Metro 5
38           Metro 2
39           Ninguna
Name: stop_desc, dtype: object

In [94]:
def obtener_segunda_estacion(x):
    """De los metros que tienen 2 o más estaciones, quiero obtener la segunda estación exactamente."""

    x = str(x)
    x = x.replace("s", "")
    
    if x != "Ninguna":
        x = x[:7]
        
    return x.strip()
    
    

In [95]:
z = 'Metros 5 9 y A'
z[:8]

'Metros 5'

In [96]:
metro_limpio['estacion_2'] = metro_limpio['borrador_2'].apply(obtener_segunda_estacion)

In [99]:
metro_limpio['estacion_2'].unique()

array(['Ninguna', 'Metro B', 'Metro 7', 'Metro 3', 'Metro 4', 'Metro 5',
       'Metro 2', 'Metro 6', 'Metro 8', 'Metro 9', 'Metro 1'],
      dtype=object)

In [100]:
#Listo, ahora necesitamos obtener la cuarta estación 

In [101]:
print(set(lista_2))

{'Metros 5 9 y A', 'Metro 1', 'Metro 7', 'Metros 1 5 y 9', 'Metro 2 y Metro 8', 'Metro 7 y Metro 9', 'Metro 1 y Metro 9', 'Metro 2', 'Metro 2 y Metro 9', 'Metro 5', 'Metro 6', 'Ninguna', 'Metros 1 9 y A', 'Metros 8', 'Metro 8', 'Metro 3', 'Metro 8 y Metro 9', 'Metro 9', 'Metro 1 y Metro 7', 'Metro 12', 'Metro 4', 'Metro B', 'Metros 1 5 y A'}


In [None]:
#El reto primero es encontrar la tercer estación cuando haya 4 estaciones y ninguna coma en medio.  
"""
Estos son los valores que tienen 3 o más estaciones: 

       'Metros 5 9 y A'
       'Metros 1 5 y 9'
       'Metro 2 y Metro 8'
       'Metro 7 y Metro 9'
       
       

"""

In [111]:
def obtener_tercera_estacion(x):
    """Esta función es para obtener la tercera estación cuando así las haya"""
    x= str(x)
    x.replace("Metros 8", "Metro 8")
    
    if "y" not in x:
        x = "Ninguna"
    
    if x == 'Metros 5 9 y A':
        x = "Metro 9"
    
    if x == 'Metros 1 5 y 9':
        x = "Metro 5"
    
    if x == "Metros 1 9 y A":
        x = "Metro 9"
    
    if x == 'Metros 1 5 y A':
        x = "Metro 5"
    
    if "y" in x:
        x = x.split("y")[1]
        x = x.strip()
        
    return x 

In [116]:
metro_limpio['tercera_estacion'] = metro_limpio['borrador_2'].apply(obtener_tercera_estacion)

In [117]:
metro_limpio['tercera_estacion'].unique()

array(['Ninguna', 'Metro 9', 'Metro 8', 'Metro 5', 'Metro 7'],
      dtype=object)

In [115]:
def obtener_cuarta_estacion(x):
    """Por último, esta función es para obtener la cuarta estación en caso de que las haya"""
    
    x= str(x)
    x.replace("Metros 8", "Metro 8")
    lista = ['Metros 5 9 y A', 'Metros 1 5 y 9', "Metros 1 9 y A", 'Metros 1 5 y A']
    
    if x in lista:
        x = "Metro" + x.split("y")[1]
    
    elif x not in lista:
        x = "Ninguna"
        
    return x.strip() 

In [118]:
cuarta_estacion = metro_limpio['borrador_2'].apply(obtener_cuarta_estacion)

In [119]:
metro_limpio['cuarta_estacion'] = cuarta_estacion

In [120]:
metro_limpio['cuarta_estacion'].unique()

array(['Ninguna', 'Metro A', 'Metro 9'], dtype=object)

In [127]:
metro_limpio[['estacion_principal', 'estacion_2', 'tercera_estacion']][metro_limpio.tercera_estacion != "Ninguna"]

Unnamed: 0,estacion_principal,estacion_2,tercera_estacion
26,Metro 1,Metro 5,Metro 9
44,Metro 2,Metro 8,Metro 9
64,Metro 5,Metro 1,Metro 9
66,Metro 9,Metro 2,Metro 8
81,Metro A,Metro 1,Metro 5
92,Metro 1,Metro 7,Metro 9
107,Metro 8,Metro 2,Metro 9
115,Metro 9,Metro 1,Metro 5
192,Metro 7,Metro 1,Metro 9
193,Metro 9,Metro 1,Metro 7


In [128]:
metro_limpio = metro_limpio.rename(columns={'estacion_principal': 'primera_estacion', 'estacion_2': 'segunda_estacion'})
metro_limpio.head()

Unnamed: 0,stop_id,stop_name,stop_desc,stop_lat,stop_lon,trip_heads,Geopoint,primera_estacion,borrador_2,segunda_estacion,tercera_estacion,cuarta_estacion
0,14124.0,Colegio Militar,Metro 2,19.448646,-99.171224,Cuatro Caminos - Tasqueña,"19.44864628,-99.17122364",Metro 2,Ninguna,Ninguna,Ninguna,Ninguna
1,14119.0,Chapultepec,Metro 1,19.420256,-99.176588,Observatorio - Pantitlán,"19.42025648,-99.17658806",Metro 1,Ninguna,Ninguna,Ninguna,Ninguna
2,14095.0,Apatlaco,Metro 8,19.378298,-99.10934,Garibaldi - Constitución de 1917,"19.378298,-99.10934",Metro 8,Ninguna,Ninguna,Ninguna,Ninguna
3,14234.0,Calle 11,Metro 12,19.320256,-99.084867,Tláhuac - Mixcoac,"19.32025578,-99.08486724",Metro 12,Ninguna,Ninguna,Ninguna,Ninguna
4,14061.0,Oceanía,Metro Línea 5 correspondencia con línea B.,19.445429,-99.086906,Pantitlán - Politécnico,"19.44542916,-99.08690572",Metro 5,Metro B,Metro B,Ninguna,Ninguna


In [130]:
metro_limpio = metro_limpio.drop(columns=['borrador_2'])

In [131]:
metro_limpio = metro_limpio.drop(columns=['stop_desc'])

In [133]:
metro_limpio.head(2)

Unnamed: 0,stop_id,stop_name,stop_lat,stop_lon,trip_heads,Geopoint,primera_estacion,segunda_estacion,tercera_estacion,cuarta_estacion
0,14124.0,Colegio Militar,19.448646,-99.171224,Cuatro Caminos - Tasqueña,"19.44864628,-99.17122364",Metro 2,Ninguna,Ninguna,Ninguna
1,14119.0,Chapultepec,19.420256,-99.176588,Observatorio - Pantitlán,"19.42025648,-99.17658806",Metro 1,Ninguna,Ninguna,Ninguna


In [None]:
#La primera estación es la que sale en trip_heads, por lo que podemos quitar eso. 