### Para comenzar con el scrapping, importamos las funciones que tenemos en el archivo 'procesos'

In [1]:
from procesos import *

In [66]:
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import numpy as np
import re

### Establecemos el nombre de las columnas que tendrá el dataframe

In [120]:
columnas = ['Obra','Status','Ejecución física %','Ejecución financiera %','Estado','Municipio','Dirección','Personas afectadas','Ente responsable','Funcionario responsable','Empresa contratista','Valor total de la obra USD (millones)','Obra financiada por FONDEN','Monto comprometido USD (millones)','Fecha estimada de inicio','Fecha real de inicio','Fecha culminación estimada de la obra','Fecha de paralización']

### Llamamos a la función 'obtener_datos_obra' que realiza el proceso de web scraping (selenium), obtenemos los datos que queremos de la obra y lo convertimos en un dataframe

In [121]:
url = 'https://transparenciave.org/obrasinconclusas/obras_inconclusas/autopista-lara-zulia-tramo-el-menito-el-corozo/'
auto_lara_zulia = obtener_datos_obra(url)

In [122]:
df = pd.DataFrame([auto_lara_zulia]) #convertimos los datos en un dataframe
df = df.drop(df.columns[[2, 3]], axis=1) #eliminamos las columnas 2 y 3 que no tienen información

df['Obra financiada por FONDEN'] = 'S/I' #agregamos las columnas que hacen falta para mantener el formato del DF
df['Monto comprometido'] = 'S/I'

#Reorganizamos el orden de las columnas
df = df[[0,1,4,5,6,7,8,9,10,11,12,13,'Obra financiada por FONDEN','Monto comprometido',14,15,16,17]]
df.columns = columnas
df

Unnamed: 0,Obra,Status,Ejecución física %,Ejecución financiera %,Estado,Municipio,Dirección,Personas afectadas,Ente responsable,Funcionario responsable,Empresa contratista,Valor total de la obra USD (millones),Obra financiada por FONDEN,Monto comprometido USD (millones),Fecha estimada de inicio,Fecha real de inicio,Fecha culminación estimada de la obra,Fecha de paralización
0,AUTOPISTA LARA-ZULIA (TRAMO EL MENITO – EL COR...,Paralizada,62%,S/I,Estado Zulia,Santa Rita/ Simón Bolívar/ Cabimas/ Lagunillas...,"Troncal 17, desde la cabecera oriental del PGR...",Más de 1.000.001,Instituto de Vialidad del estado Zulia (INVEZ)...,S/I,S/I,USD 1.600.000.000,S/I,S/I,2013,S/I,2015,Diciembre 2016


### Vamos a realizar el mismo procedimiento para las demás obras que tenemos en nuestra página web que estamos scrapeando

In [123]:
url2 = 'https://transparenciave.org/obrasinconclusas/obras_inconclusas/puente-cacique-nigale/'
puente_cacique_nigale = obtener_datos_obra(url2)

In [124]:
df2 = pd.DataFrame([puente_cacique_nigale])

df2 = df2.drop(df2.columns[[2, 3, 14, 15]], axis=1)
df2['Obra financiada por FONDEN'] = 'S/I' #agregamos las columnas que hacen falta para mantener el formato del DF
df2['Monto comprometido'] = 'S/I'

df2 = df2[[0,1,4,5,6,7,8,9,10,11,12,13,'Obra financiada por FONDEN','Monto comprometido',16,17,18,19]]
df2.columns = columnas

In [125]:
url3 = 'https://transparenciave.org/obrasinconclusas/obras_inconclusas/segundo-puente-sobre-el-rio-chama-comandante-supremo-hugo-chavez/'
puente_rio_chama = obtener_datos_obra(url3)

In [126]:
df3 = pd.DataFrame([puente_rio_chama])
df2 = df2.drop(df2.columns[[2, 3]], axis=1) #eliminamos las columnas 2 y 3 que no tienen información

df3['Obra financiada por FONDEN'] = 'S/I' 
df3['Monto comprometido'] = 'S/I'

df3 = df3[[0,1,2,3,4,5,6,7,8,9,10,11,'Obra financiada por FONDEN','Monto comprometido',12,13,14,15]]
df3.columns = columnas

In [127]:
url4 = 'https://transparenciave.org/obrasinconclusas/obras_inconclusas/sistema-vial-av-boyaca-tramo-dist-baralt-dist-tacagua-caracas-construccion-del-tunel-baralt-distribuidor-macayapa-y-viaducto-tacagua/'
sistema_av_boyaca = obtener_datos_obra(url4)

In [128]:
df4 = pd.DataFrame([sistema_av_boyaca])

df4['Obra financiada por FONDEN'] = 'S/I' 
df4['Monto comprometido'] = 'S/I'

df4 = df4[[0,1,2,3,4,5,6,7,8,9,10,11,'Obra financiada por FONDEN','Monto comprometido',12,13,14,15]]
df4.columns = columnas

In [129]:
url5 = 'https://transparenciave.org/obrasinconclusas/obras_inconclusas/sistema-vial-iii-puente-sobre-el-rio-orinoco/'
puente_rio_orinoco = obtener_datos_obra(url5)

In [130]:
df5 = pd.DataFrame([puente_rio_orinoco])
df5.columns = columnas

In [131]:
url6 = 'https://transparenciave.org/obrasinconclusas/obras_inconclusas/tunel-san-diego-naguanagua/'
tunel_sandiego = obtener_datos_obra(url6)

In [132]:
df6 = pd.DataFrame([tunel_sandiego])
df6.columns = columnas

### Procedemos a juntar todos los dataframes

In [133]:
data_vialidad = pd.concat([df,df2,df3,df4,df5,df6],ignore_index=True)

# Para conocer las coordenadas de cada una de las obras, hacemos uso de Geopy

In [134]:
municipio_estado = data_vialidad['Municipio'] + ', ' + data_vialidad['Estado']
lista_municipio_estado = municipio_estado.tolist()

In [135]:
longitudes = obtener_longitudes(lista_municipio_estado)
latitudes = obtener_latitudes(lista_municipio_estado)

In [136]:
data_vialidad['Latitud'] = latitudes
data_vialidad['Longitud'] = longitudes
data_vialidad

Unnamed: 0,Obra,Status,Ejecución física %,Ejecución financiera %,Estado,Municipio,Dirección,Personas afectadas,Ente responsable,Funcionario responsable,Empresa contratista,Valor total de la obra USD (millones),Obra financiada por FONDEN,Monto comprometido USD (millones),Fecha estimada de inicio,Fecha real de inicio,Fecha culminación estimada de la obra,Fecha de paralización,Latitud,Longitud
0,AUTOPISTA LARA-ZULIA (TRAMO EL MENITO – EL COR...,Paralizada,62%,S/I,Estado Zulia,Santa Rita/ Simón Bolívar/ Cabimas/ Lagunillas...,"Troncal 17, desde la cabecera oriental del PGR...",Más de 1.000.001,Instituto de Vialidad del estado Zulia (INVEZ)...,S/I,S/I,USD 1.600.000.000,S/I,S/I,2013,S/I,2015,Diciembre 2016,,
1,PUENTE CACIQUE NIGALE,Paralizada,"16,74%","1,87%",Estado Zulia,Mara/ Miranda,Localización de cabecera occidental: Sector La...,Entre 5.001 y 100.000,PDVSA Ingeniería y Construcción S.A. (PDVSA ly...,Isidro Rondón/ Haiman El Troudi,"Constructora Norberto Odebrecht, C.A.",USD 3.187.000.000,S/I,S/I,Marzo 2008,02/10/2008,1 era 02/10/2014 / 2da 31/12/2018,Marzo 2017,,
2,SEGUNDO PUENTE SOBRE EL RÍO CHAMA COMANDANTE S...,Paralizada,90%,S/I,Estado Mérida,Alberto Adriani,"Autopista San Cristóbal - La Fría, El Vigía 5145",Entre 100.001 y 1.000.000,Ministerio de Transporte Terrestre / Gobernaci...,S/I,Pilotes Perforados C.A. (PILPERCA) / Rotatech ...,USD 107.777.778,S/I,S/I,S/I,15 de agosto de 2013,28 de diciembre de 2015,S/I,8.616628,-71.644684
3,"SISTEMA VIAL AV. BOYACÁ, TRAMO DIST. BARALT- D...",Paralizada,30%,S/I,Estado La Guaira,Vargas,S/I,Más de 1.000.001,Ministerio de Transporte Terrestre,S/I,Consorcio Boyacá-La Guaira (Precomprimido C.A....,USD 1.474.920.635,S/I,S/I,2012,S/I,2016,S/I,-24.089784,-54.251689
4,SISTEMA VIAL III PUENTE SOBRE EL RÍO ORINOCO,Paralizada,"70,31%",S/I,Estado Bolívar,Caicara del Orínoco,Caicara del Orínoco,Más de 1.000.001,Ministerio de Infraestructura,Ramón Carrizalez,"Constructora Norberto Odebrecht, C.A.",USD 2.524.717.490,Si,"USD 827.772.316,01",7/12/2006,S/I,1er 21/07/2010 / 2da 31/12/2017,S/I,7.625423,-66.161276
5,TÚNEL SAN DIEGO-NAGUANAGUA,Paralizada,37%,S/I,Estado Carabobo,Nagunagua/ San Diego,"Mañongo, Naguanagua. Cerro El Volcán.",Entre 100.001 y 1.000.000,Ministerio de Transporte Terrestre,Haiman El Troudi,S/I,USD 357.674.520,Si,"USD 126.675.197,00",2013,S/I,2016,S/I,,


### Observamos que en las columnas 'Latitud' y 'Longitud' tenemos valores nulos, esto se debe a que las obras abarcan mas de un estado, es por ello que procedemos a asignarles las coordenadas de los estados principales donde inician las obras

In [137]:
data_vialidad['Latitud'][0] = 10.102816578548161
data_vialidad['Longitud'][0] = -70.43820794616931

data_vialidad['Latitud'][1] = 10.8118202883586
data_vialidad['Longitud'][1] = -71.68055563039434

data_vialidad['Latitud'][3] = 10.5990100
data_vialidad['Longitud'][3] = -66.9346000

data_vialidad['Latitud'][5] = 10.244370000407036
data_vialidad['Longitud'][5] = -67.98130493289267

In [138]:
data_vialidad['Valor total de la obra USD (millones)'] = data_vialidad['Valor total de la obra USD (millones)'].apply(extract_numeric_value)
data_vialidad['Valor total de la obra USD (millones)'] = data_vialidad['Valor total de la obra USD (millones)'].str.replace('.', '', regex=True).fillna('0').astype(int)

#Dividimos para tener el total de millones en un número mas legible
data_vialidad['Valor total de la obra USD (millones)'] = (data_vialidad['Valor total de la obra USD (millones)'] / 1000000).astype(int)

In [139]:
data_vialidad['Monto comprometido USD (millones)'] = data_vialidad['Monto comprometido USD (millones)'].apply(extract_numeric_value)

In [140]:
data_vialidad['Monto comprometido USD (millones)'] = data_vialidad['Monto comprometido USD (millones)'].fillna('0')

# Convertir la columna a cadena, eliminar los puntos y reemplazar las comas por puntos
data_vialidad['Monto comprometido USD (millones)'] = data_vialidad['Monto comprometido USD (millones)'].astype(str)
data_vialidad['Monto comprometido USD (millones)'] = data_vialidad['Monto comprometido USD (millones)'].str.replace('.', '').str.replace(',', '.')

# Convertir la columna a tipo float
data_vialidad['Monto comprometido USD (millones)'] = pd.to_numeric(data_vialidad['Monto comprometido USD (millones)'], errors='coerce')

#Dividimos para tener el total de millones en un número más legible
data_vialidad['Monto comprometido USD (millones)'] = (data_vialidad['Monto comprometido USD (millones)'] / 1000000).astype(int)

In [141]:
data_vialidad['Ejecución física %'] = data_vialidad['Ejecución física %'].replace('S/I', np.nan)
data_vialidad['Ejecución financiera %'] = data_vialidad['Ejecución financiera %'].replace('S/I', np.nan)

In [142]:
# Convertir la columna 'Fecha estimada de inicio' a datetime
data_vialidad['Fecha estimada de inicio'] = pd.to_datetime(data_vialidad['Fecha estimada de inicio'], errors='coerce')
data_vialidad['Fecha estimada de inicio'] = data_vialidad['Fecha estimada de inicio'].dt.year

In [143]:
data_vialidad['Ejecución física %'] = data_vialidad['Ejecución física %'].apply(extract_numeric_value)
data_vialidad['Ejecución física %'] = data_vialidad['Ejecución física %'].str.replace(',', '.').replace({None: '0'})

# Convertir la columna a tipo float
data_vialidad['Ejecución física %'] = data_vialidad['Ejecución física %'].astype(float)

In [144]:
data_vialidad['Ejecución financiera %'] = data_vialidad['Ejecución financiera %'].apply(extract_numeric_value)
data_vialidad['Ejecución financiera %'] = data_vialidad['Ejecución financiera %'].str.replace(',', '.').replace({None: '0'})

# Convertir la columna a tipo float
data_vialidad['Ejecución financiera %'] = data_vialidad['Ejecución financiera %'].astype(float)

In [145]:
#Añadimos una nueva columna para indicar cuál es el sector correspondiente a la obra
data_vialidad['Sector'] = 'Vialidad'

In [146]:
nuevo_orden = ['Sector','Obra','Status','Ejecución física %','Ejecución financiera %','Estado','Municipio','Dirección','Personas afectadas','Ente responsable','Funcionario responsable','Empresa contratista','Valor total de la obra USD (millones)','Obra financiada por FONDEN','Monto comprometido USD (millones)','Fecha estimada de inicio','Fecha real de inicio','Fecha culminación estimada de la obra','Fecha de paralización', 'Latitud', 'Longitud']
data_vialidad = data_vialidad[nuevo_orden]
data_vialidad.head()

Unnamed: 0,Sector,Obra,Status,Ejecución física %,Ejecución financiera %,Estado,Municipio,Dirección,Personas afectadas,Ente responsable,...,Empresa contratista,Valor total de la obra USD (millones),Obra financiada por FONDEN,Monto comprometido USD (millones),Fecha estimada de inicio,Fecha real de inicio,Fecha culminación estimada de la obra,Fecha de paralización,Latitud,Longitud
0,Vialidad,AUTOPISTA LARA-ZULIA (TRAMO EL MENITO – EL COR...,Paralizada,62.0,0.0,Estado Zulia,Santa Rita/ Simón Bolívar/ Cabimas/ Lagunillas...,"Troncal 17, desde la cabecera oriental del PGR...",Más de 1.000.001,Instituto de Vialidad del estado Zulia (INVEZ)...,...,S/I,1600,S/I,0,2013.0,S/I,2015,Diciembre 2016,10.102817,-70.438208
1,Vialidad,PUENTE CACIQUE NIGALE,Paralizada,16.74,1.87,Estado Zulia,Mara/ Miranda,Localización de cabecera occidental: Sector La...,Entre 5.001 y 100.000,PDVSA Ingeniería y Construcción S.A. (PDVSA ly...,...,"Constructora Norberto Odebrecht, C.A.",3187,S/I,0,,02/10/2008,1 era 02/10/2014 / 2da 31/12/2018,Marzo 2017,10.81182,-71.680556
2,Vialidad,SEGUNDO PUENTE SOBRE EL RÍO CHAMA COMANDANTE S...,Paralizada,90.0,0.0,Estado Mérida,Alberto Adriani,"Autopista San Cristóbal - La Fría, El Vigía 5145",Entre 100.001 y 1.000.000,Ministerio de Transporte Terrestre / Gobernaci...,...,Pilotes Perforados C.A. (PILPERCA) / Rotatech ...,107,S/I,0,,15 de agosto de 2013,28 de diciembre de 2015,S/I,8.616628,-71.644684
3,Vialidad,"SISTEMA VIAL AV. BOYACÁ, TRAMO DIST. BARALT- D...",Paralizada,30.0,0.0,Estado La Guaira,Vargas,S/I,Más de 1.000.001,Ministerio de Transporte Terrestre,...,Consorcio Boyacá-La Guaira (Precomprimido C.A....,1474,S/I,0,2012.0,S/I,2016,S/I,10.59901,-66.9346
4,Vialidad,SISTEMA VIAL III PUENTE SOBRE EL RÍO ORINOCO,Paralizada,70.31,0.0,Estado Bolívar,Caicara del Orínoco,Caicara del Orínoco,Más de 1.000.001,Ministerio de Infraestructura,...,"Constructora Norberto Odebrecht, C.A.",2524,Si,827,2006.0,S/I,1er 21/07/2010 / 2da 31/12/2017,S/I,7.625423,-66.161276


### Exportamos nuestro dataframe

In [147]:
data_vialidad.to_csv('obras_vialidad.csv', index=False)