## Tambos - MIDIS | Web Scraping
---
- **Autor:** Braulio Arteaga  
- **Objetivo:** Obtener la relación de Tambos a nivel distrital del Perú de la [Plataforma Fijas (Tambos)](https://www.pais.gob.pe/webpais/public/plataformas/fijas?filtro=&pag=1)  del [Ministerio de Desarrollo e Inclusión Social](https://www.gob.pe/midis).  
- **Metodología:** Web Scraping
---
* **Fecha de creación:** 06-11-22  
* **Fecha de actualización:**  13-11-22  

In [None]:
# PASO 0: Instalar paquetes [solo si no están instalados]
!pip install pandas
!pip install selenium 
!pip install webdriver_manager  

In [1]:
# PASO 1: Importar paquetes
import pandas as pd
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

In [5]:
# PASO 2: Establecer ruta de exportación de "relación de tambos"
output = "C:/Users/braul/Desktop/02_projects/01_GITHUB/Tambos_MIDIS_Perú/02_output/Tambos_Distrital_Perú.xlsx" # modificar

In [3]:
# PASO 3: Obtener la información de interés (variables) de cada tambo

driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))
TAMBOS = pd.DataFrame({'Tambo': [], 'Departamento':[], 'Provincia': [],'Distrito':[], 'Altura': [], 'Gestor': [], 'Correo': [], 'Telefono': [], 'Anexo': []})

for j in range(1, 21):   # número de páginas de tambos
    
    link = 'https://www.pais.gob.pe/webpais/public/plataformas/fijas?filtro=&pag=' + str(j) 
    driver.get(link)

    for i in range(2,27): # número de tambos por página 

        try:
            xpath_nom   = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[1]/div[1]/h3' 
            xpath_dpto  = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[2]/table/tbody/tr[1]/td'
            xpath_prov  = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[2]/table/tbody/tr[2]/td' 
            xpath_dist  = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[2]/table/tbody/tr[3]/td'
            xpath_alt   = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[3]/table/tbody/tr[1]/td' 
            xpath_corr  = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[1]/table/tbody/tr[3]/td' 
            xpath_g_nom = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[1]/table/tbody/tr[1]/td' 
            xpath_g_ape = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[1]/table/tbody/tr[2]/td' 
            xpath_tel   = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[3]/table/tbody/tr[2]/td'
            xpath_anex  = '/html/body/section/div[2]/div/div[2]/' + 'div[' + str(i) + ']/div/div[2]/div/div[3]/table/tbody/tr[3]/td'
            
            Tambo        = driver.find_element('xpath', xpath_nom).text
            Departamento = driver.find_element('xpath', xpath_dpto).text
            Provincia    = driver.find_element('xpath', xpath_prov).text
            Distrito     = driver.find_element('xpath', xpath_dist).text
            Altura       = driver.find_element('xpath', xpath_alt).text[:-5]
            Gestor       = driver.find_element('xpath', xpath_g_nom).text + driver.find_element('xpath', xpath_g_ape).text    
            Correo       = driver.find_element('xpath', xpath_corr).text
            Telefono     = driver.find_element('xpath', xpath_tel).text
            Anexo        = driver.find_element('xpath', xpath_anex).text
                    
            Fila = {'Tambo': Tambo, 'Departamento': Departamento, 'Provincia': Provincia, 'Distrito': Distrito, 'Altura': Altura,
                    'Gestor': Gestor, 'Correo': Correo, 'Telefono': Telefono, 'Anexo': Anexo}        
            TAMBOS.loc[len(TAMBOS)] = Fila
        
        except Exception as e:
            i = i - 1
            break
            
    print(f"La página {j} tiene {i-1} tambos")      
    

La página 1 tiene 25 tambos
La página 2 tiene 25 tambos
La página 3 tiene 25 tambos
La página 4 tiene 25 tambos
La página 5 tiene 25 tambos
La página 6 tiene 25 tambos
La página 7 tiene 25 tambos
La página 8 tiene 25 tambos
La página 9 tiene 25 tambos
La página 10 tiene 25 tambos
La página 11 tiene 25 tambos
La página 12 tiene 25 tambos
La página 13 tiene 25 tambos
La página 14 tiene 25 tambos
La página 15 tiene 25 tambos
La página 16 tiene 25 tambos
La página 17 tiene 25 tambos
La página 18 tiene 25 tambos
La página 19 tiene 25 tambos
La página 20 tiene 7 tambos


In [7]:
TAMBOS

Unnamed: 0,Tambo,Departamento,Provincia,Distrito,Altura,Gestor,Correo,Telefono,Anexo
0,12 DE OCTUBRE,LORETO,LORETO,TIGRE,156.00,LIRZAALEJO CERVANTES,,,
1,12 DE OCTUBRE,PASCO,DANIEL ALCIDES CARRION,YANAHUANCA,4451.00,JOEL RICHERMORALES LOBATON,jmorales@pais.gob.pe,63309302,9499
2,28 DE JULIO,LORETO,LORETO,TIGRE,131.00,JORGE LUISGUTIERREZ MARTINEZ,jgutierrez@pais.gob.pe,,
3,ALBANA ORCCON,HUANCAVELICA,CASTROVIRREYNA,AURAHUA,3668.00,LUZ MERYLAZO ALFARO,githuv.tambo11@pais.gob.pe,67309323,9415
4,ALLHUACCUYO,CUSCO,CHUMBIVILCAS,SANTO TOMAS,4084.00,DONAHUANCA CAZORLA,gitcu.tambo19@pais.gob.pe,084309329,9391
...,...,...,...,...,...,...,...,...,...
477,YANQUE LACCA LACCA,CUSCO,CHUMBIVILCAS,COLQUEMARCA,3538.00,ALVARO HILARIOCASTAÑEDA ASENCIO,--,84309302,9389
478,YARIHUANI,PUNO,EL COLLAO,CONDURIRI,3942.00,ROSAPARIPANCA ORDOÑEZ,S/C,,
479,YUPICUSA,AMAZONAS,BAGUA,IMAZA,465.00,EBER RICHARQUIROZ CASTAÑEDA,equiroz@pais.gob.pe,41309300,9266
480,YURAQ PUNKO,AYACUCHO,HUANCA SANCOS,SACSAMARCA,3361.00,JAIME SAMUELBERNA MARMOLEJO,jberna@pais.gob.pe,066309328,9338


In [8]:
# PASO 4: Exportación en excel
TAMBOS.to_excel(output, index = False)