# UNLP Machine Learning - TP1
---------------------------------------
* **Autores:** 
    - Emiliano Bohorquez
    - Brayan A. Condori Luque
* **Objetivo:** Este notebook extrae los datos para Bogotá para 2018 del *Reporte de Medición de Pobreza Monetaria y Desigualdad* disponible en [este enlace](https://ignaciomsarmiento.github.io/GEIH2018_sample/).
* **Metodología:** Web Scrapping
---------------------------------------

**Fecha de Creación:** 2024-11-18

**Fecha de Actualización:** 2024-11-24

In [14]:
# 1. Importar librerias
import os
import requests
from bs4 import BeautifulSoup

import pandas as pd
pd.set_option('display.float_format', '{:.2f}'.format)

import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [15]:
# 2. Scraping de la pagina
data = []

headers = []

for i in range(1,11):
    url = f'https://ignaciomsarmiento.github.io/GEIH2018_sample/pages/geih_page_{i}.html'
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.content, 'html.parser')
        table = soup.find('table')
        
        if i == 1:
            for header in table.find_all('th'):
                headers.append(header.text.strip())
            
        data.append(headers)
        
        for row in table.find_all('tr'):
            row_data = []
            for cell in row.find_all('td'):
                row_data.append(cell.text.strip())
            if row_data:
                data.append(row_data)
        
    

In [None]:
# 3. Transformamos la lista resultante en un dataframe y eliminamos la fila con los nombres de las columnas y la columna de indice

df = pd.DataFrame(data, columns=headers) 
df = df.drop(0)
df = df.iloc[:, 1:]
df.columns = [col.lower() for col in df.columns]
print(df.shape)
df

(32186, 177)


Unnamed: 0,directorio,secuencia_p,orden,clase,dominio,mes,estrato1,sex,age,p6050,...,y_viaticos_m,y_accidentes_m,y_salarysec_m,y_inglab_m_ha,y_ganancianeta_m,y_ganancianetaagro_m,y_gananciaindep_m,y_gananciaindep_m_hu,y_total_m,y_total_m_ha
1,4514331,1,2,1,BOGOTA,1,2,0,29,2,...,,,,,,,,,,
2,4514331,1,1,1,BOGOTA,1,2,1,36,1,...,,,,8404.3203125,,,,,1620833.25,8404.3203125
3,4514332,1,4,1,BOGOTA,1,2,1,4,3,...,,,,,,,,,,
4,4514332,1,3,1,BOGOTA,1,2,1,7,3,...,,,,,,,,,,
5,4514332,1,1,1,BOGOTA,1,2,0,32,1,...,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32182,4804454,1,2,1,BOGOTA,12,2,0,24,2,...,,,,3345.5556640625,,,,,1003666.6875,3345.5556640625
32183,4804455,1,1,1,BOGOTA,12,3,0,36,1,...,5e+05,,,25958.333984375,,,,,6675000,25958.333984375
32184,4804455,1,2,1,BOGOTA,12,3,1,41,2,...,,,,,,,,,,
32185,4804455,1,3,1,BOGOTA,12,3,1,8,3,...,,,,,,,,,,


In [24]:
# 4. Guardamos el dataframe en un archivo CSV
DATASET = "../stores/raw_geih_data.csv"

# Crear el directorio si no existe
os.makedirs(os.path.dirname(DATASET), exist_ok=True)

# Guardamos en formato CSV
df.to_csv(DATASET, index=False)