<a href="https://colab.research.google.com/github/VanessaMorales1/Scraping/blob/main/webScraping.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Pre Requisitos

In [None]:
# Instalación de las librerias o dependencias necesarias
!pip install beautifulsoup4 requests pandas

In [10]:
# Load dependencies
import json # modulo para trabajar con archivos JSON
import requests # libreria para hacer peticiones HTTP
import pandas as pd # libreria para procesar datos, proporciona funciones para analíticas
from bs4 import BeautifulSoup as bs # Extraer información de paginas web


# 2. Funciones para procesamiento de los datos

In [11]:
# Función que convierte una lista de elementos en un dataframe de pandas
def rowsToDataFrame(rows):
    df = pd.DataFrame(rows[1:], columns=rows[0])
    return df

In [12]:
# Función para extraer los datos de una tabla HTML
def processTableData(tbl):
    rows = []
    for child in tbl.find('tbody').children: # itera los items internos de la tabla [<tr>]
        row = []
        for td in child: # itera los items internos de la tabla [<td>]
            try:
                item = td.text.replace('\n', '') # recupera el texto del elemento [<td>]
                if item:
                    row.append(item) # Agrega cada elemento de la fila
            except:
                continue
        if len(row) > 0:
            rows.append(row) # agrega todos los campos de una fila de la tabla
    # print(rows)
    return rows

In [13]:
# Función para exxtrar la data de la URL y procesar el contenido HTML
def processDataHTML(data):
    soup = bs(data['sections'][1]['text'], 'html.parser') # Recupera el item del JSON y lo convierte en contenido HTML
    tbl = soup.find_all('table')[0] # Recupera la tabla del contenido HTML
    # print(tbl.prettify())
    tblRows = processTableData(tbl) # Ejecuta la función apra porcesar el contenido de la Tabla
    return tblRows

# 3. Extracción de Información

In [14]:
# Read website
# r = requests.get('https://www.wikiwand.com/es/Anexo:Tabla_estadística_de_la_Copa_Mundial_de_Fútbol')
r = requests.get('https://www.wikiwand.com/mcs-api/es.wikipedia.org/v1/page/mobile-sections-remaining/Anexo%3APa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n')  # Recuperamos el contenido de la web
# print(r)
table = processDataHTML(json.loads(r.content)) # Formate el contenido en formato JSON
df = rowsToDataFrame(table) # ejecuta la funcion para recupera los datos de la tabla como dataframe de Pandas
df


Unnamed: 0,N.º,País (o territorio dependiente),Proyecciónexponencialde lapoblaciónal1/7/2023[8],Totalmun-dial(%),Cambiomedioanual(%)[9],Cambioabsolutoanualpromedio,Cambiomedioabs.totalanual(%),Añosparaeven-tualdu-pli-ca-ción[10],"Censo másreciente,últimaestimaciónoficial,proyecciónde la ONUo reloj depoblaciónnacional",Fechade estaúltimacifra depoblación enparticular(d/mm/aaaa)[11],Tipo[12],Enlace o hipervínculo(usualmente de tipo oficial)de esta última cifra de población
0,1,China China[13],1 414 782 000,1783,043,6 104 000,676,161,1 411 750 000,31/12/2022,E,www.stats.gov.cn
1,2,India,1 396 559 000,1760,091,12 741 000,1411,76,1 392 329 000,1/03/2023,A,main.mohfw.gov.in
2,3,Estados Unidos,334 687 000,422,042,1 407 000,156,165,335 944 000,17/12/2023,R,www.census.gov
3,4,Indonesia Indonesia,279 154 000,352,111,3 086 000,342,63,271 350 000,12/2020,E,www.bps.go.id
4,5,Pakistán Pakistán,243 550 000,307,256,6 243 000,692,27,241 499 431,1/03/2023,C,www.pbs.gov.pk
...,...,...,...,...,...,...,...,...,...,...,...,...
246,247,Islas Ultramarinas Menores de los Estados Unidos,100,000,-496,0,000,-,190,1/04/2010,C,www.statoids.com
247,248,Tierras Australes y Antárticas Francesas Tierr...,100,000,-373,0,000,-,170,1/02/2000,C,www.statoids.com
248,249,Islas Pitcairn (RU),50,000,-041,0,000,-,47,1/07/2021,E,www.visitpitcairn.pn
249,Mundo,7 936 806 000,10000,113,90 275 000,10000,62,8 076 495 000,17/12/2023,R,www.worldometers.info,


In [15]:
# Inspeccionamos el tipo de dato de cada variable
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 251 entries, 0 to 250
Data columns (total 12 columns):
 #   Column                                                                                    Non-Null Count  Dtype 
---  ------                                                                                    --------------  ----- 
 0   N.º                                                                                       251 non-null    object
 1   País (o territorio dependiente)                                                           251 non-null    object
 2   Proyecciónexponencialde lapoblaciónal1/7/2023[8]                                          251 non-null    object
 3   Totalmun-dial(%)                                                                          251 non-null    object
 4   Cambiomedioanual(%)[9]                                                                    251 non-null    object
 5   Cambioabsolutoanualpromedio                                     

# 4. Almacenamiento de los datos

In [16]:
# Guardamos las datos extraidos como archivo CSV
# se puede aplcair otras opciones para guardar (Base de datos)
df.to_csv('webScraping.csv')