<a href="https://colab.research.google.com/github/essisalema/WebScraping_Poblacion/blob/main/PoblacionScrapyData.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><h1><strong>DATA EXTRACTION</strong></h1></center>


* __authors__ = [@g30v4](https://github.com/g30v4)
* __date__ = "17/12/2023"
* __title__ = "Extracción de datos de la Web (Scrapy)"
* __keywords__ = "Scrapy, World, Population, Data extraction"

# 1. Pre Requisitos

In [12]:
# Instalación de las librerias o dependencias necesarias
!pip install beautifulsoup4 requests pandas



In [13]:
# Load dependencies
import json # modulo para trabajar con archivos JSON
import requests # libreria para hacer peticiones HTTP
import pandas as pd # libreria para procesar datos, proporciona funciones para analíticas
from bs4 import BeautifulSoup as bs # Extraer información de paginas web


# 2. Funciones para procesamiento de los datos

In [14]:
# Función que convierte una lista de elementos en un dataframe de pandas
def rowsToDataFrame(rows):
    df = pd.DataFrame(rows[1:], columns=rows[0])
    return df

In [15]:
# Función para extraer los datos de una tabla HTML
def processTableData(tbl):
    rows = []
    for child in tbl.find('tbody').children: # itera los items internos de la tabla [<tr>]
        row = []
        for td in child: # itera los items internos de la tabla [<td>]
            try:
                item = td.text.replace('\n', '') # recupera el texto del elemento [<td>]
                if item:
                    row.append(item) # Agrega cada elemento de la fila
            except:
                continue
        if len(row) > 0:
            rows.append(row) # agrega todos los campos de una fila de la tabla
    # print(rows)
    return rows

In [16]:
# Función para exxtrar la data de la URL y procesar el contenido HTML
def processDataHTML(data):
    soup = bs(data['sections'][1]['text'], 'html.parser') # Recupera el item del JSON y lo convierte en contenido HTML
    tbl = soup.find_all('table')[0] # Recupera la tabla del contenido HTML
    # print(tbl.prettify())
    tblRows = processTableData(tbl) # Ejecuta la función apra porcesar el contenido de la Tabla
    return tblRows

# 3. Extracción de Información

In [17]:

# URL de la página web
url = 'https://www.worldometers.info/world-population/population-by-country/'

# Realizar la solicitud a la página y obtener el contenido HTML
response = requests.get(url)
html_content = response.content

# Analizar el contenido HTML con BeautifulSoup
soup = bs(html_content, 'html.parser')

# Encontrar la tabla en la página (ajusta este selector según la estructura de la página)
table = soup.find('table')

# Procesar la tabla y convertirla a un DataFrame de Pandas
df = pd.read_html(str(table))[0]

# Mostrar el DataFrame
print(df)



       # Country (or dependency)  Population  (2023) Yearly  Change  \
0      1                   India          1428627663         0.81 %   
1      2                   China          1425671352        -0.02 %   
2      3           United States           339996563         0.50 %   
3      4               Indonesia           277534122         0.74 %   
4      5                Pakistan           240485658         1.98 %   
..   ...                     ...                 ...            ...   
229  230              Montserrat                4386        -0.09 %   
230  231        Falkland Islands                3791         0.29 %   
231  232                    Niue                1935         0.05 %   
232  233                 Tokelau                1893         1.18 %   
233  234                Holy See                 518         1.57 %   

     Net  Change  Density  (P/Km²)  Land Area  (Km²)  Migrants  (net)  \
0       11454490               481           2973190          -486136   
1

In [18]:
# Inspeccionamos el tipo de dato de cada variable
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 234 entries, 0 to 233
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   #                        234 non-null    int64  
 1   Country (or dependency)  234 non-null    object 
 2   Population  (2023)       234 non-null    int64  
 3   Yearly  Change           234 non-null    object 
 4   Net  Change              234 non-null    int64  
 5   Density  (P/Km²)         234 non-null    int64  
 6   Land Area  (Km²)         234 non-null    int64  
 7   Migrants  (net)          234 non-null    int64  
 8   Fert.  Rate              233 non-null    float64
 9   Med.  Age                233 non-null    float64
 10  Urban  Pop %             234 non-null    object 
 11  World  Share             234 non-null    object 
dtypes: float64(2), int64(6), object(4)
memory usage: 22.1+ KB


# 4. Almacenamiento de los datos

In [19]:
# Guardamos las datos extraidos como archivo CSV
# se puede aplcair otras opciones para guardar (Base de datos)
df.to_csv('PaisesDelMundoPorPoblación2023.csv')

# 5. Referencias

### DEPENDENCIES
* [beautifulsoup4](https://pypi.org/project/BeautifulSoup/)
* [requests](https://pypi.org/project/requests/)
* [pandas](https://pypi.org/project/pandas/)

### Urls de interes
* [Estadisticas Mundial 1](https://www.wikiwand.com/es/Anexo:Tabla_estadística_de_la_Copa_Mundial_de_Fútbol)
* [Estadisticas Mundial 2](https://www.sobrefutbol.com/mundiales/mundial_estadisticas.htm)
* [Estadisticas Mundial 3](https://www.livefutbol.com/clasificacion_historica/wm/)
* [Estadisticas Mundial 4](https://www.soccerstats.com/leagueview.asp?league=worldcup)
* [Estadisticas Mundial 5](https://www.fixturesfootball.com/fifa-world-cup-all-time-stats/)