<center><h1><strong>DATA EXTRACTION</strong></h1></center>


* __authors__ = [@g30v4](https://github.com/g30v4)
* __date__ = "08/12/2022"
* __version__ = "1.0.0"
* __license__ = "GPL"
* __title__ = "Extracción de datos de la Web (Scrapy)" 
* __keywords__ = "Scrapy, World Cup, Soccer, Data extraction"

# 1. Pre Requisitos

In [None]:
# Instalación de las librerias o dependencias necesarias
!pip install beautifulsoup4 requests pandas

In [28]:
# Load dependencies
import json # modulo para trabajar con archivos JSON
import requests # libreria para hacer peticiones HTTP
import pandas as pd # libreria para procesar datos, proporciona funciones para analíticas
from bs4 import BeautifulSoup as bs # Extraer información de paginas web


# 2. Funciones para procesamiento de los datos

In [29]:
# Función que convierte una lista de elementos en un dataframe de pandas
def rowsToDataFrame(rows):
    df = pd.DataFrame(rows[1:], columns=rows[0])
    return df

In [35]:
# Función para extraer los datos de una tabla HTML
def processTableData(tbl):
    rows = []
    for child in tbl.find('tbody').children: # itera los items internos de la tabla [<tr>]
        row = []
        for td in child: # itera los items internos de la tabla [<td>]
            try:
                item = td.text.replace('\n', '') # recupera el texto del elemento [<td>]
                if item:
                    row.append(item) # Agrega cada elemento de la fila
            except:
                continue
        if len(row) > 0:
            rows.append(row) # agrega todos los campos de una fila de la tabla
    # print(rows)
    return rows

In [30]:
# Función para exxtrar la data de la URL y procesar el contenido HTML
def processDataHTML(data):
    soup = bs(data['sections'][1]['text'], 'html.parser') # Recupera el item del JSON y lo convierte en contenido HTML
    tbl = soup.find_all('table')[0] # Recupera la tabla del contenido HTML
    # print(tbl.prettify())
    tblRows = processTableData(tbl) # Ejecuta la función apra porcesar el contenido de la Tabla
    return tblRows

# 3. Extracción de Información

In [36]:
# Read website
# r = requests.get('https://www.wikiwand.com/es/Anexo:Tabla_estadística_de_la_Copa_Mundial_de_Fútbol')
r = requests.get('https://es.wikipedia.org/api/rest_v1/page/mobile-sections-remaining/Anexo%3ATabla_estadística_de_la_Copa_Mundial_de_Fútbol')  # Recuperamos el contenido de la web
# print(r)
table = processDataHTML(json.loads(r.content)) # Formate el contenido en formato JSON
df = rowsToDataFrame(table) # ejecuta la funcion para recupera los datos de la tabla como dataframe de Pandas
df


Unnamed: 0,Pos.,Selección,TJ,Pts.,PJ,PG,PE,PP,GF,GC,Dif.,Títulos,Rend.
0,1,Brasil Brasil,22,246,113,76,18,19,236,107,+129,5,"72,32%"
1,2,Alemania Alemania[n 1],20,225,112,68,21,23,232,130,+102,4,"66,96%"
2,3,Italia Italia,18,156,83,45,21,17,128,77,+51,4,"62,65%"
3,4,Argentina Argentina,18,153,85,46,15,24,144,96,+48,2,60%
4,5,Francia Francia,16,124,70,37,13,20,129,81,+48,2,"58,45%"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
75,76,China China,1,0,3,0,0,3,0,9,-9,-,0%
76,77,Canadá Canadá,2,0,6,0,0,6,2,12,-10,-,0%
77,78,Haití Haití,1,0,3,0,0,3,2,14,-12,-,0%
78,79,República Democrática del Congo R. D. del Cong...,1,0,3,0,0,3,0,14,-14,-,0%


In [34]:
# Inspeccionamos el tipo de dato de cada variable
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 80 entries, 0 to 79
Data columns (total 13 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Pos.       80 non-null     object
 1   Selección  80 non-null     object
 2   TJ         80 non-null     object
 3   Pts.       80 non-null     object
 4   PJ         80 non-null     object
 5   PG         80 non-null     object
 6   PE         80 non-null     object
 7   PP         80 non-null     object
 8   GF         80 non-null     object
 9   GC         80 non-null     object
 10  Dif.       80 non-null     object
 11  Títulos    80 non-null     object
 12  Rend.      80 non-null     object
dtypes: object(13)
memory usage: 8.2+ KB


# 4. Almacenamiento de los datos

In [26]:
# Guardamos las datos extraidos como archivo CSV
# se puede aplcair otras opciones para guardar (Base de datos)
df.to_csv('statsWorldCup.csv')

# 5. Referencias

### DEPENDENCIES
* [beautifulsoup4](https://pypi.org/project/BeautifulSoup/)
* [requests](https://pypi.org/project/requests/)
* [pandas](https://pypi.org/project/pandas/)

### Urls de interes
* [Estadisticas Mundial 1](https://www.wikiwand.com/es/Anexo:Tabla_estadística_de_la_Copa_Mundial_de_Fútbol)
* [Estadisticas Mundial 2](https://www.sobrefutbol.com/mundiales/mundial_estadisticas.htm)
* [Estadisticas Mundial 3](https://www.livefutbol.com/clasificacion_historica/wm/)
* [Estadisticas Mundial 4](https://www.soccerstats.com/leagueview.asp?league=worldcup)
* [Estadisticas Mundial 5](https://www.fixturesfootball.com/fifa-world-cup-all-time-stats/)