# Edad y nacionalidad jóvenes promesas. 🌍

❗ Una vez obtenido el nombre y el equipo, se procede a analizar su edad y nacionalidad. Esta última de gran iimportancia pues la reglamentación actual limita el número de jugadores extracomunitarios.

Por otro lado, la edad de los jugadores no excederá los **21 años** pues así se ha establecido en la búsqueda inicial de las jóvenes promesas.

➡ Para ello, se realiza un nuevo WebScraping.

In [1]:
import pandas as pd
import numpy as np
import re
from bs4 import BeautifulSoup
import requests

pd.options.display.max_columns = None

1️⃣ Establecemos las condiciones para la realización del WebScraping.

In [2]:
url = 'https://sofifa.com/players?type=all&aeh=21&ptl=80'
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
html.status_code

200

2️⃣ Se detalla la información que deseamos encontrar dentro del escrapeo.

In [3]:
productos = soup.find_all("td",{"class": "col col-ae"})

3️⃣ Se crea un diccionario al que añadir la información escrapeada para, posteriormente, crear un dataframe con el que trabajar.

In [4]:
edades = {'edad': []}

In [5]:
for i in productos:
    edades['edad'].append(i)  

In [6]:
jedad = pd.DataFrame(edades)
jedad.head(2)

Unnamed: 0,edad
0,[17]
1,[17]


4️⃣ Se procede a la limpieza de la información obtenida. 

🤔 Para ello, en primer lugar se pasa a string los datos con el objetivo de realizar regex. De este modo, se eliminan todas las letras y números que acompañan a la edad del jugador, único dato que nos interesa.

In [7]:
jedad["edad"] = jedad['edad'].astype(str)
jedad.head(2)

Unnamed: 0,edad
0,"<td class=""col col-ae"" data-col=""ae"">17</td>"
1,"<td class=""col col-ae"" data-col=""ae"">17</td>"


In [8]:
jedad['edad'] = jedad['edad'].str.extract(r'(?<=\"\>)(.*)(?=\<\/td\>)')

In [9]:
jedad.head(2)

Unnamed: 0,edad
0,17
1,17


5️⃣ Una vez más, se crea un diccionario al que añadir la información escrapeada para, posteriormente, crear un dataframe con el que trabajar.

In [10]:
pais_nac = {'pais': []}

In [11]:
productos2 = soup.find_all("td",{"class": "col-name"})

In [12]:
for i in productos2:
    pais_nac['pais'].append(i.find('img').get('title'))   

In [13]:
pnac = pd.DataFrame(pais_nac)
pnac.head()

Unnamed: 0,pais
0,Uruguay
1,
2,Greece
3,
4,Spain


6️⃣ Se eliminan las celdas vacías del data frame.

In [14]:
paisnacimient = pnac.dropna()
paisnacimient = paisnacimient.reset_index(drop=True)
paisnacimient.head()

Unnamed: 0,pais
0,Uruguay
1,Greece
2,Spain
3,Spain
4,Netherlands


7️⃣ Por último, se concatenan los dataframe kimpios de edad y país en uno único y se procede a guardarlo.

In [15]:
jugador_caract = pd.concat([jedad, paisnacimient], axis=1)
jugador_caract.head()

Unnamed: 0,edad,pais
0,17,Uruguay
1,17,Greece
2,18,Spain
3,16,Spain
4,16,Netherlands


In [16]:
jugador_caract.to_csv('../../data/promesas/caracteristicas_jugadores.csv')