# Obtención valoración actual y pregresión jugadores. 🔝

❗ A continuación, se obtiene la valoración actual de cada jugador y la posible valoración máxima que podría llegar a obtener.

🧐 De este modo, se puede conocer la progresión de cada uno de ellos. Además, es importante resaltar que estas valoraciones son otorgadas por la página de búsqueda en función de análisis predictivos.

➡ En definita, se realiza un Web Scraping para conocer esta posible progrseión.

In [1]:
import pandas as pd
import numpy as np
import re
from bs4 import BeautifulSoup
import requests

pd.options.display.max_columns = None

1️⃣ Se establecen las condiciones para realizar el WebScraping.

In [2]:
url = 'https://sofifa.com/players?type=all&oah=70&ptl=80&vlh=1000000'
html = requests.get(url)
soup = BeautifulSoup(html.content, "html.parser")
html.status_code

200

2️⃣ Se detalla la información que deseamos encontrar dentro del escrapeo.

In [3]:
productos = soup.find_all("td",{"class": "col col-oa col-sort"})

3️⃣ Se crea un diccionario al que añadir la información escrapeada para, posteriormente, crear un dataframe con el que trabajar.

In [4]:
valoracion = {'valor': []}

In [5]:
for i in productos:
    valoracion['valor'].append(i)  

In [6]:
jvalor = pd.DataFrame(valoracion)
jvalor.head(2)

Unnamed: 0,valor
0,[[62]]
1,[[62]]


4️⃣ Se procede a la limpieza de la información obtenida. 

🤔 Para ello, en primer lugar se pasa a string los datos escrapeados con el objetivo de realizar regex. De este modo, se eliminan todas las letras y números que acompañan a la valoración actual del jugador, único dato que nos interesa.

In [7]:
jvalor["valor"] = jvalor['valor'].astype(str)

In [8]:
jvalor['valor'] = jvalor['valor'].str.extract(r'(\d{2})')

In [9]:
jvalor.head()

Unnamed: 0,valor
0,62
1,62
2,62
3,62
4,62


5️⃣ Se repite exactamente el mismo proceso pero, en este caso, para la valoración de futuro. De esta forma, será necesario cambiar la información que deseamos encontrar en el escrapeo.

In [10]:
productos = soup.find_all("td",{"class": "col col-pt"})

In [11]:
futuro = {'fut': []}

In [12]:
for i in productos:
    futuro['fut'].append(i)  

In [23]:
jfut = pd.DataFrame(futuro)
jfut.head(2)

Unnamed: 0,fut
0,[[80]]
1,[[80]]


In [14]:
jfut["fut"] = jfut['fut'].astype(str)

In [15]:
jfut['fut'] = jfut['fut'].str.extract(r'(\d{2})')

In [22]:
jfut.head(2)

Unnamed: 0,fut
0,80
1,80


6️⃣ Se concatenan los dos dataframe limpios obtenidos, dando como resultado uno que contiene información de la valoración actual y de futuro para cada jugador.

In [21]:
jug_valor = pd.concat([jvalor, jfut], axis=1)
jug_valor.head(2)

Unnamed: 0,valor,fut
0,62,80
1,62,80


7️⃣ Se da el formato adecuado al dataframe final y se guarda.

In [18]:
nuevas_columnas = {
    'valor' : 'Valoración actual', 
    'fut': "Progresión"}

In [19]:
jug_valor.rename(columns = nuevas_columnas, inplace = True)
jug_valor.head(2)

Unnamed: 0,Valoración actual,Progresión
0,62,80
1,62,80


In [20]:
jug_valor.to_csv('../../data/promesas/progresion_jugadores.csv')