### Buscador de imagenes Batch

In [3]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm  # Importa tqdm para la barra de progreso

# Aumenta el ancho máximo de las columnas
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 1000)
pd.set_option('display.max_rows', None)

def get_player_image_url(player_name):
    # Verificar si el nombre contiene una inicial seguida de un punto
    if '.' in player_name.split()[0]:
        # Si es así, solo usamos el apellido para la búsqueda
        player_name = player_name.split()[-1]
    else:
        # Reemplaza los espacios en el nombre del jugador con '+'
        player_name = player_name.replace(" ", "+")
    
    # URL de búsqueda en Transfermarkt
    search_url = f"https://www.transfermarkt.es/schnellsuche/ergebnis/schnellsuche?query={player_name}"
    
    # Añade una cabecera de usuario para que la solicitud parezca provenir de un navegador real
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
    }
    
    # Realizar la solicitud HTTP
    response = requests.get(search_url, headers=headers)
    
    if response.status_code != 200:
        print(f"Error al acceder a la página de {player_name}")
        return None
    
    # Analizar la respuesta HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    
    try:
        # Utilizar selectores CSS para encontrar el <img> dentro del <a>
        img_element = soup.select_one('div.responsive-table table.items tbody tr td a img.bilderrahmen-fixed')
        
        if img_element:
            # Extraer el src del elemento img
            img_src = img_element.get('src')
            # Reemplazar 'small' por 'big' en la URL
            img_src = img_src.replace('small', 'big')
            return img_src
        else:
            print(f"No se encontró la imagen para {player_name}")
            return None
    except Exception as e:
        print(f"Error al procesar la página para {player_name}: {e}")
        return None

def process_players(csv_file):
    # Leer el CSV
    df = pd.read_csv(csv_file)
    #df = df.head(1)  # Limitar a los primeros 100 registros para pruebas
    
    # Crear una nueva columna para las URLs de las imágenes con barra de progreso
    tqdm.pandas(desc="Procesando jugadores")
    df['img_player'] = df['Jugador'].progress_apply(get_player_image_url)
    # Seleccionar solo las columnas 'Jugador' e 'img_player'
    df = df[['Jugador', 'img_player']]
    
    return df

# Ejemplo de uso
csv_file = 'D:\Dropbox\Facu\EDEM\GitHub\GitHub_Repositorios\TFM_VCF\model\data\sample.csv'  # Reemplaza con la ruta a tu archivo CSV
df = process_players(csv_file)
df_csv = df.to_csv('img_players.csv') 

df


Procesando jugadores:   0%|          | 0/525 [00:00<?, ?it/s]

Procesando jugadores:  29%|██▉       | 152/525 [03:10<04:23,  1.42it/s]  

No se encontró la imagen para Mæhle


Procesando jugadores:  42%|████▏     | 218/525 [05:02<06:58,  1.36s/it]  

No se encontró la imagen para Jean+Bahoya


Procesando jugadores:  82%|████████▏ | 428/525 [10:22<02:14,  1.38s/it]

No se encontró la imagen para Milan+Đurić


Procesando jugadores:  85%|████████▍ | 445/525 [10:42<01:17,  1.03it/s]

No se encontró la imagen para Facu+González


Procesando jugadores: 100%|██████████| 525/525 [12:59<00:00,  1.48s/it]


Unnamed: 0,Jugador,img_player
0,Declan Rice,https://img.a.transfermarkt.technology/portrait/big/357662-1687962936.jpg?lm=1
1,Moisés Caicedo,https://img.a.transfermarkt.technology/portrait/big/687626-1660729724.jpg?lm=1
2,J. Bellingham,https://img.a.transfermarkt.technology/portrait/big/581678-1693987944.jpg?lm=1
3,Harry Kane,https://img.a.transfermarkt.technology/portrait/big/132098-1700211169.jpg?lm=1
4,Kolo Muani,https://img.a.transfermarkt.technology/portrait/big/487969-1718697120.jpg?lm=1
5,Joško Gvardiol,https://img.a.transfermarkt.technology/portrait/big/475959-1713391602.jpg?lm=1
6,Kai Havertz,https://img.a.transfermarkt.technology/portrait/big/309400-1683903902.jpg?lm=1
7,R. Højlund,https://img.a.transfermarkt.technology/portrait/big/610442-1699471458.jpg?lm=1
8,D. Szoboszlai,https://img.a.transfermarkt.technology/portrait/big/451276-1700209677.jpg?lm=1
9,Gonçalo Ramos,https://img.a.transfermarkt.technology/portrait/big/550550-1681906158.jpg?lm=1


### Busca si la imagen existe en la base de datos, sino la busca en la web

In [6]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm  # Importa tqdm para la barra de progreso

def get_player_images(input_csv, players_csv):
  
    def get_player_image_url(player_name):
        # Verificar si el nombre contiene una inicial seguida de un punto
        if '.' in player_name.split()[0]:
            # Si es así, solo usamos el apellido para la búsqueda
            player_name = player_name.split()[-1]
        else:
            # Reemplaza los espacios en el nombre del jugador con '+'
            player_name = player_name.replace(" ", "+")
        
        # URL de búsqueda en Transfermarkt
        search_url = f"https://www.transfermarkt.es/schnellsuche/ergebnis/schnellsuche?query={player_name}"
        
        # Añade una cabecera de usuario para que la solicitud parezca provenir de un navegador real
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
        }
        
        # Realizar la solicitud HTTP
        response = requests.get(search_url, headers=headers)
        
        if response.status_code != 200:
            print(f"Error al acceder a la página de {player_name}")
            return None
        
        # Analizar la respuesta HTML
        soup = BeautifulSoup(response.text, 'html.parser')
        
        try:
            # Utilizar selectores CSS para encontrar el <img> dentro del <a>
            img_element = soup.select_one('div.responsive-table table.items tbody tr td a img.bilderrahmen-fixed')
            
            if img_element:
                # Extraer el src del elemento img
                img_src = img_element.get('src')
                # Reemplazar 'small' por 'big' en la URL
                img_src = img_src.replace('small', 'big')
                return img_src
            else:
                print(f"No se encontró la imagen para {player_name}")
                return None
        except Exception as e:
            print(f"Error al procesar la página para {player_name}: {e}")
            return None

    def process_players(df, csv_file):
        # Leer el CSV existente que contiene las URLs de las imágenes
        try:
            existing_df = pd.read_csv(csv_file)
        except FileNotFoundError:
            existing_df = pd.DataFrame(columns=['Jugador', 'img_player'])  # Si no existe, crea un DataFrame vacío
        
        # Crear una nueva columna para las URLs de las imágenes con barra de progreso
        tqdm.pandas(desc="Procesando jugadores")
        
        def find_or_scrape_image(player_name):
            # Buscar si el jugador ya está en el CSV existente
            if player_name in existing_df['Jugador'].values:
                # Si está, devolver la URL existente
                return existing_df[existing_df['Jugador'] == player_name]['img_player'].values[0]
            else:
                # Si no está, realizar la búsqueda con el scraper
                return get_player_image_url(player_name)
        
        # Aplicar la función a cada jugador en el DataFrame
        df['img_player'] = df['Jugador'].progress_apply(find_or_scrape_image)
        
        # Retornar el DataFrame original con la nueva columna añadida
        return df

    # Leer el archivo de jugadores
    df = pd.read_csv(input_csv)
    # Procesar los jugadores para obtener las URLs de las imágenes
    df_processed = process_players(df, players_csv)
    # Retornar el DataFrame con todos los datos y la nueva columna 'img_player'
    return df_processed

# Rutas a los archivos CSV
input_csv = 'D:\Dropbox\Facu\EDEM\GitHub\GitHub_Repositorios\TFM_VCF\model\data\sample.csv'
players_csv = 'D:\Dropbox\Facu\EDEM\GitHub\GitHub_Repositorios\TFM_VCF\img_search\img_players.csv'

# Llamar a la función para obtener el DataFrame con las imágenes
# MODIFICAR FUNCION PARA QUE ACEPTE EL DF DE STREAMLIT Y NO UN CSV.
df_final = get_player_images(input_csv, players_csv)
df_final

Procesando jugadores:   0%|          | 0/525 [00:00<?, ?it/s]

Procesando jugadores: 100%|██████████| 525/525 [00:00<00:00, 2243.56it/s]


Unnamed: 0.1,Unnamed: 0,Jugador,Posición,Edad,Nacionalidad,Temporada,Fecha,Coste,VM (TM),C/VM,...,Competición origen,Elo (CO),Competición destino,Elo (CD),Partidos,Goles,Asistencias,Goles Concedidos,RDT,img_player
0,0,Declan Rice,Mediocentro Defensivo,24,Inglaterra,2023/2024,2023-07-15,116.6,90.0,1.296,...,Premier League,100,Premier League,100,50,5,3,-,8.34,https://img.a.transfermarkt.technology/portrait/big/357662-1687962936.jpg?lm=1
1,1,Moisés Caicedo,Mediocentro Defensivo,21,Ecuador,2023/2024,2023-08-14,116.0,75.0,1.547,...,Premier League,100,Premier League,100,43,1,1,-,8.49,https://img.a.transfermarkt.technology/portrait/big/687626-1660729724.jpg?lm=1
2,2,J. Bellingham,Mediapunta,20,Inglaterra,2023/2024,2023-07-01,103.0,120.0,0.858,...,Bundesliga,98,Primera División,98,42,14,6,-,8.7,https://img.a.transfermarkt.technology/portrait/big/581678-1693987944.jpg?lm=1
3,3,Harry Kane,Delantero Centro,30,Inglaterra,2023/2024,2023-08-12,95.0,90.0,1.056,...,Premier League,100,Bundesliga,98,49,32,5,-,8.91,https://img.a.transfermarkt.technology/portrait/big/132098-1700211169.jpg?lm=1
4,4,Kolo Muani,Delantero Centro,24,Francia,2023/2024,2023-09-01,95.0,80.0,1.188,...,Bundesliga,98,Ligue 1,92,46,23,14,-,8.83,https://img.a.transfermarkt.technology/portrait/big/487969-1718697120.jpg?lm=1
5,5,Joško Gvardiol,Lateral Izquierdo,21,Croacia,2023/2024,2023-08-05,90.0,75.0,1.2,...,Bundesliga,98,Premier League,100,41,3,0,-,8.39,https://img.a.transfermarkt.technology/portrait/big/475959-1713391602.jpg?lm=1
6,6,Kai Havertz,Mediapunta,24,Alemania,2023/2024,2023-07-01,75.0,55.0,1.364,...,Premier League,100,Premier League,100,47,9,1,-,8.14,https://img.a.transfermarkt.technology/portrait/big/309400-1683903902.jpg?lm=1
7,7,R. Højlund,Delantero Centro,20,Dinamarca,2023/2024,2023-08-05,73.9,45.0,1.642,...,Serie A,97,Premier League,100,34,10,2,-,7.59,https://img.a.transfermarkt.technology/portrait/big/610442-1699471458.jpg?lm=1
8,8,D. Szoboszlai,Mediocentro,22,Hungría,2023/2024,2023-07-02,70.0,50.0,1.4,...,Bundesliga,98,Premier League,100,46,10,12,-,8.68,https://img.a.transfermarkt.technology/portrait/big/451276-1700209677.jpg?lm=1
9,9,Gonçalo Ramos,Delantero Centro,22,Portugal,2023/2024,2024-01-01,65.0,50.0,1.3,...,Liga Portuguesa,86,Ligue 1,92,-,-,-,-,-,https://img.a.transfermarkt.technology/portrait/big/550550-1681906158.jpg?lm=1


In [None]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from tqdm import tqdm  # Importa tqdm para la barra de progreso

def get_player_images(input_df, players_csv):
  
    def get_player_image_url(player_name):
        # Verificar si el nombre contiene una inicial seguida de un punto
        if '.' in player_name.split()[0]:
            # Si es así, solo usamos el apellido para la búsqueda
            player_name = player_name.split()[-1]
        else:
            # Reemplaza los espacios en el nombre del jugador con '+'
            player_name = player_name.replace(" ", "+")
        
        # URL de búsqueda en Transfermarkt
        search_url = f"https://www.transfermarkt.es/schnellsuche/ergebnis/schnellsuche?query={player_name}"
        
        # Añade una cabecera de usuario para que la solicitud parezca provenir de un navegador real
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
        }
        
        # Realizar la solicitud HTTP
        response = requests.get(search_url, headers=headers)
        
        if response.status_code != 200:
            print(f"Error al acceder a la página de {player_name}")
            return None
        
        # Analizar la respuesta HTML
        soup = BeautifulSoup(response.text, 'html.parser')
        
        try:
            # Utilizar selectores CSS para encontrar el <img> dentro del <a>
            img_element = soup.select_one('div.responsive-table table.items tbody tr td a img.bilderrahmen-fixed')
            
            if img_element:
                # Extraer el src del elemento img
                img_src = img_element.get('src')
                # Reemplazar 'small' por 'big' en la URL
                img_src = img_src.replace('small', 'big')
                return img_src
            else:
                print(f"No se encontró la imagen para {player_name}")
                return None
        except Exception as e:
            print(f"Error al procesar la página para {player_name}: {e}")
            return None

    def process_players(df, csv_file):
        # Leer el CSV existente que contiene las URLs de las imágenes
        try:
            existing_df = pd.read_csv(csv_file)
        except FileNotFoundError:
            existing_df = pd.DataFrame(columns=['Jugador', 'img_player'])  # Si no existe, crea un DataFrame vacío
        
        # Crear una nueva columna para las URLs de las imágenes con barra de progreso
        tqdm.pandas(desc="Procesando jugadores")
        
        def find_or_scrape_image(player_name):
            # Buscar si el jugador ya está en el CSV existente
            if player_name in existing_df['Jugador'].values:
                # Si está, devolver la URL existente
                return existing_df[existing_df['Jugador'] == player_name]['img_player'].values[0]
            else:
                # Si no está, realizar la búsqueda con el scraper
                return get_player_image_url(player_name)
        
        # Aplicar la función a cada jugador en el DataFrame
        df['img_player'] = df['Jugador'].progress_apply(find_or_scrape_image)
        
        # Retornar el DataFrame original con la nueva columna añadida
        return df

    # Procesar los jugadores para obtener las URLs de las imágenes
    df_processed = process_players(input_df, players_csv)
    # Retornar el DataFrame con todos los datos y la nueva columna 'img_player'
    return df_processed

players_csv = 'D:\Dropbox\Facu\EDEM\GitHub\GitHub_Repositorios\TFM_VCF\img_search\img_players.csv'

# Llamar a la función para obtener el DataFrame con las imágenes
# MODIFICAR FUNCION PARA QUE ACEPTE EL DF DE STREAMLIT Y NO UN CSV.
df_final = get_player_images(input_csv, players_csv)
df_final