In [25]:
import pandas as pd
import numpy as np
import random

# Load data

In [2]:
html_file_name = 'data/2021-06-02.html'
data = pd.read_html(html_file_name)

# Review data

In [3]:
type(data)

list

In [4]:
len(data)

11

In [5]:
type(data[0])

pandas.core.frame.DataFrame

In [6]:
next_matches_index = 0
standings_indexes = range(1,7)
goalkeepers_index = 7
defenders_index = 8
midfielders_index = 9
forwards_index = 10

In [7]:
data[next_matches_index]

Unnamed: 0,תאריך,שעה,קבוצה מארחת,תוצאה,קבוצה אורחת,סקירה
0,11.06.2021,22:00,טורקיה,---,איטליה,לסקירה
1,12.06.2021,16:00,וויילס,---,שווייץ,לסקירה
2,12.06.2021,19:00,דנמרק,---,פינלנד,לסקירה
3,12.06.2021,22:00,בלגיה,---,רוסיה,לסקירה
4,13.06.2021,16:00,אנגליה,---,קרואטיה,לסקירה
5,13.06.2021,19:00,אוסטריה,---,צפון מקדוניה,לסקירה
6,13.06.2021,22:00,הולנד,---,אוקראינה,לסקירה
7,14.06.2021,16:00,סקוטלנד,---,צ`כיה,לסקירה
8,14.06.2021,19:00,פולין,---,סלובקיה,לסקירה
9,14.06.2021,22:00,ספרד,---,שבדיה,לסקירה


In [8]:
data[random.randint(min(standings_indexes), max(standings_indexes))]

Unnamed: 0,#,קבוצה,מש’,נצ’,תיקו,הפסד,יחס,נקודות
0,1,הולנד,0,0,0,0,0-0,0
1,2,אוקראינה,0,0,0,0,0-0,0
2,3,צפון מקדוניה,0,0,0,0,0-0,0
3,4,אוסטריה,0,0,0,0,0-0,0


In [9]:
data[random.randint(goalkeepers_index, forwards_index)]

Unnamed: 0,קישור,מחיר,נק’,Unnamed: 3
0,אנטואן גרייזמן (צרפת),13.0m,0,
1,ג'יידון סאנצ'ו (אנגליה),13.0m,0,
2,קווין דה בריינה (בלגיה),13.0m,0,
3,אדן הזאר (בלגיה),12.0m,0,
4,לירוי סאנה (גרמניה),12.0m,0,
...,...,...,...,...
251,סטפן ספירובסקי (צפון מקדוניה),3.0m,0,
252,פטר שבצ'יק (צ`כיה),3.0m,0,
253,פרהאן חסאני (צפון מקדוניה),3.0m,0,
254,רובין קולוויל (וויילס),3.0m,0,


# Data reorganize and pre-process

In [10]:
next_matches_columns_renames = {"תאריך": "date", "שעה": "hour", "קבוצה מארחת": "home_team", "תוצאה": "score", "קבוצה אורחת": "away_team", "סקירה": "review"}
next_matches_df = data[next_matches_index].rename(columns=next_matches_columns_renames)
del next_matches_df['hour']
del next_matches_df['review']
next_matches_df['date'] = pd.to_datetime(next_matches_df['date'], format="%d.%m.%Y")

In [11]:
next_matches_df

Unnamed: 0,date,home_team,score,away_team
0,2021-06-11,טורקיה,---,איטליה
1,2021-06-12,וויילס,---,שווייץ
2,2021-06-12,דנמרק,---,פינלנד
3,2021-06-12,בלגיה,---,רוסיה
4,2021-06-13,אנגליה,---,קרואטיה
5,2021-06-13,אוסטריה,---,צפון מקדוניה
6,2021-06-13,הולנד,---,אוקראינה
7,2021-06-14,סקוטלנד,---,צ`כיה
8,2021-06-14,פולין,---,סלובקיה
9,2021-06-14,ספרד,---,שבדיה


In [12]:
standings_columns_renames = {"קבוצה": "team", "מש’": "MP", "נצ’": "W", "תיקו": "D", "הפסד": "L", "יחס": "GF-GA", "נקודות": "Pts"}
groups_standings = []
for index in standings_indexes:
    new_standing_df = data[index].rename(columns=standings_columns_renames)
    new_standing_df['GF'] = new_standing_df['GF-GA'].apply(lambda x: (x.split('-'))[0]).astype('int')
    new_standing_df['GA'] = new_standing_df['GF-GA'].apply(lambda x: (x.split('-'))[1]).astype('int')
    new_standing_df['GD'] = new_standing_df['GF'] - new_standing_df['GA']
    del new_standing_df['GF-GA']
    groups_standings.append(new_standing_df)

In [13]:
groups_standings[random.randint(0, len(groups_standings)-1)]

Unnamed: 0,#,team,MP,W,D,L,Pts,GF,GA,GD
0,1,רוסיה,0,0,0,0,0,0,0,0
1,2,בלגיה,0,0,0,0,0,0,0,0
2,3,פינלנד,0,0,0,0,0,0,0,0
3,4,דנמרק,0,0,0,0,0,0,0,0


In [14]:
gaolkeepers_columns_renames = {"שוער": "name", "מחיר": "price", "נק’": "points"}
gaolkeepers_df = data[goalkeepers_index].rename(columns=gaolkeepers_columns_renames)
gaolkeepers_df['position'] = 'GK'
del gaolkeepers_df['Unnamed: 3']

defenders_columns_renames = {"הגנה": "name", "מחיר": "price", "נק’": "points"}
defenders_df = data[defenders_index].rename(columns=defenders_columns_renames)
del defenders_df['Unnamed: 3']
defenders_df['position'] = 'D'

midfielders_columns_renames = {"קישור": "name", "מחיר": "price", "נק’": "points"}
midfielders_df = data[midfielders_index].rename(columns=midfielders_columns_renames)
del midfielders_df['Unnamed: 3']
midfielders_df['position'] = 'M'

forwards_columns_renames = {"התקפה": "name", "מחיר": "price", "נק’": "points"}
forwards_df = data[forwards_index].rename(columns=forwards_columns_renames)
del forwards_df['Unnamed: 3']
forwards_df['position'] = 'FW'

In [15]:
players_df = pd.concat([gaolkeepers_df, defenders_df, midfielders_df, forwards_df], ignore_index=True)
players_df['team'] = players_df['name'].apply(lambda x: ((x.split('('))[1].split(")"))[0])
players_df['name'] = players_df['name'].apply(lambda x: ((x.split('('))[0])[:-1])
players_df['price'] = players_df['price'].apply(lambda x: (x.split('.'))[0]).astype('int')

In [16]:
players_df

Unnamed: 0,name,price,points,position,team
0,הוגו לוריס,10,0,GK,צרפת
1,אונאי סימון,9,0,GK,ספרד
2,טיבו קורטואה,9,0,GK,בלגיה
3,מנואל נוייר,9,0,GK,גרמניה
4,ג'אנלואיג'י דונארומה,8,0,GK,איטליה
...,...,...,...,...,...
613,מילאן ריסטובסקי,4,0,FW,צפון מקדוניה
614,מרקוס פורס,4,0,FW,פינלנד
615,ריאן כריסטי,4,0,FW,סקוטלנד
616,ולאטקו סטויאנובסקי,3,0,FW,צפון מקדוניה


# Generate lineup(s)

In [17]:
def get_random_lineup(formation=[4,3,3], budget=100, budget_delta=1, max_same_team=2):
    
    if sum(formation) != 10:
        print("Error: Illegal formation. Formation must sum up to 10 players.")
        return
    if (formation[0] < 3 or formation[0] > 5) or (formation[1] < 3 or formation[1] > 5)  or (formation[2] < 1 or formation[2] > 3): 
        print("Error: Illegal formation. 3 <= Defenders,Midfielders <= 5, 1 <= Forwards <= 3")
        return
    
    used_budegt = 0
    same_team = 0
    while (used_budegt < budget - budget_delta) or (same_team > max_same_team):
        lineup_df = pd.concat([players_df[players_df['position'] == 'GK'].sample(),
                               players_df[players_df['position'] == 'D'].sample(formation[0]),
                               players_df[players_df['position'] == 'M'].sample(formation[1]),
                               players_df[players_df['position'] == 'FW'].sample(formation[2])])
        used_budegt = lineup_df['price'].sum()
        same_team = lineup_df['team'].value_counts().max()
    
    print(f'Used budget: {used_budegt}.0M')
    return lineup_df

In [18]:
# lineup_df = get_random_lineup()

In [19]:
# lineup_df

In [24]:
lineup_df = get_random_lineup(formation=[3,4,3], budget=105, budget_delta=2, max_same_team=3)
lineup_df

Used budget: 105.0M


Unnamed: 0,name,price,points,position,team
8,רוי פטריסיו,8,0,GK,פורטוגל
78,טרנט אלכסנדר-ארנולד,9,0,D,אנגליה
205,כריסטיאן גאנטר,5,0,D,גרמניה
83,אואן וינדאל,8,0,D,הולנד
278,קווין דה בריינה,13,0,M,בלגיה
282,תומאס מולר,12,0,M,גרמניה
315,יבהן קונופליאנקה,8,0,M,אוקראינה
279,אדן הזאר,12,0,M,בלגיה
543,ג'רארד מורנו,11,0,FW,ספרד
613,מילאן ריסטובסקי,4,0,FW,צפון מקדוניה
