# Cleaning up klassement.csv file

In [None]:
import pandas as pd

In [None]:
!pip install fuzzywuzzy



In [None]:
from fuzzywuzzy import fuzz
from fuzzywuzzy import process

### Creating a dataframe

In [None]:
# Read in the csv file into a pandas dataframe using the read_csv method
columns = ["seizoen","speeldag","stand","ploeg","aantal_gespeelde_matchen","aantal_gewonnen_matchen","aantal_gelijkgespeelde_matchen","aantal_verloren_matchen","doelpunten","puntenverschil","punten"]
df = pd.read_csv("voetbalData_Deel_2.csv")

In [None]:
# Show the first few rows
df.head(18190)

Unnamed: 0,seizoen,speeldag,stand,ploeg,aantal_gespeelde_matchen,aantal_gewonnen_matchen,aantal_gelijkgespeelde_matchen,aantal_verloren_matchen,doelpunten,puntenverschil,punten
0,60/61,1.speeldag,1,RSC Anderlecht,1,1,0,0,7:0,7,2:0
1,60/61,1.speeldag,2,Waterschei THOR,1,1,0,0,5:0,5,2:0
2,60/61,1.speeldag,3,Standard Luik,1,1,0,0,2:0,2,2:0
3,60/61,1.speeldag,4,Eendracht Aalst,1,1,0,0,3:2,1,2:0
4,60/61,1.speeldag,5,RFC Luik,1,1,0,0,2:1,1,2:0
...,...,...,...,...,...,...,...,...,...,...,...
18185,95/96,2.speeldag,18,RFC Seraing,2,0,0,2,1:6,-5,0
18186,95/96,3.speeldag,1,Standard Luik,3,3,0,0,9:2,7,9
18187,95/96,3.speeldag,2,R Charleroi SC,3,3,0,0,9:3,6,9
18188,95/96,3.speeldag,3,Eendracht Aalst,3,3,0,0,7:1,6,9


In [None]:
# Shows the columns dtypes
df.dtypes

seizoen                           object
speeldag                          object
stand                              int64
ploeg                             object
aantal_gespeelde_matchen           int64
aantal_gewonnen_matchen            int64
aantal_gelijkgespeelde_matchen     int64
aantal_verloren_matchen            int64
doelpunten                        object
puntenverschil                     int64
punten                            object
dtype: object

### Removing the text from the day column

In [None]:
# Removing all the text from the day column
for dag in range(1, 35):
  df.loc[df["speeldag"] == f"{dag}.speeldag", "speeldag"] = dag

In [None]:
# Show the unique values for the day column
df.speeldag.unique()

array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
       20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30], dtype=object)

In [None]:
# Changing the dtype of the day column to int
df.speeldag = df.speeldag.astype('int64')

In [None]:
# Checking if the dtype has changed
df.speeldag.dtype

dtype('int64')

### Recalculate all the pointscores using the newer 3 point system

In [None]:
# calculate new points
nieuwePunten = (df.aantal_gewonnen_matchen)*3 + (df.aantal_gelijkgespeelde_matchen)*1
# change the older values
df.punten = nieuwePunten

In [None]:
# Show the unique values for the points column
df.punten.unique()

array([ 3,  0,  6,  1,  9,  7,  4,  2, 12, 10, 13,  8,  5, 14, 11, 17, 20,
       16, 15, 23, 19, 18, 21, 24, 22, 25, 26, 27, 28, 31, 29, 32, 30, 35,
       33, 38, 34, 39, 36, 42, 43, 40, 37, 46, 49, 50, 53, 56, 52, 41, 59,
       60, 45, 63, 44, 47, 54, 57, 66, 67, 48, 51, 68, 69, 70, 58, 55, 61,
       64, 62, 65, 71, 72, 75, 73, 76, 74])

In [None]:
# Changing the dtype of the point column to int
df.punten = df.punten.astype('int64')

In [None]:
# Checking if the dtype has changed
df.punten.dtype

dtype('int64')

In [None]:
df.head(60)

Unnamed: 0,seizoen,speeldag,stand,ploeg,aantal_gespeelde_matchen,aantal_gewonnen_matchen,aantal_gelijkgespeelde_matchen,aantal_verloren_matchen,doelpunten,puntenverschil,punten
0,60/61,1,1,RSC Anderlecht,1,1,0,0,7:0,7,3
1,60/61,1,2,Waterschei THOR,1,1,0,0,5:0,5,3
2,60/61,1,3,Standard Luik,1,1,0,0,2:0,2,3
3,60/61,1,4,Eendracht Aalst,1,1,0,0,3:2,1,3
4,60/61,1,5,RFC Luik,1,1,0,0,2:1,1,3
5,60/61,1,5,Union SG,1,1,0,0,2:1,1,3
6,60/61,1,5,Daring Club,1,1,0,0,2:1,1,3
7,60/61,1,8,Beerschot AC,1,1,0,0,1:0,1,3
8,60/61,1,9,Antwerp FC,1,0,0,1,2:3,-1,0
9,60/61,1,10,ARA Gent,1,0,0,1,1:2,-1,0


### Adding the team id

In [None]:
namenPloegen = df.ploeg.unique()

In [None]:
import requests
from bs4 import BeautifulSoup

In [None]:
soup = ""
URL= f"https://nl.wikipedia.org/wiki/Lijst_van_voetbalclubs_in_België_naar_seizoenen_in_eerste_klasse"
# headers={'User-Agent': 'Mozilla/5.0 (X11; Linux armv7l) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Odin/88.4324.2.10 Safari/537.36 Model/Hisense-MT9602 VIDAA/6.0(Hisense;SmartTV;43A53FUV;MTK9602/V0000.06.12A.N0406;UHD;HU43A6100F;)'}
page= requests.get(URL)
soup= BeautifulSoup(page.content, "html.parser")
table = soup.select("#main main, table.wikitable tbody tr td:nth-of-type(1)")

In [None]:
nummersdata = ""
for row in table:
  nummersdata += row.get_text()
  nummersdata += "|"
nummersdata = nummersdata.split("|")

In [None]:
print(nummersdata)

['16', '1', '3', '35', '12', '7', '13', '30', '25', '4', '10', '22', '2', '373', '47', '282', '28', '6', '2300', '19', '322', '24', '4451', '522', '246', '3530', '21', '2024', '8', '11', '5', '5381', '90', '553', '224', '31', '52', '1986', '4276', '4068', '322', '44', '93', '58', '41', '/ /', '18', '17', '216', '1615', '134', '51', '20', '1936', '53', '55', '15', '4549', '221', '148', '/ /', '167', '13', '3900', '54', '375', '64', '/ /', '5479', '5632', '2614', '395', '37', '3434', '36', '26', '18', '132', '77', '/ /', '/ /', '/ /', '/ /', '/ /', '/ /', 'FC Brugeois (Club Brugge)', 'ARA La Gantoise (KAA Gent)', 'CS Brugeois (Cercle Brugge)', 'RC Malines (RC Mechelen)', 'FC Malinois (KV Mechelen)', 'RC Gantois (RC Gent)', 'FC Sérésien (FC Seraing)', 'Sporting Lokeren Sint-Niklaas Waasland(KSC Lokeren OV)', 'FC Brugge (Club Brugge)', '']


In [None]:
soup = ""
URL= f"https://nl.wikipedia.org/wiki/Lijst_van_voetbalclubs_in_België_naar_seizoenen_in_eerste_klasse"
# headers={'User-Agent': 'Mozilla/5.0 (X11; Linux armv7l) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Odin/88.4324.2.10 Safari/537.36 Model/Hisense-MT9602 VIDAA/6.0(Hisense;SmartTV;43A53FUV;MTK9602/V0000.06.12A.N0406;UHD;HU43A6100F;)'}
page= requests.get(URL)
soup= BeautifulSoup(page.content, "html.parser")
table = soup.select("#main main, table.wikitable tbody tr td:nth-of-type(2)")

In [None]:
ploegenData = ""
for row in table:
  ploegenData += row.get_text()
  ploegenData += "|"
ploegenData = ploegenData.split("|")

In [None]:
print(ploegenData)

['Standard Luik', 'Antwerp FC', 'Club Brugge', 'RSC Anderlecht', 'Cercle Brugge', 'KAA Gent', 'K. Beerschot VAV', 'Lierse SK', 'KV Mechelen', 'RFC Liégeois', 'Union Sint-Gillis', 'Royal Charleroi Sporting Club', 'Daring Club de Bruxelles', 'Sint-Truidense VV', 'RWDM', 'KSC Lokeren OV', 'Berchem Sport', 'Racing Club de Bruxelles', 'KSK Beveren', 'KV Kortrijk', 'KRC Genk', 'Racing Mechelen', 'KSV Waregem', 'Beringen FC', 'Olympic Charleroi', 'K. Beerschot AC', 'R. Tilleur FC', 'KVC Westerlo ', 'RCS Verviétois', 'KRC Gent', 'Léopold Club de Bruxelles', 'SV Zulte Waregem', 'KSC Eendracht Aalst', 'K. Waterschei SV Thor', 'Excelsior Moeskroen', 'KV Oostende', 'Koninklijke Lyra', 'KFC Lommelse SK', 'KAS Eupen', 'KVRS Waasland - SK Beveren ', 'KFC Winterslag', 'RAEC Mons', 'RAA Louviéroise', 'Boom FC', 'KFC Diest', 'Athletic and Running Club de Bruxelles', 'OH Leuven', 'RFC Seraing', 'Royal Excel Moeskroen', 'KRC Harelbeke', 'KSV Roeselare', 'RCS La Forestoise', 'Excelsior SC de Bruxelles', 'F

In [None]:
stamnummers = []
for i in df.ploeg:
  ratio = 0
  gekozenPloeg = 0
  teller = 0
  for ploeg in ploegenData:
    if ratio < fuzz.ratio(ploeg, i):
      gekozenPloeg = ploeg
      ratio = fuzz.ratio(ploeg, i)
      stand = teller
    teller+=1
  stamnummers.append(nummersdata[stand])

In [None]:
df["ploegID"] = stamnummers

In [None]:
df.ploegID = df.ploegID.astype('int64')

In [None]:
len(df.ploegID.unique())

55

In [None]:
len(df.ploeg.unique())

69

In [None]:
df.head(20)

Unnamed: 0,seizoen,speeldag,stand,ploeg,aantal_gespeelde_matchen,aantal_gewonnen_matchen,aantal_gelijkgespeelde_matchen,aantal_verloren_matchen,doelpunten,puntenverschil,punten,ploegID
0,60/61,1,1,RSC Anderlecht,1,1,0,0,7:0,7,3,35
1,60/61,1,2,Waterschei THOR,1,1,0,0,5:0,5,3,553
2,60/61,1,3,Standard Luik,1,1,0,0,2:0,2,3,16
3,60/61,1,4,Eendracht Aalst,1,1,0,0,3:2,1,3,90
4,60/61,1,5,RFC Luik,1,1,0,0,2:1,1,3,4
5,60/61,1,5,Union SG,1,1,0,0,2:1,1,3,10
6,60/61,1,5,Daring Club,1,1,0,0,2:1,1,3,2
7,60/61,1,8,Beerschot AC,1,1,0,0,1:0,1,3,13
8,60/61,1,9,Antwerp FC,1,0,0,1,2:3,-1,0,1
9,60/61,1,10,ARA Gent,1,0,0,1,1:2,-1,0,7


In [None]:
fuzz.ratio("Waterschei THOR", "K. Waterschei SV Thor")

67

### Checking if the ranking is correct

In [None]:
df.head(6283)

Unnamed: 0,seizoen,speeldag,stand,ploeg,aantal_gespeelde_matchen,aantal_gewonnen_matchen,aantal_gelijkgespeelde_matchen,aantal_verloren_matchen,doelpunten,puntenverschil,punten
0,60/61,1,1,RSC Anderlecht,1,1,0,0,7:0,7,3
1,60/61,1,2,Waterschei THOR,1,1,0,0,5:0,5,3
2,60/61,1,3,Standard Luik,1,1,0,0,2:0,2,3
3,60/61,1,4,Eendracht Aalst,1,1,0,0,3:2,1,3
4,60/61,1,5,RFC Luik,1,1,0,0,2:1,1,3
...,...,...,...,...,...,...,...,...,...,...,...
6278,73/74,3,7,Club Brugge,3,1,1,1,7:3,4,4
6279,73/74,3,8,KV Mechelen,3,1,1,1,3:2,1,4
6280,73/74,3,9,Cercle Brugge,3,1,1,1,3:3,0,4
6281,73/74,3,39,Beerschot VAV,3,0,3,0,3:3,0,3


In [None]:
for i in range(1, df.shape[0]):

  stand = df.stand[i]
  prevStand = df.stand[i-1]
  speeldag = df.speeldag[i]
  prevSpeeldag = df.speeldag[i-1]



  if stand < prevStand and speeldag==prevSpeeldag:
    if stand == 0:
      df.stand[i] = 10
    if prevStand == 29 or prevStand == 39 or prevStand == 49 or prevStand == 59 or prevStand == 69 or prevStand == 79 or prevStand == 89:
      df.stand[i-1] = 9

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.stand[i-1] = 9
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.stand[i] = 10


In [None]:
for i in range(1, df.shape[0]):

  stand = df.stand[i]
  prevStand = df.stand[i-1]
  speeldag = df.speeldag[i]
  prevSpeeldag = df.speeldag[i-1]



  if stand < prevStand and speeldag==prevSpeeldag:
    print(i, "prevStand", prevStand, "stand", stand)
    # df.stand[i] = stand+10

6282 prevStand 39 stand 19
8998 prevStand 29 stand 19
12238 prevStand 29 stand 19
20338 prevStand 39 stand 19


In [None]:
for i in range(1, df.shape[0]):

  date = int(df.seizoen[i][:2])
  speeldag = df.speeldag[i]
  prevSpeeldag = df.speeldag[i-1]
  points = df.punten[i]
  prevPoints = df.punten[i-1]
  wins = df.aantal_gewonnen_matchen[i]
  prevWins = df.aantal_gewonnen_matchen[i-1]
  pointsdif = df.puntenverschil[i]
  prevPointsdif = df.puntenverschil[i-1]


  if points > prevPoints and (date < 60 or date > 95) and speeldag==prevSpeeldag:
    print(i, "something fishy")

  if points == prevPoints and (date < 60 or date > 95) and speeldag==prevSpeeldag:
    print(i, "same points")

  if points == prevPoints and wins > prevWins and (date < 60 or date > 95) and speeldag==prevSpeeldag:
    print(i, "higher wins and same points")

  if points == prevPoints and pointsdif > prevPointsdif and wins == prevWins and (date < 60 or date > 95) and speeldag==prevSpeeldag:
    print(i, "higher pointsdif, same wins, and same points")


  # if points == prevPoints:
  #   # print(i, "samePoints")
  #   if wins==prevWins:
  #     # print(i, "samePoints and same wins")
  #     if pointsdif==prevPointsdif:
  #       print(i, "same points, same wins and same pointdif")
