# Analiza sportowa - Czyszczenie danych oraz ich przygotowanie do analizy
## Projekt realizowany w ramach przedmiotu: Metody Przetwarzania Dużych Ilości Danych
### Grupa projektowa:
+  Filip Kozak
+  Maciej Grzela
+  Paweł Owczarek
+  Szymon Tusznio

## W ramach niniejszego etapu przeprowadzone zostaną następujące operacje:
+ ### Wczytanie danych z pliku CSV
+ ### Usunięcie wpisów niepoprawnych z punktu widzenia typu danych
+ ### Usunięcie wpisów niepoprawnych z punktu widzenia wiedzy dziedzinowej
+ ### Modyfikacja formatu przechowywania wartości liczbowych
+ ### Wyliczenie wartości dla danych pustych

### Zaimportowanie wykorzystywanych bibliotek oraz konfiguracja wyświetlania zbiorów danych dla biblioteki Pandas

In [1]:
import pandas as pd
from IPython.display import display, HTML

pd.set_option('display.max_columns', None)
pd.set_option('display.width', 320)
pd.reset_option("display.max_rows")

# pd.set_option("display.max_rows", None)           # Wyświetlenie wszystkich wierszy dla tabel / spowalnia działanie
css = """
.output {
    flex-direction: row;
}
"""
HTML('<style>{}</style>'.format(css))

### Wczytanie danych z pliku csv oraz zapisanie ich do struktury DataFrame dostępnej w ramach biblioteki Pandas
### Sprawdzenie dla jakich kolumn występują wartości nieokreślone

In [2]:
transfer_df = pd.read_csv(
    'csv/transfers-data-frame.csv',
    sep=',',
    header=0,
    index_col=0
)

display(transfer_df)
display(pd.isnull(transfer_df).sum())

Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue
1,Legia Warszawa,1.liga,Polska,Ernest Muci,19,Środkowy napastnik,ŚNP,Albania,500 tys. €,Nabytki,"1,00 mln €",KF Tirana,1.liga,Albania,500 tys. €
2,Legia Warszawa,1.liga,Polska,Josip Juranovic,24,Prawy obrońca,POB,Chorwacja,400 tys. €,Nabytki,"2,50 mln €",HNK Hajduk Split,1.liga,Chorwacja,400 tys. €
3,Legia Warszawa,1.liga,Polska,Jasur Yakhshiboev,23,Prawy napastnik,PNP,Uzbekistan,300 tys. €,Nabytki,700 tys. €,Pakhtakor Tashkent,1.liga,Uzbekistan,300 tys. €
4,Legia Warszawa,1.liga,Polska,Rafa Lopes,29,Środkowy napastnik,ŚNP,Portugalia,150 tys. €,Nabytki,500 tys. €,Cracovia,1.liga,Polska,150 tys. €
5,Legia Warszawa,1.liga,Polska,Bartosz Kapustka,23,Ofensywny pomocnik,OPM,Polska,bez odstępnego,Nabytki,"1,50 mln €",Leicester City,1.liga,Anglia,bez odstępnego
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29919,Umm Salal SC,1.liga,Katar,Jasser Yahya,27,Środkowy pomocnik,ŚPM,Katar,koniec wypżyczenia30 cze 2020,Odejścia,175 tys. €,Al-Arabi SC,1.liga,Katar,koniec wypżyczenia30 cze 2020
29920,Umm Salal SC,1.liga,Katar,Fadl Omar,30,Środkowy pomocnik,ŚPM,Katar,koniec wypżyczenia31 sie 2020,Odejścia,25 tys. €,Qatar SC,1.liga,Katar,koniec wypżyczenia31 sie 2020
29921,Umm Salal SC,1.liga,Katar,Fahad Khalfan,28,Środkowy napastnik,ŚNP,Katar,koniec wypżyczenia31 sie 2020,Odejścia,125 tys. €,Al-Arabi SC,1.liga,Katar,koniec wypżyczenia31 sie 2020
29922,Umm Salal SC,1.liga,Katar,Murad Naji,29,Prawy obrońca,POB,Katar,koniec wypżyczenia30 cze 2020,Odejścia,250 tys. €,Al-Duhail SC,1.liga,Katar,koniec wypżyczenia30 cze 2020


Club                                0
ClubLeagueLevel                     0
ClubLeagueNationality               0
Player                              0
PlayerAge                           0
PlayerPosition                      0
PlayerPositionScut                  0
PlayerNationality                   0
Operation                           0
Bought/Sold                         0
PlayerMarketValue                   0
ClubAssigned                      243
ClubAssignedLeagueLevel          5806
ClubAssignedLeagueNationality    5806
TransferValue                       0
dtype: int64

### Wyświetlenie wierszy dla których występują wartości nieokreślone

In [3]:
is_nan = transfer_df.isna()
rows_has_nan = is_nan.any(axis=1)
transfer_df[rows_has_nan][["Club", "Player", "ClubAssigned", "ClubAssignedLeagueLevel", "ClubAssignedLeagueNationality", "TransferValue"]]

Unnamed: 0,Club,Player,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue
36,Legia Warszawa,Dominik Nagy,Bez klubuBez klubu,,,-
37,Legia Warszawa,William Rémy,Bez klubuBez klubu,,,-
94,Piast Gliwice,Javier Hyjek,Atlético de Madryt Młodzież A (U19),,,bez odstępnego
97,Piast Gliwice,Maksym Gendera,Piast Gliwice II,,,-
98,Piast Gliwice,Wiktor Preuss,Piast Gliwice II,,,-
...,...,...,...,...,...,...
29913,Umm Salal SC,Mohammed Kasola,Al-Mesaimeer Sports Club,,,?
29914,Umm Salal SC,Raúl Becerra,Bez klubuBez klubu,,,-
29915,Umm Salal SC,Yannick Sagbo,Bez klubuBez klubu,,,-
29916,Umm Salal SC,Walid Mesloub,,,,-


### Wnioskując na podstawie wierszy zawierających wartości nieokreślone możemy zauważyć, że przeprowadzane transfery dotyczą:
+ ### Przenosin zawodnika do drużyny rezerw/drużyny młodzieżowej/szkółki piłkarskiej
+ ### Przenosin zawodnika do drużyny na poziomie rozgrywkowym nieuwzględnianym w ramach grupy poziomów rozgrywkowych futbolu profesjonalnego
+ ### Dyskwalifikacji/pauzy zawodnika
+ ### Przenosin zawodnika do klubu piłkarskiego, którego dane nie zostały wprowadzone
+ ### Zakończenia współpracy pomiędzy zawodnikiem a klubem

### Obserwacje spełniające jedno z czterech pierwszych kryteriów powyższej listy możemy uznać jako obserwacje odstające. Wiersze te, zostaną usunięte ze zbioru danych.
### Obserwacje spełniające piąte kryterium należy uznać jako poprawne. Aby uwzględnić przypadek zakończenia współpracy pomiędzy zawodnikiem a klubem należy stworzyć nową kolumnę wartości True/False

### Zdefiniowanie kolumny 'PlayerWithoutClub' przyjmującej wartość true dla zawodników bez klubu po transferze
### Wyczyszczenie wartości dla kolumny 'ClubAssigned'

In [4]:
without_club_label = "Bez Klubu"
transfer_df["ClubAssigned"].replace({"Bez klubuBez klubu": without_club_label}, inplace=True)

transfer_df['PlayerWithoutClub'] = transfer_df['ClubAssigned'].map(lambda x: x == without_club_label)

transfer_df[rows_has_nan][["Club", "Player", "ClubAssigned", "PlayerWithoutClub", "ClubAssignedLeagueLevel", "ClubAssignedLeagueNationality", "TransferValue"]]

Unnamed: 0,Club,Player,ClubAssigned,PlayerWithoutClub,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue
36,Legia Warszawa,Dominik Nagy,Bez Klubu,True,,,-
37,Legia Warszawa,William Rémy,Bez Klubu,True,,,-
94,Piast Gliwice,Javier Hyjek,Atlético de Madryt Młodzież A (U19),False,,,bez odstępnego
97,Piast Gliwice,Maksym Gendera,Piast Gliwice II,False,,,-
98,Piast Gliwice,Wiktor Preuss,Piast Gliwice II,False,,,-
...,...,...,...,...,...,...,...
29913,Umm Salal SC,Mohammed Kasola,Al-Mesaimeer Sports Club,False,,,?
29914,Umm Salal SC,Raúl Becerra,Bez Klubu,True,,,-
29915,Umm Salal SC,Yannick Sagbo,Bez Klubu,True,,,-
29916,Umm Salal SC,Walid Mesloub,,False,,,-


### Wyznaczenie zbioru obserwacji do usunięcia
### Usunięcie zbioru obserwacji odstających

In [5]:
transfers_to_remove = transfer_df[rows_has_nan].loc[transfer_df['PlayerWithoutClub'] == False]
display(transfers_to_remove)

transfer_df.drop(transfers_to_remove.index.tolist(), inplace=True)

display(transfer_df)

Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub
94,Piast Gliwice,1.liga,Polska,Javier Hyjek,19,Środkowy pomocnik,ŚPM,Polska,bez odstępnego,Nabytki,100 tys. €,Atlético de Madryt Młodzież A (U19),,,bez odstępnego,False
97,Piast Gliwice,1.liga,Polska,Maksym Gendera,20,Prawy obrońca,POB,Polska,-,Nabytki,50 tys. €,Piast Gliwice II,,,-,False
98,Piast Gliwice,1.liga,Polska,Wiktor Preuss,18,Prawy napastnik,PNP,Polska,-,Nabytki,-,Piast Gliwice II,,,-,False
99,Piast Gliwice,1.liga,Polska,Michal Zachcial,21,Pomocnik,Pomocnik,Polska,-,Nabytki,-,Piast Gliwice II,,,-,False
102,Piast Gliwice,1.liga,Polska,Pawel Rabin,19,Bramkarz,BRK,Polska,koniec wypżyczenia31 gru 2020,Nabytki,-,Stal Kraśnik,,,koniec wypżyczenia31 gru 2020,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29906,Umm Salal SC,1.liga,Katar,Abdulaziz Al-Yahri,30,Prawy napastnik,PNP,Katar,?,Odejścia,50 tys. €,Al-Shahania SC,,,?,False
29908,Umm Salal SC,1.liga,Katar,Dheyab Al-Annabi,30,Środkowy pomocnik,ŚPM,Katar,?,Odejścia,25 tys. €,Al-Shahania SC,,,?,False
29909,Umm Salal SC,1.liga,Katar,Abdulla Kamal,24,Środkowy napastnik,ŚNP,Katar,?,Odejścia,25 tys. €,Al-Kharitiyath SC,,,?,False
29913,Umm Salal SC,1.liga,Katar,Mohammed Kasola,34,Defensywny pomocnik,DPM,Katar,?,Odejścia,75 tys. €,Al-Mesaimeer Sports Club,,,?,False


Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub
1,Legia Warszawa,1.liga,Polska,Ernest Muci,19,Środkowy napastnik,ŚNP,Albania,500 tys. €,Nabytki,"1,00 mln €",KF Tirana,1.liga,Albania,500 tys. €,False
2,Legia Warszawa,1.liga,Polska,Josip Juranovic,24,Prawy obrońca,POB,Chorwacja,400 tys. €,Nabytki,"2,50 mln €",HNK Hajduk Split,1.liga,Chorwacja,400 tys. €,False
3,Legia Warszawa,1.liga,Polska,Jasur Yakhshiboev,23,Prawy napastnik,PNP,Uzbekistan,300 tys. €,Nabytki,700 tys. €,Pakhtakor Tashkent,1.liga,Uzbekistan,300 tys. €,False
4,Legia Warszawa,1.liga,Polska,Rafa Lopes,29,Środkowy napastnik,ŚNP,Portugalia,150 tys. €,Nabytki,500 tys. €,Cracovia,1.liga,Polska,150 tys. €,False
5,Legia Warszawa,1.liga,Polska,Bartosz Kapustka,23,Ofensywny pomocnik,OPM,Polska,bez odstępnego,Nabytki,"1,50 mln €",Leicester City,1.liga,Anglia,bez odstępnego,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29919,Umm Salal SC,1.liga,Katar,Jasser Yahya,27,Środkowy pomocnik,ŚPM,Katar,koniec wypżyczenia30 cze 2020,Odejścia,175 tys. €,Al-Arabi SC,1.liga,Katar,koniec wypżyczenia30 cze 2020,False
29920,Umm Salal SC,1.liga,Katar,Fadl Omar,30,Środkowy pomocnik,ŚPM,Katar,koniec wypżyczenia31 sie 2020,Odejścia,25 tys. €,Qatar SC,1.liga,Katar,koniec wypżyczenia31 sie 2020,False
29921,Umm Salal SC,1.liga,Katar,Fahad Khalfan,28,Środkowy napastnik,ŚNP,Katar,koniec wypżyczenia31 sie 2020,Odejścia,125 tys. €,Al-Arabi SC,1.liga,Katar,koniec wypżyczenia31 sie 2020,False
29922,Umm Salal SC,1.liga,Katar,Murad Naji,29,Prawy obrońca,POB,Katar,koniec wypżyczenia30 cze 2020,Odejścia,250 tys. €,Al-Duhail SC,1.liga,Katar,koniec wypżyczenia30 cze 2020,False


### Spośród pozostałych wierszy zawierających wartości nieokreślone wszystkie posiadają dla kolumny 'PlayerWithoutClub' wartość True
### Wiersze te nie zostaną usunięte, dlatego też należy usunąć z nich wartości NaN i zastąpić je pustym ciągiem znaków

In [6]:
display(transfer_df[rows_has_nan][["Club", "Player", "ClubAssigned", "PlayerWithoutClub", "ClubAssignedLeagueLevel", "ClubAssignedLeagueNationality", "TransferValue"]])

transfer_df.fillna('', inplace=True)

  display(transfer_df[rows_has_nan][["Club", "Player", "ClubAssigned", "PlayerWithoutClub", "ClubAssignedLeagueLevel", "ClubAssignedLeagueNationality", "TransferValue"]])


Unnamed: 0,Club,Player,ClubAssigned,PlayerWithoutClub,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue
36,Legia Warszawa,Dominik Nagy,Bez Klubu,True,,,-
37,Legia Warszawa,William Rémy,Bez Klubu,True,,,-
100,Piast Gliwice,Michal Chrapek,Bez Klubu,True,,,-
186,Śląsk Wrocław,Filip Markovic,Bez Klubu,True,,,-
187,Śląsk Wrocław,Michal Chrapek,Bez Klubu,True,,,-
...,...,...,...,...,...,...,...
29874,Qatar SC,Nasser El Khayati,Bez Klubu,True,,,-
29907,Umm Salal SC,Saleh Al-Kaany,Bez Klubu,True,,,?
29914,Umm Salal SC,Raúl Becerra,Bez Klubu,True,,,-
29915,Umm Salal SC,Yannick Sagbo,Bez Klubu,True,,,-


### Jak możemy zauważyć, po wykonaniu powyższej czynności w zbiorze danych nie występują już żadne wartości nieokreślone

In [7]:
transfer_df[transfer_df.isna().any(axis=1)]

Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub


### Wyczyszczenie danych z kolumn 'ClubLeagueLevel' oraz 'ClubAssignedLeagueLevel'
### Dla ligi młodzieżowej oraz rezerw klubowych założono najniższy (8smy) poziom rozgrywkowy, natomiast dla zawodników bez klubu przyjęto poziom ligi jako 0

In [8]:
transfer_df["ClubLeagueLevel"] = transfer_df['ClubLeagueLevel'].map(lambda x: x[0])
display(transfer_df['ClubLeagueLevel'].value_counts())

transfer_df["ClubAssignedLeagueLevel"].replace({"ieżowa": "8.liga", "onship": "2.liga", "rezerw": "8.liga", "": "0.liga"}, inplace=True)
transfer_df["ClubAssignedLeagueLevel"] = transfer_df['ClubAssignedLeagueLevel'].map(lambda x: x[0])
display(transfer_df['ClubAssignedLeagueLevel'].value_counts())

transfer_df['ClubLeagueLevel'] = transfer_df['ClubLeagueLevel'].astype("int64")
transfer_df['ClubAssignedLeagueLevel'] = transfer_df['ClubAssignedLeagueLevel'].astype("int64")

transfer_df.info()

1    25672
Name: ClubLeagueLevel, dtype: int64

1    13646
2     6889
3     1976
0     1555
4      885
8      665
5       46
6       10
Name: ClubAssignedLeagueLevel, dtype: int64

<class 'pandas.core.frame.DataFrame'>
Int64Index: 25672 entries, 1 to 29923
Data columns (total 16 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   Club                           25672 non-null  object
 1   ClubLeagueLevel                25672 non-null  int64 
 2   ClubLeagueNationality          25672 non-null  object
 3   Player                         25672 non-null  object
 4   PlayerAge                      25672 non-null  object
 5   PlayerPosition                 25672 non-null  object
 6   PlayerPositionScut             25672 non-null  object
 7   PlayerNationality              25672 non-null  object
 8   Operation                      25672 non-null  object
 9   Bought/Sold                    25672 non-null  object
 10  PlayerMarketValue              25672 non-null  object
 11  ClubAssigned                   25672 non-null  object
 12  ClubAssignedLeagueLevel        25672 non-null  int64 
 13  C

### Wyświetlenie zgrupowanych wartości dla kolumn w celu określenia, w jaki sposób powinny być czyszczone

In [9]:
display(transfer_df['ClubLeagueNationality'].value_counts())         # nie wymaga czyszczenia
display(transfer_df['PlayerAge'].value_counts())                     # nie wymaga czyszczenia
display(transfer_df['PlayerPosition'].value_counts())                # nie wymaga czyszczenia (stworzenie dodatkowej kolumny danych określających pozycję ogólną - Pomocnik, Napastnik, Obrońca, Bramkarz
display(transfer_df['PlayerNationality'].value_counts())             # nie wymaga czyszczenia
display(transfer_df['Operation'].value_counts())                     # wymaga czyszczenia (usunięcie danych niepoprawnych oraz modyfikacja formatu numerycznego, usunięcie wierszy dla wartości '?'
display(transfer_df['Bought/Sold'].value_counts())                   # zmiana wartości 'nabytki' na 'kupiony' oraz 'odejścia' na 'sprzedany'
display(transfer_df['PlayerMarketValue'].value_counts())             # modyfikacja danych do wartości liczbowych
display(transfer_df['ClubAssignedLeagueNationality'].value_counts()) # nie wymaga czyszczenia
display(transfer_df['TransferValue'].value_counts())                 # analogicznie do kolumny 'Operation'

Turcja               2364
Włochy               1956
Argentyna            1776
Brazylia             1760
Stany Zjednaczone    1576
Serbia               1536
Austria              1516
Portugalia           1456
Anglia               1370
Hiszpania            1328
Belgia               1270
Holandia             1220
Rosja                1192
Polska               1156
Szkocja               924
Chiny                 816
Ukraina               732
Szwajcaria            622
Francja               590
Katar                 512
Name: ClubLeagueNationality, dtype: int64

23    2512
21    2353
22    2323
24    2113
26    1927
25    1894
20    1891
27    1589
29    1413
28    1401
19    1281
30     988
31     869
32     692
18     619
33     589
34     386
35     255
17     231
36     130
37      76
16      70
38      48
39      10
40       8
15       4
Name: PlayerAge, dtype: int64

Środkowy napastnik     4297
Środkowy obrońca       4012
Środkowy pomocnik      2703
Bramkarz               2159
Prawy napastnik        2001
Lewy napastnik         1997
Defensywny pomocnik    1965
Lewy obrońca           1940
Prawy obrońca          1896
Ofensywny pomocnik     1823
Lewy pomocnik           281
Prawy pomocnik          276
Cofnięty napastnik      196
Pomocnik                 68
Obrońca                  30
Napastnik                28
Name: PlayerPosition, dtype: int64

Brazylia            2528
Argentyna           1910
Serbia              1551
Turcja              1502
Włochy              1077
                    ... 
Wietnam                2
Uganda                 2
Kuba                   2
Zambia                 2
Gujana Francuska       1
Name: PlayerNationality, Length: 145, dtype: int64

bez odstępnego                   6574
wypożyczenie                     6039
-                                2498
?                                1409
koniec wypżyczenia30 cze 2020    1352
                                 ... 
3,60 mln €                          2
10,50 mln €                         2
8,48 mln €                          2
2,90 mln €                          1
3,40 mln €                          1
Name: Operation, Length: 636, dtype: int64

Odejścia    13506
Nabytki     12166
Name: Bought/Sold, dtype: int64

200 tys. €     1506
300 tys. €     1381
400 tys. €     1234
100 tys. €     1195
250 tys. €     1164
               ... 
55,00 mln €       2
80,00 mln €       2
3,40 mln €        2
825 tys. €        2
9,50 mln €        2
Name: PlayerMarketValue, Length: 123, dtype: int64

Turcja               1933
Włochy               1927
Anglia               1673
Brazylia             1624
                     1555
                     ... 
Mozambik                2
Singapur                2
Bangladesz              2
Panama                  2
Irlandia Północna       2
Name: ClubAssignedLeagueNationality, Length: 89, dtype: int64

bez odstępnego                   6574
wypożyczenie                     6039
-                                2498
?                                1409
koniec wypżyczenia30 cze 2020    1352
                                 ... 
3,60 mln €                          2
10,50 mln €                         2
8,48 mln €                          2
2,90 mln €                          1
3,40 mln €                          1
Name: TransferValue, Length: 636, dtype: int64

### Stworzenie dodatkowych kolumn określających ogólną pozycję zawodnika oraz przedział wiekowy

In [11]:
def get_player_age_group(age):
    if 15 <= age < 16:
        return 'Junior młodszy'
    elif 16 <= age < 17:
        return 'Junior starszy'
    elif 17 <= age < 22:
        return 'Młody'
    elif 22 <= age < 30:
        return 'W sile wieku'
    elif 30 <= age < 37:
        return 'Doświadczony'
    elif 37 <= age < 42:
        return 'Zbliżający się do końca kariery'
    elif age >= 42:
        return 'Oldboy'
    else:
        return 'Inny'

transfer_df['PlayerGenericPosition'] = transfer_df['PlayerPosition'].map(lambda x: x.split(' ')[-1].capitalize())
transfer_df['PlayerAgeGroup'] = transfer_df['PlayerAge'].map(lambda x: get_player_age_group(int(x)))

display(transfer_df[['PlayerPosition', 'PlayerGenericPosition', 'PlayerAge', 'PlayerAgeGroup']])

Unnamed: 0,PlayerPosition,PlayerGenericPosition,PlayerAge,PlayerAgeGroup
1,Środkowy napastnik,Napastnik,19,Młody
2,Prawy obrońca,Obrońca,24,W sile wieku
3,Prawy napastnik,Napastnik,23,W sile wieku
4,Środkowy napastnik,Napastnik,29,W sile wieku
5,Ofensywny pomocnik,Pomocnik,23,W sile wieku
...,...,...,...,...
29919,Środkowy pomocnik,Pomocnik,27,W sile wieku
29920,Środkowy pomocnik,Pomocnik,30,Doświadczony
29921,Środkowy napastnik,Napastnik,28,W sile wieku
29922,Prawy obrońca,Obrońca,29,W sile wieku


### Wyczyszczenie danych z kolumny 'Operation'

In [12]:
transfer_df["Operation"].replace({"bez odstępnego": "Transfer", "-": "Transfer", "wypożyczenie": "Wypożyczenie", "draft": "Transfer"}, inplace=True)
transfer_df["Operation"].replace(["^koniec wypżyczenia[0-9]{1,2}[ ][a-ź]{3}[ ][0-9]{4}$"], ["Wypożyczenie"], regex=True, inplace=True)
transfer_df["Operation"].replace(["^opłata za wypożyczenie:.*$"], ["Wypożyczenie"], regex=True, inplace=True)
transfer_df["Operation"].replace(["^.*€$"], ["Transfer"], regex=True, inplace=True)

transfer_df = transfer_df[transfer_df["Operation"] != "?"]

transfer_df["Operation"].value_counts()

Wypożyczenie    12194
Transfer        12069
Name: Operation, dtype: int64

### Wyczyszczenie danych z kolumny 'Bought/Sold'

In [13]:
transfer_df["Bought/Sold"].replace({"Odejścia": "Sprzedany", "Nabytki": "Kupiony"}, inplace=True)
transfer_df['Bought/Sold'].value_counts()

Sprzedany    12784
Kupiony      11479
Name: Bought/Sold, dtype: int64

In [14]:
def human_readable_to_numeric(value):
    if value == 0:
        return 0
    elements = value.split(" ")
    base = float(elements[0].replace(',', '.'))
    if elements[1] == "mln":
        times = 1000000
    elif elements[1] == "tys.":
        times = 1000
    else:
        times = 1

    return base * times



transfer_df["PlayerMarketValue"].replace({"-": 0}, inplace=True)
transfer_df["PlayerMarketValue"] = transfer_df["PlayerMarketValue"].map(lambda x: human_readable_to_numeric(x))
transfer_df['PlayerMarketValue'] = transfer_df['PlayerMarketValue'].astype("int64")

display(transfer_df['PlayerMarketValue'].value_counts())

200000      1422
300000      1280
100000      1133
400000      1133
250000      1077
            ... 
55000000       2
80000000       2
3400000        2
9500000        2
825000         2
Name: PlayerMarketValue, Length: 123, dtype: int64

### Wyczyszczenie danych z kolumny 'TransferValue'

In [16]:
def remove_text_about_loan_fee(value):
    if value == 0:
        return 0

    elements = value.split("opłata za wypożyczenie:")
    return elements[-1]


transfer_df["TransferValue"].replace({"bez odstępnego": 0, "-": 0, "wypożyczenie": 0, "draft": 0, "": 0}, inplace=True)
transfer_df["TransferValue"].replace(["^koniec wypżyczenia[0-9]{1,2}[ ][a-ź]{3}[ ][0-9]{4}$"], [0], regex=True, inplace=True)
transfer_df["TransferValue"] = transfer_df["TransferValue"].map(lambda x: remove_text_about_loan_fee(x))
transfer_df["TransferValue"] = transfer_df["TransferValue"].map(lambda x: human_readable_to_numeric(x))

transfer_df = transfer_df[transfer_df["TransferValue"] != "?"]

transfer_df['TransferValue'] = transfer_df['TransferValue'].astype("int64")

transfer_df["TransferValue"].value_counts()

0           20763
500000        188
1000000       156
2000000       139
1500000       121
            ...  
10500000        2
8480000         2
1020000         2
3400000         1
2900000         1
Name: TransferValue, Length: 367, dtype: int64

### Uzyskanie listy duplikatów oraz ich usunięcie

In [17]:
display(transfer_df[transfer_df.duplicated()])
transfer_df.drop_duplicates(keep='first', inplace=True)
display(transfer_df[transfer_df.duplicated()])

Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub,PlayerGenericPosition,PlayerAgeGroup
89,Lech Poznań,1,Polska,Bogdan Butko,29,Prawy obrońca,POB,Ukraina,Wypożyczenie,Sprzedany,500000,Szachtar Donieck,1,Ukraina,0,False,Obrońca,W sile wieku
1030,Manchester City,1,Anglia,Patrick Roberts,23,Prawy napastnik,PNP,Anglia,Wypożyczenie,Kupiony,2000000,FC Middlesbrough,2,Anglia,0,False,Napastnik,W sile wieku
1180,FC Southampton,1,Anglia,Josh Sims,23,Prawy napastnik,PNP,Anglia,Wypożyczenie,Sprzedany,900000,Doncaster Rovers,3,Anglia,0,False,Napastnik,W sile wieku
4080,SK Sturm Graz,1,Austria,Kelvin Yeboah,20,Środkowy napastnik,ŚNP,Włochy,Transfer,Kupiony,3500000,WSG Tirol,1,Austria,550000,False,Napastnik,Młody
4081,SK Sturm Graz,1,Austria,Gregory Wüthrich,25,Środkowy obrońca,ŚOB,Szwajcaria,Transfer,Kupiony,1500000,Perth Glory,1,Australia,0,False,Obrońca,W sile wieku
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29919,Umm Salal SC,1,Katar,Jasser Yahya,27,Środkowy pomocnik,ŚPM,Katar,Wypożyczenie,Sprzedany,175000,Al-Arabi SC,1,Katar,0,False,Pomocnik,W sile wieku
29920,Umm Salal SC,1,Katar,Fadl Omar,30,Środkowy pomocnik,ŚPM,Katar,Wypożyczenie,Sprzedany,25000,Qatar SC,1,Katar,0,False,Pomocnik,Doświadczony
29921,Umm Salal SC,1,Katar,Fahad Khalfan,28,Środkowy napastnik,ŚNP,Katar,Wypożyczenie,Sprzedany,125000,Al-Arabi SC,1,Katar,0,False,Napastnik,W sile wieku
29922,Umm Salal SC,1,Katar,Murad Naji,29,Prawy obrońca,POB,Katar,Wypożyczenie,Sprzedany,250000,Al-Duhail SC,1,Katar,0,False,Obrońca,W sile wieku


Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub,PlayerGenericPosition,PlayerAgeGroup


### Zapisanie wyczyszczonego zbioru danych do pliku csv

In [18]:
transfer_df.to_csv('csv/transfers-data-frame-cleared.csv', encoding='utf-8')