# Analiza sportowa - Czyszczenie danych oraz ich przygotowanie do analizy
## Projekt realizowany w ramach przedmiotu: Metody Przetwarzania Dużych Ilości Danych
### Grupa projektowa:
+  Filip Kozak
+  Maciej Grzela
+  Paweł Owczarek
+  Szymon Tusznio

## W ramach niniejszego etapu przeprowadzone zostaną następujące operacje:
+ ### Wczytanie danych z pliku CSV
+ ### Usunięcie wpisów niepoprawnych z punktu widzenia typu danych
+ ### Usunięcie wpisów niepoprawnych z punktu widzenia wiedzy dziedzinowej
+ ### Modyfikacja formatu przechowywania wartości liczbowych
+ ### Wyliczenie wartości dla danych pustych

### Zaimportowanie wykorzystywanych bibliotek oraz konfiguracja wyświetlania zbiorów danych dla biblioteki Pandas

In [880]:
import pandas as pd
import numpy as np
from IPython.display import display, HTML
from datetime import datetime

pd.set_option('display.max_columns', None)
pd.set_option('display.width', 320)
pd.reset_option("display.max_rows")

# pd.set_option("display.max_rows", None)           # Wyświetlenie wszystkich wierszy dla tabel / spowalnia działanie
css = """
.output {
    flex-direction: row;
}
"""
HTML('<style>{}</style>'.format(css))

### Wczytanie danych z pliku csv oraz zapisanie ich do struktury DataFrame dostępnej w ramach biblioteki Pandas
### Sprawdzenie dla jakich kolumn występują wartości nieokreślone

In [881]:
transfer_df = pd.read_csv(
    'csv/transfers-data-frame.csv',
    sep=',',
    header=0,
    index_col=0,
    parse_dates=['TransferDate']
)

display(transfer_df)
display(pd.isnull(transfer_df).sum())

Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerHeight,TransferDate,PlayerMatchesPlayed,PlayerGoals,PlayerAssists,PlayerOwnGoals,PlayerSubstitutionIn,PlayerSubstitutionOut,PlayerYellowCards,PlayerSecondYellowCards,PlayerRedCards,PlayerMinutesPlayed,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue
0,Legia Warszawa,1.liga,Polska,Ernest Muci,19,1.80,23 lut 2021,94,24,6,0,41,26,6,0,0,5.004',Środkowy napastnik,ŚNP,Albania,500 tys. €,Nabytki,"1,00 mln €",KF Tirana,1.liga,Albania,500 tys. €
1,Legia Warszawa,1.liga,Polska,Josip Juranovic,24,1.73,21 sie 2021,224,8,23,3,23,12,18,0,1,18.428',Prawy obrońca,POB,Chorwacja,400 tys. €,Nabytki,"2,50 mln €",HNK Hajduk Split,1.liga,Chorwacja,400 tys. €
2,Legia Warszawa,1.liga,Polska,Jasur Yakhshiboev,23,1.80,30 sie 2021,103,23,13,0,50,31,14,0,0,5.086',Prawy napastnik,PNP,Uzbekistan,300 tys. €,Nabytki,700 tys. €,Pakhtakor Tashkent,1.liga,Uzbekistan,300 tys. €
3,Legia Warszawa,1.liga,Polska,Rafa Lopes,29,1.85,1 sie 2020,375,75,19,1,123,120,41,0,1,23.321',Ofensywny pomocnik,OPM,Portugalia,150 tys. €,Nabytki,500 tys. €,Cracovia,1.liga,Polska,150 tys. €
4,Legia Warszawa,1.liga,Polska,Bartosz Kapustka,23,1.79,13 sie 2020,151,20,19,0,36,54,25,0,1,10.003',Ofensywny pomocnik,OPM,Polska,bez odstępnego,Nabytki,"1,50 mln €",Leicester City,1.liga,Anglia,bez odstępnego
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1261,Warta Poznań,1.liga,Polska,Szymon Piekarski,21,,20 lip 2021,103,18,4,0,10,52,17,1,0,7.866',Środkowy pomocnik,ŚPM,Polska,wypożyczenie,Odejścia,-,Jarota Jarocin,4.liga,Polska,wypożyczenie
1262,Warta Poznań,1.liga,Polska,Filip Malek,19,1.89,1 cze 2020,7,0,0,0,1,1,0,0,0,545',Środkowy obrońca,ŚOB,Polska,wypożyczenie,Odejścia,50 tys. €,Unia Swarzędz,,,wypożyczenie
1263,Warta Poznań,1.liga,Polska,Krzysztof Danielewicz,29,1.82,7 lip 2021,257,33,32,1,61,78,51,2,0,17.173',Ofensywny pomocnik,OPM,Polska,koniec wypżyczenia31 lip 2020,Odejścia,-,Miedź Legnica,2.liga,Polska,koniec wypżyczenia31 lip 2020
1264,Warta Poznań,1.liga,Polska,Jakub Apolinarski,21,1.76,0,118,15,3,0,34,50,17,0,0,7.267',Prawy pomocnik,PPM,Polska,koniec wypżyczenia30 cze 2020,Odejścia,175 tys. €,Raków Częstochowa,1.liga,Polska,koniec wypżyczenia30 cze 2020


Club                               0
ClubLeagueLevel                    0
ClubLeagueNationality              0
Player                             0
PlayerAge                          0
PlayerHeight                      26
TransferDate                      68
PlayerMatchesPlayed                0
PlayerGoals                        0
PlayerAssists                      0
PlayerOwnGoals                     0
PlayerSubstitutionIn               0
PlayerSubstitutionOut              0
PlayerYellowCards                  0
PlayerSecondYellowCards            0
PlayerRedCards                     0
PlayerMinutesPlayed                0
PlayerPosition                     0
PlayerPositionScut                 0
PlayerNationality                  0
Operation                          0
Bought/Sold                        0
PlayerMarketValue                  0
ClubAssigned                       8
ClubAssignedLeagueLevel          152
ClubAssignedLeagueNationality    152
TransferValue                      0
d

### Wyświetlenie wierszy dla których występują wartości nieokreślone

In [882]:
is_nan = transfer_df.isna()
rows_has_nan = is_nan.any(axis=1)
transfer_df[rows_has_nan][["Club", "Player", "PlayerHeight", "TransferDate", "ClubAssigned", "ClubAssignedLeagueLevel", "ClubAssignedLeagueNationality", "TransferValue"]]

Unnamed: 0,Club,Player,PlayerHeight,TransferDate,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue
35,Legia Warszawa,Dominik Nagy,1.74,20 sty 2021,Bez klubuBez klubu,,,-
36,Legia Warszawa,William Rémy,1.86,,Bez klubuBez klubu,,,-
43,Lech Poznań,Aron Jóhannsson,1.84,,Hammarby IF,1.liga,Szwecja,bez odstępnego
59,Lech Poznań,Bogdan Butko,1.82,,Szachtar Donieck,1.liga,Ukraina,wypożyczenie
85,Lech Poznań,Bogdan Butko,1.82,,Szachtar Donieck,1.liga,Ukraina,koniec wypżyczenia4 sty 2021
...,...,...,...,...,...,...,...,...
1254,Warta Poznań,Adrian Chopcia,1.78,1 lip 2020,Victoria Wrzesnia,,,bez odstępnego
1259,Warta Poznań,Kajetan Szmyt,1.71,26 lip 2021,Nielba Wągrowiec,,,wypożyczenie
1260,Warta Poznań,Mateusz Szczepaniak,1.84,,,,,-
1261,Warta Poznań,Szymon Piekarski,,20 lip 2021,Jarota Jarocin,4.liga,Polska,wypożyczenie


### Wnioskując na podstawie wierszy zawierających wartości nieokreślone możemy zauważyć, że przeprowadzane transfery dotyczą:
+ ### Przenosin zawodnika do drużyny rezerw/drużyny młodzieżowej/szkółki piłkarskiej
+ ### Przenosin zawodnika do drużyny na poziomie rozgrywkowym nieuwzględnianym w ramach grupy poziomów rozgrywkowych futbolu profesjonalnego
+ ### Dyskwalifikacji/pauzy zawodnika
+ ### Przenosin zawodnika do klubu piłkarskiego, którego dane nie zostały wprowadzone
+ ### Zakończenia współpracy pomiędzy zawodnikiem a klubem

### Obserwacje spełniające jedno z czterech pierwszych kryteriów powyższej listy możemy uznać jako obserwacje odstające. Wiersze te, zostaną usunięte ze zbioru danych.
### Obserwacje spełniające piąte kryterium należy uznać jako poprawne. Aby uwzględnić przypadek zakończenia współpracy pomiędzy zawodnikiem a klubem należy stworzyć nową kolumnę wartości True/False

### Zdefiniowanie kolumny 'PlayerWithoutClub' przyjmującej wartość true dla zawodników bez klubu po transferze
### Wyczyszczenie wartości dla kolumny 'ClubAssigned'

In [883]:
without_club_label = "Bez Klubu"

transfer_df["ClubAssigned"].replace({"Bez klubuBez klubu": without_club_label}, inplace=True)
transfer_df['PlayerWithoutClub'] = transfer_df['ClubAssigned'].map(lambda x: x == True if without_club_label else False)

transfer_df[rows_has_nan][["Club", "Player", "PlayerHeight", "TransferDate", "ClubAssigned", "ClubAssignedLeagueLevel", "ClubAssignedLeagueNationality", "TransferValue"]]

Unnamed: 0,Club,Player,PlayerHeight,TransferDate,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue
35,Legia Warszawa,Dominik Nagy,1.74,20 sty 2021,Bez Klubu,,,-
36,Legia Warszawa,William Rémy,1.86,,Bez Klubu,,,-
43,Lech Poznań,Aron Jóhannsson,1.84,,Hammarby IF,1.liga,Szwecja,bez odstępnego
59,Lech Poznań,Bogdan Butko,1.82,,Szachtar Donieck,1.liga,Ukraina,wypożyczenie
85,Lech Poznań,Bogdan Butko,1.82,,Szachtar Donieck,1.liga,Ukraina,koniec wypżyczenia4 sty 2021
...,...,...,...,...,...,...,...,...
1254,Warta Poznań,Adrian Chopcia,1.78,1 lip 2020,Victoria Wrzesnia,,,bez odstępnego
1259,Warta Poznań,Kajetan Szmyt,1.71,26 lip 2021,Nielba Wągrowiec,,,wypożyczenie
1260,Warta Poznań,Mateusz Szczepaniak,1.84,,,,,-
1261,Warta Poznań,Szymon Piekarski,,20 lip 2021,Jarota Jarocin,4.liga,Polska,wypożyczenie


In [884]:
nans_with_club = transfer_df[rows_has_nan].loc[transfer_df['PlayerWithoutClub'] == False]
nans_with_height = transfer_df[rows_has_nan].loc[transfer_df['PlayerHeight'] == np.nan]
nans_with_date = transfer_df[rows_has_nan].loc[transfer_df['TransferDate'] == np.nan]

nans_for_height_or_date = pd.merge(nans_with_height, nans_with_date, how='inner')

transfer_df.drop(nans_with_club.index.tolist(), inplace=True)
transfer_df.drop(nans_for_height_or_date.index.tolist(), inplace=True)

display(transfer_df)

Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerHeight,TransferDate,PlayerMatchesPlayed,PlayerGoals,PlayerAssists,PlayerOwnGoals,PlayerSubstitutionIn,PlayerSubstitutionOut,PlayerYellowCards,PlayerSecondYellowCards,PlayerRedCards,PlayerMinutesPlayed,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub
0,Legia Warszawa,1.liga,Polska,Ernest Muci,19,1.80,23 lut 2021,94,24,6,0,41,26,6,0,0,5.004',Środkowy napastnik,ŚNP,Albania,500 tys. €,Nabytki,"1,00 mln €",KF Tirana,1.liga,Albania,500 tys. €,False
1,Legia Warszawa,1.liga,Polska,Josip Juranovic,24,1.73,21 sie 2021,224,8,23,3,23,12,18,0,1,18.428',Prawy obrońca,POB,Chorwacja,400 tys. €,Nabytki,"2,50 mln €",HNK Hajduk Split,1.liga,Chorwacja,400 tys. €,False
2,Legia Warszawa,1.liga,Polska,Jasur Yakhshiboev,23,1.80,30 sie 2021,103,23,13,0,50,31,14,0,0,5.086',Prawy napastnik,PNP,Uzbekistan,300 tys. €,Nabytki,700 tys. €,Pakhtakor Tashkent,1.liga,Uzbekistan,300 tys. €,False
3,Legia Warszawa,1.liga,Polska,Rafa Lopes,29,1.85,1 sie 2020,375,75,19,1,123,120,41,0,1,23.321',Ofensywny pomocnik,OPM,Portugalia,150 tys. €,Nabytki,500 tys. €,Cracovia,1.liga,Polska,150 tys. €,False
4,Legia Warszawa,1.liga,Polska,Bartosz Kapustka,23,1.79,13 sie 2020,151,20,19,0,36,54,25,0,1,10.003',Ofensywny pomocnik,OPM,Polska,bez odstępnego,Nabytki,"1,50 mln €",Leicester City,1.liga,Anglia,bez odstępnego,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1257,Warta Poznań,1.liga,Polska,Dominik Smykowski,19,1.80,28 lip 2021,21,1,0,0,16,5,1,0,0,538',Prawy napastnik,PNP,Polska,wypożyczenie,Odejścia,-,Skra Częstochowa,2.liga,Polska,wypożyczenie,False
1258,Warta Poznań,1.liga,Polska,Sebastian Olszewski,19,1.82,1 lip 2021,89,1,1,0,37,13,21,0,0,5.078',Prawy pomocnik,PPM,Polska,wypożyczenie,Odejścia,-,Hutnik Kraków,3.liga,Polska,wypożyczenie,False
1263,Warta Poznań,1.liga,Polska,Krzysztof Danielewicz,29,1.82,7 lip 2021,257,33,32,1,61,78,51,2,0,17.173',Ofensywny pomocnik,OPM,Polska,koniec wypżyczenia31 lip 2020,Odejścia,-,Miedź Legnica,2.liga,Polska,koniec wypżyczenia31 lip 2020,False
1264,Warta Poznań,1.liga,Polska,Jakub Apolinarski,21,1.76,0,118,15,3,0,34,50,17,0,0,7.267',Prawy pomocnik,PPM,Polska,koniec wypżyczenia30 cze 2020,Odejścia,175 tys. €,Raków Częstochowa,1.liga,Polska,koniec wypżyczenia30 cze 2020,False


### Spośród pozostałych wierszy zawierających wartości nieokreślone wszystkie posiadają dla kolumny 'PlayerWithoutClub' wartość True
### Wiersze te nie zostaną usunięte, dlatego też należy usunąć z nich wartości NaN i zastąpić je pustym ciągiem znaków

In [885]:
transfer_df.fillna('', inplace=True)

### Jak możemy zauważyć, po wykonaniu powyższej czynności w zbiorze danych nie występują już żadne wartości nieokreślone

In [886]:
transfer_df[transfer_df.isna().any(axis=1)]

Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerHeight,TransferDate,PlayerMatchesPlayed,PlayerGoals,PlayerAssists,PlayerOwnGoals,PlayerSubstitutionIn,PlayerSubstitutionOut,PlayerYellowCards,PlayerSecondYellowCards,PlayerRedCards,PlayerMinutesPlayed,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub


### Wyczyszczenie danych z kolumn 'ClubLeagueLevel' oraz 'ClubAssignedLeagueLevel'
### Dla ligi młodzieżowej oraz rezerw klubowych założono najniższy (8smy) poziom rozgrywkowy, natomiast dla zawodników bez klubu przyjęto poziom ligi jako 0

In [887]:
transfer_df["ClubLeagueLevel"] = transfer_df['ClubLeagueLevel'].map(lambda x: x[0])
display(transfer_df['ClubLeagueLevel'].value_counts())

transfer_df["ClubAssignedLeagueLevel"].replace({"ieżowa": "8.liga", "onship": "2.liga", "rezerw": "8.liga", "": "0.liga"}, inplace=True)
transfer_df["ClubAssignedLeagueLevel"] = transfer_df['ClubAssignedLeagueLevel'].map(lambda x: x[0])
display(transfer_df['ClubAssignedLeagueLevel'].value_counts())

transfer_df['ClubLeagueLevel'] = transfer_df['ClubLeagueLevel'].astype("int64")
transfer_df['ClubAssignedLeagueLevel'] = transfer_df['ClubAssignedLeagueLevel'].astype("int64")

transfer_df.info()

1    1052
Name: ClubLeagueLevel, dtype: int64

1    450
2    328
3    130
4    114
8     30
Name: ClubAssignedLeagueLevel, dtype: int64

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1052 entries, 0 to 1265
Data columns (total 28 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Club                           1052 non-null   object 
 1   ClubLeagueLevel                1052 non-null   int64  
 2   ClubLeagueNationality          1052 non-null   object 
 3   Player                         1052 non-null   object 
 4   PlayerAge                      1052 non-null   int64  
 5   PlayerHeight                   1052 non-null   float64
 6   TransferDate                   1052 non-null   object 
 7   PlayerMatchesPlayed            1052 non-null   int64  
 8   PlayerGoals                    1052 non-null   int64  
 9   PlayerAssists                  1052 non-null   int64  
 10  PlayerOwnGoals                 1052 non-null   int64  
 11  PlayerSubstitutionIn           1052 non-null   int64  
 12  PlayerSubstitutionOut          1052 non-null   i

### Wyświetlenie zgrupowanych wartości dla kolumn w celu określenia, w jaki sposób powinny być czyszczone

In [888]:
display(transfer_df['ClubLeagueNationality'].value_counts())         # nie wymaga czyszczenia
display(transfer_df['PlayerAge'].value_counts())                     # nie wymaga czyszczenia
display(transfer_df['PlayerHeight'].value_counts())                  # nie wymaga czyszczenia
display(transfer_df['TransferDate'].value_counts())                  # usunięcie wierszy dla wartości zero / konwersja daty
display(transfer_df['PlayerMatchesPlayed'].value_counts())           # nie wymaga czyszczenia
display(transfer_df['PlayerGoals'].value_counts())                   # nie wymaga czyszczenia
display(transfer_df['PlayerAssists'].value_counts())                 # nie wymaga czyszczenia
display(transfer_df['PlayerOwnGoals'].value_counts())                # nie wymaga czyszczenia
display(transfer_df['PlayerSubstitutionIn'].value_counts())          # nie wymaga czyszczenia
display(transfer_df['PlayerSubstitutionOut'].value_counts())         # nie wymaga czyszczenia
display(transfer_df['PlayerYellowCards'].value_counts())             # nie wymaga czyszczenia
display(transfer_df['PlayerSecondYellowCards'].value_counts())       # nie wymaga czyszczenia
display(transfer_df['PlayerRedCards'].value_counts())                # nie wymaga czyszczenia
display(transfer_df['PlayerMinutesPlayed'].value_counts())           # usunięcie apostrofu oraz znaku kropki, a także konwersja na typ liczbowy
display(transfer_df['PlayerPosition'].value_counts())                # nie wymaga czyszczenia (stworzenie dodatkowej kolumny danych określających pozycję ogólną - Pomocnik, Napastnik, Obrońca, Bramkarz
display(transfer_df['PlayerNationality'].value_counts())             # nie wymaga czyszczenia
display(transfer_df['Operation'].value_counts())                     # wymaga czyszczenia (usunięcie danych niepoprawnych oraz modyfikacja formatu numerycznego, usunięcie wierszy dla wartości '?'
display(transfer_df['Bought/Sold'].value_counts())                   # zmiana wartości 'nabytki' na 'kupiony' oraz 'odejścia' na 'sprzedany'
display(transfer_df['PlayerMarketValue'].value_counts())             # modyfikacja danych do wartości liczbowych
display(transfer_df['ClubAssignedLeagueNationality'].value_counts()) # nie wymaga czyszczenia
display(transfer_df['TransferValue'].value_counts())                 # analogicznie do kolumny 'Operation'

Polska    1052
Name: ClubLeagueNationality, dtype: int64

19    114
21    108
20     98
22     82
26     76
25     72
24     68
23     62
18     58
27     58
29     58
28     54
17     40
32     24
30     22
16     18
31     12
33     10
15      4
38      4
34      4
35      2
36      2
40      2
Name: PlayerAge, dtype: int64

1.85    74
1.78    68
1.83    64
1.88    62
1.80    62
1.84    60
1.81    60
1.86    58
1.90    56
1.91    48
1.82    44
1.75    42
1.77    38
1.79    34
1.89    34
1.94    30
1.74    30
1.93    28
1.76    26
1.92    26
1.87    24
1.70    14
1.73    14
1.95    14
1.71    12
1.72    10
1.97     6
1.96     4
1.98     2
1.69     2
1.66     2
1.64     2
1.68     2
Name: PlayerHeight, dtype: int64

1 lip 2021     94
1 sie 2020     68
1 lip 2020     22
0              22
4 sie 2020     20
               ..
5 sty 2021      2
15 lip 2020     2
21 sie 2020     2
14 sie 2021     2
22 lip 2020     2
Name: TransferDate, Length: 191, dtype: int64

207    18
138    16
60     14
191    14
144    14
       ..
198     2
197     2
196     2
195     2
0       2
Name: PlayerMatchesPlayed, Length: 234, dtype: int64

0     140
6      58
8      46
1      44
5      42
     ... 
63      2
56      2
48      2
42      2
38      2
Name: PlayerGoals, Length: 78, dtype: int64

0     206
2     100
3      66
4      64
7      50
13     48
5      46
10     42
1      42
12     28
6      26
11     26
19     26
14     26
8      26
9      16
22     16
18     14
31     14
17     12
49     10
15     10
21     10
30     10
23      8
27      8
35      8
40      8
29      6
32      6
20      6
51      6
37      4
46      4
43      4
42      4
26      4
48      4
36      4
28      4
24      4
25      4
54      2
55      2
53      2
52      2
64      2
39      2
45      2
44      2
34      2
33      2
65      2
Name: PlayerAssists, dtype: int64

0    832
1    160
2     34
3     18
4      6
5      2
Name: PlayerOwnGoals, dtype: int64

0      52
1      38
11     34
2      28
33     26
       ..
77      2
76      2
64      2
47      2
129     2
Name: PlayerSubstitutionIn, Length: 101, dtype: int64

0      50
1      48
14     32
23     30
12     28
       ..
97      2
70      2
91      2
88      2
187     2
Name: PlayerSubstitutionOut, Length: 116, dtype: int64

15    52
8     46
17    42
6     42
14    38
      ..
22     2
85     2
83     2
84     2
87     2
Name: PlayerYellowCards, Length: 71, dtype: int64

0     648
1     232
2     102
3      50
5       6
11      4
6       4
4       4
7       2
Name: PlayerSecondYellowCards, dtype: int64

0    740
1    224
2     44
3     32
4     10
6      2
Name: PlayerRedCards, dtype: int64

9.262'     10
17.242'     8
10.956'     8
4.416'      8
13.444'     8
           ..
7.990'      2
14.609'     2
24.172'     2
10.749'     2
3.146'      2
Name: PlayerMinutesPlayed, Length: 404, dtype: int64

Środkowy obrońca       184
Środkowy napastnik     180
Bramkarz               110
Środkowy pomocnik       92
Ofensywny pomocnik      88
Prawy obrońca           78
Prawy napastnik         68
Defensywny pomocnik     66
Lewy napastnik          64
Lewy obrońca            62
Prawy pomocnik          38
Lewy pomocnik           18
Pomocnik                 4
Name: PlayerPosition, dtype: int64

Polska                  732
Słowacja                 36
Chorwacja                32
Serbia                   30
Hiszpania                28
Ukraina                  18
Portugalia               12
Ghana                    10
Czarnogóra               10
Słowenia                 10
Czechy                    8
Grecja                    8
Dania                     8
Austria                   8
Litwa                     8
Niemcy                    8
Łotwa                     8
Finlandia                 6
Szwecja                   6
Węgry                     6
Brazylia                  6
Izrael                    6
Bośnia i Hercegowina      4
Bułgaria                  4
Gruzja                    4
Kostaryka                 4
Francja                   4
Uzbekistan                2
Kosowo                    2
Rosja                     2
Ekwador                   2
Albania                   2
Anglia                    2
Nigeria                   2
Islandia                  2
Kanada              

bez odstępnego                       386
wypożyczenie                         230
-                                     76
koniec wypżyczenia31 lip 2020         68
koniec wypżyczenia30 cze 2020         58
?                                     30
koniec wypżyczenia31 gru 2020         28
50 tys. €                             22
250 tys. €                            12
koniec wypżyczenia20 lip 2020         12
100 tys. €                             8
150 tys. €                             8
350 tys. €                             8
300 tys. €                             8
koniec wypżyczenia30 lip 2020          6
800 tys. €                             6
500 tys. €                             6
70 tys. €                              4
200 tys. €                             4
koniec wypżyczenia30 cze 2021          4
35 tys. €                              4
koniec wypżyczenia7 lut 2021           4
45 tys. €                              4
opłata za wypożyczenie:150 tys. €      2
25 tys. €       

Nabytki     548
Odejścia    504
Name: Bought/Sold, dtype: int64

-              160
200 tys. €      96
150 tys. €      84
100 tys. €      82
250 tys. €      76
300 tys. €      74
400 tys. €      66
500 tys. €      50
350 tys. €      42
600 tys. €      40
50 tys. €       40
125 tys. €      30
700 tys. €      26
800 tys. €      20
75 tys. €       18
450 tys. €      18
1,50 mln €      16
750 tys. €      14
2,50 mln €      14
25 tys. €       12
175 tys. €      12
1,20 mln €       8
5,00 mln €       8
3,00 mln €       8
650 tys. €       6
10,00 mln €      6
850 tys. €       4
550 tys. €       4
900 tys. €       4
2,00 mln €       4
1,00 mln €       4
950 tys. €       2
3,50 mln €       2
2,20 mln €       2
Name: PlayerMarketValue, dtype: int64

Polska                  712
Anglia                   32
Włochy                   32
Niemcy                   28
Chorwacja                18
Serbia                   18
Turcja                   18
Czechy                   18
Słowacja                 16
Hiszpania                14
Rumunia                  10
Grecja                   10
Szwecja                   8
Słowenia                  8
Ukraina                   8
Węgry                     8
Kazachstan                8
Izrael                    8
Rosja                     8
Dania                     6
Bułgaria                  6
Łotwa                     6
Portugalia                6
Białoruś                  4
Holandia                  4
Cypr                      4
Bośnia i Hercegowina      4
Arabia Saudyjska          2
Austria                   2
Finlandia                 2
Belgia                    2
Uzbekistan                2
Gruzja                    2
Francja                   2
Irlandia                  2
Albania             

bez odstępnego                       386
wypożyczenie                         230
-                                     76
koniec wypżyczenia31 lip 2020         68
koniec wypżyczenia30 cze 2020         58
?                                     30
koniec wypżyczenia31 gru 2020         28
50 tys. €                             22
250 tys. €                            12
koniec wypżyczenia20 lip 2020         12
100 tys. €                             8
150 tys. €                             8
350 tys. €                             8
300 tys. €                             8
koniec wypżyczenia30 lip 2020          6
800 tys. €                             6
500 tys. €                             6
70 tys. €                              4
200 tys. €                             4
koniec wypżyczenia30 cze 2021          4
35 tys. €                              4
koniec wypżyczenia7 lut 2021           4
45 tys. €                              4
opłata za wypożyczenie:150 tys. €      2
25 tys. €       

### Stworzenie dodatkowych kolumn określających ogólną pozycję zawodnika oraz przedział wiekowy

In [889]:
def get_player_age_group(age):
    if 15 <= age < 16:
        return 'Junior młodszy'
    elif 16 <= age < 17:
        return 'Junior starszy'
    elif 17 <= age < 22:
        return 'Młody'
    elif 22 <= age < 30:
        return 'W sile wieku'
    elif 30 <= age < 37:
        return 'Doświadczony'
    elif 37 <= age < 42:
        return 'Zbliżający się do końca kariery'
    elif age >= 42:
        return 'Oldboy'
    else:
        return 'Inny'

transfer_df['PlayerGenericPosition'] = transfer_df['PlayerPosition'].map(lambda x: x.split(' ')[-1].capitalize())
transfer_df['PlayerAgeGroup'] = transfer_df['PlayerAge'].map(lambda x: get_player_age_group(int(x)))

display(transfer_df[['PlayerPosition', 'PlayerGenericPosition', 'PlayerAge', 'PlayerAgeGroup']])

Unnamed: 0,PlayerPosition,PlayerGenericPosition,PlayerAge,PlayerAgeGroup
0,Środkowy napastnik,Napastnik,19,Młody
1,Prawy obrońca,Obrońca,24,W sile wieku
2,Prawy napastnik,Napastnik,23,W sile wieku
3,Ofensywny pomocnik,Pomocnik,29,W sile wieku
4,Ofensywny pomocnik,Pomocnik,23,W sile wieku
...,...,...,...,...
1257,Prawy napastnik,Napastnik,19,Młody
1258,Prawy pomocnik,Pomocnik,19,Młody
1263,Ofensywny pomocnik,Pomocnik,29,W sile wieku
1264,Prawy pomocnik,Pomocnik,21,Młody


### Wyczyszczenie danych z kolumny 'TransferDate'

In [890]:
def translate_months(month):
    if month == "sty": return "january"
    if month == "lut": return "february"
    if month == "mar": return "march"
    if month == "kwi": return "april"
    if month == "maj": return "may"
    if month == "cze": return "june"
    if month == "lip": return "july"
    if month == "sie": return "august"
    if month == "wrz": return "september"
    if month == "paź": return "october"
    if month == "lis": return "november"
    if month == "gru": return "december"


transfer_df = transfer_df[transfer_df['TransferDate'] != '0']

transfer_df['TransferDate'] = transfer_df['TransferDate'].astype("string")

transfer_df['TransferDate'] = transfer_df['TransferDate'].map(lambda x: datetime.strptime(x.split(" ")[0]+" "+translate_months(x.split(" ")[1])+" "+x.split(" ")[2], '%d %B %Y'))

transfer_df['TransferDate']= pd.to_datetime(transfer_df['TransferDate'])

transfer_df['TransferDate'].value_counts()

2021-07-01    94
2020-08-01    68
2020-07-01    22
2020-08-04    20
2020-08-05    20
              ..
2021-05-14     2
2017-08-08     2
2020-07-22     2
2020-09-08     2
2021-03-03     2
Name: TransferDate, Length: 190, dtype: int64

### Wyczyszczenie danych z kolumny 'PlayerMinutesPlayed'

In [891]:
transfer_df['PlayerMinutesPlayed'] = transfer_df['PlayerMinutesPlayed'].map(lambda x: x if len(x) == 1 else x[:-1])
transfer_df['PlayerMinutesPlayed'] = transfer_df['PlayerMinutesPlayed'].map(lambda x: x.replace(".", "").replace("-", ""))

transfer_df["PlayerMinutesPlayed"].value_counts()
transfer_df['PlayerMinutesPlayed'] = transfer_df['PlayerMinutesPlayed'].astype("int64")

### Wyczyszczenie danych z kolumny 'Operation'

In [892]:
transfer_df["Operation"].replace({"bez odstępnego": "Transfer", "-": "Transfer", "wypożyczenie": "Wypożyczenie", "draft": "Transfer"}, inplace=True)
transfer_df["Operation"].replace(["^koniec wypżyczenia[0-9]{1,2}[ ][a-ź]{3}[ ][0-9]{4}$"], ["Wypożyczenie"], regex=True, inplace=True)
transfer_df["Operation"].replace(["^opłata za wypożyczenie:.*$"], ["Wypożyczenie"], regex=True, inplace=True)
transfer_df["Operation"].replace(["^.*€$"], ["Transfer"], regex=True, inplace=True)

transfer_df = transfer_df[transfer_df["Operation"] != "?"]

transfer_df["Operation"].value_counts()

Transfer        588
Wypożyczenie    414
Name: Operation, dtype: int64

### Wyczyszczenie danych z kolumny 'Bought/Sold'

In [893]:
transfer_df["Bought/Sold"].replace({"Odejścia": "Sprzedany", "Nabytki": "Kupiony"}, inplace=True)
transfer_df['Bought/Sold'].value_counts()

Kupiony      518
Sprzedany    484
Name: Bought/Sold, dtype: int64

In [894]:
def human_readable_to_numeric(value):
    if value == 0:
        return 0
    elements = value.split(" ")
    base = float(elements[0].replace(',', '.'))
    if elements[1] == "mln":
        times = 1000000
    elif elements[1] == "tys.":
        times = 1000
    else:
        times = 1

    return base * times



transfer_df["PlayerMarketValue"].replace({"-": 0}, inplace=True)
transfer_df["PlayerMarketValue"] = transfer_df["PlayerMarketValue"].map(lambda x: human_readable_to_numeric(x))
transfer_df['PlayerMarketValue'] = transfer_df['PlayerMarketValue'].astype("int64")

display(transfer_df['PlayerMarketValue'].value_counts())

0           146
200000       94
100000       82
150000       82
250000       72
300000       68
400000       66
500000       48
50000        38
600000       38
350000       36
125000       30
700000       26
800000       20
450000       18
75000        18
1500000      14
750000       14
2500000      14
25000        10
3000000       8
5000000       8
1200000       8
175000        6
10000000      6
650000        6
1000000       4
900000        4
2000000       4
550000        4
850000        4
3500000       2
950000        2
2200000       2
Name: PlayerMarketValue, dtype: int64

### Wyczyszczenie danych z kolumny 'TransferValue'

In [895]:
def remove_text_about_loan_fee(value):
    if value == 0:
        return 0

    elements = value.split("opłata za wypożyczenie:")
    return elements[-1]


transfer_df["TransferValue"].replace({"bez odstępnego": 0, "-": 0, "wypożyczenie": 0, "draft": 0, "": 0}, inplace=True)
transfer_df["TransferValue"].replace(["^koniec wypżyczenia[0-9]{1,2}[ ][a-ź]{3}[ ][0-9]{4}$"], [0], regex=True, inplace=True)
transfer_df["TransferValue"] = transfer_df["TransferValue"].map(lambda x: remove_text_about_loan_fee(x))
transfer_df["TransferValue"] = transfer_df["TransferValue"].map(lambda x: human_readable_to_numeric(x))

transfer_df = transfer_df[transfer_df["TransferValue"] != "?"]

transfer_df['TransferValue'] = transfer_df['TransferValue'].astype("int64")

transfer_df["TransferValue"].value_counts()

0           868
50000        22
250000       12
150000       10
350000        8
100000        8
300000        8
800000        6
500000        6
200000        4
35000         4
45000         4
70000         4
40000         2
850000        2
5500000       2
2000000       2
600000        2
1700000       2
11000000      2
4300000       2
180000        2
3000000       2
25000         2
65000         2
5000          2
1400000       2
700000        2
400000        2
15000         2
5000000       2
110000        2
Name: TransferValue, dtype: int64

### Uzyskanie listy duplikatów oraz ich usunięcie

In [896]:
display(transfer_df[transfer_df.duplicated()])
transfer_df.drop_duplicates(keep='first', inplace=True)
display(transfer_df[transfer_df.duplicated()])

Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerHeight,TransferDate,PlayerMatchesPlayed,PlayerGoals,PlayerAssists,PlayerOwnGoals,PlayerSubstitutionIn,PlayerSubstitutionOut,PlayerYellowCards,PlayerSecondYellowCards,PlayerRedCards,PlayerMinutesPlayed,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub,PlayerGenericPosition,PlayerAgeGroup
633,Legia Warszawa,1,Polska,Ernest Muci,19,1.80,2021-02-23,94,24,6,0,41,26,6,0,0,5004,Środkowy napastnik,ŚNP,Albania,Transfer,Kupiony,1000000,KF Tirana,1,Albania,500000,False,Napastnik,Młody
634,Legia Warszawa,1,Polska,Josip Juranovic,24,1.73,2021-08-21,224,8,23,3,23,12,18,0,1,18428,Prawy obrońca,POB,Chorwacja,Transfer,Kupiony,2500000,HNK Hajduk Split,1,Chorwacja,400000,False,Obrońca,W sile wieku
635,Legia Warszawa,1,Polska,Jasur Yakhshiboev,23,1.80,2021-08-30,103,23,13,0,50,31,14,0,0,5086,Prawy napastnik,PNP,Uzbekistan,Transfer,Kupiony,700000,Pakhtakor Tashkent,1,Uzbekistan,300000,False,Napastnik,W sile wieku
636,Legia Warszawa,1,Polska,Rafa Lopes,29,1.85,2020-08-01,375,75,19,1,123,120,41,0,1,23321,Ofensywny pomocnik,OPM,Portugalia,Transfer,Kupiony,500000,Cracovia,1,Polska,150000,False,Pomocnik,W sile wieku
637,Legia Warszawa,1,Polska,Bartosz Kapustka,23,1.79,2020-08-13,151,20,19,0,36,54,25,0,1,10003,Ofensywny pomocnik,OPM,Polska,Transfer,Kupiony,1500000,Leicester City,1,Anglia,0,False,Pomocnik,W sile wieku
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1256,Warta Poznań,1,Polska,Bartosz Kalupa,22,1.81,2021-07-01,131,4,0,0,21,35,32,0,1,9601,Defensywny pomocnik,DPM,Polska,Wypożyczenie,Sprzedany,0,Kotwica Kołobrzeg,4,Polska,0,False,Pomocnik,W sile wieku
1257,Warta Poznań,1,Polska,Dominik Smykowski,19,1.80,2021-07-28,21,1,0,0,16,5,1,0,0,538,Prawy napastnik,PNP,Polska,Wypożyczenie,Sprzedany,0,Skra Częstochowa,2,Polska,0,False,Napastnik,Młody
1258,Warta Poznań,1,Polska,Sebastian Olszewski,19,1.82,2021-07-01,89,1,1,0,37,13,21,0,0,5078,Prawy pomocnik,PPM,Polska,Wypożyczenie,Sprzedany,0,Hutnik Kraków,3,Polska,0,False,Pomocnik,Młody
1263,Warta Poznań,1,Polska,Krzysztof Danielewicz,29,1.82,2021-07-07,257,33,32,1,61,78,51,2,0,17173,Ofensywny pomocnik,OPM,Polska,Wypożyczenie,Sprzedany,0,Miedź Legnica,2,Polska,0,False,Pomocnik,W sile wieku


Unnamed: 0,Club,ClubLeagueLevel,ClubLeagueNationality,Player,PlayerAge,PlayerHeight,TransferDate,PlayerMatchesPlayed,PlayerGoals,PlayerAssists,PlayerOwnGoals,PlayerSubstitutionIn,PlayerSubstitutionOut,PlayerYellowCards,PlayerSecondYellowCards,PlayerRedCards,PlayerMinutesPlayed,PlayerPosition,PlayerPositionScut,PlayerNationality,Operation,Bought/Sold,PlayerMarketValue,ClubAssigned,ClubAssignedLeagueLevel,ClubAssignedLeagueNationality,TransferValue,PlayerWithoutClub,PlayerGenericPosition,PlayerAgeGroup


### Zapisanie wyczyszczonego zbioru danych do pliku csv

In [897]:
transfer_df.to_csv('csv/transfers-data-frame-cleared.csv', encoding='utf-8')