In [1]:
import pandas as pd

In [2]:
def get_club(file_name):
    ''' Pobranie pliku csv (klub) '''
    return pd.read_csv('clubs/' + file_name)

def get_clubs(names):
    ''' Pobranie danych kubowych w postaci listy '''
    clubs = []
    
    # zamienianie nazwy np. z 'Manchester City' na 'Manchester-City'
    names = [name.replace(' ', '-') for name in names]
    for name in names:
        clubs.append(get_club(name + '.csv'))
    return clubs

def get_club_names():
    ''' Pobranie nazw klubów '''
    stats = get_club("TeamStats.csv")
    return list(stats["Club"])

def sort_by_value(data_frame, value = 'Goals', value2 = 'Appearances'):
    ''' Sortowanie zawodników w klubach, po ilości strzolonych bramek oraz ilości występów.
        Jest pobieranych 10 graczy z najlepszymi statystykami '''
    return data_frame.sort_values([value, value2], ascending=False)[:10]

def filter_data(data, conditions):
    ''' Wybranie nazw kolumn (cech ofenswynych) oraz uzupełnienie wartości NaN -> 0 '''
    new_data = data[conditions].copy()
    new_data.fillna(0, inplace=True)
    return new_data

def find_max(clubs):
    ''' Zwrócenie maksymalnej wartości dla kolumn w postaci słownika '''
    
    # słownik zawierający: {nazwę_kolumny: aktualnie maksymalną wartość}
    max_value_columns = {}

    # iterowanie po nazwach kolumn w klubie
    for col in clubs[0]:
        # utworzenie nazw kolumn w słowniku
        max_value_columns[col] = 0

    # iterowanie po wszystkich klubach
    for club in clubs:
        # iterowanie po kluczach słownika
        for index_col in max_value_columns:
            # maksymalna wartość dla konkretnej kolumny w konkretnym klubie
            max_value_in_column = club[index_col].max()
            # jeżeli wartość w kolumnie jest większa niż w słowniku, zostaje przypisana do słownika
            if max_value_in_column > max_value_columns[index_col]:
                max_value_columns[index_col] = max_value_in_column

    return max_value_columns

def scale(value, low, high):
    ''' Ustawienie wartość od 0 do 1 dla parametru value '''
    return (value - low) / (high - low)

def normalize(data, low=0, high=0):
    ''' Normalizujowanie kolumn wzgledem najmniejszej i najwiekszej wartości '''
    column = data.copy()
    column = [scale(record, low, high) for record in column]
    return column

def normalize_club(club, low, high_dictonary):
    ''' Wywoływanie funkcji normalizującej dla klubu '''
    club_data = club.copy()

    # iterowanie po słowniku
    for key in high_dictonary:
        # przekazanie do funkcji normalize: kolumny, min = 0 i  maksymalnej wartości dla kolumny
        club_data[key] = normalize(club_data[key], 0, high_dictonary[key])
    return club_data

def save_clubs_to_csv(clubs, names):
    ''' Zapisywanie statystyk klubowych do formatu .csv (każdy zespół w osobnym pliku)'''
    for i in range(len(clubs)):
        clubs[i].to_csv('clubs_csv/' + names[i] + '_version_2.csv', sep=',', encoding='utf-8', index=False)

In [28]:
def main():
    # Pobranie nazw klubów
    names = get_club_names()
    
    # Pobranie statystyk dla piłkarzy w klubach w postaci listy (lista przechowuje obiekty typu DataFrame - klub)
    clubs = get_clubs(names)
    
    # Sortowanie danych względem statystyk piłkarzy
    top_players_clubs = list(map(sort_by_value, clubs))

    # Warunki dla sprawdzenia siły ofensywnej klubu
    conditions = ["Goals", "Shots", "Passes", "Shots on target", "Shooting accuracy %", "Big chances created"]

    # Filtrowanie  kolumn dla klubów
    skills_players_clubs = list(map(lambda club: filter_data(club, conditions), top_players_clubs))
    
    # Maksymalne wartości dla każdej z cech
    max_values_in_columns = find_max(skills_players_clubs)

    # Standaryzacja danych
    normalized_clubs = [normalize_club(club, 0, max_values_in_columns) for club in skills_players_clubs]
    
    # Zapisanie statystyk klubowych do nowych plików
    save_clubs_to_csv(normalized_clubs, names)


In [None]:
# wywołanie głównej funkcji
main()