# CIP Projekt Student A - Scraping usatoday


Nachfolgend wird der ETL-Proess anhand des Beispiels "usatoday" aufgezeigt. Von der Webseite https://sportsdata.usatoday.com/hockey/nhl/ werden Daten gesscrapt, aufbereitet und schliesslich in eine MariaDB geladen. Als erster Schritt werden die benötigten Packages geladen und die Anzeige-Optionen gesetzt.

In [208]:
import pandas as pd
import requests
from bs4 import BeautifulSoup
from datetime import datetime
import sqlalchemy as sqla
import os


pd.set_option('precision', 3)
pd.set_option('max_rows', 40)
pd.set_option('max_colwidth', 30)

%config Completer.use_jedi = False

## Extract

Im Extract-Prozessschritt scrapen wir die Daten von "https://sportsdata.usatoday.com/hockey/nhl/" resp. von Unterwebseiten ".../scores/Spielnummer" und ".../summary/Spielnummer". Wir benötigen folgende Daten:
- Spielername
- Spielerstatistik
- Teamzugehörigkeit des Spielers
- Datum des Spiels

Zudem wird jedem Spiel eine fortlaufende Nummer vergeben, beginnend bei 1. Dies hat den Zweck, dass später der Datensatz einem Spiel zugeordnet werden kann.

Jedes Spiel hat seine eigene URL, welche sich durch eine Nummer (z. B. Spiel 1 "133588") unterscheidet. Anhand dieser Nummer in der URL wird beim Scrapen über die verschiedenen Seiten iteriert.

In [209]:
myheaders = {'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)'
                            'AppleWebKit/537.36 (KHTML, like Gecko)'
                            'Chrome/84.0.4147.89 Safari/537.36'}

# Nummer des ersten Spiels 133588
# Nummer des letzten Spiels 137144

df_org = pd.DataFrame()
number_game = 134453
counter_game = 1

while number_game < 134458:
    # URL wird aufgerufen. Falls bei einer URL keine Daten gescrapt werden können, gibt es einen 
    # Fehler, die Variable "number_game" wird um 1 erhöht und die nächste URL wird aufgerufen
    # (siehe except).
    try:  
        url_score_uncom = 'https://sportsdata.usatoday.com/hockey/nhl/scores/'
        url_score = url_score_uncom + str(number_game)
        url_sum_uncom = 'https://sportsdata.usatoday.com/hockey/nhl/summary/'
        url_sum = url_sum_uncom + str(number_game)    
    
        # Tabelle mit Spielernamen und Spielerstatistik wird gescrapt. Anhand der Kennzahl "TOI"
        # wird später bestimmt, ob ein Spieler bei einem bestimmten Spiel gespielt hat oder nicht.
        players_team1 = pd.read_html(url_score)[4]
        players_team2 = pd.read_html(url_score)[3]
                    
        html_page_score = requests.get(url_score, headers = myheaders)
        soup_score = BeautifulSoup(html_page_score.content, 'lxml')
        
        # Der Teamname besteht jeweils aus zwei Teilen, die an unterschiedlichen Stellen im 
        # HTML-Code hinterlegt sind.
        # Die beiden Teile müssen deshalb separat angesprochen und anschliessend zusammengefügt 
        # werden.
        name_team1 = (soup_score.find_all("span", class_="class-1SVEsWp")[1].get_text() + " " 
                      + soup_score.find_all("span", class_="class-izmwXoc")[1].get_text())
        name_team2 = (soup_score.find_all("span", class_="class-1SVEsWp")[0].get_text() + " "
                      + soup_score.find_all("span", class_="class-izmwXoc")[0].get_text())

        # Datum des Spiels wird geholt.
        html_page_sum = requests.get(url_sum, headers = myheaders)
        soup_sum = BeautifulSoup(html_page_sum.content, 'lxml')
        date_game = soup_sum.find_all("div", class_="class-opTKhaC")[0].find("time").get_text()
        
        # Das Dataframe wird erstellt
        df1 = players_team1
        df1["Team"] = name_team1

        df2 = players_team2
        df2["Team"] = name_team2
    
        df = df1.append(df2)
        df["Date_Game"] = date_game
        df["Counter_Game"] = counter_game
    
        # Die Daten eines Spiels werden dem Gesamt-Dataframe hinzugefügt.
        df_org = df_org.append(df)
    
        # Der Wert der Variable "number_game"  wird um 1 erhöht, damit die Iteration 
        # fortgesetzt werden kann.
        number_game += 1
        counter_game +=1
      
    
    # Gibt es einen Fehler, wird die Variable "number_game"  um 1 erhöht und die nächste 
    # URL wird aufgerufen.
    except ImportError:
        number_game += 1
        continue 

print("Finished")

Finished


Da der aktuelle Index von df_org Duplikate hat (mehrere Dataframes wurden aneinandergehängt, Index beginnt 
immer wieder bei 0), wird der Index zurückgesetzt.
Anschliessend werden die Daten mit verschiedenen Befehlen grob analysiert, um sich einen ersten Überblick zu verschaffen.

In [210]:
df_org.reset_index(drop=True,inplace=True)
df_org.sample(10)

Unnamed: 0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,Hits,Bks,Take,Give,Shifts,TOI,Team,Date_Game,Counter_Game
114,C. Dvorak,2,0,2,0,0,4,15,12,.556,0,0,-,-,29,20:52,Arizona Coyotes,"Sun, 9. May, 2021",3
7,R. Smith,3,0,3,1,0,7,0,0,-,0,1,-,-,25,17:07,Vegas Golden Knights,"Sun, 9. May, 2021",1
88,N. Knyzhov,0,0,0,1,0,5,0,0,-,1,0,-,-,28,20:50,San Jose Sharks,"Sun, 9. May, 2021",3
21,K. Clifford,0,0,0,0,0,0,2,0,1.000,4,3,-,-,16,12:21,St. Louis Blues,"Sun, 9. May, 2021",1
60,N. Kadri,0,0,0,0,0,4,6,8,.429,0,1,-,-,21,18:06,Colorado Avalanche,"Sun, 9. May, 2021",2
1,J. Marchessault,0,0,0,1,0,5,0,4,-,1,1,-,-,21,17:14,Vegas Golden Knights,"Sun, 9. May, 2021",1
104,A. Hill,0,0,0,0,0,0,0,0,-,0,0,-,-,0,62:30,Arizona Coyotes,"Sun, 9. May, 2021",3
34,J. Kyrou,0,0,0,-1,0,0,0,0,-,1,1,-,-,18,15:21,St. Louis Blues,"Sun, 9. May, 2021",1
85,B. Pasichnuk,0,0,0,0,0,3,0,0,-,1,1,-,-,19,12:52,San Jose Sharks,"Sun, 9. May, 2021",3
58,B. Lemieux,0,0,0,0,2,0,1,0,1.000,6,0,-,-,14,09:27,Los Angeles Kings,"Sun, 9. May, 2021",2


In [211]:
df_org.describe()

Unnamed: 0,G,A,Pts,+/-,PIM,SOG,FW,FL,Hits,Bks,Shifts,Counter_Game
count,119.0,119.0,119.0,119.0,119.0,119.0,119.0,119.0,119.0,119.0,119.0,119.0
mean,0.16,0.235,0.395,-0.008,0.37,1.496,1.445,1.445,1.218,0.622,19.227,2.008
std,0.469,0.499,0.692,0.934,0.862,1.625,3.124,2.797,1.485,1.112,7.885,0.818
min,0.0,0.0,0.0,-3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,17.0,1.0
50%,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,21.0,2.0
75%,0.0,0.0,1.0,0.0,0.0,2.0,1.0,1.5,2.0,1.0,24.0,3.0
max,3.0,2.0,3.0,2.0,4.0,7.0,15.0,12.0,6.0,9.0,31.0,3.0


In [212]:
df_org.count()

Skaters         119
G               119
A               119
Pts             119
+/-             119
PIM             119
SOG             119
FW              119
FL              119
FO%             119
Hits            119
Bks             119
Take            119
Give            119
Shifts          119
TOI             119
Team            119
Date_Game       119
Counter_Game    119
dtype: int64

Die Original-Daten werden in einer CSV-Datei abgespeichert, damit Verschmutzungen vorgenommen werden können.

In [213]:
df_org.to_csv("usatoday_src.csv", index=False)

Das Laden der Original-Daten in die MariaDB wird im Kapitel "Load" beschrieben.

## Transform

Ziel des Tranformation-Prozess ist das Aufbereiten der Daten, damit sie bereit für die Analyse sind.

Die CSV-Datei mit den verschmutzten Daten wird importiert.

In [214]:
df_in = pd.read_csv('usatoday_src_dirty.csv')
df_in

Unnamed: 0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,Hits,Bks,Take,Give,Shifts,TOI,Team,Date_Game,Counter_Game
0,K. Yamamoto,1,0,1,1,2,4,0,0,-,1,1,-,-,20,,Edmonton Oilers,"Thu, 14. Jan, 2021",1
1,T. Ennis,0,0,0,-1,0,0,0,0,-,0,1,-,-,12,08:41,Edmonton Oilers,"Thu, 14. Jan, 2021",1
2,A. Chiasson,0,0,0,-1,0,1,0,0,-,1,0,-,-,14,13:25,Edmonton Oilers,"Thu, 14. Jan, 2021",1
3,Z. Kassian,0,1,1,-1,0,1,0,0,-,4,1,-,-,20,16:15,Edmonton Oilers,"Thu, 14. Jan, 2021",1
4,R. Nugent-Hopkins,0,0,0,-1,0,2,0,0,-,0,1,-,-,23,23:16,Edmonton Oilers,"Thu, 14. Jan, 2021",1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38025,C. Price,0,0,0,0,0,0,0,0,-,0,0,-,-,0,58:14,Montreal Canadiens,"Thu, 8. Jul, 2021",951
38026,B. Kulak,0,0,0,0,0,1,0,0,-,1,0,-,-,12,08:59,Montreal Canadiens,"Thu, 8. Jul, 2021",951
38027,A. Romanov,0,0,0,0,0,1,0,0,-,3,3,-,-,18,12:43,Montreal Canadiens,"Thu, 8. Jul, 2021",951
38028,J. Petry,0,0,0,0,0,0,0,0,-,5,0,-,-,27,23:23,Montreal Canadiens,"Thu, 8. Jul, 2021",951


Die Daten werden mit verschiedenen Befehlen grob analysiert.

In [215]:
df_in.describe()

Unnamed: 0,G,A,Pts,+/-,PIM,SOG,FW,FL,Hits,Bks,Shifts,Counter_Game
count,38030.0,38030.0,38030.0,38030.0,38030.0,38030.0,38030.0,38030.0,38030.0,38030.0,38030.0,38030.0
mean,0.144,0.244,0.388,-0.007,0.401,1.507,1.403,1.403,1.18,0.662,19.034,475.836
std,0.396,0.52,0.673,1.089,1.241,1.502,2.969,2.79,1.459,0.995,7.863,274.554
min,0.0,0.0,0.0,-6.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
25%,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0,17.0,238.0
50%,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,21.0,476.0
75%,0.0,0.0,1.0,1.0,0.0,2.0,1.0,1.0,2.0,1.0,24.0,714.0
max,4.0,6.0,6.0,5.0,29.0,11.0,23.0,21.0,14.0,11.0,53.0,951.0


In [216]:
df_in.count()

Skaters         38030
G               38030
A               38030
Pts             38030
+/-             38030
PIM             38030
SOG             38030
FW              38030
FL              38030
FO%             38030
Hits            38030
Bks             38030
Take            38030
Give            38030
Shifts          38030
TOI             38020
Team            38030
Date_Game       38020
Counter_Game    38030
dtype: int64

In den Spalten "TOI" und "Date_Game" gibt es weniger Datensätze.

In [217]:
df = df_in

NaN-Werte werden gesucht.

In [218]:
df[df.isnull().any(axis=1)]

Unnamed: 0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,Hits,Bks,Take,Give,Shifts,TOI,Team,Date_Game,Counter_Game
0,K. Yamamoto,1,0,1,1,2,4,0,0,-,1,1,-,-,20,,Edmonton Oilers,"Thu, 14. Jan, 2021",1
24,E. Pettersson,0,1,1,2,0,2,4,5,.444,2,0,-,-,24,,Vancouver Canucks,"Thu, 14. Jan, 2021",1
57,G. Landeskog,0,0,0,-3,2,4,2,3,.400,5,1,-,-,23,,Colorado Avalanche,"Thu, 14. Jan, 2021",2
137,E. Cernak,0,1,1,1,0,2,0,0,-,1,2,-,-,26,,Tampa Bay Lightning,"Thu, 14. Jan, 2021",4
252,A. Lowry,0,0,0,0,0,1,10,5,.667,1,1,-,-,21,,Winnipeg Jets,"Fri, 15. Jan, 2021",7
315,T. Motte,1,0,1,0,4,3,0,0,-,2,1,-,-,27,,Vancouver Canucks,"Fri, 15. Jan, 2021",8
340,N. Knyzhov,0,0,0,0,0,1,0,0,-,2,3,-,-,15,,San Jose Sharks,"Fri, 15. Jan, 2021",9
422,J. Studnicka,0,0,0,-1,0,0,0,0,-,0,0,-,-,20,,Boston Bruins,"Fri, 15. Jan, 2021",11
462,M. Barzal,1,0,1,2,2,5,2,2,.500,0,1,-,-,25,,NY Islanders Islanders,"Fri, 15. Jan, 2021",12
518,B. McGinn,0,0,0,0,0,1,0,0,-,1,0,-,-,15,,Carolina Hurricanes,"Fri, 15. Jan, 2021",13


Werte "00:00" in der Spalte "TOI" (Time on Ice) sind realistisch im Eishockey, da nicht jeder Spieler auf dem Matchblatt auch eingesetzt wird (z. B. aus taktischen Gründen). Daher könnte es sein, dass die NaN-Werte bedeuten, dass der Spieler nicht gespielt hat. Zudem wäre es schwierig, sinnvolle Werte für das Ersetzen von NaN-Werten zu finden, da die Time on Ice von Spieler zu Spieler sehr unterschiedlich sein kann. Aus diesen Gründen und da später die Datensätze mit TOI = 00:00 sowieso gelöscht werden, werden die Zeilen mit Nan-Werten in der Spalte "TOI" gelöscht.

In [219]:
df.dropna(subset=["TOI"], inplace = True)
df[df.isnull().any(axis=1)]

Unnamed: 0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,Hits,Bks,Take,Give,Shifts,TOI,Team,Date_Game,Counter_Game
1162,M. Luff,0,0,0,0,0,0,0,0,-,0,0,-,-,13,08:50,Los Angeles Kings,,30
1281,K. Clifford,0,0,0,-1,0,1,0,0,-,1,0,-,-,9,06:09,St. Louis Blues,,33
1463,B. Marchand,0,0,0,-1,2,5,0,0,-,0,0,-,-,22,19:21,Boston Bruins,,37
1903,R. Nash,0,0,0,0,0,1,4,7,.364,0,1,-,-,18,13:24,Columbus Blue Jackets,,48
3241,R. Murray,0,0,0,0,0,0,0,0,-,0,2,-,-,26,22:43,New Jersey Devils,,82
3665,M. Ferraro,0,0,0,-1,0,3,0,0,-,1,2,-,-,29,21:43,San Jose Sharks,,92
4063,C. White,0,0,0,-1,0,4,4,5,.444,2,1,-,-,19,16:55,Ottawa Senators,,102
4490,E. Robinson,0,1,1,0,0,1,0,0,-,3,0,-,-,16,11:46,Columbus Blue Jackets,,113
4631,R. Nash,0,0,0,0,0,0,3,4,.429,2,0,-,-,19,14:32,Columbus Blue Jackets,,116
5633,T. Myers,0,0,0,0,2,1,0,0,-,2,2,-,-,21,20:05,Vancouver Canucks,,141


Die korrekten Werte für die NaN-Values in der Spalte "Date_Game" können wir einfach herausfinden, indem wir in der Spalte "Counter_Game" das Spieldatum einer Zeile mit der gleichen Spielnummer suchen und den NaN-Wert damit ersetzen.

In [220]:
indexnan = df[df.isnull().any(axis=1)].index.tolist()
for index in indexnan:
    counter_game = df.loc[index,'Counter_Game']
    index_corr_date = df.index[df['Counter_Game'] == counter_game].tolist()[0]
    date_game_corr = df.loc[index_corr_date, 'Date_Game']
    df.loc[index, 'Date_Game'] = date_game_corr

Die NaN-Werte sind nun korrigiert.

In [221]:
df[df.isnull().any(axis=1)]

Unnamed: 0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,Hits,Bks,Take,Give,Shifts,TOI,Team,Date_Game,Counter_Game


In [222]:
df.count()

Skaters         38020
G               38020
A               38020
Pts             38020
+/-             38020
PIM             38020
SOG             38020
FW              38020
FL              38020
FO%             38020
Hits            38020
Bks             38020
Take            38020
Give            38020
Shifts          38020
TOI             38020
Team            38020
Date_Game       38020
Counter_Game    38020
dtype: int64

Nach dem Löschen von Zeilen wird der Index als Vorbereitung für den nächsten Bereinigungsschritt zurückgesetzt.

In [223]:
df.reset_index(drop=True,inplace=True)

Einige Werte in der Spalte 'TOI' scheinen nicht korrekt zu sein. Mit dem nachfolgenden Loop werden Datensätze gesucht, die fälschlicherweise kein ":" enthalten und deren Indexe aufgelistet.

In [224]:
toi_false = []
toi_false_index = []

for toi in df['TOI']:
    if ':' not in toi:
        toi_false.append(toi)
        toi_false_index.append(df.index[df['TOI'] == toi].tolist()[0])
    else: 
        continue
print(toi_false)
print(toi_false_index)

['-15', '-1', '-23', '-7', '-33', '-98', '-4', '-21', '-43', '-16']
[528, 560, 604, 650, 688, 744, 841, 904, 966, 1018]


Es sind einige negative Werte in der Spalte "TOI" enthalten. Diese Werte sind nicht realistisch. Wie oben erklärt, wäre es schwierig, sinnvolle Werte für das Ersetzen dieser Werte zu finden, da die Time on Ice von Spieler zu Spieler sehr unterschiedlich sein kann. Aus diesen Gründen und da später die Datensätze mit TOI = 00:00 sowieso gelöscht werden, werden die Zeilen mit negativen Werten in der Spalte "TOI" gelöscht.

In [225]:
df.drop(df.index[[tuple(toi_false_index)]], inplace = True)

  result = getitem(key)


Check if the team names are correct.

Überprüfen, ob die Teamnamen korrekt sind.

In [226]:
df.groupby('Team').count()

Unnamed: 0_level_0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,Hits,Bks,Take,Give,Shifts,TOI,Date_Game,Counter_Game
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
Anaheim,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5,5
Anaheim Ducks,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095,1095
Arizona Coyotes,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120
Boston Bruins,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339
Buffalo Sabres,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120
Calgary Flames,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120
Carolina Hurricanes,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333,1333
Chicago Blackhawks,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119
Colorado Avalanche,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317
Columbus Blue Jackets,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122


Bei 5 Teams enspricht die Schreibeweise nicht dem offiziellen Teamnamen gemäss NHL.com. Da dies später beim Join mit den anderen Datensätzen zu Problemen führen könnte, wird dies korrigiert.
Zuerst werden in der Variable "typo_line_xx" die Indexe der falschen Datensätze gespeichert, anschliessend mit einem Loop alle diese Datensätze mit der richtigen Schreibweise korrigiert.

In [227]:
typo_line_ad = df[df['Team']  == 'Anaheim'].index

counter = 0
for row in typo_line_ad:
    
    df.loc[typo_line_ad.to_list()[counter],'Team'] = 'Anaheim Ducks'
    counter += 1



In [228]:
typo_line_ch = df[df['Team']  == 'Hurricanes Carolina'].index

counter = 0
for row in typo_line_ch:
    
    df.loc[typo_line_ch.to_list()[counter],'Team'] = 'Carolina Hurricanes'
    counter += 1

In [229]:
typo_line_mc = df[df['Team']  == 'Montreal Canadiens'].index

counter = 0
for row in typo_line_mc:
    
    df.loc[typo_line_mc.to_list()[counter],'Team'] = 'Montréal Canadiens'
    counter += 1

In [230]:
typo_line_ni = df[df['Team']  == 'NY Islanders Islanders'].index

counter = 0
for row in typo_line_ni:
    
    df.loc[typo_line_ni.to_list()[counter],'Team'] = 'New York Islanders'
    counter += 1

In [231]:
typo_line_nr = df[df['Team']  == 'NY Rangers Rangers'].index

counter = 0
for row in typo_line_nr:
    
    df.loc[typo_line_nr.to_list()[counter],'Team'] = 'New York Rangers'
    counter += 1

In [232]:
df.groupby('Team').count()

Unnamed: 0_level_0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,Hits,Bks,Take,Give,Shifts,TOI,Date_Game,Counter_Game
Team,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1
Anaheim Ducks,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100,1100
Arizona Coyotes,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120
Boston Bruins,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339,1339
Buffalo Sabres,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120
Calgary Flames,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120
Carolina Hurricanes,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338,1338
Chicago Blackhawks,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119,1119
Colorado Avalanche,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317,1317
Columbus Blue Jackets,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122,1122
Dallas Stars,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120,1120


Nun entsprechen alle Teamnamen der offiziellen Schreibweise.

Anschliessend wird überprüft, ob Duplikate vorhanden sind.

In [233]:
df[df.duplicated(keep=False)]

Unnamed: 0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,Hits,Bks,Take,Give,Shifts,TOI,Team,Date_Game,Counter_Game
5709,C. Hellebuyck,0,0,0,0,0,0,0,0,-,0,0,-,-,0,00:00,Winnipeg Jets,"Wed, 3. Feb, 2021",144
5710,C. Hellebuyck,0,0,0,0,0,0,0,0,-,0,0,-,-,0,00:00,Winnipeg Jets,"Wed, 3. Feb, 2021",144
5813,N. Bjugstad,0,0,0,-1,0,2,6,5,.545,1,2,-,-,17,14:39,Minnesota Wild,"Wed, 3. Feb, 2021",146
5814,N. Bjugstad,0,0,0,-1,0,2,6,5,.545,1,2,-,-,17,14:39,Minnesota Wild,"Wed, 3. Feb, 2021",146
6243,M. Kivlenieks,0,0,0,0,0,0,0,0,-,0,0,-,-,0,00:00,Columbus Blue Jackets,"Fri, 5. Feb, 2021",157
6244,M. Kivlenieks,0,0,0,0,0,0,0,0,-,0,0,-,-,0,00:00,Columbus Blue Jackets,"Fri, 5. Feb, 2021",157
6562,M. Tkachuk,0,1,1,1,4,1,0,0,-,5,0,-,-,24,17:27,Calgary Flames,"Sun, 7. Feb, 2021",165
6563,M. Tkachuk,0,1,1,1,4,1,0,0,-,5,0,-,-,24,17:27,Calgary Flames,"Sun, 7. Feb, 2021",165
6879,P. Laine,2,0,2,0,2,3,0,0,-,1,1,-,-,21,19:29,Columbus Blue Jackets,"Sun, 7. Feb, 2021",173
6880,P. Laine,2,0,2,0,2,3,0,0,-,1,1,-,-,21,19:29,Columbus Blue Jackets,"Sun, 7. Feb, 2021",173


Immer zwei Datensätze sind genau gleich, dies ist nicht realistisch. Es wird daher immer einer dieser Duplikate gelöscht.

In [234]:
df.drop_duplicates(inplace=True)

In [235]:
df.count()

Skaters         38000
G               38000
A               38000
Pts             38000
+/-             38000
PIM             38000
SOG             38000
FW              38000
FL              38000
FO%             38000
Hits            38000
Bks             38000
Take            38000
Give            38000
Shifts          38000
TOI             38000
Team            38000
Date_Game       38000
Counter_Game    38000
dtype: int64

Die Daten der Spieler, welche in einem Spiel nicht eingesetzt worden sind ("TOI"= 00:00), sind nicht relevant und werden deshalb gelöscht.

In [236]:
df.drop(df[df['TOI'] == '00:00'].index, inplace=True)

In [237]:
df.count()

Skaters         36218
G               36218
A               36218
Pts             36218
+/-             36218
PIM             36218
SOG             36218
FW              36218
FL              36218
FO%             36218
Hits            36218
Bks             36218
Take            36218
Give            36218
Shifts          36218
TOI             36218
Team            36218
Date_Game       36218
Counter_Game    36218
dtype: int64

Für die spätere Verbindung zu den anderen Datensätzen zu vereinfachen, werden der Nachname und der Vorname (resp. erster Buchstabe des Vornamens und ".") in separaten Spalten dargestellt.
Dazu werden zuerst zwei neue Spalten eingefügt und darin der Wert aus der Spalte "Skaters" abgebildet, anschliessend werden zwei Funktionen definiert, um mittels Slice nur die jeweils relevanten Teile aus der Spalte "Skaters" in den zwei neuen Spalten abzubilden.

In [238]:
df["Name"] = df["Skaters"]
df["Firstname"] = df["Skaters"]

def convert_to_name(row):
    try:
        ret_value = row['Name'].replace(row['Name'],row['Name'][3:])
        return ret_value
    except: 
        return
df['Name'] = df.apply(convert_to_name, axis='columns')

def convert_to_firstname(row):
    try:
        ret_value = row['Firstname'].replace(row['Firstname'],row['Firstname'][:2])
        return ret_value
    except: 
        return
df['Firstname'] = df.apply(convert_to_firstname, axis='columns')


In [239]:
df

Unnamed: 0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,...,Bks,Take,Give,Shifts,TOI,Team,Date_Game,Counter_Game,Name,Firstname
0,T. Ennis,0,0,0,-1,0,0,0,0,-,...,1,-,-,12,08:41,Edmonton Oilers,"Thu, 14. Jan, 2021",1,Ennis,T.
1,A. Chiasson,0,0,0,-1,0,1,0,0,-,...,0,-,-,14,13:25,Edmonton Oilers,"Thu, 14. Jan, 2021",1,Chiasson,A.
2,Z. Kassian,0,1,1,-1,0,1,0,0,-,...,1,-,-,20,16:15,Edmonton Oilers,"Thu, 14. Jan, 2021",1,Kassian,Z.
3,R. Nugent-Hopkins,0,0,0,-1,0,2,0,0,-,...,1,-,-,23,23:16,Edmonton Oilers,"Thu, 14. Jan, 2021",1,Nugent-Hopkins,R.
4,C. McDavid,0,0,0,-1,0,5,12,10,.545,...,1,-,-,25,26:24,Edmonton Oilers,"Thu, 14. Jan, 2021",1,McDavid,C.
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38014,C. Perry,0,0,0,-1,4,0,0,0,-,...,0,-,-,21,14:54,Montréal Canadiens,"Thu, 8. Jul, 2021",951,Perry,C.
38015,C. Price,0,0,0,0,0,0,0,0,-,...,0,-,-,0,58:14,Montréal Canadiens,"Thu, 8. Jul, 2021",951,Price,C.
38016,B. Kulak,0,0,0,0,0,1,0,0,-,...,0,-,-,12,08:59,Montréal Canadiens,"Thu, 8. Jul, 2021",951,Kulak,B.
38017,A. Romanov,0,0,0,0,0,1,0,0,-,...,3,-,-,18,12:43,Montréal Canadiens,"Thu, 8. Jul, 2021",951,Romanov,A.


Ein Abgleich hat gezeigt, dass mehrere Spielernamen beim Verbinden mit den Daten von Student C zu Problemen führen. Deshalb wird die Schreibweise an die Daten von Student C angeglichen.
Zuerst werden in einem Dictionnary die aktuelle (Keys) und die neue (Values) Schreibweise erfasst. Anschliessend werden in einem Loop die Indexe der aktuellen Schreibweise in der Variable "typo_line_name" gespeichert sowie die neue Schreibweise in der Variable "corr_name" festgehalten. Schliesslich wird in einem weiteren (nested) Loop die aktuelle mit der neuen Schreibweise überschrieben.

In [240]:
corrections = {'Dal Colle': 'Colle','Di Giuseppe': 'Giuseppe','Lafreniere': 'Lafrenière','van Riemsdyk': 'Riemsdyk', 'Stutzle':'Stützle', 'Barre-Boulet': 'Barré-Boulet','de Haan': 'Haan','De La Rose': 'Rose','De Leo': 'DeLeo','Truchon-Viel': 'Viel', 'Del Zotto': 'Zotto', 'Eriksson Ek': 'Ek', 'Demelo' : 'DeMelo'}

corr_keys = list(corrections.keys())
corr_values = list(corrections.values())

counter = 0
counter2 = 0

for key in corr_keys:
    typo_line_name = df[df['Name']  == corr_keys[counter]].index
    corr_name = corr_values[counter]
    counter += 1    
    
    for row in typo_line_name:
        df.loc[typo_line_name.to_list()[counter2],'Name'] = corr_name
        counter2 += 1
    
    counter2 = 0
       


Das Datum in der Spalte 'Date_Game' ist nicht im richtigen Format.

In [241]:
def convert_date(row):
    
    try:
        new_value = datetime.strptime(row['Date_Game'], "%a, %d. %b, %Y").strftime('%Y-%m-%d')
        ret_value = row['Date_Game'].replace(row['Date_Game'], new_value)
        return ret_value
    except: 
        return
df['Date_Game'] = df.apply(convert_date, axis='columns')

In [242]:
df['Date_Game']

0        2021-01-14
1        2021-01-14
2        2021-01-14
3        2021-01-14
4        2021-01-14
            ...    
38014    2021-07-08
38015    2021-07-08
38016    2021-07-08
38017    2021-07-08
38018    2021-07-08
Name: Date_Game, Length: 36218, dtype: object

Um später die Verbindung zum Datenset von Student C zu vereinfachen, wird eine zusätzliche Spalte als Foreign Key erstellt.

In [243]:
df['Skater_Date_Game'] = df['Name'] + "_" + df['Team'] + "_" + df['Date_Game']
df

Unnamed: 0,Skaters,G,A,Pts,+/-,PIM,SOG,FW,FL,FO%,...,Take,Give,Shifts,TOI,Team,Date_Game,Counter_Game,Name,Firstname,Skater_Date_Game
0,T. Ennis,0,0,0,-1,0,0,0,0,-,...,-,-,12,08:41,Edmonton Oilers,2021-01-14,1,Ennis,T.,Ennis_Edmonton Oilers_2021...
1,A. Chiasson,0,0,0,-1,0,1,0,0,-,...,-,-,14,13:25,Edmonton Oilers,2021-01-14,1,Chiasson,A.,Chiasson_Edmonton Oilers_2...
2,Z. Kassian,0,1,1,-1,0,1,0,0,-,...,-,-,20,16:15,Edmonton Oilers,2021-01-14,1,Kassian,Z.,Kassian_Edmonton Oilers_20...
3,R. Nugent-Hopkins,0,0,0,-1,0,2,0,0,-,...,-,-,23,23:16,Edmonton Oilers,2021-01-14,1,Nugent-Hopkins,R.,Nugent-Hopkins_Edmonton Oi...
4,C. McDavid,0,0,0,-1,0,5,12,10,.545,...,-,-,25,26:24,Edmonton Oilers,2021-01-14,1,McDavid,C.,McDavid_Edmonton Oilers_20...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38014,C. Perry,0,0,0,-1,4,0,0,0,-,...,-,-,21,14:54,Montréal Canadiens,2021-07-08,951,Perry,C.,Perry_Montréal Canadiens_2...
38015,C. Price,0,0,0,0,0,0,0,0,-,...,-,-,0,58:14,Montréal Canadiens,2021-07-08,951,Price,C.,Price_Montréal Canadiens_2...
38016,B. Kulak,0,0,0,0,0,1,0,0,-,...,-,-,12,08:59,Montréal Canadiens,2021-07-08,951,Kulak,B.,Kulak_Montréal Canadiens_2...
38017,A. Romanov,0,0,0,0,0,1,0,0,-,...,-,-,18,12:43,Montréal Canadiens,2021-07-08,951,Romanov,A.,Romanov_Montréal Canadiens...


Die nicht mehr benötigten Spalten werden gelöscht und die definitiven (stage) Daten in einer Variable gespeichert.


In [244]:
df = df.drop(columns=['Skaters','G', 'A', 'Pts', '+/-', 'PIM', 'SOG', 'FW', 'FL', 'FO%',
       'Hits', 'Bks', 'Take', 'Give', 'Shifts'])

In [245]:
df_out = df[["Name", 'Firstname', 'TOI', 'Team', 'Date_Game', 'Skater_Date_Game']]
df_out


Unnamed: 0,Name,Firstname,TOI,Team,Date_Game,Skater_Date_Game
0,Ennis,T.,08:41,Edmonton Oilers,2021-01-14,Ennis_Edmonton Oilers_2021...
1,Chiasson,A.,13:25,Edmonton Oilers,2021-01-14,Chiasson_Edmonton Oilers_2...
2,Kassian,Z.,16:15,Edmonton Oilers,2021-01-14,Kassian_Edmonton Oilers_20...
3,Nugent-Hopkins,R.,23:16,Edmonton Oilers,2021-01-14,Nugent-Hopkins_Edmonton Oi...
4,McDavid,C.,26:24,Edmonton Oilers,2021-01-14,McDavid_Edmonton Oilers_20...
...,...,...,...,...,...,...
38014,Perry,C.,14:54,Montréal Canadiens,2021-07-08,Perry_Montréal Canadiens_2...
38015,Price,C.,58:14,Montréal Canadiens,2021-07-08,Price_Montréal Canadiens_2...
38016,Kulak,B.,08:59,Montréal Canadiens,2021-07-08,Kulak_Montréal Canadiens_2...
38017,Romanov,A.,12:43,Montréal Canadiens,2021-07-08,Romanov_Montréal Canadiens...


Die Stage-Daten werden in eine CSV-Datei exportiert, um sie bei der Abgabe des Projekts wie vorgegeben einreichen zu können.

In [246]:
df_out.to_csv("usatoday_stage.csv", index=False)

# Load (in Mariadb)

## Vorbereitung

- MariaDB konfigurieren
- Admin User erstellen
- Datenbank "nhl" erstellen
- Tabellen "orgstats" (Original-Daten) und "stats" (Stage-Daten) erstellen.

Verwendete SQL-Befehle:
    
    CREATE DATABASE nhl;
    USE nhl;
    CREATE TABLE orgstats (skaters VARCHAR(110), g INT(8), a INT(8), pts INT(8),  plusminus INT(8), pim INT(8),
                           sog INT(8), fw INT(8), fl INT(8), fo VARCHAR(8), hits INT(8), bks INT(8), 
                           take VARCHAR(8), give VARCHAR(8), shifts INT(8), toi VARCHAR(10), team VARCHAR(100),
                           date_game VARCHAR(20), counter_game INT(8));
        
    CREATE TABLE stats (firstname VARCHAR(8), name VARCHAR(100), toi VARCHAR(10), team VARCHAR(100), 
                           date_game VARCHAR(20), skater_date_game VARCHAR(100));

Initialisierung der Zugangsdaten der MariaDB. Die Zugangsdaten wurden zuvor im "activate-file" der Jupyter-Environment gespeichert.

In [247]:
username = os.environ.get("DBUNAME")
password = os.environ.get("DBPWD")

Variable "engine" für df.to_sql() definieren. Sie setzt sich zusammen aus:"Datenbank-Typ://Username:Passwort@Datenbank-Host:Port/Datenbank-Name"

In [248]:
engine = sqla.create_engine('mysql+mysqlconnector://'+username+':'+password+'@localhost:3306/nhl')


Die Original-Daten werden in die MariaDB geladen (Tabelle "orgstats"). Der Index wird nicht importiert, die bestehenden Daten werden mit "if_exists='replace'" gelöscht, da die Daten nicht angehängt werden sollen.

In [249]:
df_org.to_sql('orgstats', engine, index=False, if_exists='replace')
print("Load finished")

Load finished


Die Stage-Daten werden in die MariaDB geladen (Tabelle "stats"). Der Index wird nicht importiert, die bestehenden Daten werden mit "if_exists='replace'" gelöscht, da die Daten nicht angehängt werden sollen.

In [250]:
df_out.to_sql('stats', engine, index=False, if_exists='replace')
print("Load finished")

Load finished
