# UUZOP projekt
# Priprema i vizualizacija podataka
Kroz ovu bilježnicu ćemo proći kroz prvi dio projekta iz predmeta Uvod o znanost o podacima. U ovom dijelu projekta radimo na pripremi i vizualizaciji podataka vezanih za američku studentsku košarkašku ligu te turnire koji se igraju na kraju sezone.

In [18]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier, ExtraTreesClassifier
from sklearn.metrics import accuracy_score, confusion_matrix
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder, LabelEncoder
from sklearn.model_selection import cross_val_score
from sklearn.feature_selection import SelectKBest, mutual_info_classif

Učitajmo najprije podatke u bilježnicu i pregledajmo što smo učitali. 

In [19]:
teams = pd.read_csv("./data/teams.csv")
seasons = pd.read_csv("./data/seasons.csv")
season_results = pd.read_csv("./data/regular_season_results.csv")
tourney_results = pd.read_csv("./data/tourney_results.csv")
tourney_seeds = pd.read_csv("./data/tourney_seeds.csv")
tourney_slots = pd.read_csv("./data/tourney_slots.csv")

print('(teams rows, teams columns) -> ', teams.shape)
print('(seasons rows, seasons columns) -> ', seasons.shape)
print('(season_results rows, season_results columns) -> ', season_results.shape)
print('(tourney_results rows, tourney_results columns) -> ', tourney_results.shape)
print('(tourney_seeds rows, tourney_seeds columns) -> ', tourney_seeds.shape)
print('(tourney_slots rows, tourney_slots columns) -> ', tourney_slots.shape)

(teams rows, teams columns) ->  (356, 2)
(seasons rows, seasons columns) ->  (19, 7)
(season_results rows, season_results columns) ->  (91224, 8)
(tourney_results rows, tourney_results columns) ->  (1156, 7)
(tourney_seeds rows, tourney_seeds columns) ->  (1242, 3)
(tourney_slots rows, tourney_slots columns) ->  (1223, 4)


In [20]:
teams.head()

Unnamed: 0,id,name
0,501,Abilene Chr
1,502,Air Force
2,503,Akron
3,504,Alabama
4,505,Alabama A&M


In [21]:
seasons.head()

Unnamed: 0,season,years,dayzero,regionW,regionX,regionY,regionZ
0,A,1995-1996,10/30/1995,East,Midwest,Southeast,West
1,B,1996-1997,10/28/1996,East,Southeast,Midwest,West
2,C,1997-1998,10/27/1997,East,West,Midwest,South
3,D,1998-1999,10/26/1998,East,Midwest,South,West
4,E,1999-2000,11/01/1999,Midwest,West,East,South


In [22]:
season_results.head()

Unnamed: 0,season,daynum,wteam,wscore,lteam,lscore,wloc,numot
0,A,16,511,91,647,57,H,
1,A,16,515,75,812,67,H,
2,A,16,606,87,658,67,H,
3,A,16,670,73,573,65,H,
4,A,16,721,99,632,68,H,


In [23]:
tourney_results.head()

Unnamed: 0,season,daynum,wteam,wscore,lteam,lscore,numot
0,A,136,515,86,729,80,
1,A,136,559,68,555,59,
2,A,136,576,75,666,63,
3,A,136,581,75,577,60,
4,A,136,604,81,551,74,


In [24]:
tourney_seeds.head()

Unnamed: 0,season,seed,team
0,A,W01,663
1,A,W02,603
2,A,W03,796
3,A,W04,660
4,A,W05,729


In [25]:
tourney_slots.head()

Unnamed: 0,season,slot,strongseed,weakseed
0,A,R1W1,W01,W16
1,A,R1W2,W02,W15
2,A,R1W3,W03,W14
3,A,R1W4,W04,W13
4,A,R1W5,W05,W12


# season_results
Pogledajmo najprije tablicu season_results. Tablica ima 91224 zapisa (svaki predstavlja jednu utakmicu u određenoj sezoni) i 8 značajki.

In [26]:
print('(season_results rows, season_results columns) -> ', season_results.shape)
season_results

(season_results rows, season_results columns) ->  (91224, 8)


Unnamed: 0,season,daynum,wteam,wscore,lteam,lscore,wloc,numot
0,A,16,511,91,647,57,H,
1,A,16,515,75,812,67,H,
2,A,16,606,87,658,67,H,
3,A,16,670,73,573,65,H,
4,A,16,721,99,632,68,H,
...,...,...,...,...,...,...,...,...
91219,S,132,592,61,640,60,N,0.0
91220,S,132,671,69,670,55,N,0.0
91221,S,132,779,65,825,61,N,0.0
91222,S,132,811,82,605,81,N,1.0


Pogledajmo sada sadrži li ova tablica nedostajajuće podatke i postoje li stršeće vrijednosti.

In [27]:
season_results.isna().sum()

season        0
daynum        0
wteam         0
wscore        0
lteam         0
lscore        0
wloc          0
numot     39891
dtype: int64

Značajka **numot** sadrži više od trećine nedostajajućih podataka. Smatram da nam za našu predikciju ova značajka nije od prevelike važnosti stoga ćemo ju obrisati.

In [28]:
season_results.drop(['numot'], axis=1, inplace=True)
season_results.isna().sum()

season    0
daynum    0
wteam     0
wscore    0
lteam     0
lscore    0
wloc      0
dtype: int64

Pogledajmo sadrži li tablica neke stršeće vrijednosti.

In [29]:
season_results_tmp.describe()

NameError: name 'season_results_tmp' is not defined

Vidimo da su kandidati za stršeču vrijednost **wscore** i **lscore**. Maksimalne vrijednosti im dosta odskaču, ali nisu nemoguće. Promijenimo značajku wloc u numeričku vrijednost koristeći LabelEncoder. Broj 1 predstavlja domaći teren, broj 0 gostujući, a broj 2 neutralni. Prikažimo broj pobjeđenh utakmica u ovisnosti o terenu. Vidimo da je ostvareno duplo više pobjeda na domaćem terenu nego na gostujućem.

In [None]:
le = LabelEncoder()
le.fit(season_results.loc[:,'wloc'])
season_results.loc[:,'wloc'] = le.transform(season_results.loc[:,'wloc'])

season_results[['wloc','wscore']].groupby('wloc').count()

Promijenimo zatim značajku **season** u brojčanu vrijednost, isto koristeći LabelEncoder. Atribut season se pojavljuje u čak pet tablica, tako da ćemo ga odmah pretvoriti u brojčanu vrijednost u svih pet tablica.

In [None]:
le = LabelEncoder()

le.fit(season_results.loc[:,'season'])
season_results.loc[:,'season'] = le.transform(season_results.loc[:,'season'])

le.fit(seasons.loc[:,'season'])
seasons.loc[:,'season'] = le.transform(seasons.loc[:,'season'])

le.fit(tourney_results.loc[:,'season'])
tourney_results.loc[:,'season'] = le.transform(tourney_results.loc[:,'season'])

le.fit(tourney_seeds.loc[:,'season'])
tourney_seeds.loc[:,'season'] = le.transform(tourney_seeds.loc[:,'season'])

le.fit(tourney_slots.loc[:,'season'])
tourney_slots.loc[:,'season'] = le.transform(tourney_slots.loc[:,'season'])


Prikažimo sada neke zanimljivosti iz ove tablice grafički. Donji grafovi prikazuju koliko se najviše koševa zabilo u jednoj utakmici po sezonama, dok graf ispod pokazuje koliko se najmanje koševa u jednoj utakmici zabilo po sezonama.

In [None]:
max_points = season_results.groupby(['season'], as_index=False)['wscore'].max()
min_points = season_results.groupby(['season'], as_index=False)['lscore'].min()

fig, ax = plt.subplots(2,1, figsize=(20,10)) 
ax[0].bar(max_points.season,max_points.wscore)
ax[0].set_xlabel('seasons')
ax[0].set_ylabel('max_points')

ax[1].bar(min_points.season,min_points.lscore)
ax[1].set_xlabel('seasons')
ax[1].set_ylabel('min_points')

plt.show()

Donji graf prikazuje prosječan broj koševa od strane pobjedničkih ekipa po sezonama.

In [None]:
avg_win_points = season_results.groupby(['season'], as_index=False)['wscore'].mean()

plt.plot(avg_win_points.season, avg_win_points.wscore)
plt.show()

Donji graf prikazuje koliko znači prednost domaćeg terena. Vidimo da ekipe puno više pobjeda imaju na domaćem terenu nego na gostujućem ili neutralnom terenu.

In [None]:
count_per_loc = season_results.groupby('wloc').count().loc[:, 'season'].values

plt.pie(count_per_loc, labels=['away', 'home', 'neutral'], autopct='%.2f')
plt.title('Display of victories depending on the terrain')
plt.show()

# tourney_results
Pogledajmo sada tablicu tourney_results. Tablica ima 1156 redaka i 7 značajki. Pogledajmo nedostajajuće podatke.

In [None]:
print('(rows, attributes) ->',tourney_results.shape)
tourney_results

In [None]:
tourney_results.isna().sum()

Vidimo da za 50% n-torki ne postoji vrijednost **numot**. Ovih nedostajajućih vrijednosti ćemo se riješiti tako da uklonimo značajku numot iz skupa podataka, kao što smo napravili i u season_results.

In [None]:
tourney_results.drop(['numot'], axis=1, inplace=True)
tourney_results.isna().sum()

Pogledajmo sada postoje li stršeće vrijednosti u tablici tourney_results.

In [None]:
tourney_results.describe()

U ovom skupu podataka za sad ne mogu uočiti nikakve stršeće vrijednosti. Nema potrebe za reformatiranjem značajki jer su sve značajke brojčane vrijednosti. Vizualizirajmo malo podatke. Donji graf prikazuje top 10 timova sa najviše pobjeda(prvi graf) i s najviše poraza(drugi graf).

In [None]:
wining_teams = tourney_results.merge(teams, left_on='wteam', right_on='id')
wining_teams = wining_teams.groupby('name', as_index=False)['daynum'].count().sort_values(by='daynum', ascending=False).head(10)

losing_teams = tourney_results.merge(teams, left_on='lteam', right_on='id')
losing_teams = losing_teams.groupby('name', as_index=False)['daynum'].count().sort_values(by='daynum', ascending=False).head(10)

fig, ax = plt.subplots(2,1, figsize=(20,10)) 
ax[0].plot(wining_teams.name, wining_teams.daynum, c='r')
ax[1].plot(losing_teams.name, losing_teams.daynum, c='b')

plt.show()

# seasons
Pogledajmo tablicu seasons. Tablica ima 19 zapisa (svaki predstavlja jednu sezonu) i 7 značajki.

In [None]:
print('(seasons rows, seasons columns) -> ', seasons.shape)
seasons

Bilo bi dobro promijeniti format značajke **years**. Stvorit ćemo novu značajku **begining_year** koja će predstavljati godinu u kojoj je sezona počela.

In [None]:
new = seasons['years'].str.split('-', n = 1, expand = True)
seasons['begining_year'] = pd.to_numeric(new[0])
seasons.drop(['years'], axis=1, inplace=True)
seasons


Dodajmo sada regije kao značajke. Svaki zapis za svaku regiju promijenit ćemo u brojčanu vrijednost koristeći labelEncoder. Prvotne regije u tekstualnom obliku ćemo ostaviti još neko vrijeme, možda nam zatrebaju.

In [None]:
seasons_tmp = seasons.copy()
regions = pd.concat([seasons_tmp.loc[:, 'regionW'], 
                     seasons_tmp.loc[:, 'regionX'], 
                     seasons_tmp.loc[:, 'regionY'], 
                     seasons_tmp.loc[:, 'regionZ']]).drop_duplicates()
le = LabelEncoder()
le.fit(regions)

seasons_tmp['regionW_num'] = le.transform(seasons_tmp.loc[:,'regionW'])
seasons_tmp['regionX_num'] = le.transform(seasons_tmp.loc[:,'regionX'])
seasons_tmp['regionY_num'] = le.transform(seasons_tmp.loc[:,'regionY'])
seasons_tmp['regionZ_num'] = le.transform(seasons_tmp.loc[:,'regionZ'])

seasons = seasons_tmp.copy()
seasons


Pogledajmo sada sadrži li ova tablica nedostajajuće podatke i postoje li stršeće vrijednosti.

In [None]:
seasons.isna().sum()

In [None]:
seasons.describe()

Nedostajajući podaci ne postoje, a stršeće vrijednosti ne mogu pronaći. Pokušajmo vizualizirati podatke iz tablice. Na primjer, tablica ispod prikazuje koliko je puta koja regija sudjelovala u finalnom turniru na kraju sezone.

In [None]:
tmp = pd.concat([seasons['regionW'], seasons['regionX'], seasons['regionY'], seasons['regionZ']])

tmp = tmp.to_frame().rename(columns={0:'region'})
tmp['rand'] = 1
tmp = tmp.groupby('region', as_index=False)['rand'].count().sort_values(by='rand', ascending=False)

plt.bar(tmp.region, tmp.rand)
plt.xticks(rotation=90)
plt.show()

# tourney_seeds
Pogledajmo sada tablicu tourney_seeds. Tablica ima 1242 zapisa i 3 značajke.

In [None]:
print('(tourney_seeds rows, tourney_seeds columns) -> ', tourney_seeds.shape)
tourney_seeds

Pogledajmo postoji li nedostajajućih podataka ili stršećih vrijednosti.

In [None]:
tourney_seeds.isna().sum()

In [None]:
tourney_seeds.describe()

Nedostajajućih i stršećih vrijednosti očekivano nema. Pogledajmo značajku **seed**. Pokušajmo ju drukčije formatirati i od nje napraviti dvije značajke: prva neka se zove **region**, a druga neka bude **seed_in_region**. Značajku region dobit ćemo uzimanjem prvog slova značajke seed (0->W, 1->X, 2->Y, 3->Z), a seed_in_region dobivamo kao ostatak značajke seed (na nekoliko mjesta postojalo je sed_in_region = '16a' ili '16b', pretpostavljam da su te ekipe imale isti broj bodova pa su obje bile na 16. mjestu, zanemario sam taj podatak tako da bih dobio značajku seed_in_region kao numeričku vrijednost)

In [None]:
tourney_seeds['region'] = tourney_seeds['seed'].astype(str).str[0]
tourney_seeds['seed_in_region'] = tourney_seeds['seed'].astype(str).str[1:]
exceptions = tourney_seeds.loc[(tourney_seeds.seed_in_region.str.contains('a', regex=False)) |
                  (tourney_seeds.seed_in_region.str.contains('b', regex=False)), 'seed_in_region']
exceptions = exceptions.str[:-1]
tourney_seeds.loc[(tourney_seeds.seed_in_region.str.contains('a', regex=False)) |
                  (tourney_seeds.seed_in_region.str.contains('b', regex=False)), 'seed_in_region'] = exceptions

tourney_seeds['seed_in_region'] = pd.to_numeric(tourney_seeds['seed_in_region'])

le = LabelEncoder()
le.fit(tourney_seeds.loc[:,'region'])
tourney_seeds.loc[:,'region'] = le.transform(tourney_seeds.loc[:,'region'])


tourney_seeds.info()


In [None]:
tourney_seeds.drop(['seed'], axis=1, inplace=True)
tourney_seeds

# tourney_slots
Pogledajmo sada tablicu tourney_slots. Tablica ima 1223 zapisa i 4 značajke.

In [None]:
print('(tourney_slots rows, tourney_slots columns) -> ', tourney_slots.shape)
tourney_slots

Pogledajmo postoji li nedostajajućih podataka ili stršećih vrijednosti, te koji su tipovi podataka u tablici.

In [None]:
tourney_slots.isna().sum()

In [None]:
tourney_slots.describe()

In [None]:
tourney_slots.info()

Nedostajajućih i stršećih vrijednosti očekivano nema. Većina podataka u tablici su tipa object. U ovoj tablici nisam mijenjao format značajki jer trenutno nisam siguran na koji način prikazati ove značajke numerički, a da mi posluži u kasnijem radu na projektu. 