In [1]:
import scipy
import numpy as np
import pandas as pd
import sklearn
import seaborn

## Zadanie
- Každá dvojica bude pracovať s im náhodne pridelenou dátovou sadou (4. týždeň, AIS dokumentový server). 
- Vašou úlohou je vedieť predikovať hodnotu **Y** (môže sa líšiť v závislosti od pridelenej dátovej sady). 
- Budete sa musieť pritom vysporiadať s viacerými problémami, ktoré sa v dátach nachádzajú 
	(formáty dát, chýbajúce, nezmyselné alebo vychýlené hodnoty a pod.).


## Fáza 1: Prieskumná analýza (max. 16b)

V tejto fáze sa od Vás očakáva:

**Základný opis dát spolu s ich charakteristikami (5b).** 

Pre dosiahnutie plného počtu bodov uveďte 
- počet záznamov, 
- počet atribútov, 
- ich typy,  
- pre zvolené významné atribúty ich distribúcie, základné deskriptívne štatistiky a pod.

**Párová analýza dát (5b).** 
- Preskúmajte vzťahy medzi zvolenými dvojicami atribútov. 
- Identifikujte závislostí medzi dvojicami atribútov (napr. korelácie) a 
	na závislosti medzi predikovanou premennou a ostatnými premennými (potenciálnymi prediktormi).

**Formulácia a štatistické overenie hypotéz o dátach (2b).** 
- Mali by ste sformulovať aspoň dve hypotézy o dátach, ktoré budú relevantné v kontexte zadanej predikčnej úlohy. 
Príkladom hypotézy v doméne (v závislosti od pridelenej dátovej sady) môže byť, napr. 
	*pacienti s chorobou štítnej žľazy majú v priemere inú (vyššiu/nižšiu) hodnotu nejakej látky 
	alebo hormónu ako pacienti bez danej choroby*. 
- Vami sformulované hypotézy overte vhodne zvoleným štatistickým testom.

**Identifikácia problémov v dátach spolu s predpokladaným scenárom riešenia v ďalšej fáze (4b).** 

Identifikujte, čo a ako budete musieť v rámci predspracovania vyriešiť v ďalšej fáze, napr.: 
- nevhodná štruktúra dát (dáta nie sú v tabuľkovej podobe alebo jedna entita je opísaná viacerými riadkami tabuľky)
- duplicitné záznamy, resp. nejednoznačné mapovanie medzi záznamami
- nejednotné formáty dát
- chýbajúce hodnoty
- vychýlené (odľahlé) hodnoty
- v dátach sa môžu nachádzať aj iné, tu nevymenované problémy.

**V odovzdanej správe (`Jupyter Notebooku`) by ste tak mali vedieť zodpovedať na otázky**
- Majú dáta vhodný formát pre ďalšie spracovanie? Ak nie, aké problémy sa v nich vyskytujú?
- Sú niektoré atribúty medzi sebou závislé? Od ktorých (jednotlivých) atribútov závisí predikovaná premenná?
- Sú v dátach chýbajúce hodnoty? Ako sú reprezentované? Ako plánujete riešiť problém chýbajúcich hodnôt 
pre jednotlivé atribúty, resp. pozorovania? (Pre rôzne atribúty môže byť vhodné použiť rôzne stratégie.)
- Nadobúdajú niektoré atribúty nezmyselné (nekonzistentné) či inak výrazne odchýlené hodnoty? Ktoré?
- Ako plánujete v ďalšej fáze tieto identifikované problémy adresovať / riešiť?

> Správa sa odovzdáva v 6. týždni semestra na cvičení.
> Dvojica svojmu cvičiacemu odprezentuje vykonanú prieskumnú analýzu v `Jupyter Notebooku`). 
> Následne správu elektronicky odovzdá jeden člen z  dvojice do systému AIS do **nedele 01.11.2020 23:59**.


In [2]:
filename = "../data/other_train.csv"
loaded_data = pd.read_csv(filename)
loaded_data.head()

Unnamed: 0.1,Unnamed: 0,name,address,race,marital-status,occupation,pregnant,education-num,relationship,skewness_glucose,...,education,fnlwgt,class,std_glucose,income,medical_info,native-country,hours-per-week,capital-loss,workclass
0,0,David Aaron,"866 Thomas Road Apt. 545\r\nNicholaschester, A...",White,Divorced,Craft-repair,f,900.0,Not-in-family,-0.271453,...,HS-grad,172403.0,0.0,49.763419,<=50K,"{'mean_oxygen':'1.6638795990000002','std_oxyge...",United-States,30.0,0.0,Private
1,1,John Lopez,"8413 James Branch Suite 359\r\nEast Hannah, DC...",White,Divorced,Craft-repair,f,10.0,Not-in-family,0.969646,...,Some-college,249644.0,0.0,43.097724,>50K,"{'mean_oxygen':'13.14799331','std_oxygen':'41....",United-States,48.0,0.0,Private
2,2,Joshua Hawley,Unit 6457 Box 7327\r\nDPO AP 20796,White,Never-married,Other-service,f,9.0,Unmarried,0.033778,...,HS-grad,179731.0,0.0,45.273537,<=50K,"{'mean_oxygen':'3.924749164','std_oxygen':'22....",United-States,35.0,0.0,Private
3,3,Ben Little,7305 Patrick Plains Suite 945\r\nNorth Christi...,White,Never-married,Adm-clerical,f,14.0,Not-in-family,0.941634,...,Masters,204935.0,0.0,39.705402,<=50K,"{'mean_oxygen':'3.100334448','std_oxygen':'15....",United-States,56.0,0.0,Private
4,4,Santos Pope,"94941 Hill Dam Suite 110\r\nWest Madison, LA 0...",White,Married-civ-spouse,Prof-specialty,FALSE,9.0,Husband,-0.52927,...,HS-grad,157640.0,0.0,58.804776,>50K,"{'mean_oxygen':'2.930602007','std_oxygen':'16....",United-States,55.0,0.0,Private


In [7]:
loaded_data

Unnamed: 0.1,Unnamed: 0,name,address,race,marital-status,occupation,pregnant,education-num,relationship,skewness_glucose,...,education,fnlwgt,class,std_glucose,income,medical_info,native-country,hours-per-week,capital-loss,workclass
0,0,David Aaron,"866 Thomas Road Apt. 545\r\nNicholaschester, A...",White,Divorced,Craft-repair,f,900.0,Not-in-family,-0.271453,...,HS-grad,172403.0,0.0,49.763419,<=50K,"{'mean_oxygen':'1.6638795990000002','std_oxyge...",United-States,30.0,0.0,Private
1,1,John Lopez,"8413 James Branch Suite 359\r\nEast Hannah, DC...",White,Divorced,Craft-repair,f,10.0,Not-in-family,0.969646,...,Some-college,249644.0,0.0,43.097724,>50K,"{'mean_oxygen':'13.14799331','std_oxygen':'41....",United-States,48.0,0.0,Private
2,2,Joshua Hawley,Unit 6457 Box 7327\r\nDPO AP 20796,White,Never-married,Other-service,f,9.0,Unmarried,0.033778,...,HS-grad,179731.0,0.0,45.273537,<=50K,"{'mean_oxygen':'3.924749164','std_oxygen':'22....",United-States,35.0,0.0,Private
3,3,Ben Little,7305 Patrick Plains Suite 945\r\nNorth Christi...,White,Never-married,Adm-clerical,f,14.0,Not-in-family,0.941634,...,Masters,204935.0,0.0,39.705402,<=50K,"{'mean_oxygen':'3.100334448','std_oxygen':'15....",United-States,56.0,0.0,Private
4,4,Santos Pope,"94941 Hill Dam Suite 110\r\nWest Madison, LA 0...",White,Married-civ-spouse,Prof-specialty,FALSE,9.0,Husband,-0.529270,...,HS-grad,157640.0,0.0,58.804776,>50K,"{'mean_oxygen':'2.930602007','std_oxygen':'16....",United-States,55.0,0.0,Private
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3978,3978,Lawrence Thomas,"923 Larry River Suite 973\r\nDebraton, WI 58721",White,Married-civ-spouse,Machine-op-inspct,f,4.0,Husband,0.082530,...,7th-8th,99203.0,0.0,43.327828,<=50K,"{'mean_oxygen':'1.834448161','std_oxygen':'11....",United-States,40.0,0.0,Private
3979,3979,Jason Hooper,Unit 3667 Box 8370\r\nDPO AP 31384,White,Never-married,Handlers-cleaners,f,6.0,Not-in-family,1.543539,...,10th,219426.0,0.0,44.151981,<=50K,"{'mean_oxygen':'24.27759197','std_oxygen':'60....",United-States,40.0,0.0,Private
3980,3980,Raymond Diaz,"4973 Price Forge\r\nNorth Emmashire, CT 65182",White,Never-married,Other-service,f,11.0,Not-in-family,5.222868,...,Assoc-voc,91819.0,1.0,39.888222,<=50K,"{'mean_oxygen':'97.56187291','std_oxygen':'84....",United-States,30.0,0.0,Private
3981,3981,Kenneth Walker,"4021 Karen Landing Apt. 528\r\nNew Justin, NH ...",White,Married-civ-spouse,Exec-managerial,f,9.0,Husband,2.476585,...,HS-grad,336329.0,0.0,43.282400,<=50K,"{'mean_oxygen':'1.948996656','std_oxygen':'17....",United-States,10.0,0.0,Self-emp-not-inc


In [4]:
loaded_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3983 entries, 0 to 3982
Data columns (total 23 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Unnamed: 0        3983 non-null   int64  
 1   name              3983 non-null   object 
 2   address           3983 non-null   object 
 3   race              3965 non-null   object 
 4   marital-status    3967 non-null   object 
 5   occupation        3970 non-null   object 
 6   pregnant          3972 non-null   object 
 7   education-num     3968 non-null   float64
 8   relationship      3972 non-null   object 
 9   skewness_glucose  3964 non-null   float64
 10  mean_glucose      3575 non-null   float64
 11  capital-gain      3973 non-null   float64
 12  kurtosis_glucose  3971 non-null   float64
 13  education         3972 non-null   object 
 14  fnlwgt            3963 non-null   float64
 15  class             3970 non-null   float64
 16  std_glucose       3972 non-null   float64


In [9]:
loaded_data.describe()

Unnamed: 0.1,Unnamed: 0,education-num,skewness_glucose,mean_glucose,capital-gain,kurtosis_glucose,fnlwgt,class,std_glucose,hours-per-week,capital-loss
count,3983.0,3968.0,3964.0,3575.0,3973.0,3971.0,3963.0,3970.0,3972.0,3969.0,3970.0
mean,1991.0,7.985131,4.230411,101.278029,1040.761138,0.951922,190544.2,0.254912,45.181594,40.400857,84.387657
std,1149.93739,323.603873,9.681219,33.590153,7443.431116,1.610588,105462.8,0.435867,7.606388,12.363175,394.065319
min,0.0,-1600.0,-1.755332,6.1875,0.0,-1.641515,19752.0,0.0,25.69525,1.0,0.0
25%,995.5,9.0,-0.119196,87.820312,0.0,0.071856,118956.5,0.0,40.170613,40.0,0.0
50%,1991.0,10.0,0.375623,110.476562,0.0,0.310372,178792.0,0.0,45.894995,40.0,0.0
75%,2986.5,13.0,2.093538,124.042969,0.0,0.777685,236942.0,1.0,50.369084,45.0,0.0
max,3982.0,1600.0,68.101622,189.734375,99999.0,8.069522,1268339.0,1.0,91.206475,99.0,3770.0


In [37]:
loaded_data["kurtosis_glucose"]

0       0.377970
1       0.531236
2       0.122070
3       0.510878
4       0.094584
          ...   
3978    0.083387
3979    0.443495
3980    1.729322
3981    0.877208
3982    0.315189
Name: kurtosis_glucose, Length: 3983, dtype: float64