In [1]:
import pandas as pd

#### Učitavamo skup podataka koji je u csv formatu i dobijamo DataFrame objekat. DataFrame ima kolone koje predstavljaju atribute i redove koji predstavljaju primere iz skupa podataka. Pored csv pomoću pandas možemo učitati i mnoge druge formate: Excel, tab separated itd.

In [2]:
titanic = pd.read_csv('train.csv')

#### Pomoću metoda head dobijamo prvih x (po defaultu 5) redova dataseta. To je obično zgodan način da prvi put pogledamo podatke sa kojima radimo.

In [3]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


#### Nakon poziva head tipično pozivamo describe da pogledamo neke sumarne statistike.

In [4]:
titanic.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


#### Spisak atributa skup podataka dobijamo pomoću atributa columns.

In [5]:
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

#### Vrlo često kada radimo sa realnim podacima skupovi podataka sadrže nedostajuće vrednosti. DataFrame sadrži metod isna koji na može pomoći da saznamo da li i koliko naš skup podataka ima nedostajućih vrednosti. Pandas markira nedostajuće vrednosti sa NaN, a isna vraća Data Frame koji ima isti broj ćelija kao Data Frame sa kojim radimo, ali u ćelijama ima samo True ili False vrednosti u zavisnosti od toga da li ta ćelija sadrži (True) ili ne sadrži (False) NaN vrednost.

In [6]:
titanic.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,True,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


#### Ako skup podataka ima veliki broj redova sam rezultat isna nam ne pomaže mnogo, ali možemo pozvati metod sum koji će sabrati True kao 1 i False kao 0 po kolonama i tako ćemo dobiti ukupan broj nedostajućih vrednosti za svaku kolonu, tj. atribut.

In [7]:
titanic.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [8]:
#metod shape vraća dimenzije DataFrame-a
titanic.shape

(891, 12)

In [9]:
687/891

0.7710437710437711

#### Oko 77% redova nema vrednost za atribut Cabin. Kada nedostaje tako veliki broj atributa verovatno (nema univerzalnih rešenja) je najbolje izbaciti taj atribut iz skupa podataka. Izbacivanje radimo pomoću metoda drop (sa axis = 1 označavamo da izbacujemo kolonu).

In [10]:
temp = titanic.drop('Cabin', axis = 1)

In [11]:
temp.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,S


#### Ako želimo direktno da promenimo dataset koristimo flag inplace=True

In [12]:
titanic.drop('Cabin', axis = 1, inplace = True)

In [13]:
titanic.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Embarked'],
      dtype='object')

In [14]:
titanic.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Embarked         2
dtype: int64

In [15]:
titanic.shape

(891, 11)

In [16]:
177/891

0.19865319865319866

#### Atribut Age ima "samo" ~20% nedostajućih vrednosti pa ga nećemo izbaciti. Postoje različite mogućnosti da popunimo nedostajuće vrednosti. Ne postoji univerzalan metod, najbolje rešenje zavisi od problema, odnosno od skupa podataka. U našem slučaju nedostajuće vrednosti popunićemo porsekom. Za popunjavanje koristimo metod fillna.

In [17]:
age_mean = titanic['Age'].mean()

In [18]:
age_mean

29.69911764705882

In [19]:
titanic['Age'] = titanic['Age'].fillna(age_mean)

In [20]:
titanic.isna().sum()

PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Ticket         0
Fare           0
Embarked       2
dtype: int64

#### Provervamo da li postoje duplikati u skupu podataka upotrebom metoda nunique.

In [21]:
titanic.nunique()

PassengerId    891
Survived         2
Pclass           3
Name           891
Sex              2
Age             89
SibSp            7
Parch            7
Ticket         681
Fare           248
Embarked         3
dtype: int64

In [22]:
titanic.shape

(891, 11)

#### Pošto skup podataka ima 891 red, a rezultat nunique vraća da postoji 891 različitih PassangerId zaključujemo da ne postoje duplikati. Duplikatima se bavimo na drugom primeru (data set o avionskim nesrećama).