## Exploratory Data Analysis I


Exploratory Data Analysis (EDA) je proces analize podataka kojem je cilj razumjeti osnovne karakteristike skupa podataka i otkriti uzorke, odnose ili nepravilnosti koje mogu biti korisne za dalju analizu. EDA se obično primenjuje na sirove podatke pre nego što se primene složenije statističke metode ili algoritmi za modeliranje. Glavni ciljevi EDA-a uključuju:

Identifikacija i razumjevanje strukture podataka: EDA pomaže u prepoznavanju osnovnih karakteristika skupa podataka, kao što su distribucije, srednje vrednosti, varijacije i slično.

Detekcija nepravilnosti i outlier-a: EDA pomaže identifikaciji neobičnih vrednosti u podacima, poznatih kao outlier-i, koji mogu ukazivati na greške u prikupljanju podataka ili značajne informacije.

Proučavanje uzoraka i odnosa: Analizom grafikona, tabela i drugih vizualizacija, EDA pomaže u identifikaciji uzoraka i odnosa između različitih promenljivih u skupu podataka.

Priprema podataka za dalju analizu: EDA može uključivati i čišćenje podataka, popunjavanje nedostajućih vrednosti ili transformaciju podataka kako bi se poboljšala njihova upotrebljivost za analizu.

Postavljanje hipoteza: Na osnovu inicijalne analize podataka, istraživači mogu postaviti hipoteze koje će kasnije testirati pomoću statističkih metoda.

EDA obično uključuje upotrebu statističkih grafikona, histograma, dijagrama raspršenosti, box-plot dijagrama, kao i opsežno korišćenje deskriptivne statistike. Ovo je važan korak u procesu analize podataka jer pomaže u razumevanju osnovnih karakteristika podataka pre nego što se primene složenije analize ili modeliranje podataka.

Titanic dataset

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

pd.set_option("display.precision", 2)

In [None]:
df = pd.read_csv('datasets/titanic.csv')
df.head()

LEGENDA

**survival** - Survival (0 = No; 1 = Yes) - PREŽIVJELI  
**class** - Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd)  
**name** - Name  
**sex** - Sex - SPOL  
**age** - Age  
**sibsp** - Number of Siblings/Spouses Aboard - BROJ BRAĆE I SESTARA/ SUPRUŽNIKA  
**parch** - Number of Parents/Children Aboard - BROJ RODITELJA/ DJECE NA BRODU  
**ticket** - Ticket Number  
**fare** - Passenger Fare  
**cabin** - Cabin  
**embarked** - Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton) - UKRCAVANJE  



In [None]:
df.set_index('PassengerId', inplace=True)

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df['Survived'].value_counts(normalize=True)

Missing values

In [None]:
total = df.isnull().sum().sort_values(ascending=False)

procenat = df.isnull().sum()/df.isnull().count()*100

missing_data = pd.concat([total, procenat], axis=1, keys=['Total', '%'])
missing_data

Pronalazak kapetana

In [None]:
df[df["Name"].str.contains("Capt")]

Survived vs not-survived

In [None]:
sns.countplot(x='Sex', data=df, hue='Survived')

In [None]:
df.groupby(['Sex', 'Pclass']).describe()

Age and Sex distributions

In [None]:
sns.histplot(data=df[df['Sex']=="female"], x='Age',hue='Survived', bins=30, kde=True)


In [None]:
sns.histplot(data=df[df['Sex']=="male"], x='Age',hue='Survived', bins=30, kde=True)

Saving children first

In [None]:
df[df['Age']<18].groupby(['Sex','Pclass']).describe()

Passenger class distribution; Survived vs Non-Survived

In [None]:
sns.countplot(x='Pclass', data=df, hue='Survived')

In [None]:
sns.barplot(x='Pclass', y='Survived', data=df)

In [None]:
df.columns

Correlation Matrix and Heatmap

In [None]:
df_corr = df[['Age','SibSp','Parch','Fare']]

In [None]:
corr_M = df_corr.corr()

In [None]:
sns.heatmap(corr_M, annot=True)