In [None]:
# Vizualizacija Statističkih Veza i Raspodela

## Seminarski rad - SISJ

### Deo 6: Analiza statističkih odnosa i distribucija podataka

---

## 1. Uvod u statističke veze i raspodele

**Statistička analiza** je osnova za razumevanje podataka. Seaborn pruža moćne alate za vizualizaciju **odnosa između varijabli** i **distribucija podataka**.

### 1.1 Tipovi statističkih veza:

#### **Korelacija**
- Linearni odnos između kontinuiranih varijabli
- Meri jačinu i smer veze (-1 do +1)
- Pearson, Spearman, Kendall korelacije

#### **Kovarijansa**
- Meri kako se dve varijable menjaju zajedno
- Nije standardizovana kao korelacija
- Zavisi od jedinica merenja

#### **Asocijacija**
- Opšti termin za bilo koji odnos između varijabli
- Uključuje i nelinearne odnose
- Može biti uzročna ili slučajna

### 1.2 Seaborn alati za analizu:

- **Correlation heatmaps** - matrice korelacija
- **Pair plots** - multiple scatterplots
- **Joint plots** - kombinovane analize
- **Distribution plots** - histogrami, KDE, box plots
- **Regression plots** - linearne i nelinearne veze


In [None]:
# Uvoz potrebnih biblioteka
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
from scipy import stats
import warnings

# Podešavanje
sns.set_style("whitegrid")
warnings.filterwarnings('ignore')
plt.rcParams['figure.figsize'] = (12, 8)

# Učitavanje podataka
tips = sns.load_dataset('tips')
iris = sns.load_dataset('iris')

print("=== ANALIZA STATISTIČKIH VEZA I RASPODELA ===")
print(f"Tips dataset: {tips.shape}")
print(f"Iris dataset: {iris.shape}")

# Korelacijska analiza
numeric_tips = tips.select_dtypes(include=[np.number])
correlation_matrix = numeric_tips.corr()

print("\nKorelacijska matrica Tips dataset:")
print(correlation_matrix.round(3))

# Heatmap korelacijske matrice
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# Osnovna heatmap
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0, 
            square=True, ax=axes[0])
axes[0].set_title('Korelacijska matrica')

# Heatmap sa maskom
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, mask=mask, annot=True, cmap='coolwarm', 
            center=0, square=True, ax=axes[1])
axes[1].set_title('Korelacijska matrica (donji trougao)')

plt.tight_layout()
plt.show()

print("\n=== ANALIZA KORELACIJA ===")
correlations = correlation_matrix.unstack().sort_values(ascending=False)
correlations = correlations[correlations < 1.0]

print("Najjača pozitivna korelacija:")
strongest = correlations.iloc[0]
vars_names = correlations.index[0]
print(f"{vars_names[0]} - {vars_names[1]}: {strongest:.3f}")
print("Ova korelacija je očekivana - veći račun = veća napojnica!")


In [None]:
## 2. Pair plots i Joint plots\n\n**Pair plots** i **Joint plots** su specializovani alati za analizu odnosa između varijabli.\n\n### 2.1 Pair plot karakteristike:\n\n- **Matrica scatter plot-ova** za sve kombinacije varijabli\n- **Histogram na dijagonali** za distribucije\n- **Hue grupisanje** po kategorijskim varijablama\n- **Brza exploratory analiza** svih odnosa\n\n### 2.2 Joint plot karakteristike:\n\n- **Glavni plot** (scatter, hex, kde, reg)\n- **Marginalni histogrami** za svaku varijablu\n- **Detaljnija analiza** specifičnog odnosa\n- **Statistike** (korelacija, regresija)\n\n### 2.3 Tipovi distribucija:\n\n#### **Normalna distribucija**\n- Simetrična, zvonasta kriva\n- Karakterišu je mean i standard deviation\n- Centralna granična teorema\n\n#### **Skewed distribucije**\n- Pozitivno ili negativno skewed\n- Težište na jednoj strani\n- Česte u realnim podacima\n\n#### **Multimodalne distribucije**\n- Više \"pikova\" u distribuciji\n- Mogu ukazivati na podgrupe u podacima\n- Važne za clustering analizu"

In [None]:
# Praktični primeri - Pair plots i Joint plots\nprint(\"=== PAIR PLOTS I JOINT PLOTS ===\")\n\n# 1. Osnovni pair plot za iris dataset\ng1 = sns.pairplot(iris, hue='species', height=2.5)\ng1.fig.suptitle('Pair plot - Iris dataset sa species grupisanjem', y=1.02)\nplt.show()\n\n# 2. Joint plot - scatter sa marginalnim histogramima\ng2 = sns.jointplot(data=tips, x='total_bill', y='tip', kind='scatter', height=8)\ng2.fig.suptitle('Joint plot - Scatter sa marginalnim distribucijama', y=1.02)\nplt.show()\n\n# 3. Joint plot - hex plot za gustinu\ng3 = sns.jointplot(data=tips, x='total_bill', y='tip', kind='hex', height=8)\ng3.fig.suptitle('Joint plot - Hexagonal binning za gustinu podataka', y=1.02)\nplt.show()\n\n# 4. Joint plot - KDE\ng4 = sns.jointplot(data=tips, x='total_bill', y='tip', kind='kde', height=8)\ng4.fig.suptitle('Joint plot - Kernel Density Estimation', y=1.02)\nplt.show()\n\n# 5. Joint plot - regresija\ng5 = sns.jointplot(data=tips, x='total_bill', y='tip', kind='reg', height=8)\ng5.fig.suptitle('Joint plot - Regression sa confidence intervalom', y=1.02)\nplt.show()\n\n# Analiza korelacije u iris dataset-u\nprint(\"\\n=== KORELACIJSKA ANALIZA IRIS DATASET ====\")\niris_numeric = iris.select_dtypes(include=[np.number])\niris_corr = iris_numeric.corr()\nprint(\"Korelacijska matrica Iris dataset:\")\nprint(iris_corr.round(3))\n\n# Kreiranje heatmap za iris korelacije\nplt.figure(figsize=(10, 8))\nsns.heatmap(iris_corr, annot=True, cmap='coolwarm', center=0, \n            square=True, fmt='.3f', cbar_kws={'label': 'Korelacija'})\nplt.title('Korelacijska matrica - Iris dataset')\nplt.show()\n\n# Najjače korelacije u iris dataset-u\niris_correlations = iris_corr.unstack().sort_values(ascending=False)\niris_correlations = iris_correlations[iris_correlations < 1.0]\n\nprint(\"\\nNajjače pozitivne korelacije u Iris dataset-u:\")\nfor i in range(min(3, len(iris_correlations))):\n    corr_val = iris_correlations.iloc[i]\n    var_names = iris_correlations.index[i]\n    print(f\"{var_names[0]} - {var_names[1]}: {corr_val:.3f}\")\n\nprint(\"\\nInterpretacija:\")\nprint(\"• Petal length i petal width imaju jaku pozitivnu korelaciju\")\nprint(\"• Ovo je botanički logično - veći cvetni listići su i širi\")\nprint(\"• Sepal measurements takođe koreliraju\")\nprint(\"• Ove korelacije pomažu u klasifikaciji iris vrsta\")"

## 3. Zaključak\n\nU ovom notebook-u smo detaljno istražili **vizualizaciju statističkih veza i raspodela** kroz Seaborn biblioteku.\n\n### Što smo naučili:\n- **Korelacijsku analizu** i interpretaciju korelacijskih matrica\n- **Heatmap vizualizacije** za prikaz korelacija\n- **Pair plots** za komprehensivnu analizu odnosa između varijabli\n- **Joint plots** za detaljnu analizu specifičnih parova varijabli\n- **Različite tipove distribucija** i njihove karakteristike\n\n### Ključne tehnike:\n1. **Correlation heatmaps** - brza identifikacija najjačih veza\n2. **Pair plots** - simultana analiza svih parova varijabli\n3. **Joint plots** - kombinovane analize sa marginalnim distribucijama\n4. **Statistička interpretacija** - razumevanje značenja korelacija\n5. **Vizuelna eksploracija** - identifikacija patterns i outliers\n\n### Praktične aplikacije:\n- **Exploratory Data Analysis (EDA)** - početna analiza podataka\n- **Feature selection** - identifikacija važnih varijabli za modeling\n- **Data quality assessment** - pronalaženje anomalija i grešaka\n- **Hypothesis generation** - kreiranje hipoteza za testiranje\n- **Reporting** - komunikacija nalaza kroz vizualizacije\n\n### Sledeći koraci:\nU narednom notebook-u ćemo istražiti **statističke procene i procene grešaka**, uključujući regresiju i multi-plot mreže.\n\n---\n\n**Napomena**: Ovaj notebook pokriva fundamentalne tehnike za analizu statističkih veza. Za naprednije analize, kombinujte ove tehnike sa machine learning metodama."