# Eksploracyjna Analiza Danych (EDA) dotycząca Irysów

# 1. Wprowadzenie

Zbiór danych Iris (Irysy) to jeden z najbardziej znanych i klasycznych zbiorów wykorzystywanych w uczeniu maszynowym i statystyce. Zawiera on pomiary czterech cech morfologicznych trzech gatunków irysów: Iris-setosa, Iris-versicolor oraz Iris-virginica. Każdy rekord opisuje pojedynczy kwiat.

Celem tej analizy jest eksploracja danych (EDA), identyfikacja zależności między cechami, wykrycie potencjalnych wartości odstających oraz przygotowanie danych do dalszych etapów analizy, takich jak modelowanie czy klasyfikacja.


# Spis treści
1. Wprowadzenie
2. Źródło i wersja danych
2.1 Ustawienie ziarna losowości
3. Ilustracje badanych gatunków irysów
4. Zrozumienie danych
5. Brakujące wartości i duplikaty
6. Analiza pojedynczych zmiennych
7. Transformacja danych
8. Analiza relacji między zmiennymi
9. Analiza wartości odstających
10. Prosty model klasyfikacyjny
11. Podsumowanie końcowe

# 2. Źródło i wersja danych
Zbiór danych: [UCI Machine Learning Repository - Iris Data Set](https://archive.ics.uci.edu/ml/datasets/iris)
Wersja: oryginalna, pobrana w czerwcu 2025 r.

# 2.1 Ustawienie ziarna losowości
Aby zapewnić powtarzalność wyników, ustawiamy ziarno losowości dla NumPy i Pythona.

# 3. Ilustracje badanych gatunków irysów

Poniżej przedstawiono przykładowe zdjęcia trzech gatunków irysów analizowanych w zbiorze danych:

![Iris-setosa](https://en.wikipedia.org/wiki/Iris_setosa#/media/File:Irissetosa1.jpg)
*Iris-setosa*

![Iris-versicolor](https://en.wikipedia.org/wiki/Iris_versicolor#/media/File:Blue_Flag,_Ottawa.jpg)
*Iris-versicolor*

![Iris-virginica](https://en.wikipedia.org/wiki/Iris_virginica#/media/File:Iris_virginica_2.jpg)
*Iris-virginica*

Każdy z tych gatunków posiada charakterystyczne cechy morfologiczne, które są analizowane w dalszej części notebooka.

In [1]:
import pandas as pd

In [2]:
import seaborn as sns
sns.set_theme(style="whitegrid", palette="Set2")

In [3]:
import numpy as np
import random
np.random.seed(42)
random.seed(42)

In [4]:
df = pd.read_csv('iris.csv', sep=",")
df

Unnamed: 0,długość kielicha (sepal length),szerokość kielicha (sepal width),długość płatka (petal length),szerokość płatka (petal width),klasa (class)
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [5]:
from scipy.stats import shapiro
for col in ['długość kielicha (sepal length)', 'szerokość kielicha (sepal width)', 'długość płatka (petal length)', 'szerokość płatka (petal width)']:
    stat, p = shapiro(df[col])
    print(f"Test Shapiro-Wilka dla {col}: stat={stat:.3f}, p-value={p:.4f}")
    if p < 0.05:
        print("  Rozkład odbiega od normalnego.")
    else:
        print("  Brak podstaw do odrzucenia normalności.")

Test Shapiro-Wilka dla długość kielicha (sepal length): stat=0.976, p-value=0.0102
  Rozkład odbiega od normalnego.
Test Shapiro-Wilka dla szerokość kielicha (sepal width): stat=0.984, p-value=0.0752
  Brak podstaw do odrzucenia normalności.
Test Shapiro-Wilka dla długość płatka (petal length): stat=0.876, p-value=0.0000
  Rozkład odbiega od normalnego.
Test Shapiro-Wilka dla szerokość płatka (petal width): stat=0.903, p-value=0.0000
  Rozkład odbiega od normalnego.


# 4. Zrozumienie danych

In [6]:
df.shape[0] #ilość rekordów w bazie

150

In [7]:
df.index

RangeIndex(start=0, stop=150, step=1)

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   długość kielicha (sepal length)   150 non-null    float64
 1   szerokość kielicha (sepal width)  150 non-null    float64
 2   długość płatka (petal length)     150 non-null    float64
 3   szerokość płatka (petal width)    150 non-null    float64
 4   klasa (class)                     150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


In [9]:
df.describe() # Statystyka

Unnamed: 0,długość kielicha (sepal length),szerokość kielicha (sepal width),długość płatka (petal length),szerokość płatka (petal width)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.054,3.758667,1.198667
std,0.828066,0.433594,1.76442,0.763161
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


### Losowe pórbki danych

In [10]:
df.sample(15) # wyświetlenie 15 losowych wierszy

Unnamed: 0,długość kielicha (sepal length),szerokość kielicha (sepal width),długość płatka (petal length),szerokość płatka (petal width),klasa (class)
73,6.1,2.8,4.7,1.2,Iris-versicolor
18,5.7,3.8,1.7,0.3,Iris-setosa
118,7.7,2.6,6.9,2.3,Iris-virginica
78,6.0,2.9,4.5,1.5,Iris-versicolor
76,6.8,2.8,4.8,1.4,Iris-versicolor
31,5.4,3.4,1.5,0.4,Iris-setosa
64,5.6,2.9,3.6,1.3,Iris-versicolor
141,6.9,3.1,5.1,2.3,Iris-virginica
68,6.2,2.2,4.5,1.5,Iris-versicolor
82,5.8,2.7,3.9,1.2,Iris-versicolor


In [11]:
df.nunique() # Wartosci unikatowe

długość kielicha (sepal length)     35
szerokość kielicha (sepal width)    23
długość płatka (petal length)       43
szerokość płatka (petal width)      22
klasa (class)                        3
dtype: int64

### Podstawowe statystki opisowe

In [12]:
df.columns # wyswietlenie nazw kolumn

Index(['długość kielicha (sepal length)', 'szerokość kielicha (sepal width)',
       'długość płatka (petal length)', 'szerokość płatka (petal width)',
       'klasa (class)'],
      dtype='object')

### W bazie mamy 150 rekorów i 5 kolumn

# 5. Brakujące wartości w danych

In [13]:
df.isnull() # Czy wysępują braki w danych? 

Unnamed: 0,długość kielicha (sepal length),szerokość kielicha (sepal width),długość płatka (petal length),szerokość płatka (petal width),klasa (class)
0,False,False,False,False,False
1,False,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,False,False,False,False,False
...,...,...,...,...,...
145,False,False,False,False,False
146,False,False,False,False,False
147,False,False,False,False,False
148,False,False,False,False,False


In [14]:
df.isnull().sum() # Czy wysępują braki w dnaych - podsumowanie w liczbach

długość kielicha (sepal length)     0
szerokość kielicha (sepal width)    0
długość płatka (petal length)       0
szerokość płatka (petal width)      0
klasa (class)                       0
dtype: int64

### Wniosek: Dane w naszej bazie są pełne i nie zawierają braków

In [15]:
df.duplicated() # Czy występują duplikaty danych?

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Length: 150, dtype: bool

In [16]:
df.duplicated().sum() # Czy występują duplikaty danych?

3

In [17]:
# Automatyczne usuwanie duplikatów
print(f'Liczba duplikatów przed usunięciem: {df.duplicated().sum()}')
df_nodup = df.drop_duplicates()
print(f'Liczba rekordów po usunięciu duplikatów: {df_nodup.shape[0]}')
# Sprawdzenie wpływu na rozkład klas
df_nodup['klasa (class)'].value_counts()

Liczba duplikatów przed usunięciem: 3
Liczba rekordów po usunięciu duplikatów: 147


klasa (class)
Iris-versicolor    50
Iris-virginica     49
Iris-setosa        48
Name: count, dtype: int64

In [18]:
df[df.duplicated()] # Wyświetlenie duplikatów

Unnamed: 0,długość kielicha (sepal length),szerokość kielicha (sepal width),długość płatka (petal length),szerokość płatka (petal width),klasa (class)
34,4.9,3.1,1.5,0.1,Iris-setosa
37,4.9,3.1,1.5,0.1,Iris-setosa
142,5.8,2.7,5.1,1.9,Iris-virginica


### Ilość duplikatów jest znikoma i nie wypłynie na wyniki analizy

**Wnioski cząstkowe:**
- Brakujące dane nie występują, a liczba duplikatów jest znikoma.
- Dane są bardzo dobrej jakości do dalszej analizy.

# 6. Analiza pojedynczych zmiennych

### Użycie histogramu

In [19]:
plt.figure(figsize=(10,6))
df.hist(grid=True, edgecolor='black', color='skyblue', figsize=(10,6))
plt.suptitle('Histogramy cech morfologicznych irysów', fontsize=18)
plt.xlabel('Wartość cechy', fontsize=14)
plt.ylabel('Liczba wystąpień', fontsize=14)
plt.tight_layout()
plt.show()

NameError: name 'plt' is not defined

### Zobrazowanie długości i szerokości kwiatów za pomocą histogramów

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Pairplot dla wszystkich cech z podziałem na gatunek
sns.pairplot(df, hue="klasa (class)", diag_kind="hist", palette="Set2", plot_kws={'alpha':0.7, 's':60})
plt.suptitle('Pairplot cech irysów z podziałem na gatunek', y=1.02, fontsize=18)
plt.show()

# Poprawa opisów wykresów histogramów
ax = df[['długość kielicha (sepal length)', 'szerokość kielicha (sepal width)', 
         'długość płatka (petal length)', 'szerokość płatka (petal width)']].hist(
    bins=15, figsize=(10,8), color='skyblue', edgecolor='black', grid=True)
plt.suptitle('Histogramy cech morfologicznych irysów', fontsize=18)
for a in ax.flatten():
    a.set_xlabel('Wartość cechy', fontsize=14)
    a.set_ylabel('Liczba wystąpień', fontsize=14)
plt.tight_layout()
plt.show()

# Poprawa wykresu kołowego
classes = df['klasa (class)'].value_counts()
plt.figure(figsize=(7,7))
plt.pie(classes, labels=list(classes.index), autopct='%1.1f%%', startangle=90, colors=sns.color_palette('Set2'), textprops={'fontsize': 13})
plt.title('Procentowy udział gatunków irysów w zbiorze', fontsize=16)
plt.legend(title='Gatunek', loc='best', fontsize=12)
plt.tight_layout()
plt.show()


In [None]:
# Barplot rozkładu gatunków
plt.figure(figsize=(7,5))
sns.countplot(x='klasa (class)', data=df.copy(), palette='Set2')
plt.title('Liczebność poszczególnych gatunków irysów', fontsize=16)
plt.xlabel('Gatunek', fontsize=14)
plt.ylabel('Liczba próbek', fontsize=14)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

# Pairplot z rozmiarem punktów zależnym od długości płatka
df_plot = df.copy()
df_plot['petal_size'] = df_plot['długość płatka (petal length)'] * 10

g = sns.PairGrid(df_plot, hue="klasa (class)", diag_sharey=False, palette="Set2")
g.map_diag(sns.histplot)
def scatter_with_size(x, y, **kwargs):
    data = kwargs.get('data')
    if data is not None and 'petal_size' in data:
        sizes = data['petal_size'].to_numpy()
        if hasattr(x, 'index') and len(x) == len(sizes):
            sizes = sizes
        else:
            sizes = np.full_like(x, fill_value=np.mean(sizes), dtype=float)
    else:
        sizes = np.full_like(x, fill_value=30, dtype=float)
    plt.scatter(x, y, s=sizes, alpha=0.7, **{k: v for k, v in kwargs.items() if k != 'data'})
g.map_offdiag(scatter_with_size)
g.add_legend()
plt.suptitle('Pairplot cech irysów z rozmiarem punktów ~ długość płatka', y=1.02, fontsize=16)
plt.tight_layout()
plt.show()

In [None]:
df["klasa (class)"].value_counts()

In [None]:
import matplotlib.pyplot as plt

# Assuming that `df` is your DataFrame and it contains a column named 'klasa (class)'
classes = df['klasa (class)'].value_counts()

plt.pie(classes, labels=list(classes.index), autopct='%1.1f%%')
plt.title('Rodzaj Irysów')
plt.show()

### W przeprowadzonej analizie uwzględniono trzy gatunki irysów: Iris-setosa, Iris-versicolor oraz Iris-virginica. Dla każdego z tych gatunków zebrano po 50 zestawów danych, co pozwala na dokładne porównanie ich charakterystycznych cech.

# 7. Transformacja danych

In [None]:
df.head(5) # Wyświetlenie 5 górnych wierszy

## Zmina opisów / nagłówków kolumn aby były łatwiejsze do analizy

In [None]:
df2 = df.rename(columns={'długość kielicha (sepal length)': 'dł_kielicha', 
                         'szerokość kielicha (sepal width)': 'szer_kielicha', 
                         'długość płatka (petal length)': 'dł_płatka',
                         'szerokość płatka (petal width)': 'szer_płatka', 
                         'klasa (class)': 'gatunek'}) 	

In [None]:
df2['ratio_petal'] = df2['dł_płatka'] / df2['szer_płatka']
df2['ratio_sepal'] = df2['dł_kielicha'] / df2['szer_kielicha']
df2[['ratio_petal', 'ratio_sepal']].describe()

In [None]:
df2.sample(5) # wyślwietlnie przykładowych wierszy w nowo utworzonym df2

# 8. Analiza relacji między zmiennymi

### Macierz korelacji

In [None]:
# Poprawne obliczenie korelacji tylko dla kolumn numerycznych
df2.select_dtypes(include='number').corr()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Obliczanie korelacji tylko dla kolumn numerycznych
correlation_matrix = df2.select_dtypes(include=['number']).corr()

# Rysowanie heatmapy korelacji
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
plt.title('Macierz korelacji')
plt.show()

In [None]:
import numpy as np
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5, mask=mask)
plt.title('Macierz korelacji (z maską)')
plt.show()

### Interpretacja heatmapy korelacji
Heatmapa korelacji pokazuje, które cechy są ze sobą najsilniej powiązane. Widzimy, że długość i szerokość płatka są ze sobą bardzo silnie skorelowane, co sugeruje, że te cechy mogą być kluczowe dla rozróżniania gatunków. Szerokość kielicha jest słabo powiązana z innymi cechami, co może oznaczać jej mniejszą przydatność w klasyfikacji.

## Podsumowanie macierzy korelacji
- Długość kielicha jest silnie skorelowana zarówno z długością, jak i szerokością płatka.
- Szerokość kielicha wykazuje umiarkowaną, ale negatywną korelację z długością i szerokością płatka.
- Najsilniejsza zależność występuje między długością płatka, a szerokością płatka, co oznacza, że te dwa parametry często rosną lub maleją razem.


**Wnioski cząstkowe:**
- Najsilniejsza korelacja występuje między długością i szerokością płatka.
- Szerokość kielicha jest słabo powiązana z innymi cechami.
- Wartości korelacji sugerują, które cechy mogą być najbardziej przydatne w klasyfikacji.

### Wykresy punktowe

In [None]:
df2.plot(kind="scatter", x="dł_kielicha", y="dł_płatka")

In [None]:
df2.plot(kind="scatter", x="dł_kielicha", y="szer_kielicha")

In [None]:
df2.plot(kind="scatter", x="dł_płatka", y="szer_płatka")

In [None]:
# Obliczneie minimalnych, maksymalnych oraz średnich wartości dla poszczególych gatunków 
df2.groupby ("gatunek")[["dł_kielicha", "szer_kielicha", "dł_płatka", "szer_płatka"]].agg(["min", "max", "mean"]) 

### Dane dotyczące Iris-setosa, Iris-versicolor i Iris-virginica pokazują wyraźne różnice w wymiarach kielicha i płatków. Iris-setosa ma najmniejsze wymiary, podczas gdy Iris-virginica ma największe. Iris-versicolor zajmuje pośrednią pozycję, co może wskazywać na bardziej zróżnicowane strategie rozwojowe. Te różnice mogą być przystosowaniami do różnych warunków  środowiskowych lub strategii rozrodczych. 


In [None]:
# Obliczneie średnich wartości dla poszczególych gatunków 
df2.groupby ("gatunek")[["dł_kielicha", "szer_kielicha", "dł_płatka", "szer_płatka"]].mean() 

In [None]:
# Utworzenie nowego df2mean ze średnimi wartościami dla poszczególnych gatunków Irysów
df2mean = df2.groupby ("gatunek")[["dł_kielicha", "szer_kielicha", "dł_płatka", "szer_płatka"]].mean() 

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.tree import DecisionTreeClassifier

# Przygotowanie danych do modelu
X = df2[['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']]
y = df2['gatunek']

# Trening modelu drzewa decyzyjnego
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X, y)

# Ważność cech
importances = clf.feature_importances_
feature_names = X.columns
plt.figure(figsize=(8,4))
sns.barplot(x=importances, y=feature_names, palette='Set2')
plt.title('Ważność cech w drzewie decyzyjnym', fontsize=16)
plt.xlabel('Ważność', fontsize=14)
plt.ylabel('Cecha', fontsize=14)
plt.grid(axis='x', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
df2mean.plot(kind="bar") # Utworzenie wykresu słupkowego na podstawie średnich wartości

## Z wykresu wynika, że:
* Najmniejsze wymiary (zarówno kielichów, jak i płatków) występują u gatunku Iris-setosa. Charakteryzuje się on krótkimi i wąskimi elementami kwiatu.

* Gatunek pośredni pod względem wymiarów to Iris-versicolor. Jego parametry są większe niż u Setosy, ale mniejsze niż u Virginiki.

* Największe wymiary (zarówno długości, jak i szerokości) występują u gatunku Iris-Virginica. Ten gatunek wyróżnia się dużymi rozmiarami zarówno kielichów, jak i płatków.

**Wnioski cząstkowe:**
- Różnice w wymiarach cech morfologicznych są wyraźne między gatunkami.
- Te różnice mogą być kluczowe dla skutecznej klasyfikacji.

# 9. Analiza wartości odstających

W analizie danych wartości odstające (ang. outliers) to obserwacje, które znacznie różnią się od pozostałych danych. Mogą one zniekształcać wyniki analizy statystycznej, dlatego ważne jest, aby je zidentyfikować i odpowiednio z nimi postąpić.

## 9.1. Definicja wartości odstających

Wartości odstające to dane, które leżą daleko od "reszty" danych w zbiorze. Mogą to być zarówno wartości skrajnie wysokie, jak i skrajnie niskie. Istnieje wiele metod statystycznych służących do identyfikacji wartości odstających, w tym:
- Reguła Tukeya
- Z-score
- Metoda Mahalanobisa

## 9.2. Przyczyny występowania wartości odstających

Wartości odstające mogą występować z różnych powodów, w tym:
- Błędy pomiarowe
- Naturalne wahania w danych
- Zjawiska rzadkie lub ekstremalne

## 9.3. Jak radzić sobie z wartościami odstającymi

Istnieje kilka podejść do radzenia sobie z wartościami odstającymi, w tym:
- Usunięcie ich z analizy
- Zastąpienie innymi wartościami (np. średnią lub medianą)
- Użycie metod statystycznych odpornych na wartości odstające

Wybór odpowiedniej metody zależy od kontekstu analizy oraz przyczyn występowania wartości odstających.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Wygenerowanie boxplotów w odniesieniu do gatunku Irysa
kolumny = ['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']
for kolumna in kolumny:
    plt.figure(figsize=(8,5))
    sns.boxplot(x='gatunek', y=df2[kolumna], data=df2, palette='Set2')
    plt.title(f'Boxplot dla {kolumna} w podziale na gatunki', fontsize=16)
    plt.xlabel('Gatunek', fontsize=14)
    plt.ylabel(kolumna, fontsize=14)
    plt.grid(axis='y', linestyle='--', alpha=0.7)
    plt.tight_layout()
    plt.show()

### Interpretacja boxplotów
Boxploty pozwalają szybko zidentyfikować wartości odstające oraz porównać rozkład cech w obrębie poszczególnych gatunków. Widać, że Iris-setosa ma wyraźnie mniejsze wartości cech, a wartości odstające pojawiają się głównie w szerokości kielicha i płatka. Różnice między gatunkami są widoczne i potwierdzają ich odmienność morfologiczną.

In [None]:
from scipy.stats import f_oneway
import numpy as np

# Test ANOVA dla każdej cechy morfologicznej
print('Test ANOVA dla cech morfologicznych:')
for col in ['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']:
    setosa = df2[df2['gatunek'] == 'Iris-setosa'][col]
    versicolor = df2[df2['gatunek'] == 'Iris-versicolor'][col]
    virginica = df2[df2['gatunek'] == 'Iris-virginica'][col]
    stat, p = f_oneway(setosa, versicolor, virginica)
    print(f"{col}: statystyka={stat:.2f}, p-value={p:.4f}")
    if p < 0.05:
        print("  Istotna statystycznie różnica między gatunkami.")
    else:
        print("  Brak istotnej różnicy.")

# Współczynnik zmienności (std/mean) dla cech w obrębie gatunków
print('\nWspółczynnik zmienności dla cech w obrębie gatunków:')
for col in ['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']:
    print(f"\nCecha: {col}")
    for species in df2['gatunek'].unique():
        vals = df2[df2['gatunek'] == species][col]
        cv = np.std(vals) / np.mean(vals)
        print(f"  {species}: CV = {cv:.3f}")


In [None]:
from scipy.stats import zscore
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score
import pandas as pd

# Analiza wartości odstających - identyfikacja i wpływ
# Oblicz z-score dla cech numerycznych
z_scores = np.abs(zscore(df2[['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']]))
outliers = (z_scores > 3).any(axis=1)
print(f'Liczba rekordów odstających: {outliers.sum()}')
print('Rekordy odstające:')
display(df2[outliers])

# Analiza bez wartości odstających
print('Statystyki opisowe bez wartości odstających:')
display(df2[~outliers].describe())

# Prosty model klasyfikacyjny: Drzewo decyzyjne
X = df2[['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']]
y = df2['gatunek']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test)

print('Macierz pomyłek:')
print(confusion_matrix(y_test, y_pred))
print('\nRaport klasyfikacji:')
print(classification_report(y_test, y_pred))
print(f'Dokładność: {accuracy_score(y_test, y_pred):.2f}')

# Podsumowanie praktyczne
print('''\nWnioski praktyczne:\n- Dane o irysach pozwalają na bardzo skuteczną klasyfikację gatunków na podstawie cech morfologicznych.\n- Prosty model drzewa decyzyjnego osiąga wysoką dokładność, co potwierdza przydatność tego zbioru do nauki i testowania algorytmów ML.\n- Analiza wartości odstających pozwala lepiej zrozumieć rozkład cech i ich wpływ na modelowanie.\n- Notebook prezentuje pełny cykl EDA: od eksploracji, przez wizualizacje, testy statystyczne, po wstępne modelowanie i interpretację wyników.\n''')

# Estetyka i czytelność: ustawienia pandas
pd.set_option('display.max_columns', 10)
pd.set_option('display.precision', 3)


In [None]:
# Wizualizacja macierzy pomyłek jako heatmapy
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

cm = confusion_matrix(y_test, y_pred, labels=clf.classes_)
plt.figure(figsize=(6,5))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', xticklabels=clf.classes_, yticklabels=clf.classes_, cbar=False, annot_kws={"size":16})
plt.xlabel('Predykcja', fontsize=14)
plt.ylabel('Rzeczywista klasa', fontsize=14)
plt.title('Macierz pomyłek (Decision Tree)', fontsize=16)
plt.tight_layout()
plt.show()

In [None]:
# Automatyczne usuwanie outlierów i porównanie wyników modelu
from sklearn.metrics import accuracy_score

# Dane bez outlierów
X_no_out = df2[~outliers][['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']]
y_no_out = df2[~outliers]['gatunek']

X_train_no, X_test_no, y_train_no, y_test_no = train_test_split(X_no_out, y_no_out, test_size=0.3, random_state=42, stratify=y_no_out)
clf_no_out = DecisionTreeClassifier(random_state=42)
clf_no_out.fit(X_train_no, y_train_no)
y_pred_no = clf_no_out.predict(X_test_no)

print(f'Dokładność modelu na pełnych danych: {accuracy_score(y_test, y_pred):.2f}')
print(f'Dokładność modelu po usunięciu outlierów: {accuracy_score(y_test_no, y_pred_no):.2f}')

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
models = {
    'Drzewo decyzyjne': DecisionTreeClassifier(random_state=42),
    'kNN': KNeighborsClassifier(),
    'Regresja logistyczna': LogisticRegression(max_iter=200)
}
print('Porównanie modeli (walidacja krzyżowa, accuracy):')
for name, model in models.items():
    scores = cross_val_score(model, X, y, cv=5, scoring='accuracy')
    print(f'{name}: średnia accuracy = {scores.mean():.2f} (+/- {scores.std():.2f})')

In [None]:
# Analiza PCA i t-SNE dla wizualizacji danych w 2D
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import seaborn as sns

# PCA
pca = PCA(n_components=2)
pca_result = pca.fit_transform(df2[['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']])
df2['PCA1'] = pca_result[:,0]
df2['PCA2'] = pca_result[:,1]
plt.figure(figsize=(8,6))
sns.scatterplot(x='PCA1', y='PCA2', hue='gatunek', data=df2, palette='Set2', s=80, alpha=0.8)
plt.title('PCA - wizualizacja danych w 2D', fontsize=16)
plt.xlabel('PCA1', fontsize=14)
plt.ylabel('PCA2', fontsize=14)
plt.legend(title='Gatunek', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.6)
plt.tight_layout()
plt.show()

# t-SNE
tsne = TSNE(n_components=2, random_state=42, perplexity=30)
tsne_result = tsne.fit_transform(df2[['dł_kielicha', 'szer_kielicha', 'dł_płatka', 'szer_płatka']])
df2['TSNE1'] = tsne_result[:,0]
df2['TSNE2'] = tsne_result[:,1]
plt.figure(figsize=(8,6))
sns.scatterplot(x='TSNE1', y='TSNE2', hue='gatunek', data=df2, palette='Set2', s=80, alpha=0.8)
plt.title('t-SNE - wizualizacja danych w 2D', fontsize=16)
plt.xlabel('TSNE1', fontsize=14)
plt.ylabel('TSNE2', fontsize=14)
plt.legend(title='Gatunek', fontsize=12)
plt.grid(True, linestyle='--', alpha=0.6)
plt.tight_layout()
plt.show()

# 10. Podsumowanie końcowe

Analiza zbioru danych o irysach obejmuje 150 rekordów, po 50 dla każdego z trzech gatunków: Iris-setosa, Iris-versicolor i Iris-virginica. Dane są kompletne, bez brakujących wartości, a liczba duplikatów jest znikoma i nie wpływa na wyniki analizy.

**Najważniejsze wnioski:**
- Długość kielicha jest silnie skorelowana z długością i szerokością płatka, a szerokość kielicha wykazuje umiarkowaną, negatywną korelację z pozostałymi cechami.
- Najsilniejsza zależność występuje między długością a szerokością płatka – ich wartości rosną lub maleją razem.
- Iris-setosa wyróżnia się najmniejszymi wymiarami, Iris-virginica największymi, a Iris-versicolor zajmuje pozycję pośrednią.
- Różnice morfologiczne mogą wynikać z adaptacji do środowiska i strategii rozwojowych.

**Wnioski praktyczne:**
- Cechy morfologiczne pozwalają na skuteczną klasyfikację gatunków, a proste modele osiągają wysoką skuteczność.
- Zbiór danych o irysach jest doskonałym materiałem do nauki eksploracji danych, wizualizacji, testów statystycznych i budowy modeli klasyfikacyjnych.
- Przeprowadzona analiza potwierdza, że ten zbiór idealnie nadaje się do prezentacji umiejętności analitycznych w portfolio.

# Checklist EDA – wykonane kroki

- [x] Wprowadzenie i cel analizy
- [x] Spis treści
- [x] Źródło i wersja danych
- [x] Ustawienie ziarna losowości
- [x] Ilustracje badanych gatunków
- [x] Wczytanie i wstępna eksploracja danych
- [x] Sprawdzenie brakujących wartości i duplikatów
- [x] Analiza pojedynczych zmiennych (histogramy, statystyki opisowe)
- [x] Transformacja danych i tworzenie nowych cech
- [x] Analiza relacji między zmiennymi (korelacje, wykresy punktowe)
- [x] Analiza wartości odstających (boxploty, z-score, ANOVA)
- [x] Automatyczne usuwanie duplikatów i outlierów
- [x] Porównanie modeli klasyfikacyjnych (drzewo, kNN, regresja logistyczna)
- [x] Wizualizacja danych w 2D (PCA, t-SNE)
- [x] Podsumowanie końcowe

> Checklistę możesz wykorzystać jako szybki przegląd wykonanych etapów lub inspirację do kolejnych analiz.