# Zadanie domowe - EDA Danych dotyczących Irysów

* Twoim zadaniem jest wykonanie analizy danych zawartych w załączonym pliku CSV (`25__iris.csv`).
* Plik znajduje się pod video. Pamiętaj, żeby wrzucić plik do tego samego folderu, w którym znajduje się ten notebook.
* Wykorzystaj nowo nabytą wiedzę z biblioteki `Pandas`
* Jeżeli jest taka konieczność posiłkuj się [code explainerem](https://codeexplainer.imprv.ai/) lub / i [data chatterem](https://datachatter.imprv.ai/) (który również te dane ma dostępne).
* Prześlij na discordzie notebook z rozwiązaniem (`#modul-4-zad1`)
* Pamiętaj:

1. Nie spiesz się
2. Potraktuj zadanie domowe jak prawdziwy projekt
3. Dodawaj opisy, obserwacje, wnioski
4. Dodaj wizualizacje
5. Dodaj konkluzję i wnioski końcowe

Powodzenia!!! I mega zabawy!

## O Danych

Zbiór danych zawiera informacje o trzech gatunkach irysów: Iris setosa, Iris versicolor, i Iris virginica.

Dane obejmują pomiary czterech cech: długość i szerokość działki kielicha oraz długość i szerokość płatka.

Każdy wiersz w zbiorze danych reprezentuje pojedynczy kwiat, a wartości pomiarów są podane w centymetrach.

Zbiór składa się z 150 próbek, po 50 dla każdego gatunku, i jest szeroko stosowany jako podstawowy zbiór danych do
testowania algorytmów klasyfikacji oraz w nauce o danych i uczeniu maszynowym.

Kolumny:
* **długość kielicha (sepal length)** - Długość kielicha w cm
* **szerokość kielicha (sepal width)** - Szerokość kielicha w cm
* **długość płatka (petal length)** - Długość płatka w cm
* **szerokość płatka (petal width)** - Szerokość płatka w cm
* **klasa (class)** - Klasa irysa (setosa, versicolor, virginica)
  
    
    

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('25__iris.csv', sep=",")

## Prezentacja danych

In [None]:
cm = sns.light_palette("green", as_cmap=True)
#df.style.background_gradient(cmap=cm, axis=1)

### Początkowe wiersze w dataframe

In [None]:
df.head().style.background_gradient(cmap=cm, axis=1)

### Losowe wiersze

In [None]:
df.sample(10).style.background_gradient(cmap=cm, axis=1)

### Ostatnie wartości

In [None]:
df.tail().style.background_gradient(cmap=cm, axis=1)

## Informacje o kolumnach

In [None]:
df.info()

### Zbiorcze informacje o danych
Dane pogrupowane są w pięciu kolumnach, czterech liczbowych i jednej opisowej. 

In [None]:
df.describe().style.background_gradient(cmap=cm, axis=1)

In [None]:
df.nunique()

## Analiza brakujących wartości

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

### Podsumowanie brakujących wartości
Dane są kompletne, nie zawierają braków.

## Analiza pojedynczych zmiennych

In [None]:
df.hist();

In [None]:
df['długość kielicha (sepal length)'].plot(kind='box', title='Długość kielicha');

In [None]:
df['szerokość kielicha (sepal width)'].plot(kind='box', title='Szerokość kielicha');

In [None]:
df['długość płatka (petal length)'].plot(kind='box', title='Długość płatka');

In [None]:
df['szerokość płatka (petal width)'].plot(kind='box', title='Szerokość płatka');

## Analiza zależności pomiędzy zmiennymi
### Długość kielicha, a klasa irysa

In [None]:
ax = df.boxplot(column='długość kielicha (sepal length)', by='klasa (class)')
plt.suptitle("")
ax.set_title("Rozkład długości kielicha według klasy");

In [None]:
df.groupby('klasa (class)', as_index=False).agg({'długość kielicha (sepal length)': ['min', 'mean', 'median', 'max', 'std', 'count']}).style.background_gradient(cmap=cm, axis=1)

### Szerokość kielicha, a klasa irysa

In [None]:
ax1 = df.boxplot(column='szerokość kielicha (sepal width)', by='klasa (class)');
plt.suptitle("")
ax1.set_title("Rozkład szerokości kielicha według klasy");

In [None]:
df.groupby('klasa (class)', as_index=False).agg({'szerokość kielicha (sepal width)': ['min', 'mean', 'median', 'max', 'std', 'count']}).style.background_gradient(cmap=cm, axis=1)

### Długość płatka, a klasa irysa

In [None]:

ax = df.boxplot(column='długość płatka (petal length)', by='klasa (class)')
plt.suptitle("")
ax.set_title("Rozkład długości płatka według klasy");

In [None]:
df.groupby('klasa (class)', as_index=False).agg({'długość płatka (petal length)': ['min', 'mean', 'median', 'max', 'std', 'count']}).style.background_gradient(cmap=cm, axis=1)

### Szerokość płatka, a klasa irysa

In [None]:
ax5 = df.boxplot(column='szerokość płatka (petal width)', by='klasa (class)');
plt.suptitle("")
ax5.set_title("Rozkład szerokości płatka według klasy");

In [None]:
df.groupby('klasa (class)', as_index=False).agg({'szerokość płatka (petal width)': ['min', 'mean', 'median', 'max', 'std', 'count']}).style.background_gradient(cmap=cm, axis=1)

## Analiza zależności

In [None]:
df[["długość kielicha (sepal length)", "szerokość kielicha (sepal width)", "długość płatka (petal length)", "szerokość płatka (petal width)"]].corr().style.background_gradient(cmap=cm, axis=1)

## Wnioski
W wyniku analizy danych otrzymaliśmy następujące dane:
1. Iris-setosa mają:
- najkrótsze łodygi z badanych gatunków irysów
- najmniejszą rozpiętość długości łodyg
- łodygi o średniej długości 5cm
- najszersze kielichy  z badanych gatunków irysów
- kielichy o średniej szerokości 3,4cm
- najkrótsze płatki z badanych gatunków irysów
- płatki o średniej długości cm
- najwęższe płatki z badanych gatunków irysów
- płatki o średniej szerokości 0,2cm
- najkrótsze kielichy z badanych gatunków irysów
- kielichy o średniej długości 5cm

2. Iris-versicolor mają:
- łodygi o średniej długości 5,9cm
- najwęższe kielichy z badanych gatunków irysów
- kielichy o średniej szerokości 2,8cm
- płatki o średniej długości 4,3cm
- płatki o średniej szerokości 1,3cm
- kielichy o średniej długości 5,9cm

3. Iris-virginica mają:
- najdłuższe łodygi z badanych gatunków irysów
- największą rozpiętość długości łodyg
- łodygi o średniej długości 6,5cm
- kielichy o średniej szerokości 3cm
- najdłuższe płatki z badanych gatunków irysów
- płatki o średniej długości 5,5cm
- najszersze płatki z badanych gatunków irysów
- płatki o średniej szerokości 2cm
- najdłuższe kielichy z badanych gatunków irysów
- kielichy o średniej długości 6,5cm o średniej długości 6,5cm

4. Szerokość płatka jest silnie skorelowana z jego długością. Wraz ze wzrostem szerokości płatka, wzrasta jego długość
5. Długość kielicha jest silnie skorelowana z długością i szerokością płatka. Im kielich dłuższy, tym płatek dłuższy i szerszyielichy o średniej długości 6,5cm

In [None]:
!jupyter nbconvert 25__zadanie_domowe__modul_4_1.ipynb --to slides --no-input --no-prompt