# DevMeeting – DataScience

## 1. Pandas i NumPy

![pandas](https://github.com/pandas-dev/pandas/raw/master/doc/logo/pandas_logo.png)

Pandas to biblioteka służąca do wczytywania, analizy i wstępnego przetwarzania danych. Wspiera operacje wejścia i wyjścia dla wielu źródeł i formatów danych:
- plików CSV
- JSON
- Excel
- HDF5
- Pickle - serializacja w Pythonie
- SQL

NumPy to pakiet wspomagający obliczenia w Pythonie. Udostępnia wydajną implementację tablicy N-wymiarowej, która stanowi podstawę wielu innych pakietów naukowych (w tym pandas).

Pandas, razem z pakietem NumPy stanowi podstawowe narzędzie w pracy z danymi w Pythonie.

### 1.1 Podstawowe operacje w Pandas

In [None]:
import numpy as np
import pandas as pd

Podstawowymi typami danych w pandas są `Series` oraz `DataFrame`.

`Series` to jednowymiarowa tablica wartości, z etykietami kolejnych wartości. Pozwala na przechowywanie dowolnych wartości. `Series` skonstruować można np. za pomocą zwykłej listy wartości:

In [None]:
s = pd.Series([1, 2, 0, -2, 133])
s

`DataFrame` to dwuwymiarowa tablica. Można to porównać do tabeli w Excelu: lista wierszy, dla których wartości zorganizowane są w formie kolumn. Poniższy przykład pokazuje jak można skonstruować DataFrame przy pomocy słownika:

In [None]:
df = pd.DataFrame(
    {"pet": ["cat", "dog", "cat", "dog"],
     "age": [3, 7, 1, 2],
     "length": [40, 50, 46, 80]
    }
)

df

Głównymi elementami `DataFrame` są wiersze i kolumny. W powyższym przykładzie wiersze zawierają informacje o zwierzętach. Każde zwierzę opisane jest atrybutami - kolumnami: _pet_, _age_ i _length_.

### Wybór po indeksach

W `pandas` mechanizm wybierania podzbiorów danych jest bardzo rozbudowany. Możliwe jest wybieranie konkretnych wierszy, kolumn, na podstawie indeksów (również indeksów złożonych). Przykład:

In [None]:
# wybieranie po nazwach etykiet
# dataframe.iloc[wiersz(e), kolumna(y)]

df.loc[0, ["pet", "length"]]

In [None]:
# Slicing
df.loc[0:2, ["pet", "length"]]

In [None]:
# Wybór po numerach porządkowych
# np. zamiast pisać "pet", wybrać kolumnę numer 0

df.iloc[0, [0, 2]]

In [None]:
df["age"]

W powyższym przykładzie wybraliśmy kolumnę _age_ dla każdego z wierszy - uzyskany wynik to obiekt `Series`, czyli lista wartości z indeksami.

Możliwe jest również wybranie wielu kolumn na raz, przekazując listę nazw

In [None]:
df[["pet", "age"]]

In [None]:
df = pd.DataFrame(
    {
     "index": [1, 23, 44, 50],
     "pet": ["cat", "dog", "cat", "dog"],
     "age": [3, 7, 1, 2],
     "length": [40, 50, 46, 80]
    }
).set_index("index")

df

In [None]:
# Wybór po wartości indeksu
print(df.loc[1])

print("-"*15)

# Wybór po "kolejności" wierszy
print(df.iloc[1])

### Wybór przy pomocy kryteriów (maski)

In [None]:
# Boolean indexing
# Wybór obiektów na podstawie maski

mask = df["length"] > 47
mask

In [None]:
df[mask]

In [None]:
df[mask].count()

### 1.2 Wstępny przegląd danych

Istotnym elementem pracy z danymi jest wstępny przegląd dostępnego zbioru. Do tego celu służą osobne narzędzia, np. [matplotlib](https://matplotlib.org/), czy [seaborn](https://seaborn.pydata.org/), jednak proste analizy wykonywać można również przy użyciu samego `pandas`.

Do przeglądu wykorzystamy zbiór [Iris](https://en.wikipedia.org/wiki/Iris_flower_data_set) -- jest to zbiór demonstracyjny, zawierający łącznie 150 próbek z trzech gatunków irysów.

In [None]:
iris = pd.read_csv("https://dzkb.github.io/devmeeting-data-science/data/iris.csv")

iris

In [None]:
iris.head(n=10)

In [None]:
iris.tail()

Interesujące, z punktu widzenia pracy z danymi są m. in. takie informacje:
- rozkład wartości poszczególnych cech
- liczba przykładów przypadających na każdą z klas
- obecność wartości zmiennoprzecinkowych, całkowitoliczbowych oraz tzw. kategorycznych (np. kolor oczu).

Rozkłady wartości uzyskać możemy zwizualizować pomocy metody `hist()`:

In [None]:
iris["petal_length"].hist()

In [None]:
iris[iris["species"] == "setosa"].hist()

In [None]:
iris["species"].value_counts()

In [None]:
iris.info()

In [None]:
iris.describe()

In [None]:
iris.hist()

# Zadania do wykonania

Zadania wstępne na zbiorze Iris:
1. Zwizualizuj rozkłady wybranych cech dla każdego gatunku (_species_) irysów z osobna
2. Przelicz ile przykładów irysów ma płatki dłuższe, niż średnia długość płatka (_petal length (cm)_)

Zadania na zbiorze Titanic:
3. Wczytaj zbiór titanic z adresu `https://dzkb.github.io/devmeeting-data-science/data/titanic.csv`
4. Wyświetl fragment wczytanego zbioru
5. Ustal:
  * co oznaczają odpowiednie kolumny
  * jakie typy danych występują w zbiorze
  * czy w zbiorze występują brakujące dane (NaN)
6. Zwizualizuj rozkłady cech w zbiorze
  * zwróć uwagę na rozkład wieku pasażerów, w zależności od tego czy przeżyli, czy zginęli