# Pandas

`Pandas` to kolejna biblioteka niezbędna do analizy danych w Pythonie. Dostarcza wydajne struktury danych, dzięki którym praca z danymi tabularycznymi staje się prosta i ituicyjna. Celem twórców jest utrzymanie statusu biblioteki niezbędnej do codziennych analiz oraz zdobycie fotela lidera w kategorii najpotężniejszego narzędzia open-source do analizy danych w jakimkolwiek języku programowania. Obecnie, projekt wciąż prężnie się rozwija i jego znajomość jest niezbędna dla każdego danologa.

`Pandas` będzie dobrym wyborem do następujących zastosowań:
* Dane tabularyczne (kolumny jak w SQLu lub Excelu)
* Dane reprezentujące szeregi czasowe
* Macierze,
* Wyniki pomiarów i statystyk.

Dwa główne typy danych w Pythonie to `Series` (jednowymiarowa kolumna) i `DataFrame` (dwuwymiarowa tabela). `Pandas` wykorzystuje w obliczeniach bibliotekę `NumPy` oraz jest przygotowany do integrowania się z wieloma bibliotekami zewnętrznymi.

Mocnymi stronami `Pandas` są między innymi:
* Prosta obsługa brakujących wartości (`NaN`),
* Możliwość modyfikowania rozmiaru `DataFrame`'a - możemy dodawać i usuwać kolumny i wiersze,
* Automatyczne wyrównywanie danych w obliczeniach (jak w `NumPy`),
* Metoda `groupBy` działająca analogicznie jak w SQLu,
* Łatwo stworzyć `DataFrame` na podstawie innego obiektu,
* Cięcie, indeksowanie i tworzenie podzbiorów,
* Łączenie (`join` i `merge`) zbiorów.

***
# Hello World

In [None]:
import numpy as np
import pandas as pd

pd.__version__

In [None]:
s = pd.Series([1,3,4,np.nan, 6, 8])
print(s)
dates = pd.date_range('20130101', periods=6)
print(dates)

df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
print(df)

df2 = pd.DataFrame({'A': 1.,
                    'B': pd.Timestamp('20130102'),
                    'C': pd.Series(1, index=list(range(4)), dtype='float32'),
                    'D': np.array([3] * 4, dtype='int32'),
                    'E': pd.Categorical(["test", "train", "test", "train"]),
                    'F': 'foo'})
df2.dtypes

## Przeglądanie danych
Do przeglądania `DataFrame` służą między innymi następujące pola i metody.

In [None]:
df.head()
df.tail(3)
df.index
df.columns

## DataFrame.to_numpy()
`DataFrame.to_numpy()` jest metodą, która zamienia `DataFrame` na tablicę. Problemem jest to, że o ile `DataFrame` może przechowywać dane różnego typu, o tyle `ndarray` ma jeden `dtype` na całą tablicę. W związku z tym, może się okazać, że zajdzie konieczność castowania wszystkich obiektów na `object`.

`df.to_numpy()` będzie operacją błyskawiczną, natomiast `df2.to_numpy()` będzie już relatywnie wolne.

In [None]:
%timeit df.to_numpy()
%timeit df2.to_numpy()

Dostępnych jest również trochę funkcji użytkowych (util).

In [None]:
df.describe()
df.T
df.sort_index(axis=1, ascending=False)
df.sort_values(by='B')

## Pobieranie danych (select)

In [None]:
df['A']
df[0:3]
df['20130102':'20130104']
df.loc[dates[0]]
df.loc[:, ['A', 'B']]
df.loc['20130102':'20130104', ['A', 'B']]
df.loc['20130102', ['A', 'B']]
df.loc[dates[0], 'A']
df.at[dates[0], 'A']
df.iloc[3]
df.iloc[3:5, 0:2]
df[df.A > 0]
df[df > 0]

In [None]:
df2 = df.copy()
df2['E'] = ['one', 'one', 'two', 'three', 'four', 'three']
df2[df2['E'].isin(['two', 'four'])]

In [None]:
s1 = pd.Series([1, 2, 3, 4, 5, 6], index=pd.date_range('20130102', periods=6))
df['F'] = s1

df.loc[:, 'D'] = np.array([5] * len(df))

df2[df2 > 0] = -df2

## Praca z brakującymi danymi

In [None]:
df1 = df.reindex(index=dates[0:4], columns=list(df.columns) + ['E'])
df1.loc[dates[0]:dates[1], 'E'] = 1


df1.dropna(how='any')
df1.fillna(value=5)
pd.isna(df1)

## Operacje

In [None]:
df.mean()
df.mean(1)
df.apply(np.cumsum)
df.apply(lambda x: x.max() - x.min())

## Łączenie i grupowanie `DataFrame`

In [None]:
df = pd.DataFrame(np.random.randn(10, 4))
pieces = [df[:3], df[3:7], df[7:]]
pd.concat(pieces)

left = pd.DataFrame({'key': ['foo', 'foo'], 'lval': [1, 2]})
right = pd.DataFrame({'key': ['foo', 'foo'], 'rval': [4, 5]})
merged = pd.merge(left, right, on='key')

df = pd.DataFrame(np.random.randn(8, 4), columns=['A', 'B', 'C', 'D'])
s = df.iloc[3]
df.append(s, ignore_index=True)

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar',
                         'foo', 'bar', 'foo', 'foo'],
                   'B': ['one', 'one', 'two', 'three',
                         'two', 'two', 'one', 'three'],
                   'C': np.random.randn(8),
                   'D': np.random.randn(8)})

df.groupby('A').sum()

df.groupby(['A', 'B']).sum()

## Cechy kategoryczne

In [None]:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6], "raw_grade": ['a', 'b', 'b', 'a', 'a', 'e']})
df["grade"] = df["raw_grade"].astype("category")

df["grade"].cat.categories = ["very good", "good", "very bad"]

df.sort_values(by="grade")
df.groupby("grade").size()

# Wizualizacje

In [None]:
%matplotlib inline
ts = pd.Series(np.random.randn(1000), index=pd.date_range('1/1/2000', periods=1000))
ts = ts.cumsum()
ts.plot()

In [None]:
df = pd.DataFrame(np.random.randn(1000, 4), index=ts.index, columns=['A', 'B', 'C', 'D'])
df = df.cumsum()
df.plot()

## Wczytywanie `DataFrame` z pliku i zapis do pliku

In [None]:
df.to_csv('foo.csv')

pd.read_csv('foo.csv')
df.to_excel('foo.xlsx', sheet_name='Sheet1')

***
# Zadania

### Zadanie 1
Stwórz `DataFrame` zawierający zbiór Iris i zmień nazwy kolumn w `DataFrame`.
### Zadanie 2
Policz ile jest wartości poniżej i powyżej średniej w każdej kolumnie.
### Zadanie 3
Usuń `5%` wartości z `df` (ustaw je na `np.nan`), a następnie zastąp wszystkie brakujące wartości średnią dla ich kolumny.
### Zadanie 4
Stwórz nowy `DataFrame`, który będzie się składać z jednej kolumny (gatunek irysa).
### Zadanie 5
Podziel `DataFrame` na zbiór testowy i treningowy w stosunku 1:10 i 1:5
### Zadanie 6
Znajdź indeks wiersza z 3 największą wartością w drugiej kolumnie.
### Zadanie 7
Zamień kolumnę target na one-hot encoding.
### Zadanie 8
Znormalizuj wartości w kolumnach.
### Zadanie 9
Policz częstotliwość wystąpień poszczególnych wartości w `df`.
### Zadanie 10
Stwórz `DataFrame`, z następującymi kolumnami: `imię_i_nazwisko`, `data_urodzenia`, a następnie stwórz na jej podstawie `DataFrame` z kolumnami: `imię`, `nazwisko`, `rok_urodzenia`, `miesiąc_urodzenia`, `dzień_urodzenia`. Możesz pracować na danych z Titanica.