# Pandas

[Pandas](http://pandas.pydata.org/) jest biblioteką przeznaczoną do analizy danych.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Series

Seria to struktura jednowymiarowa. Każdy element ma przypisany domyślny lub wybrany indeks. Można je tworzyć z innych struktur danych.

In [None]:
pd.Series(np.random.randn(5))

In [None]:
pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

In [None]:
pd.Series({'a' : 0., 'b' : 1., 'c' : 2.})

In [None]:
s = pd.Series(np.random.randn(5), index=list('abcde'))
print(s)

In [None]:
# pobieranie danych
print('s[1] = \n{}'.format(s.iloc[1]))
print('s[2:] = \n{}'.format(s.iloc[2:]))
print('s[1:-2] = \n{}'.format(s.iloc[1:-2]))

In [None]:
# pobieranie danych z wykorzystaniem nazwanego indeksu
print('s["b"] = \n{}'.format(s['b']))
print('s["c":] = \n{}'.format(s['c':]))
print('s["b":"c"] = \n{}'.format(s['b':'c']))

In [None]:
# na seriach można wykonywać operacje
print(f's*5 = \n{s*5}')
print(f's**3 = \n{s**3}')
print(f's*s = \n{s*s}')
print(f's+s = \n{s+s}')

In [None]:
# oraz je rysować
%matplotlib inline

s.plot()

## DataFrame

DataFrame jest obiektem dwuwymiarowym, każda kolumna odpowiada serii. Wszystkie kolumny mają wspólny indeks w wierszach.

In [None]:
df = pd.DataFrame(np.random.randn(10,4), index=pd.date_range('20210410', periods=10), columns=list('ABCD'))
print(df)
display(df) # wydruk sformatowany
df

In [None]:
# obiekty mogą być zapisywane do plików i wczytywane z plików CSV, JSON, Pickle, Parquet, XML, Excel, ...
# dla niektórych formatów wymagana jest instalacja dodatkowych bibliotek (tzw. engine)
# możliwy jest również zapis/odczyt z innych źródeł (baza SQL)
df.to_csv('sample.csv')
dataframe = pd.read_csv('sample.csv', index_col=0)
dataframe

df.to_json('sample.json')
df.to_xml('sample.xml')
df.to_pickle('sample.pickle')
# df.to_parquet('sample.parquet')

In [None]:
# podejrzenie początku tabeli
df.head()

In [None]:
# podejrzenie końca tabeli
df.tail(3)

In [None]:
# podejrzenie losowych wierszy
df.sample(5)

In [None]:
df.columns

In [None]:
df.index

In [None]:
# wybrana kolumna
df['A']

In [None]:
# filtrowanie wyników
df[df.B > 0.0]

In [None]:
# sprawdzenie warunku w serii
df.B > 0.0

In [None]:
# operacje na danych - pobieranie i zmiana
print('at')
print(df.at[df.index[0],'A'])
df.at[df.index[0],'A'] = 2.0
print(df.at[df.index[0],'A'])

print('iat')
print(df.iat[0,0])
df.iat[0,0] = np.random.rand()
print(df.iat[0,0])

In [None]:
# sortowanie po indeksach
df.sort_index(ascending=False)

In [None]:
# sortowanie po kolumnach
df.sort_index(axis=1,ascending=False)

In [None]:
# sortowanie po wartościach
df.sort_values('A')

In [None]:
# usuwanie kolumny
df.drop(axis=1, labels=['C'])

In [None]:
# zmianę obiektu można wykonać poprzez przypisanie lub parametr inplace
df.drop(axis=1, labels=['B'], inplace=True)
df

In [None]:
# dodawanie kolumny
df['B'] = np.random.randn(10,1)
df

In [None]:
# dodawanie kolumny oraz wiersza bez określonych wartości
df['X'] = np.NaN
df = pd.concat([df, pd.DataFrame(np.NaN, index=pd.date_range('20230701', periods=1), columns=df.columns)])
# dawniej
# df = df.append(pd.DataFrame(np.NaN, index=pd.date_range('20230701', periods=1), columns=df.columns))
df

In [None]:
# usuwanie wierszy z nieokreślonymi wartościami
df.dropna(how='any')

In [None]:
df.dropna(how='all', inplace=True)
df

In [None]:
# uzupełnianie wartości NaN
df.fillna(-10.0, inplace=True)
df

In [None]:
df.drop(index=pd.Timestamp('20210419'), inplace=True)
df

In [None]:
# zmiana wybranych wartości
# wyłączenie ostrzeżenia: pd.options.mode.chained_assignment = None
df.loc[df['C'] > 0.5, 'X'] = 30.0
df

In [None]:
# transpozycja
df.transpose()

In [None]:
# podstawowe informacje statystyczne
df.describe()

In [None]:
# DataFrame można tworzyć na różne sposoby
pd.DataFrame({ 'A' : 1.,
               'B' : pd.Timestamp('20210401'),
               'C' : pd.Series(1, index=list(range(4)), dtype='float32'),
               'D' : np.array([3] * 4, dtype='int32'),
               'E' : pd.Categorical(['car','train','bike','ship']),
               'F' : np.random.randint(0, 200000, 4),
               'G' : np.random.rand(4),
               'H' : 'foo' })

Zobacz również [dokumentację](http://pandas.pydata.org/pandas-docs/stable/index.html) oraz [Pandas Cheat Sheet](https://github.com/pandas-dev/pandas/blob/main/doc/cheatsheet/Pandas_Cheat_Sheet.pdf)

### Zadanie

Utwórz DataFrame `samochody` z tysiącem losowych danych:
- `przebieg` z przedziału [0, 200 000]
- `spalanie` z przedziału [2, 20]

Dodaj kolumnę `marka`:
- jeżeli samochód ma spalanie [0, 8] marka to VW
- jeżeli samochód ma spalanie [8, 12] marka to Ford
- jeżeli samochód ma spalanie 13 i więcej, marka to UAZ
    
Dodaj kolumnę `pochodzenie`:
- jeżeli przebieg poniżej 100 km, pochodzenie `new`
- jeżeli przebieg powyżej 100 km, pochodzenie `PL`
- jeżeli przebieg powyżej 100 000 km, pochodzenie `DE`
- zapisz dane do pliku

Przeanalizuj dane statystycznie:
- pogrupuj dane po marce i po pochodzeniu (wskazówka: użyj `groupby(['marka', 'pochodzenie'])` i wskaż wybraną funkcję statystyczną (np. średnią)
- narysuj wykres przeanalizowanych danych (wskazówka: użyj wykresu typu `bar`, wskaż drugą oś y `secondary_y=['przebieg']`)
- sprawdź liczność grup i narysuj wykres
- wykonaj analizę statystyczną