## Pandas


Pandas jest podstawowym pakietem pythona do przechowywania i obsługi zbiorów danych. Pandas jest szybki i bardzo, bardzo rozbudowany. Liczba funkcji pandas jest tak duża, że nie sposób opisać ich wszystkich w ramach niniejszego kursu. Naszym celem będzie, więc przybliżenie możliwości tego pakietu, zapoznanie się w stopniu umożliwiającym dalsze samodzielne zgłębianie jego możliwości. 

W tym notatniku wprowadzimy sobie jedynie podstawy pandas, żeby się z nim wstępnie zapoznać. Lepiej poznajemy jego możliwości w następnych notatnikach na przykładowych zbiorach danych. 


Tutoriale pozwalające poznać pandas lepiej:
* https://pandas.pydata.org/pandas-docs/stable/getting_started/tutorials.html
* [i oczywiście dokumentacja](https://pandas.pydata.org/pandas-docs/stable/index.html)


W tej lekcji, na potrzeby wprowadzenia wykorzystamy proste zbiory danych dostępne w pakiecie statsmodel (jeżeli nastepna komórka nei wywołuje się poprawnie, prawdopodobnie brakuje nam pakietu statsmodels i powinniśmy go zaintalować).

https://www.statsmodels.org/stable/install.html


In [None]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

## Pandas Series
Podstawowe typy danych to DataFrame, które składa się z Series. W czym różni się Series od NumPy arrays? To index, którego możemy dowolnie definiować

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])

In [None]:
data

In [None]:
print(data.values)
print(data.index)

In [None]:
#pd.Series(data, index=index)

data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

#### Series z słownika

In [None]:
population_dict = {'California': 38332521, 'Texas': 26448193, 'New York': 19651127, 
                   'Florida': 19552860, 'Illinois': 12882135}

population = pd.Series(population_dict)

population

## Pandas DataFrame

### Tworzenie dataframe'ów

Najbezpiecznieszym sposobem tworzenia obiektów DataFrame jest słownik. Wiemy, co przypisujemy do której kolumny, wszystko jest w jednym poleceniu. Metod jest jednak znacznie więcej.

In [None]:
df=pd.DataFrame([{'a': 1, 'b': 2, 'c':1}, {'a':2, 'b': 3, 'c': 4}])

In [None]:
df

In [None]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

In [None]:
rng = np.random.default_rng(1)  # seed
random_integers = rng.integers(5, size=100)
random_floats = rng.uniform(size=100)
random_cars = rng.choice(['ferrari', 'mercedes', 'alfa romeo', 'renault'], size=100)

In [None]:
df = pd.DataFrame({'ints': random_integers, 'floats': random_floats, 'car': random_cars})

In [None]:
df

In [None]:
df2 = pd.DataFrame([random_integers, random_floats, random_cars]).T
df2.columns = ['ints', 'floats', 'car']
df3 = pd.DataFrame([random_integers, random_floats, random_cars], index=['ints', 'floats', 'car']).T
df4 = pd.DataFrame(zip(random_integers, random_floats, random_cars), columns=['ints', 'floats', 'car'])

In [None]:
df = pd.DataFrame({'ints': random_integers, 'floats': random_floats, 'car': random_cars})

### Indeks oraz indeksowanie elementów

Series jest podobny do słownika

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],

index=['a', 'b', 'c', 'd'])

data.keys()

In [None]:
data['a']

In [None]:
data['a']=1.5

In [None]:
data

Istnieją dwa podstawowe sposoby adresowania elementów w pandas. Indeksowy (.iloc) oraz etykietowy (.loc). Pierwszy z nich działa analogicznie do dowolnej dwuwymiarowej macierzy w numpy. Drugi natomiast, odwoluje się do indkesu (etykiety) danego df, który może mieć dośc dowolną formę (nie musi być posortowany, monotoniczny, liczbowy, etc.).

In [None]:
df = pd.DataFrame({'ints': random_integers, 'floats': random_floats, 'car': random_cars}, index=range(2,102))

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.columns

In [None]:
df['ints']

In [None]:
df[['ints', 'floats']]

In [None]:
df.iloc[2]

In [None]:
df.loc[2]

In [None]:
df.loc[2]

In [None]:
df.iloc[3:5]

In [None]:
df.loc[3:5]

In [None]:
df[3:6]

Częstym przypadkiem jest, że musimy indeks "zresesotować" - czyli wrócić do numeracji od 0

In [None]:
df

In [None]:
df.reset_index()

In [None]:
df=df.reset_index(drop=True)

In [None]:
df

### Wyświetlanie DataFrame

In [None]:
data = sm.datasets.fair.load_pandas()
data.keys()
df=data.data

In [None]:
df.head()

In [None]:
df[:10]

In [None]:
print (df.dtypes)

In [None]:
print(df)

Jak widać kiedy uzyjemy funkcji print, output w notebooku nie wygląda najlepiej. Tymczasem, jeżeli notebook użyje swojej domyślnej funkcji tabela jest ładnie sformatowana. Nie zawsze jednak będziemy chcieli przyglądać się naszej tabelki w ostatnim wierszu komórki. Zamiast Pythonowego print, możemy wykorzystać notebookowy display.

In [None]:
display(df)

Korzystając z nazw kolumn możemy łatwo tworzyć nowe widoki istniejącego DataFrame'a lub tworzyć częściowe kopie. Niestety nie zawsze jest to oczywiste, czy nowa zmienna będzie kopią czy tylko referencją. W większości przypadków będzie to jednak kopia.

In [None]:
# Utworzenie referencjiL
fExo1 = df[:]
# Utworzenie kopii.
fExo2 = df.copy()
fExo3 = df.copy()
print(fExo1._is_view, fExo2._is_view, fExo3._is_view)

# Obydwa poniższe wiersze utworzą kopię, pomimo tego, że w pierwszym przypadku nie jest to poweidziane wprost.
fExo4 = df[['age', 'children', 'rate_marriage']]
fExo5 = df[['age', 'children', 'educ']].copy()
print(fExo4._is_view, fExo5._is_view)
display(fExo4.head(3))


In [None]:
print(df["age"].head())
print(df.age.head())
print(df.age.values[0:5])
print(type(df.age.values))

Zwykle pierwszym krokiem jest wstępna analiza posiadanych danych. Oczywiście możemy sobie narysować histogram (na wykresach skupimy się w innej części kursu), ale możemy również wyświetlić numeryczny opis danych. Wszystkie funkcje, które są zaimplementowane w numpy są również dostępne w pandas.
* Lista funkcji opisowych: http://pandas.pydata.org/pandas-docs/stable/api.html#api-dataframe-stats

In [None]:
print("Podstawowe charakterystki: \n", df.age.describe())

In [None]:
df.loc[16:20]

In [None]:
df['rate_marriage'].loc[16:20].values

#### Zadanie

1. Wyświetl wiersze w df z indeksem 3-6
2. Wyświetl kolumny df: age, yrs_married, occupation
3. Wyświetl wartośći kolumny 'rate_marriage', wiersze 16-20 

### Modyfikowanie zawartości
Zawartość naszej serii lub df możemy modyfikować na wiele sposobów. Zacznijmy od utworzenia nowej kolumny z kwadratem wieku. Wszystkie podane poniżej sposoby pozwolą uzyskać ten sam efekt. Zwróćmy uwagę, że przy przypisaniu wartości do kolumny df musimy korzystać z operatora nazwy kolumny (nie nazwy po kropce).

In [None]:
df["age2"] = df["age"]*df["age"]
df["age2"] = df["age"]**2
df["age2"] = df["age"].apply(lambda x: x**2)
df["age2"] = np.power(df["age"].values, 2)
df["age2"] = [x**2 for x in df["age"].values]
df.head(3)

#### Zadanie

1. Stwórz nową kolumną z "children": niech nowe wartości = (children X 2 - 5)
2.  Stwórz nową kolumną z "children" oraz "age": niech nowe wartości = (children X age)


### Indeksowanie elementów

In [None]:
import random
rainbow = ['red', 'orange', 'yellow', 'green', 'blue', 'indigo', 'violet']
df["favColor"] = [random.choice(rainbow) for x in df.index.values]
df.head(5)

In [None]:
print(df.shape)
print("Zachowywanie indeksów czerwonych wierszy.")
redRows = df.favColor=="red"

In [None]:
print(df.loc[df['favColor']=="red"].shape)
print(df.loc[df.favColor=="red"].shape)

In [None]:
df[df['favColor']=="red"].shape

In [None]:
df.loc[df['favColor']=="red"].head(5)

In [None]:
redRows = df.favColor=="red"
print(redRows.shape)
df.loc[redRows].head(5)

In [None]:
print("Wybieranie wierszy czerwoncyh lub pomarańczowych")
display(df.loc[df.favColor.isin(['red','orange'])].head(5))

print("Wybieranie młodych czerwonych wierszy")
display(df.loc[(df.favColor=="red") & (df.age<=25)].head(5))
display(df[(df.favColor=="red") & (df.age<=25)].head(5))
%timeit df.loc[(df.favColor=="red") & (df.age<=25)]
%timeit df[(df.favColor=="red") & (df.age<=25)]

In [None]:
display(df.loc[(df['favColor']=="red") & (df['age']<=25)].head(5))

### Indeksowanie z modyfikacją
Jak widać na ostatnim z powyższych przykładóœ, .loc nie jest niezbędne. Kiedy wybieramy wiersze w celu ich wyświetlenia. Jednak kiedy będziemy chcieli zmienić zawartość df, ta metoda jest jest konieczna.

In [None]:
df.loc[df.favColor=="red", "favColor"]="reddish"
df.head(20)
# Ten kod nie zadziała:
# df[df.favColor=="red", "favColor"]="reddish"

In [None]:
#poniższy kod wykona się, efekt będzie zgodny z oczekiwaniem, ale pands wyrzuci ostrzeżenie.
df.favColor.loc[df.favColor=="reddish"]="red"
df.head(10)

#### Zadanie

1.  Wybierz wiersze z df, w którym kolor = violet
2. Wybierz wiersze z df, w którym kolor to violet oraz occupation >3
3. Wybierz wiersze z df, w którym kolor = green LUB kolor = blue




### Grupowanie
Grupowanie, o czym świadczyć może popularnośc tabel krzyżowych w excelu, przydaje się bardzo często. Przyjrzyjmy się przykładom.

In [None]:
df.groupby(['favColor'])['rate_marriage'].count()

In [None]:
#Pogrupowane wiersze możemy zapisać jako osobną zmienną.
colorGroups = df.groupby(['favColor'])
# Możemy wyświetlić lub wykorzystać w całości jedną z grup.
display(colorGroups.get_group("blue").head(5))
display(colorGroups.get_group("blue")['educ'].head(5))
# Możemy policzyć dowolną funkcję na pogrupowanych wartościach.
display(colorGroups.count())
display(colorGroups.mean())
display(df.groupby(['favColor'])['rate_marriage'].count())

In [None]:
df

Wykorzystując funkcję agg() możemy mieć nad naszymi tabelami zdecydowanie większą kontrolę. Możemy dowolnie ustalać to na jakich kolumnach chcemy dokonywać obliczeń i jakich funkcji użyć.

In [None]:
print("Podstawowe agregowanie")
display(colorGroups.agg({'educ':'sum', 'yrs_married': 'mean'}))

print("Agregowanie z wykorzystaniem funkcji numpy lub lambda")
display(colorGroups.agg({'educ':np.mean, 'yrs_married': lambda x: np.sqrt(x).sum()}))

print("Agregowanie z wieloma statystykami dla jednej kolumny")
df.groupby(['favColor']).agg({'educ':[np.mean, 'sum', np.std], 'yrs_married': 'mean'})

#### Zadanie

display(df.groupby(['favColor'])['rate_marriage'].count())
1. Policz liczbę obserwacji dla każdej grupy wiekowej (age)
2. Wyświetl liczbę obserwacji oraz średnią dla yrs_married dla każdej grupy wiekowej (age)




## Łączenie DataFrame'ów
O łączeniu datafram'ów ze sobą można w skrócie powiedzieć, że pandas obsługuje wszystkie możliwe łączenia. Na tym etapie kursu spojrzymy na proste łączenia w pionie i poziomie, a do bardziej zaawansowanych joinów wskażemy wyłącznie dokumentację. Wrócimy do nich w dalszej części kursu na innych zbiorach danych.
* http://pandas.pydata.org/pandas-docs/stable/merging.html

In [None]:
df = pd.DataFrame(columns=['A','B'])
df["A"] = np.arange(4)
df["B"] = np.arange(4)
display(df)
print("Sklejanie w poziomie")
display(pd.concat((df, df), axis=1))
print("Sklejanie w pionie")
display(pd.concat((df, df), axis=0))
print("Sklejanie w pionie z reindeksowaniem:")
display(pd.concat((df, df), axis=0, ignore_index=True))