<img src='img/panda_1.jpg' align="left" style="height: 200px;"/>

# Wprowadzenie do Pandas

Docs: https://pandas.pydata.org/ </br>
Cheatsheet: https://bit.ly/2lrgoOU

In [None]:
# garść życiowych mądrości zanim zaczniemy :) 
import this

In [None]:
import pandas as pd 
import numpy as np

## Series

Podstawą działania w Pandas są "Series" (Serie ??). Praca z nimi jest podobna do jednowymiarywych tablic z numpy (np.array). Główną różnicą jest możliwość nadawania etykiet i indeksowania po nich.

### Tworzenie:

In [None]:
# same dane
s1 = pd.Series(data=[1, 2, 3, 4, 5])
s1

In [None]:
# dane + etykiety
s2 = pd.Series(data=[1, 2, 3, 4, 5], index=["a", "b", "c", "d", "e"])
s2

In [None]:
# jako słownik
d1 = {"a": 1, "b": 2, "c": 3, "d": 4, "e": 5}

s3 = pd.Series(data=d1)
s3

In [None]:
# zdefiniowany typ danych
s4 = pd.Series(d1, dtype=str)
s4

### Indeksowanie

In [None]:
# po etykiecie
s4["b"]

In [None]:
# po pozycji
s4[1]

Operacje na indeksach

In [None]:
s5 = pd.Series([5, 4, 3, 2, 1, 0], ["f", "e", "d", "c", "b", "a"])

print(s5)
print()

print(s2)
print()

print(s2 + s5)
print()

In [None]:
s1 + s2 # ?

In [None]:
# s4.dtype: object, s5.dtype: int64
# s4 + s5 # ?

### Typy danych

In [None]:
pd.Series(["Ala", "ma", "kota"])

In [None]:
pd.Series([[1,2,3], [4,5,6], [7,8,9]])

In [None]:
pd.Series([object, object, object])

In [None]:
pd.Series([sum, min, np.array]) 

In [None]:
# można też tak, ale po co??
pd.Series([s1, s2, s3]) # robi się nieco dziwnie :) 

<img src='img/panda_4.jpg' align="left" style="height: 200px;"/>

## DataFrames

Pandas nabiera mocy dzięki DataFrame-om, które w rzeczywistości są "sklejonymi" Series o wspólnych indeksach (jasne?). <br>
Na początku, wyglądem i obsługą przypominają nieco Excela (nie mówcie tego głośno ;) ). 

In [None]:
some_data = np.arange(15).reshape(5,3)

df1 = pd.DataFrame(
    data=some_data, 
    index=["a", "b", "c", "d", "e"], 
    columns=["X", "Y", "Z"] 
)

df1

### Indeksowanie

In [None]:
# kolumny
df1["X"]

In [None]:
df1[["X", "Z"]]

In [None]:
# wiersze
df1[2: 4]

Za autorami: <br>
<i><b>"For production code, we recommended that you take advantage of the optimized pandas data access methods exposed in this chapter." </i></b><br>
Patrz [TU](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html)

<i>df . loc / iloc [ [ wiersze ], [ kolumny ] ] </i> <br>
lub <br>
<i>df . loc / iloc [ wiersz_start : wiersz_stop, kolumna_start : kolumna_stop ] </i>

In [None]:
# po etykietach (labels)
df1.loc["a"] 

In [None]:
df1.loc[["a", "d"]]

In [None]:
df1.loc["c": "z"]

In [None]:
# po indeksach
df1.iloc[[0, 3]] 

In [None]:
df1.iloc[0: 3] 

In [None]:
# wiersze + kolumny
df1.loc[["a", "e"], ["X", "Z"]]

In [None]:
df1.iloc[[1, 2],[1, 2]]

In [None]:
df1

In [None]:
# df1.loc[:, :] # ?

In [None]:
# df1.iloc[:3,[1,2]] # ?

In [None]:
# df1.iloc[::2,:] # ?

<b>df . *</b>

In [None]:
# df1.Y # działa*

### Indeksowanie warunkowe

In [None]:
# pełny DataFrame
df1

In [None]:
# "maska logiczna"
df1["Y"] > 11

In [None]:
# indeksowanie "maską logiczną"
df1[df1["Y"] > 11]

In [None]:
# maska 2d
df1 % 2 == 0 # ?

In [None]:
df1[df1 % 2 == 0] # ?

In [None]:
df1[df1["Y"] > 6].loc[:, ["X", "Z"]] # ?

In [None]:
# łączenie warunków - AND
df1[(df1["Y"] > 2) & (df1["X"] < 10)] 

In [None]:
# łączenie warunków OR
df1[(df1 < 4) | (df1 > 11)] 

In [None]:
# zaprzeczenie
df1[~(df1["Y"] > 8)] 

Niektóre (trudniejsze?) warunki są obsługiwane przez funkcje Pandasa, np.: <br>
*df[ df["X"]  in  [1, 2, 3, 4] ]*  <br>
Patrz: [How do I use within / in operator in a Pandas DataFrame?](https://stackoverflow.com/questions/31595146/how-do-i-use-within-in-operator-in-a-pandas-dataframe)

In [None]:
# df1[df1["X"] in [3, 9, 23, 69, 777]]

df1[df1["X"].isin([3, 9, 23, 69, 777])]

### Zmiany w danych

In [None]:
print(df1.columns)
print(df1.index)
# *columns/index w DataFrame daje wiele ciekawych możliwości, ale to temat na nieco później ;)  

In [None]:
# zmiana etykiet kolumn/wierszy
df1.columns = ["play", "with", "data"]
df1.index = ["u", "w", "x", "y", "z"]
df1

In [None]:
# resetowanie etykiet wierszy
df1 = df1.reset_index(drop=False)
df1

In [None]:
# etykiety indeksów z wybranej kolumny
df1 = df1.set_index("data")
df1

In [None]:
# nowe kolumny
df1["NEW"] = df1["play"] + df1["with"]
df1

In [None]:
# usuwanie - kolumny
df1.drop(columns=["NEW"])

In [None]:
df1 # ? inplace

In [None]:
df1.drop(columns=["NEW"], inplace=True)
df1

In [None]:
# usuwanie - wiersze
df1.drop(index=2) # dlaczego etykiety nie powinny być numeryczne?

In [None]:
# przypisanie wartości
df1.loc[:, "play"] = ["tu", "są", "Twoje", "nowe", "wartości"]
df1

In [None]:
df1.loc[:, "play"] = np.linspace(0, 1, len(df1))
df1

In [None]:
# dołączanie wierszy*
new_row = pd.Series(
    data={"index": "abc", "play": 3, "city": "Olsztyn"}, 
    name=99
)

df1.append(new_row) # zwróć uwagę na kolumnę, której wcześniej nie było!
# *tu dodajemy pojedynczy wiersz, ale równie dobrze może to być lista wierszy lub DataFrame

In [None]:
df1 # ? inplace

### Operacje

In [None]:
df2 = pd.DataFrame(
    data={
        "A": [1, 2, 5, 3, 4], 
        "B": np.linspace(0, 1, 5), 
        "C": ["ala", "ma", "kota", "i", "psa"], 
        "D": range(-10, -5)
    }
)

df2

In [None]:
# operacje na całej kolumnie
df2["A"].sum()

In [None]:
# operacje "wiersz po wierszu"
df2["A"] + df2["B"]

In [None]:
# "aplikowanie" funkcji 
df2["C"].apply(str.upper)

In [None]:
# lista dostępnych funkcji jest b. duża i czasem nie warto "odkrywać koła" na nowo
df2["C"].str.upper()

In [None]:
# "aplikowanie" funkcji dla całych wierszy
df2.apply(lambda row : row["A"] * row["C"], axis=1) # axis mówi nam, według której osi się poruszamy!

In [None]:
# podobnie dla własnych funkcji
def add_two(x):
    return x + 2

df2["B"].apply(add_two)

In [None]:
# lub 
def say_hello(x):
    return f"Hello {x}"

df2["C"].apply(say_hello)

In [None]:
# sortowanie wartości
df2.sort_values(by="B", ascending=False)

In [None]:
df2.iloc[2, 2] = np.nan # dla przykładu zastępujemy coś brakującą wartością 
df2

In [None]:
# znajdowanie brakujących wartości
missing_C = df2["C"].isnull()
# missing_C = df2["C"].isna() # można stosować zamiennie

df2[missing_C]

In [None]:
# tutaj odwrotnie
not_missing_C = df2["C"].notnull()
# not_missing_C = df2["C"].notna() # można stosować zamiennie

df2[not_missing_C]

In [None]:
# usuwanie wartości brakujących
df2.dropna(
    axis=0, # wiersze/kolumny
    how='any', # jeden/wszystkie
    thresh=None # min. liczba wartości brakujących
)

In [None]:
# wypełnianie wartości brakujących
df2.fillna("WYPEŁNIONE!") 

In [None]:
# podobnie, ale z użyciem istniejących wartości
df2.fillna(method="bfill")
# df2.fillna(method="ffill")

### Inne przekształcenia

In [None]:
# zamiana wiersze/kolumny
df2.T
# df2.transpose()

In [None]:
df2["A"] = np.random.choice(["a", "b"], len(df2)) # dla przykładu dodajemy jakieś losowe dane
df2["E"] = np.random.choice(["X", "Y"], len(df2))
df2

In [None]:
# grupowanie
df2.groupby("A").count()

In [None]:
# podobnie, jeśli grupujemy po więcej niż 1 kolumnie
df2.groupby(["A", "E"]).mean()

In [None]:
# kolumny, po których grupujemy trafiły do indeksu - możemy to pominąć
df2.groupby(["A", "E"], as_index=False).mean()

In [None]:
# możemy użyć dowolnych funkcji agregujących
df2.groupby(["A", "E"], as_index=False).agg({"D": "mean", "B": ["count", "min", "max"]}) # ale o tym nieco później ;)

In [None]:
# tabele przestawne, "prawie" jak w Excel-u ;)
df2.pivot_table(
    index="A", 
    columns="D",
    values="B", 
    aggfunc="sum"
) 

### Przydatne

In [None]:
# zliczenie "niepustych" wartości
df2.count()
# df["A"].count() # identycznie dla wybranej kolumny

In [None]:
# wartości unikalne
df2["A"].unique()

In [None]:
# liczba unikalnych wartości
df2["A"].nunique()

In [None]:
# wystąpienia poszczególnych wartości
df2["A"].value_counts()

In [None]:
# ogólne informacje o ilości i rodzaju danych
df2.info()

In [None]:
# podstawowe statystyki
df2.describe() # domyślnie wyłącznie dla wartości liczbowych

In [None]:
# dodatkowe informacje z uwzględnieniem wszystkich kolumn
df2.describe(include="all")

In [None]:
# wyświetlenie pierwszych/ostatnich wierszy
df2.head()
# df2.tail()

<img src='img/panda_5.jpg' align="left" style="height: 200px;"/>

## Łączenie ramek

In [None]:
d1 = pd.DataFrame({"A": ["A1", "A2", "A3"], 
                   "B": ["B1", "B2", "B3"], 
                   "C": ["C1", "C2", "C3"]}, 
                  index=[1, 2, 3])

d2 = pd.DataFrame({"A": ["A4", "A5", "A6"], 
                   "B": ["B4", "B5", "B6"], 
                   "C": ["C4", "C5", "C6"]}, 
                  index=[4, 5, 6])

d3 = pd.DataFrame({"A": ["A7", "A8", "A9"], 
                   "B": ["B7", "B8", "B9"], 
                   "C": ["C7", "C8", "C9"]}, 
                  index=[7, 8, 9])

print(d1)
print()

print(d2)
print()

print(d3)
print()

In [None]:
# "doklejanie" DataFrame'ów według kolumn/indeksów
pd.concat([d1, d2, d3], axis=0)

In [None]:
# w drugą stronę?
pd.concat([d1, d2, d3], axis=1) 

In [None]:
d4 = pd.DataFrame({"K":["K0", "K1", "K2"], "A":[1, 2, 3]})

d5 = pd.DataFrame({"K":["K1", "K2", "K3"], "B":[4, 5, 6]})

print(d4)
print()
print(d5)

In [None]:
# łączenie według "klucza"
pd.merge(left=d4, right=d5, on="K", how="inner")

In [None]:
pd.merge(left=d4, right=d5, on="K", how="outer") 

<img src='img/joins.png' align="left"/>

## Input / Output

In [None]:
# pd.read # ?

In [None]:
# odczyt .csv 
dieta = pd.read_csv("data/dieta.csv") # uwaga - ta funkcja wygląda niepozornie, ale kryje ogromne możliwości :) 
dieta.head()

In [None]:
# zapis .csv
dieta.to_csv("data/dieta.csv", index=False)

In [None]:
# odczyt .xlsx
jadlospis = pd.read_excel("data/jadlospis.xlsx", sheet_name="dzien1") 
jadlospis.head()

In [None]:
# co kryje się w danych?
jadlospis.info()

In [None]:
# zróbmy małą agregację i zapiszmy kopię
jadlospis = jadlospis.groupby(["posiłek", "produkt"]).sum()
jadlospis

In [None]:
jadlospis.to_excel("data/jadlospis_grouped.xlsx", sheet_name="dzien1")

In [None]:
# Inne, dość często używane

# pd.read_pickle
# df.to_pickle

# pd.read_sql
# df.to_sql

<img src='img/panda_6.jpg' align="left" style="height: 200px;"/>

## Co dalej?

Tyle teorii to aż nadto na start, ale bez praktyki się nie obędzie. <br>
Przyszedł czas na nieco [ĆWICZEŃ]('2a_Pandas_w_akcji_(zadania).ipynb')