# DataFrame i Series

In [None]:
import pandas as pd

In [None]:
pd.read_excel("xl/course_participants.xlsx")

In [None]:
data=[["Mark", 55, "Włochy", 4.5, "Europa"],
      ["John", 33, "USA", 6.7, "Ameryka"],
      ["Tim", 41, "USA", 3.9, "Ameryka"],
      ["Jenny", 12, "Niemcy", 9.0, "Europa"]]
df = pd.DataFrame(data=data,
                  columns=["imię", "wiek", "kraj",
                           "ocena", "kontynent"],
                  index=[1001, 1000, 1002, 1003])
df

In [None]:
df.info()

## Indeks

In [None]:
df.index

In [None]:
df.index.name = "numer"
df

In [None]:
# Metoda "reset_index" przekształca indeks w kolumnę, zastępując
# indeks indeksem domyślnym. Odpowiada to pierwszemu DataFrame,
# który wczytaliśmy z Excela.
df.reset_index()

In [None]:
# Metoda "reset_index" zmienia "numer" w zwykłą kolumnę,
# a "set_index" zmienia kolumnę "imię" w indeks.
df.reset_index().set_index("name")

In [None]:
df.reindex([999, 1000, 1001, 1004])

In [None]:
df.sort_index()

In [None]:
df.sort_values(["kontynent", "wiek"])

## Kolumny

In [None]:
df.columns

In [None]:
df.columns.name = "cechy"
df

In [None]:
df.rename(columns={"imię": "Imię", "wiek": "Wiek"})

In [None]:
df.drop(columns=["imię", "kraj"],
        index=[1000, 1003])

In [None]:
df.T  # Skrót od df.transpose()

In [None]:
df.loc[:, ["kontynent", "kraj", "imię", "wiek", "ocena"]]

# Operowanie danymi
## Wybieranie danych

In [None]:
# Użycie skalarów do wyboru zarówno wierszy, jak i kolumn, zwraca skalar
df.loc[1001, "imię"]

In [None]:
# Użycie skalara do wyboru wiersza lub kolumny zwraca obiekt Series
df.loc[[1001, 1002], "wiek"]

In [None]:
# Wybranie wielu wierszy i kolumn zwraca obiekt DataFrame
df.loc[:1002, ["imię", "kraj"]]

In [None]:
df.iloc[0, 0]  # Zwraca skalar

In [None]:
df.iloc[[0, 2], 1]  # Zwraca Series

In [None]:
df.iloc[:3, [0, 2]]  # Zwraca DataFrame

In [None]:
tf = (df["wiek"] > 40) & (df["kraj"] == "USA")
tf  # To jest obiekt Series zawierający wyłącznie wartości True lub False

In [None]:
df.loc[tf, :]

In [None]:
df.loc[df.index > 1001, :]

In [None]:
df.loc[df["kraj"].isin(["Włochy", "Niemcy"]), :]

In [None]:
# Może to być roczna suma opadów w milimetrach
rainfall = pd.DataFrame(data={"Miasto 1": [300.1, 100.2],
                              "Miasto 2": [400.3, 300.4],
                              "Miasto 3": [1000.5, 1100.6]})
rainfall

In [None]:
rainfall < 400

In [None]:
rainfall[rainfall < 400]

In [None]:
# MultiIndex trzeba posortować
df_multi = df.reset_index().set_index(["kontynent", "kraj"])
df_multi = df_multi.sort_index()
df_multi

In [None]:
df_multi.loc["Europa", :]

In [None]:
df_multi.loc[("Europa", "Włochy"), :]

In [None]:
df_multi.reset_index(level=0)

## Ustawianie danych

In [None]:
# Najpierw skopiuj DataFrame, aby oryginał pozostał nietknięty
df2 = df.copy()

In [None]:
df2.loc[1000, "imię"] = "JOHN"
df2

In [None]:
df2.loc[[1000, 1001], "ocena"] = [3, 4]
df2

In [None]:
tf = (df2["wiek"] < 20) | (df2["kraj"] == "USA")
df2.loc[tf, "imię"] = "xxx"
df2

In [None]:
# Najpierw skopiuj DataFrame, aby oryginał pozostał nietknięty
rainfall2 = rainfall.copy()
rainfall2

In [None]:
# Ustaw 0 wszędzie tam, gdzie wartości są poniżej 400
rainfall2[rainfall2 < 400] = 0
rainfall2

In [None]:
df2.replace("USA", "Stany Zjednoczone")

In [None]:
df2.loc[:, "rabat"] = 0
df2.loc[:, "cena"] = [49.9, 49.9, 99.9, 99.9]
df2

In [None]:
df2 = df.copy()  # zacznijmy od nowej kopii
df2.loc[:, "rok urodzenia"] = 2021 - df2["wiek"]
df2

## Brakujące dane

In [None]:
df2 = df.copy() # zacznijmy od nowej kopii
df2.loc[1000, "ocena"] = None
df2.loc[1003, :] = None
df2

In [None]:
df2.dropna()

In [None]:
df2.dropna(how="all")

In [None]:
df2.isna()

In [None]:
df2.fillna({"ocena": df2["ocena"].mean()})

## Zduplikowane dane

In [None]:
df.drop_duplicates(["kraj", "kontynent"])

In [None]:
df["kraj"].is_unique

In [None]:
df["kraj"].unique()

In [None]:
# Domyślnie jako True oznaczane są tylko duplikaty,
# (bez pierwszego wystąpienia)
df["kraj"].duplicated()

In [None]:
# Aby uzyskać wszystkie wiersze, w których "kraj" jest zduplikowany,
# użyj keep=False
df.loc[df["kraj"].duplicated(keep=False), :]

## Operacje arytmetyczne

In [None]:
rainfall

In [None]:
rainfall + 100

In [None]:
more_rainfall = pd.DataFrame(data=[[100, 200], [300, 400]],
                             index=[1, 2],
                             columns=["Miasto 1", "Miasto 4"])
more_rainfall

In [None]:
rainfall + more_rainfall

In [None]:
rainfall.add(more_rainfall, fill_value=0)

In [None]:
# Obiekt Series pobrany z wiersza
rainfall.loc[1, :]

In [None]:
rainfall + rainfall.loc[1, :]

In [None]:
# Obiekt Series pobrany z kolumny
rainfall.loc[:, "Miasto 2"]

In [None]:
rainfall.add(rainfall.loc[:, "Miasto 2"], axis=0)

In [None]:
# Utwórzmy nowy obiekt DataFrame
users = pd.DataFrame(data=[" mArk ", "JOHN  ", "Tim", " jenny"],
                     columns=["imię"])
users

In [None]:
users_cleaned = users.loc[:, "imię"].str.strip().str.capitalize()
users_cleaned

In [None]:
users_cleaned.str.startswith("J")

## Stosowanie funkcji

In [None]:
rainfall

In [None]:
def format_string(x):
    return f"{x:,.2f}"

In [None]:
# Zauważ, że przekazujemy funkcję bez jej wywołania,
# czyli format_string, a nie format_string()!
rainfall.applymap(format_string)

In [None]:
rainfall.applymap(lambda x: f"{x:,.2f}")

# Łączenie obiektów DataFrame
## Konkatenacja

In [None]:
data=[[15, "Francja", 4.1, "Becky"],
      [44, "Kanada", 6.1, "Leanne"]]
more_users = pd.DataFrame(data=data,
                          columns=["wiek", "kraj", "ocena", "imię"],
                          index=[1000, 1011])
more_users

In [None]:
pd.concat([df, more_users], axis=0)

In [None]:
data=[[3, 4],
      [5, 6]]
more_categories = pd.DataFrame(data=data,
                               columns=["testy", "logowania"],
                               index=[1000, 2000])
more_categories

In [None]:
pd.concat([df, more_categories], axis=1)

## Operacje join i merge

In [None]:
df1 = pd.DataFrame(data=[[1, 2], [3, 4], [5, 6]],
                   columns=["A", "B"])
df1

In [None]:
df2 = pd.DataFrame(data=[[10, 20], [30, 40]],
                   columns=["C", "D"], index=[1, 3])
df2

In [None]:
df1.join(df2, how="inner")

In [None]:
df1.join(df2, how="left")

In [None]:
df1.join(df2, how="right")

In [None]:
df1.join(df2, how="outer")

In [None]:
# Dodaj kolumnę o nazwie "kategoria" do obu obiektów DataFrame
df1["kategoria"] = ["a", "b", "c"]
df2["kategoria"] = ["c", "b"]

In [None]:
df1

In [None]:
df2

In [None]:
df1.merge(df2, how="inner", on=["kategoria"])

In [None]:
df1.merge(df2, how="left", on=["kategoria"])

# Statystyka opisowa i agregacja danych
## Statystyka opisowa

In [None]:
rainfall

In [None]:
rainfall.mean()

In [None]:
rainfall.mean(axis=1)

## Grupowanie

In [None]:
df.groupby(["kontynent"]).mean()

In [None]:
df.groupby(["kontynent", "kraj"]).mean()

In [None]:
df.groupby(["kontynent"]).agg(lambda x: x.max() - x.min())

## Funkcje pivot_table i melt

In [None]:
data = [["Pomarańcze", "Północ", 12.30],
        ["Jabłka", "Południe", 10.55],
        ["Pomarańcze", "Południe", 22.00],
        ["Banany", "Południe", 5.90],
        ["Banany", "Północ", 31.30],
        ["Pomarańcze", "Północ", 13.10]]

sales = pd.DataFrame(data=data,
                     columns=["Owoce", "Region", "Przychód"])
sales

In [None]:
pivot = pd.pivot_table(sales,
                       index="Owoce", columns="Region",
                       values="Przychód", aggfunc="sum",
                       margins=True, margins_name="Ogółem")
pivot

In [None]:
pd.melt(pivot.iloc[:-1,:-1].reset_index(),
        id_vars="Owoce",
        value_vars=["Północ", "Południe"], value_name="Przychód")

# Tworzenie wykresów
## Matplotlib

In [None]:
import numpy as np
%matplotlib inline
# lub %matplotlib notebook

In [None]:
data = pd.DataFrame(data=np.random.rand(4, 4) * 100000,
                    index=["I kw.", "II kw.", "III kw.", "IV kw."],
                    columns=["Wschód", "Zachód", "Północ", "Południe"])
data.index.name = "Kwartały"
data.columns.name = "Region"
data

In [None]:
data.plot()  # Skrót od data.plot.line()

## Plotly

In [None]:
# Ustaw silnik tworzenia wykresów na Plotly
pd.options.plotting.backend = "plotly"

In [None]:
data.plot()

In [None]:
# Wyświetl te same dane jako wykres słupkowy
data.plot.bar(barmode="group")

# Import i eksport danych
## Eksport pliku CSV

In [None]:
df.to_csv("course_participants.csv")

## Import pliku CSV

In [None]:
msft = pd.read_csv("csv/MSFT.csv")

In [None]:
msft.info()

In [None]:
# Z powodu braku miejsca wybieram tylko kilka kolumn
# Możesz też po prostu uruchomić: msft.head()
msft.loc[:, ["Date", "Adj Close", "Volume"]].head()

In [None]:
msft.loc[:, ["Date", "Adj Close", "Volume"]].tail(2)

In [None]:
msft.loc[:, ["Adj Close", "Volume"]].describe()

In [None]:
# Adres URL został podzielony na wiersze, aby zmieścił się na stronie.
url = ("https://raw.githubusercontent.com/fzumstein/"
       "python-for-excel/1st-edition/csv/MSFT.csv")
msft = pd.read_csv(url)

In [None]:
msft.loc[:, ["Date", "Adj Close", "Volume"]].head(2)