# Pandas
## Podstawowe typy danych

In [None]:
import pandas as pd

### Series

Series, czyli szereg, jest typem danych, który można interpretować jako pojedyncza kolumna w tabeli - ma nazwę oraz listę wartości. Nazwa nie jest obowiązkowa.

Dokumentacja:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [None]:
my_list = [8, 2, -3, 0, 1]

pd.Series(my_list)

In [None]:
my_series = pd.Series(my_list)

type(my_series)

In [None]:
my_series.index

In [None]:
my_series.values

In [None]:
my_series.dtype

Indeksy szeregu można zmienić. Domyślnie są to liczby całkowite 0, 1, 2, ...

In [None]:
index_labels = ["a", "b", "c", "d", "e"]

pd.Series(my_list, index=index_labels)

In [None]:
pd.Series(my_list, index=index_labels).index

---
Series można utworzyć również z wektora numpy

In [None]:
import numpy as np 
array = np.array([5, 6, 7, 8, 9])
pd.Series(array)

Series może zawierać różne typy danych, również stringi

In [None]:
pd.Series(["a", "b", "c", "d", "e"])

### DataFrame

DataFrame to typ danych, który można utożsamić z tabelą. Każda jej kolumna to odrębny Series.

Dokumentacja:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html

Istnieje kilka sposobów na utworzenie data frame'a. Można zrobić to na przykład na bazie słownika. Listy, które stanowią wartości słownika to kolumny a nie wiersze.

In [None]:
my_dict = {"a": [12, 23, 34], "b": [45, 56, 67]}

my_df = pd.DataFrame(my_dict)
my_df

In [None]:
type(my_df)

Możemy również zdefiniować indeks df-a (analogicznie jak dla series)

In [None]:
my_df = pd.DataFrame(my_dict, index=[1, 2, 3])
my_df

In [None]:
my_df.index

In [None]:
my_df.values

---

Typ DataFrame jest najczęściej wykorzystywany do analizy danych tabelarycznych. Jeśli chcemy analizować takie dane to zwykle mamy je dostarczone, np. w pliku o rozszerzeniu .csv (comma separated values). Wykorzystajmy dołączony plik .csv żeby utworzyć DataFrame

In [None]:
df = pd.read_csv("data/cars.csv")   # więcej info w dokumentacji --> https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html

In [None]:
df.head()

In [None]:
df.head(7)

In [None]:
df.tail()

In [None]:
type(df)

###### Zadanie 1

(czas: 2 min.)

---

Utwórz listę liczb a następnie na jej podstawie utwórz szereg. Przypisz mu jako indeks liczby całkowite rozpoczynające się od 1.

In [None]:
# ...

###### Zadanie 2

(czas: 4 min.)

---

Utwórz słownik zawierający kilka kluczy typu `str`, pod którymi znajdą się listy wartości liczbowych. Na podstawie tego słownika utwórz data frame.

In [None]:
# ...

###### Zadanie 3:

(czas: 4 min.)

---

Wczytaj data frame z pliku `cars.csv` wybierając za pomocą parametru `usecols` jedynie kolumny `price`, `drive` oraz `gearbox_is_manual`. Sprawdź co się stanie jeśli zmienisz separator (parametr `sep`) na średnik.

Możesz skorzystać z dokumentacji funkcji `read_csv`.

In [None]:
# ...

## Badanie zawartości dataframe'a
Data frame'y zawierają zwykle duże ilości danych. Żeby lepiej zrozumieć, co kryje się wewnątrz, stosujemy pewne metody pozwalające podsumować zawarte tam informacje.

### Podstawowe informacje na temat dataframe'a

In [None]:
df.shape       # ile wierszy, ile kolumn

In [None]:
len(df)        # długość, czyli liczba wierszy

In [None]:
df.columns     # "lista" kolumn

In [None]:
df.index       # informacje o indeksie

In [None]:
df.dtypes      # dtypes czyli data types - typy danych poszczególnych kolumn

In [None]:
df.isna()      # brakujące wartości

In [None]:
df.isna().sum()

In [None]:
df.isna().sum().sum()

In [None]:
pd.isnull(132)

In [None]:
pd.isnull(np.nan)

In [None]:
pd.isnull(None)

In [None]:
pd.isnull("")

In [None]:
df.describe()      # dla kolumn numerycznych - statystyki opisowe: liczebność, średnia, odchylenie standardowe itp.

In [None]:
df.memory_usage()  # pamięć zajmowana przez poszczególne kolumny (w bajtach)

In [None]:
df.memory_usage().sum()

In [None]:
df.info()          # połączenie type(), .index, .isnull(), .dtypes oraz .memory_usage()

###### Zadanie 1

(czas: 5 min.)

---

Wykonaj powyżej przedstawione operacje na data framie utworzonym ręcznie w jednym z poprzednich zadań

In [None]:
# ...

### Wyciąganie kolumn, wierszy oraz pojedynczych wartości

***Wyciąganie pojedynczej kolumny***

In [None]:
df["mileage"]

In [None]:
type(df["mileage"])

In [None]:
df.mileage

***Wyciąganie kilku kolumn***

In [None]:
df[["body", "color", "title"]]

In [None]:
type(df[["body", "color", "title"]])

In [None]:
df[["color"]]

In [None]:
type(df[["color"]])

***Wyciąganie kolumn na podstawie ich typu***

In [None]:
df.select_dtypes(["float", "int"])

###### Zadanie 1

(czas: 2 min.)

---

Na podstawie wczytanego z pliku csv data frame'a utwórz mniejszy df zawierający jedynie kolumny `fuel`, `price`, `mileage` oraz `brand`

In [None]:
# ...

###### Zadanie 2

(czas: 1 min.)

---

Utwórz series zawierający dane, które znajdują się w kolumnie `offer_timestamp`

In [None]:
# ...

***Wyciąganie wierszy***

In [None]:
df.iloc[0]  # iloc - liczba porządkowa wiersza: wiersz zerowy, pierwszy, drugi itp.

In [None]:
df.iloc[4]

In [None]:
df.loc[4]  # loc - nazwa wiersza. W tym przypadku wiersze nazywają się tak samo ich numer porządkowy, 
           #        ale nie zawsze musi tak być. Zobacz poniższy przykład

In [None]:
small_df = pd.DataFrame({"a": [1, 2, 3], "b": [2, 3, 4]}, index=["one", "two", "three"])

In [None]:
small_df

In [None]:
small_df.iloc[1]

In [None]:
small_df.loc["two"]

In [None]:
small_df.loc[1]

***Pojedyncze wartości oraz ich przedziały***

In [None]:
df["prod_year"].iloc[3]

In [None]:
df["prod_year"].loc[5]

In [None]:
df["prod_year"][5]

In [None]:
df.iloc[3, 9]

In [None]:
df.loc[3, "prod_year"]

In [None]:
df['prod_year'].iloc[4:8]

In [None]:
df['prod_year'].loc[4:8]

In [None]:
df[['prod_year', 'gearbox_is_manual']].loc[4:8]

###### Zadanie 3

(czas: 4 min.)

---

Wyciągnij z df-a element, który:

a) jest w kolumnie `price` i w wierszu o indeksie 5

b) jest w kolumnie `body` i w wierszu 10 z kolei

c) wszystkie dane znajdujące się w wierszach o indeksach 6-11 włącznie i w kolumnach `title` i `offer_timestamp`

In [None]:
# ...

###### Zadanie 4

(czas: 2 min.)

---

Wyciągnij z df-a wszystkie kolumny zawierające dane tekstowe

In [None]:
# ...

### Wartości unikalne oraz zliczanie wystąpień

###### `unique` oraz `nunique`

In [None]:
df['fuel'].nunique()

In [None]:
df['fuel'].unique()

In [None]:
df.nunique()

In [None]:
df.unique()

###### `value_counts`

In [None]:
df['currency'].value_counts()

In [None]:
df['fuel'].value_counts()

In [None]:
df['fuel'].value_counts(normalize=True)

In [None]:
df['brand'].value_counts()

In [None]:
df.value_counts()

In [None]:
df[["currency", "drive"]].value_counts()

###### `crosstab`

In [None]:
pd.crosstab(df["currency"], df["fuel"])

In [None]:
pd.crosstab(df["body"], df["drive"], normalize=True)

###### Zadanie 1

(czas: 4 min.)

---

Stwórz listę kilku wybranych nazw kolumn. Następnie w pętli `for` przeiteruj po wszystkich tych kolumnach i wypisz ile unikalnych wartości jest w danej kolumnie

In [None]:
# ...

###### Zadanie 2

(czas: 3 min.)

---

Zrób to samo co w poprzednim zadaniu, ale zamiast wypisywać liczbę unikalnych wartości wypisz ich rozkład wraz z liczebnością poszczególnych elementów

In [None]:
# ...

###### Zadanie 3

(czas: 2 min.)

---

Znajdź wartość, która najczęściej pojawia się w kolumnie `body`

In [None]:
# ...

### Filtrowanie na podstawie warunków logicznych

In [None]:
df["prod_year"]

In [None]:
df["prod_year"]==2012

In [None]:
df[df["prod_year"]==2012]

In [None]:
df[df["prod_year"]==2012]["body"]

In [None]:
df[df["prod_year"]==2012]["body"].value_counts()  # przy okazji sprawdźmy rozkład wartości

In [None]:
df[df["prod_year"]==2019]["body"].value_counts()

In [None]:
df[df["prod_year"]==1999]["body"].value_counts()

---

In [None]:
df[df["prod_year"] < 2016]

In [None]:
df[df["prod_year"] < 2016][["body"]]  # warto zwrócić uwagę na podwójne nawiasy - wynik to dataframe o jednej kolumnie a nie series

---

In [None]:
df[(df["prod_year"] < 2016) & (df["price"] > 100000)]    # łącząc warunki logiczne używamy spójników & oraz |

###### Zadanie 1

(czas: 2 min.)

---

Wyciągnij informacje o ofertach w których skrzynia biegów jest manualna

In [None]:
# ...

###### Zadanie 2

(czas: 2 min.)

---

Znajdź samochody z silnikiem diesla których przebieg jest mniejszy niż 50000

In [None]:
# ...

###### Zadanie 3

(czas: 2 min.)

---

Znajdź samochody marki "Toyota" lub takie, które mają napęd na przód

In [None]:
# ...

### Rysowanie wykresów

In [None]:
df["engine_vol"].hist()

In [None]:
df["engine_vol"].hist(figsize=(14, 8), bins=20, edgecolor='black')

In [None]:
pd.DataFrame({"a": [1, 2, 3, 4], "b": [2, 4, 3, 6]})["b"].plot(title="Column b")

In [None]:
pd.DataFrame({"a": [1, 2, 3, 4], "b": [2, 4, 3, 6]}).plot(title="Column b", marker='o', kind='scatter', x='a', y='b')

## Modyfikacje i transformacje
### Zmiana istniejących wartości

#### nadpisanie

In [None]:
df.loc[0, "engine_vol"] = 123

In [None]:
df.head()

#### `replace`

In [None]:
df.replace("Diesel", "Olej napędowy")

In [None]:
df.head()

In [None]:
df.replace({"Diesel": "Olej napędowy"})

In [None]:
df.replace("Diesel", "Olej napędowy", inplace=True)

In [None]:
df.head()

In [None]:
df["drive"].replace("Przód", "Przedni", inplace=True)

In [None]:
df.head()

#### `rename`

In [None]:
df.rename({'brand': 'marka', 'currency': 'waluta'}, axis='columns')  # axis=1

In [None]:
df.rename({'brand': 'marka', 'currency': 'waluta'}, inplace=True, axis='columns')

In [None]:
df.head()

In [None]:
df.rename({0: -1, 1: 0}, axis='index')  # axis='rows', axis=0

#### `fillna`

In [None]:
df.isna().sum()

In [None]:
df[df["gearbox_is_manual"].isna()]

In [None]:
df["gearbox_is_manual"].value_counts(dropna=False)

In [None]:
df["gearbox_is_manual"].fillna("brak danych", inplace=True)

In [None]:
df["gearbox_is_manual"].value_counts(dropna=False)

#### `dropna`

In [None]:
df2 = pd.DataFrame({"a": [None, None, 4, None], "b": [None, 1, 2, None], "c": [5, 6, 3, None]})
df2

In [None]:
df2.dropna()

In [None]:
df2

In [None]:
df2.dropna(subset=["b", "c"])

In [None]:
df2.dropna(how='all')  # 'any'

In [None]:
df2

In [None]:
df2.dropna(inplace=True)

In [None]:
df2

#### `drop`

In [None]:
df.head()

In [None]:
df.drop(["prod_year"], axis=1)

In [None]:
"prod_year" in df.columns

In [None]:
df.drop(["prod_year"], axis=1, inplace=True)

In [None]:
"prod_year" in df.columns

In [None]:
df.drop([1, 2], axis=0)  # 'rows'

#### `drop_duplicates`

In [None]:
df_ = pd.DataFrame({"a": [1, 2, 2, 3], "b": ["a", "b", "b", "c"], "c": [1.324, 2.2, 2.2, 3.542]})
df_

In [None]:
df_.drop_duplicates()

In [None]:
df_.drop_duplicates(ignore_index=True)

In [None]:
df_.drop_duplicates(inplace=True)
df_

#### `astype`

In [None]:
df["gearbox_is_manual"]

In [None]:
df["gearbox_is_manual"].astype("bool")

In [None]:
df["gearbox_is_manual"]

###### Zadanie 1

(czas: 2 min.)

---

Zmień nazwę kolumny `power` na `horsepower`

In [None]:
# ...

###### Zadanie 2

(czas: 2 min.)

---

Zamień wartości "brak danych" w kolumnie `gearbox_is_manual` na "no data"

In [None]:
# ...

###### Zadanie 3

(czas: 3 min.)

---

Utwórz pętlę for po wszystkich kolumnach w df-ie. Jeśli nazwa kolumny ma więcej niż 7 znaków - usuń kolumnę na stałe.

In [None]:
# ...

###### Zadanie 4

(czas: 2 min.)

---

Zamień brakujące wartości w całym df-ie na tekst "b.d."

In [None]:
# ...

###### Zadanie 5

(czas: 1 min.)

---

Wczytaj od nowa wyjściowy data frame aby nie brakowało żadnych wartości, które zostały usunięte lub podmienione

In [None]:
# ...

### Sortowanie
#### `sort_values`

In [None]:
df.sort_values("prod_year")

In [None]:
df.sort_values("prod_year")[["prod_year", "price"]]

In [None]:
df.sort_values(["prod_year", "price"])[["prod_year", "price"]]

In [None]:
df.sort_values(["prod_year", "price"], ascending=False)[["prod_year", "price"]]

In [None]:
df.sort_values(["prod_year", "price"], ascending=[False, True])[["prod_year", "price"]]

In [None]:
df.sort_values(["prod_year", "price"], ignore_index=True)[["prod_year", "price"]]

In [None]:
df.sort_values("prod_year", inplace=True)
df.head()

In [None]:
df.reset_index(drop=True, inplace=True)
df.head()

#### `sort_index`

In [None]:
df_ = pd.DataFrame({"a": [1, 2, 3, 4]}, index=[1, 0, 3, 2])
df_

In [None]:
df_.sort_index()

###### Zadanie 1

(czas: 2 min.)

---

Posortuj malejąco wiersze według wartości w kolumnach `power` oraz `mileage`. Nadpisz dataframe.

In [None]:
# ...

###### Zadanie 2

(czas: 1 min.)

---

Posortuj dataframe według rosnącego indeksu. Nadpisz go.

In [None]:
# ...

### Tworzenie nowych kolumn

In [None]:
df = pd.read_csv("data/cars.csv")

In [None]:
from datetime import datetime

current_year = datetime.now().year

In [None]:
df["age"] = current_year - df["prod_year"]

In [None]:
df.head()

In [None]:
df['km_per_year'] = df['mileage'] / df['age']
df.head()

In [None]:
df["new_column"] = pd.Series()
df["new_column_zeros"] = pd.Series([0]*len(df))

In [None]:
df.head()

***Dodawanie kolumny na konkretnej pozycji***

In [None]:
df.head()

In [None]:
df.insert(3, "price_twice", 2*df["price"])

In [None]:
df.head()

###### Zadanie 1

(czas: 3 min.)

---

Utwórz kolumnę `brand_and_body`, która będzie zawierać informacje o marce oraz typie nadwozia jednocześnie

In [None]:
# ...

### Operacje na całych kolumnach

In [None]:
df["power"].mean()

In [None]:
np.sqrt(df["price"])

In [None]:
np.exp(df["age"])

***`apply`***

Do wywoływania bardziej złożonych funkcji na wszystkich elementach kolumny służy metoda `apply`, którą często łączymy z wyrażeniami `lambda`  

In [None]:
df["prod_year"]

In [None]:
df["prod_year"].apply(np.sqrt)

In [None]:
def check_if_is_new(x):
    if datetime.now().year == x:
        return True
    else:
        return False

In [None]:
df["prod_year"].apply(check_if_is_new)   #.value_counts()

---

In [None]:
df['is_new'] = df['prod_year'].apply(lambda x: datetime.now().year == x)

df[["is_new", "prod_year"]].head(15)

***`apply` na całym df-ie***

In [None]:
def check_if_is_new_advanced(row):
    return int(row["offer_timestamp"][:4]) == row["prod_year"]

In [None]:
df.apply(check_if_is_new_advanced, axis=1)

In [None]:
df.apply(check_if_is_new_advanced, axis=1).value_counts()

***`apply` + funkcja z argumentami***

In [None]:
pd.Series([1.14242, 4.6254, 2, 2.54343])  #.apply(round, args=(2,))

###### Zadanie 1

(czas: 3 min.)

---

Za pomocą `apply` utwórz kolumnę `brand_short`, która będzie przechowywać pierwszą literę wartości z kolumny `brand` 

In [None]:
# ...

###### Zadanie 2

(czas: 3 min.)

---

Za pomocą `apply` utwórz kolumnę `power_twice`, która będzie zawierać przemnożoną przez 2 moc pojazdu

In [None]:
# ...

###### Zadanie 3

(czas: 6 min.)

---

Utwórz kolumnę `prod_year_after_2010` która będzie zawierać `True` jeśli data produkcji jest późniejsza niż 2010 albo `False` w przeciwnym wypadku. Niech ta kolumna będzie na pozycji o indeksie 1

In [None]:
# ...

## Pozostałe operacje na dataframe'ach
### Grupowanie i agregacja

In [None]:
df = pd.read_csv("data/cars.csv")

In [None]:
df.groupby("fuel")

In [None]:
df.groupby("fuel").count()

In [None]:
df.groupby("fuel").mean(numeric_only=True)

In [None]:
df.groupby(["fuel", "drive"]).mean(numeric_only=True)

In [None]:
df.groupby("fuel").agg('mean', numeric_only=True)

### Łączenie tabel

In [None]:
s1 = pd.Series(['a', 'b'])
s2 = pd.Series(['c', 'd'])

In [None]:
s1

In [None]:
s2

In [None]:
pd.concat([s1, s2])

In [None]:
pd.concat([s1, s2], ignore_index=True)

---

In [None]:
df1 = pd.DataFrame([['a', 1], ['b', 2]], columns=['letter', 'number'])
df2 = pd.DataFrame([['c', 3], ['d', 4]], columns=['letter', 'number'])

In [None]:
df1

In [None]:
df2

In [None]:
pd.concat([df1, df2])

In [None]:
pd.concat([df1, df2], axis=1)

In [None]:
pd.concat([df1, df2], axis=0)

In [None]:
pd.concat([df1, df2], ignore_index=True)

### Wczytywanie dużych zbiorów danych

In [None]:
for chunk in pd.read_csv("data/cars.csv", chunksize=10000):
    print(chunk.shape)

In [None]:
chunk

### Typ datetime

In [None]:
df["offer_timestamp"]

In [None]:
offer_timestamp = pd.to_datetime(df["offer_timestamp"])

In [None]:
offer_timestamp

In [None]:
offer_timestamp.iloc[0]

In [None]:
print(offer_timestamp.iloc[0].year)
print(offer_timestamp.iloc[0].month)
print(offer_timestamp.iloc[0].day)
print(offer_timestamp.iloc[0].hour)
print(offer_timestamp.iloc[0].minute)
print(offer_timestamp.iloc[0].second)
print(offer_timestamp.iloc[0].weekday())  # 0 - monday, 6 - sunday