# Pandas

In [24]:
import pandas as pd
import numpy as np

pd.__version__

'2.2.3'

Pandas opiera się na dwóch głównych strukturach:

* **Series:** Jednowymiarowa tablica z etykietami. Można ją traktować jako kolumnę w arkuszu kalkulacyjnym.
* **DataFrame:** Dwuwymiarowa tablica z etykietami wierszy i kolumn. Przypomina tabelę w bazie danych lub arkusz kalkulacyjny.



In [22]:
# Tworzenie obiektu Series
s = pd.Series(data=[3, 2, 4, 6, 5])
s_index = pd.Series(
    data=[3, 2, 4, 6, 5], index=["a", "b", "c", "d", "e"], name="sample"
)
s
s_index

# Do elementów Series możemy odwoływać się za pomocą indeksów:
print(s_index["c"])  # Wynik: 5

4


## Uzupełnienie braków w danych


In [14]:
s = pd.Series(
    data=[3, 2, np.nan, 6, 5], index=["a", "b", "c", "d", "e"], name="sample"
)  # np.nan - pusty obiekt, wartość NaN
s

a    3.0
b    2.0
c    NaN
d    6.0
e    5.0
Name: sample, dtype: float64

## Wartoś NaN 

- `NaN` (Not a Number) to specjalna wartość zmiennoprzecinkowa w NumPy, która reprezentuje niezdefiniowany lub niereprezentowalny wynik. Na przykład, 0/0 lub pierwiastek kwadratowy z liczby ujemnej.

- `NaN` jest często używany do reprezentowania brakujących danych w zbiorach danych.

### Funkcje do obsługi NaN
- `np.nan_to_num(x)`: Zastępuje NaN wartością 0.
- `np.nanmean()`: Oblicza średnią, ignorując NaN.

In [32]:
import numpy as np

# Użyj np.nan
x = np.nan

# Użyj np.array() z dtype=float
y = np.array([1, 2, np.nan], dtype=float)

# Użyj np.isnan()
np.isnan(x)  # True


# Utwórz macierz z NaN
macierz = np.array([[1, 2, np.nan], [4, np.nan, 6], [np.nan, 8, 9]])

# Sprawdź, które elementy są NaN
nan_indeksy = np.isnan(macierz)
print(nan_indeksy)
# [[False False  True]
#  [False  True False]
#  [ True False False]]

# Zastąp NaN wartością 0
macierz_bez_nan = np.nan_to_num(macierz)
print(macierz_bez_nan)
# [[1. 2. 0.]
#  [4. 0. 6.]
#  [0. 8. 9.]]

[[False False  True]
 [False  True False]
 [ True False False]]
[[1. 2. 0.]
 [4. 0. 6.]
 [0. 8. 9.]]


In [30]:
# Tworzenie obiektu Series z Data jako indeks

data_indeks = pd.Series(
    data=np.arange(10), index=pd.date_range("2024-10-14", periods=10)
)

data_indeks

2024-10-14    0
2024-10-15    1
2024-10-16    2
2024-10-17    3
2024-10-18    4
2024-10-19    5
2024-10-20    6
2024-10-21    7
2024-10-22    8
2024-10-23    9
Freq: D, dtype: int64

In [38]:
# Tworzenie obiektu series zawierającego dane tekstowe

s_text = pd.Series(data=["python", "java", "sql"], name="language")


print(s_text)
print(s_index.index)
print(s_index.values)

0    python
1      java
2       sql
Name: language, dtype: object
Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
[3 2 4 6 5]


In [53]:
price = pd.Series(data={"apple": 200, "CD Projekt": 60, "Google": 400, "amazon": 400})
price

print(price["apple"])
# print(price[0])

# Zlicz elementy
print(price.count())

# Zlicza ile razy występuje ta sama wartosc

price.value_counts()

print(price.describe())

200
4
count      4.000000
mean     265.000000
std      166.032125
min       60.000000
25%      165.000000
50%      300.000000
75%      400.000000
max      400.000000
dtype: float64


Oto najważniejsze atrybuty obiektu `Series` w bibliotece pandas:

* **`values`**: Zwraca tablicę NumPy zawierającą wartości `Series`.
* **`index`**: Zwraca etykiety indeksu `Series`.
* **`dtype`**: Zwraca typ danych elementów `Series`.
* **`size`**: Zwraca liczbę elementów `Series`.
* **`name`**: Zwraca nazwę `Series` (jeśli jest ustawiona).
* **`shape`**: Zwraca kształt `Series` (w tym przypadku zawsze będzie to (n,), gdzie n to liczba elementów).
* **`nbytes`**: Zwraca rozmiar `Series` w bajtach.
* **`ndim`**: Zwraca liczbę wymiarów `Series` (w tym przypadku zawsze będzie to 1).

Te atrybuty dostarczają podstawowych informacji o obiekcie `Series` i są często używane do eksploracji i analizy danych.

## Najważniejsze metody Data Series

Obiekty `Data Series` w bibliotece pandas oferują wiele metod do manipulacji i analizy danych. Oto niektóre z najważniejszych:

*   `.head()`: Zwraca pierwsze n wierszy `Series` (domyślnie 5).
*   `.tail()`: Zwraca ostatnie n wierszy `Series` (domyślnie 5).
*   `.describe()`: Zwraca podstawowe statystyki opisowe `Series`, takie jak średnia, odchylenie standardowe, minimum, maksimum itp.
*   `.value_counts()`: Zwraca liczbę wystąpień każdej unikalnej wartości w `Series`.
*   `.sort_values()`: Sortuje `Series` według wartości.
*   `.sort_index()`: Sortuje `Series` według indeksu.
*   `.fillna()`: Wypełnia brakujące wartości w `Series`.
*   `.dropna()`: Usuwa brakujące wartości z `Series`.
*   `.apply()`: Stosuje funkcję do każdego elementu `Series`.
*   `.map()`: Ma zastosowanie do każdego elementu `Series` funkcji lub słownika mapującego.
*   `.astype()`: Konwertuje typ danych `Series`.
*   `.isin()`: Sprawdza, czy elementy `Series` znajdują się w podanej liście wartości.
*   `.between()`: Sprawdza, czy elementy `Series` znajdują się w podanym przedziale.
*   `.unique()`: Zwraca unikalne wartości `Series`.
*   `.nunique()`: Zwraca liczbę unikalnych wartości `Series`.
*   `.idxmax()`: Zwraca indeks elementu o maksymalnej wartości.
*   `.idxmin()`: Zwraca indeks elementu o minimalnej wartości.
*   `.sum()`: Zwraca sumę elementów `Series`.
*   `.mean()`: Zwraca średnią arytmetyczną elementów `Series`.
*   `.median()`: Zwraca medianę elementów `Series`.
*   `.std()`: Zwraca odchylenie standardowe elementów `Series`.
*   `.var()`: Zwraca wariancję elementów `Series`.
*   `.quantile()`: Zwraca kwantyl o podanym poziomie.
*   `.count()`: Zwraca liczbę niepustych elementów `Series`.
*   `.to_csv()`: Zapisuje `Series` do pliku CSV.
*   `.to_excel()`: Zapisuje `Series` do pliku Excel.

## Przykład

```python
import pandas as pd

# Utwórz Series
s = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])

# Wyświetl pierwsze 3 elementy
print(s.head(3))

# Wyświetl podstawowe statystyki
print(s.describe())

# Zastosuj funkcję lambda do każdego elementu
print(s.apply(lambda x: x * 2))
```

## W obiekcie DataSeries index może się powtarzać !


Metoda `squeeze()` służy do konwersji DataFrame z jedną kolumną do Series. Jest to bardziej "pandasowy" sposób na osiągnięcie tego samego rezultatu. 

```python
import pandas as pd

# Wczytaj dane z pliku CSV
s = pd.read_csv('dane.csv', header=None, index_col=0).squeeze()

# Wyświetl Series
print(s)
```

Metody i właściwości Data Series do pobierania wartości
Pandas Series oferuje różnorodne metody i właściwości, które pozwalają na pobieranie wartości. Oto omówienie niektórych z nich:

Metody
- iloc[]: Pobieranie wartości za pomocą indeksów liczbowych.
- loc[]: Pobieranie wartości za pomocą etykiet.
- at[]: Pobieranie pojedynczej wartości za pomocą etykiety.
- iat[]: Pobieranie pojedynczej wartości za pomocą indeksu liczbowego.
- get(): Pobieranie wartości za pomocą etykiety z domyślną wartością, jeśli etykieta nie istnieje.

Właściwości
- .values: Pobiera wszystkie wartości serii jako tablicę NumPy.
- .index: Pobiera indeksy serii.
- .size: Pobiera rozmiar serii.
- .empty: Sprawdza, czy seria jest pusta.

## Różnice między metodami i właściwościami w Data Series

### iloc[] vs. loc[]: (preferowane)

- iloc[]: Używa liczbowych indeksów pozycyjnych. Używany do dostępu przez pozycję indeksu.
- loc[]: Używa etykiet indeksów (kluczy). Używany do dostępu przez nazwane etykiety indeksów.

### at[] vs. iat[]:

- at[]: Służy do pobierania pojedynczej wartości za pomocą etykiety indeksu. Jest szybszy niż loc[] dla pojedynczych elementów.
- iat[]: Służy do pobierania pojedynczej wartości za pomocą liczbowego indeksu pozycyjnego. Jest szybszy niż iloc[] dla pojedynczych elementów.

### get():

- get(): Pobiera wartość na podstawie etykiety indeksu z opcjonalną wartością domyślną, jeśli etykieta nie istnieje. Przydatny, gdy nie jesteśmy pewni, czy etykieta istnieje.

### .values vs. .index vs. .size vs. .empty:

- .values: Zwraca wszystkie wartości serii jako tablicę NumPy.
- .index: Zwraca indeksy serii.
- .size: Zwraca liczbę elementów w serii.
- .empty: Sprawdza, czy seria jest pusta i zwraca True lub False.

## Najlepsze praktyki
Wybór odpowiedniej metody:

- Używaj iloc[], gdy znasz pozycję indeksu, a loc[], gdy pracujesz z etykietami.
- Używaj at[] i iat[], gdy potrzebujesz szybkiego dostępu do pojedynczej wartości.

### Bezpieczne pobieranie wartości:

    Używaj get(), gdy nie jesteś pewien, czy dana etykieta istnieje. Dzięki temu unikniesz błędów KeyError.

```python
import pandas as pd

# Przykładowe dane
series = pd.Series([1, 2, 3], index=['a', 'b', 'c'])

# Użycie metody get() z wartością domyślną
value = series.get('d', default='Wartość domyślna')

print(value)  # Powinno zwrócić 'Wartość domyślna'

```

- Manipulacja wartościami:

    Używaj .values do przekształcania serii na tablicę NumPy, gdy planujesz przeprowadzać operacje numeryczne na dużych zbiorach danych.

- Sprawdzanie właściwości serii:

    Regularnie korzystaj z .index, .size i .empty, aby zrozumieć strukturę i stan swojej serii.

- Unikanie błędów:

    Sprawdź, czy indeksy lub etykiety istnieją przed dostępem do wartości, aby uniknąć wyjątków IndexError i KeyError.

## Przykład użycia loc i reindex w pandas, gdy jeden z szukanych indeksów nie istnieje

Gdy próbujesz uzyskać wartości za pomocą loc, a szukany indeks nie istnieje, pandas zgłosi błąd KeyError.

```python
import pandas as pd

# Przykładowe dane
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data, index=['x', 'y', 'z'])

# Próbuj uzyskać wartości dla istniejących i nieistniejących indeksów za pomocą loc
try:
    result_loc = df.loc[['x', 'y', 'w']]
except KeyError as e:
    print("KeyError:", e)

```

W powyższym przykładzie loc zgłosi KeyError, ponieważ indeks 'w' nie istnieje w DataFrame.

- Użycie reindex
Gdy używasz reindex i jeden z nowych indeksów nie istnieje w oryginalnym obiekcie, pandas doda ten indeks z wartością NaN.

```python
import pandas as pd

# Przykładowe dane
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data, index=['x', 'y', 'z'])

# Reindeksowanie z brakującymi indeksami
new_index = ['x', 'y', 'w']
df_reindexed = df.reindex(new_index)

print(df_reindexed)

```
Wynik:

```text
     A    B
x  1.0  4.0
y  2.0  5.0
w  NaN  NaN

```

W powyższym przykładzie reindex dodał nowy indeks 'w' z wartościami NaN, ponieważ ten indeks nie istniał w oryginalnym DataFrame.

Podsumowanie
`loc`: Podnosi KeyError, gdy próbujesz uzyskać wartości dla nieistniejących indeksów. `reindex`: Dodaje brakujące indeksy z wartościami NaN.

In [None]:
# Intersection

# Wyszuka tylko dane występujące razem w obu zboiorach i pominie te których brak bez wyświetlenia błędu

# Idxmin, Idxmax - numery indeksów na których występują minimnalne i maksymalne wartosci


## Metoda map

Metoda `map` w Pandas Series pozwala na mapowanie wartości z jednej serii na wartości z innej serii. W tym przypadku, seria A dostarcza indeks, a seria B dostarcza wartości. 

**Przykład:**

```python
import pandas as pd

# Seria A (indeks)
seria_a = pd.Series(['jabłko', 'banan', 'gruszka'], index=[1, 2, 3])

# Seria B (wartości)
seria_b = pd.Series([10, 20, 30], index=['jabłko', 'banan', 'gruszka'])

# Połączenie serii A i B za pomocą metody map
wynik = seria_a.map(seria_b)

# Wyświetlenie wyniku
print(wynik)
```

**Wynik:**

```
1    10
2    20
3    30
dtype: int64
```

W tym przykładzie, `seria_a` zawiera indeksy (1, 2, 3) i odpowiadające im etykiety ('jabłko', 'banan', 'gruszka'). `seria_b` zawiera etykiety jako indeks i wartości (10, 20, 30). Metoda `map` zastosowana do `seria_a` z argumentem `seria_b` tworzy nową serię, w której indeksem są indeksy z `seria_a`, a wartościami są wartości z `seria_b` odpowiadające etykietom z `seria_a`.

Metoda `map` jest bardzo przydatna do łączenia danych z różnych źródeł, gdy mamy wspólną kolumnę lub indeks.

## DataFrame 

DataFrame to dwuwymiarowa struktura danych,  która przypomina tabelę w bazie danych lub arkusz kalkulacyjny. Składa się z wierszy i kolumn, gdzie każda kolumna może mieć inny typ danych (liczby, tekst, daty itp.). DataFrame posiada etykiety wierszy (indeks) i etykiety kolumn.

### Tworzenie DataFrame
DataFrame można utworzyć na wiele sposobów, np. z:

- słownika list lub tablic
- listy słowników
- pliku CSV
- tabeli bazy danych

In [56]:
df = pd.DataFrame(
    data={"Cena": [10, 20, 30], "Ilość": [2, 3, 4]}, index=["a", "b", "c"]
)
df

# Utwórz DataFrame ze słownika list
df = pd.DataFrame(
    {
        "Imię": ["Jan", "Anna", "Piotr", "Maria"],
        "Wiek": [25, 30, 28, 22],
        "Miasto": ["Warszawa", "Kraków", "Poznań", "Gdańsk"],
    }
)

df

Unnamed: 0,Imię,Wiek,Miasto
0,Jan,25,Warszawa
1,Anna,30,Kraków
2,Piotr,28,Poznań
3,Maria,22,Gdańsk


### Dostęp do Danych

Do danych w DataFrame można odwoływać się na wiele sposobów:

*   za pomocą etykiet kolumn (`df['Imię']`)
*   za pomocą atrybutów (`df.Imię`)
*   za pomocą indeksowania (`df.iloc[0, 1]`)
*   za pomocą indeksowania logicznego (`df[df['Wiek'] > 25]`)

### Atrybuty i Metody

DataFrame posiada wiele atrybutów i metod, które ułatwiają pracę z danymi:

*   `shape`: Zwraca wymiary DataFrame (liczba wierszy, liczba kolumn).
*   `columns`: Zwraca etykiety kolumn.
*   `index`: Zwraca etykiety wierszy.
*   `head()`: Wyświetla pierwsze n wierszy.
*   `tail()`: Wyświetla ostatnie n wierszy.
*   `describe()`: Wyświetla podstawowe statystyki opisowe.
*   `info()`: Wyświetla informacje o DataFrame (typy danych, brakujące wartości).
*   `sort_values()`: Sortuje DataFrame według wartości w kolumnie.
*   `groupby()`: Grupuje dane według wartości w kolumnie.

### Ściąga na Egzamin

*   **DataFrame:** Dwuwymiarowa tabela z etykietami wierszy i kolumn.
*   **Tworzenie:** `pd.DataFrame(dane)`
*   **Dostęp do danych:** `df['kolumna']`, `df.kolumna`, `df.iloc[]`, `df.loc[]`
*   **Atrybuty:** `shape`, `columns`, `index`
*   **Metody:** `head()`, `tail()`, `describe()`, `info()`, `sort_values()`, `groupby()`


In [None]:
### Zadania

# 1. Utwórz DataFrame z danymi o studentach (imię, nazwisko, wiek, kierunek).
# 2. Wyświetl tylko dane studentów, którzy mają więcej niż 22 lata.
# 3. Posortuj DataFrame według wieku studentów.

In [None]:
### Odpowiedzi do Zadań


import pandas as pd

# Zadanie 1
dane_studentow = {
    "Imię": ["Jan", "Anna", "Piotr", "Maria"],
    "Nazwisko": ["Kowalski", "Nowak", "Wiśniewski", "Kamińska"],
    "Wiek": [25, 30, 28, 22],
    "Kierunek": ["Informatyka", "Matematyka", "Fizyka", "Biologia"],
}
df_studenci = pd.DataFrame(dane_studentow)

# Zadanie 2
starsi_studenci = df_studenci[df_studenci["Wiek"] > 22]
print("Starsi studenci:\n", starsi_studenci, "\n")

# Zadanie 3
posortowani_studenci = df_studenci.sort_values("Wiek")
print("Posortowani studenci:\n", posortowani_studenci)

## Funkcja apply()

Funkcja `apply()` w bibliotece pandas służy do stosowania funkcji do każdego wiersza lub kolumny DataFrame'u. Jest to bardzo elastyczne narzędzie, które pozwala na wykonywanie różnego rodzaju operacji na danych.

### Składnia

```python
df.apply(func, axis=0, raw=False, result_type=None, args=(), **kwargs)
```

* `func`: Funkcja do zastosowania.
* `axis`: Oś, wzdłuż której ma być zastosowana funkcja (0 dla kolumn, 1 dla wierszy).
* `raw`: Jeśli True, przekazuje funkcjom tablice NumPy zamiast obiektów Series.
* `result_type`: Określa typ zwracanego obiektu ('expand', 'reduce', 'broadcast').
* `args`: Dodatkowe argumenty pozycyjne dla funkcji.
* `kwargs`: Dodatkowe argumenty nazwane dla funkcji.

### Przykłady

```python
import pandas as pd

# Utwórz DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]})

# Zastosuj funkcję lambda do każdej kolumny
df_apply_kolumny = df.apply(lambda x: x * 2, axis=0)
print(df_apply_kolumny)
#     A   B   C
# 0  2   8  14
# 1  4  10  16
# 2  6  12  18

# Zastosuj funkcję lambda do każdego wiersza
df_apply_wiersze = df.apply(lambda x: x * 2, axis=1)
print(df_apply_wiersze)
#     A   B   C
# 0  2   8  14
# 1  4  10  16
# 2  6  12  18

# Zastosuj funkcję zdefiniowaną przez użytkownika do każdej kolumny
def dodaj_10(x):
  return x + 10

df_apply_dodaj_10 = df.apply(dodaj_10, axis=0)
print(df_apply_dodaj_10)
#     A   B   C
# 0  11  14  17
# 1  12  15  18
# 2  13  16  19
```

### Ściąga

* `apply()` stosuje funkcję do wierszy lub kolumn DataFrame'u.
* `axis=0`: kolumny, `axis=1`: wiersze.
* Można używać funkcji lambda i funkcji zdefiniowanych przez użytkownika.



In [None]:
### Zadania

# 1. Utwórz DataFrame z kolumnami 'Cena' i 'Ilość'.
# 2. Użyj `apply()` do obliczenia wartości kolumny 'Wartość' jako iloczyn 'Cena' * 'Ilość'.
# 3. **(Zadanie trudniejsze)** Napisz funkcję, która normalizuje wartości w kolumnie do przedziału 0-1 i zastosuj ją do DataFrame'u.

In [None]:
### Odpowiedzi do Zadań

import pandas as pd

# Zadanie 1
df = pd.DataFrame({"Cena": [10, 20, 30], "Ilość": [2, 3, 4]})

# Zadanie 2
df["Wartość"] = df.apply(lambda row: row["Cena"] * row["Ilość"], axis=1)
print(df, "\n")


# Zadanie 3 (trudniejsze)
def normalizuj(x):
    """Normalizuje wartości w Series do przedziału 0-1."""
    min_val = x.min()
    max_val = x.max()
    return (x - min_val) / (max_val - min_val)


df_norm = df.apply(normalizuj, axis=0)
print(df_norm)

## Dostęp do danych

```python
import pandas as pd

# Utwórz DataFrame
df = pd.DataFrame({'Imię': ['Jan', 'Anna', 'Piotr', 'Maria'],
                   'Wiek': [25, 30, 28, 22],
                   'Miasto': ['Warszawa', 'Kraków', 'Poznań', 'Gdańsk']})

# Wyświetl DataFrame
print("DataFrame:\n", df, "\n")

# Wybierz kolumnę "Wiek"
kolumna_wiek = df["Wiek"]

# Wybierz pierwszy wiersz
wiersz_0 = df.iloc[0]

# Wybierz element z drugiego wiersza i trzeciej kolumny
element_1_2 = df.iloc[1, 2]

# Wybierz wszystkie wiersze, w których wiek jest większy niż 25
df_wiek_25 = df[df['Wiek'] > 25]

# Wybierz kolumny 'Imię' i 'Miasto' dla pierwszych dwóch wierszy
df_imie_miasto = df.loc[:1, ['Imię', 'Miasto']]

# Wyświetl wyniki
print("Kolumna 'Wiek':\n", kolumna_wiek, "\n")
print("Pierwszy wiersz:\n", wiersz_0, "\n")
print("Element z drugiego wiersza i trzeciej kolumny:", element_1_2, "\n")
print("Wiersze, w których wiek jest większy niż 25:\n", df_wiek_25, "\n")
print("Kolumny 'Imię' i 'Miasto' dla pierwszych dwóch wierszy:\n", df_imie_miasto, "\n")

# Wyświetl typy
print("Typ kolumna_wiek:", type(kolumna_wiek))
print("Typ wiersz_0:", type(wiersz_0))
print("Typ element_1_2:", type(element_1_2))
print("Typ df_wiek_25:", type(df_wiek_25))
print("Typ df_imie_miasto:", type(df_imie_miasto))
```

```text

DataFrame:
     Imię  Wiek    Miasto
0    Jan    25  Warszawa
1   Anna    30    Kraków
2  Piotr    28    Poznań
3  Maria    22    Gdańsk 

Kolumna 'Wiek':
 0    25
1    30
2    28
3    22
Name: Wiek, dtype: int64 

Pierwszy wiersz:
Imię           Jan
Wiek            25
Miasto    Warszawa
Name: 0, dtype: object 

Element z drugiego wiersza i trzeciej kolumny: Kraków 

Wiersze, w których wiek jest większy niż 25:
     Imię  Wiek  Miasto
1   Anna    30  Kraków
2  Piotr    28  Poznań 

Kolumny 'Imię' i 'Miasto' dla pierwszych dwóch wierszy:
    Imię    Miasto
0   Jan  Warszawa
1  Anna    Kraków 

Typ kolumna_wiek: <class 'pandas.core.series.Series'>
Typ wiersz_0: <class 'pandas.core.series.Series'>
Typ element_1_2: <class 'str'>
Typ df_wiek_25: <class 'pandas.core.frame.DataFrame'>
Typ df_imie_miasto: <class 'pandas.core.frame.DataFrame'>

```

W DataFrame można uzyskać dostęp do danych i wycinać ich fragmenty na wiele sposobów:

**Wybieranie kolumn:**

*   Za pomocą nazwy kolumny: `df['nazwa_kolumny']`
*   Za pomocą atrybutu: `df.nazwa_kolumny` (jeśli nazwa kolumny jest prawidłowym identyfikatorem Pythona)

**Wybieranie wierszy:**

*   Za pomocą `iloc`: `df.iloc[indeks_wiersza]` - wybiera wiersz o podanym indeksie liczbowym
*   Za pomocą `loc`: `df.loc[etykieta_wiersza]` - wybiera wiersz o podanej etykiecie

**Wybieranie pojedynczych elementów:**

*   Za pomocą `iloc`: `df.iloc[indeks_wiersza, indeks_kolumny]`

**Wybieranie fragmentów DataFrame:**

*   Za pomocą indeksowania logicznego: `df[warunek]` - wybiera wiersze spełniające warunek
*   Za pomocą `loc`: `df.loc[etykiety_wierszy, etykiety_kolumn]` - wybiera wiersze i kolumny o podanych etykietach
*   Za pomocą `iloc`: `df.iloc[indeksy_wierszy, indeksy_kolumn]` - wybiera wiersze i kolumny o podanych indeksach liczbowych

**Typy zwracanych obiektów:**

*   Wybieranie pojedynczej kolumny zwraca obiekt `Series`.
*   Wybieranie pojedynczego wiersza zwraca obiekt `Series`.
*   Wybieranie pojedynczego elementu zwraca wartość elementu (np. liczbę, ciąg znaków).
*   Wybieranie fragmentu DataFrame zwraca obiekt `DataFrame`.

Pamiętaj, że indeksowanie w Pythonie zaczyna się od 0.


## Metoda dropna() w pandas

Metoda dropna() w pandas jest używana do usuwania wierszy lub kolumn, które zawierają wartości NaN. Jest to bardzo przydatne, gdy masz dane z brakującymi wartościami i chcesz pracować tylko z kompletnymi wierszami lub kolumnami.

```python
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
```

- Parametry:
    - axis: Oznacza, wzdłuż której osi operacja będzie wykonywana. 0 lub 'index' dla wierszy, 1 lub 'columns' dla kolumn.
    - how: Oznacza kryterium usuwania. 'any' (domyślne) usuwa wiersz/kolumnę, jeśli jakakolwiek wartość jest NaN. 'all' usuwa wiersz/kolumnę, jeśli wszystkie wartości są NaN.
    - thresh: Minimalna liczba brakujących wartości, aby wiersz/kolumna zostały zachowane. Na przykład, thresh=2 oznacza, że wiersz/kolumna muszą mieć co najmniej 2 wartości niebędące NaN, aby zostały zachowane.
    - subset: Lista etykiet ograniczająca sprawdzanie NaN do określonych kolumn lub wierszy.
    - inplace: Jeśli True, modyfikacje są wprowadzane bezpośrednio do oryginalnego DataFrame. Jeśli False (domyślnie), zwraca zmodyfikowany DataFrame.

1. Usuwanie wierszy z jakąkolwiek wartością NaN:

```python
import pandas as pd

# Przykładowe dane
data = {"A": [1, 2, None], "B": [4, None, 6], "C": [7, 8, 9]}
df = pd.DataFrame(data)

# Usunięcie wierszy z jakąkolwiek wartością NaN
df_cleaned = df.dropna()

print(df_cleaned)
```

2. Usuwanie kolumn z jakąkolwiek wartością NaN:

```python
# Usunięcie kolumn z jakąkolwiek wartością NaN
df_cleaned = df.dropna(axis=1)

print(df_cleaned)

```

3. Usuwanie wierszy, jeśli wszystkie wartości są NaN:

```python
# Przykładowe dane z wierszem pełnym NaN
data = {'A': [None, 2, None], 'B': [None, None, None], 'C': [None, 8, 9]}
df = pd.DataFrame(data)

# Usunięcie wierszy, jeśli wszystkie wartości są NaN
df_cleaned = df.dropna(how='all')

print(df_cleaned)

```

Podsumowanie:
Metoda dropna() jest wszechstronnym narzędziem do czyszczenia danych w pandas. Umożliwia usuwanie wierszy lub kolumn zawierających brakujące wartości (NaN) według różnych kryteriów, co pozwala na lepszą organizację i analizę danych.

## Metoda fillna()

Metoda fillna() w pandas pozwala na zastępowanie wartości NaN innymi wartościami, a za pomocą słownika możesz określić różne wartości zastępcze dla różnych kolumn. Jest to bardzo elastyczne rozwiązanie, które ułatwia czyszczenie danych w DataFrame, gdzie każda kolumna może wymagać innego podejścia.

### Zmiana pojedynczej kolumny


```python
import pandas as pd

# Przykładowe dane
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Salary': [50000, None, 55000, None],
    'Age': [30, 25, 32, 28]
}
df = pd.DataFrame(data)

print("Oryginalny DataFrame:")
print(df)

# Zastąpienie NaN w kolumnie 'Salary' wartością 0
df['Salary'] = df['Salary'].fillna(0)

print("\nDataFrame po zastąpieniu NaN w kolumnie 'Salary':")
print(df)

```

### Zmiany w wielu kolumnach


1. Przykład zastosowania fillna() z użyciem słownika:
Importowanie bibliotek i tworzenie przykładowych danych:

```python
import pandas as pd

# Przykładowe dane
data = {
    'A': [1, None, 3, None],
    'B': [None, 2, None, 4],
    'C': [5, None, 7, None]
}
df = pd.DataFrame(data)

print("Oryginalny DataFrame:")
print(df)

```

2. Zastosowanie fillna() z użyciem słownika:


```python
# Słownik z wartościami zastępczymi dla każdej kolumny
values_to_fill = {
    'A': 0,    # Zastępujemy NaN w kolumnie 'A' zerem
    'B': 1,    # Zastępujemy NaN w kolumnie 'B' jedynką
    'C': 99    # Zastępujemy NaN w kolumnie 'C' wartością 99
}

# Wypełnianie NaN wartościami ze słownika
df_filled = df.fillna(values_to_fill)

print("\nDataFrame po zastąpieniu NaN wartościami ze słownika:")
print(df_filled)

```

```text
Oryginalny DataFrame:
     A    B    C
0  1.0  NaN  5.0
1  NaN  2.0  NaN
2  3.0  NaN  7.0
3  NaN  4.0  NaN

DataFrame po zastąpieniu NaN wartościami ze słownika:
     A    B   C
0  1.0  1.0   5
1  0.0  2.0  99
2  3.0  1.0   7
3  0.0  4.0  99

```


## Sortowanie danych

Sortowanie danych w pandas DataFrame jest łatwe i bardzo przydatne do analizy. Możesz sortować dane według jednej lub wielu kolumn, zarówno rosnąco, jak i malejąco. Metoda sort_values() jest kluczowa do tego celu.


### Jak działa sort_values():

```python
DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last', ignore_index=False, key=None)
```

Parametry:

- by: Kolumna lub lista kolumn, według których chcesz sortować dane. Jest to jedyny wymagany parametr.
- axis: Oś, wzdłuż której sortowanie ma być wykonane. 0 (domyślnie) oznacza sortowanie wzdłuż osi wierszy, 1 oznacza sortowanie wzdłuż osi kolumn.
- ascending: Określa, czy sortowanie ma być rosnące (True, domyślnie) czy malejące (False). Można podać jedną wartość boolowską lub listę wartości, jeśli sortujemy według wielu kolumn.
- inplace: Jeśli True, sortowanie jest wykonywane na miejscu i modyfikuje oryginalny DataFrame. Jeśli False (domyślnie), zwraca nowy posortowany DataFrame.
- kind: Rodzaj algorytmu sortowania. Do wyboru: 'quicksort', 'mergesort', 'heapsort', 'stable'. Domyślnie 'quicksort'.
- na_position: Określa, gdzie wartości NaN mają być umieszczone. 'first' umieszcza je na początku, 'last' (domyślnie) na końcu.
- ignore_index: Jeśli True, nowe indeksy są przypisane do sortowanego DataFrame lub Series, ignorując oryginalne indeksy. Domyślnie False.
- key: Funkcja, która jest stosowana do wartości przed sortowaniem. Jest nowością od wersji pandas 1.1.0.


Przykład sortowania według jednej kolumny:

```python
import pandas as pd

# Przykładowe dane
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Salary': [50000, 60000, 55000, 58000],
    'Age': [30, 25, 32, 28]
}
df = pd.DataFrame(data)

print("Oryginalny DataFrame:")
print(df)

# Sortowanie według kolumny 'Salary'
df_sorted = df.sort_values(by='Salary')

print("\nDataFrame posortowany według kolumny 'Salary':")
print(df_sorted)

```

Przykład sortowania według wielu kolumn:

```python
# Sortowanie według kolumn 'Age' i 'Salary'
df_sorted_multi = df.sort_values(by=['Age', 'Salary'])

print("\nDataFrame posortowany według kolumn 'Age' i 'Salary':")
print(df_sorted_multi)
```


Sortowanie malejące:
```python
# Sortowanie według kolumny 'Salary' malejąco
df_sorted_desc = df.sort_values(by='Salary', ascending=False)

print("\nDataFrame posortowany malejąco według kolumny 'Salary':")
print(df_sorted_desc)
```

Sortowanie z wartościami NaN:

```python
# Przykładowe dane z wartościami NaN
data_with_nan = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Salary': [50000, None, 55000, 58000],
    'Age': [30, 25, 32, None]
}
df_nan = pd.DataFrame(data_with_nan)

# Sortowanie z wartościami NaN na początku
df_sorted_nan = df_nan.sort_values(by='Salary', na_position='first')

print("\nDataFrame posortowany z NaN na początku:")
print(df_sorted_nan)
```

### Sortowanie po indeksie

```python

import pandas as pd

# Przykładowe dane
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Salary': [50000, 60000, 55000, 58000],
    'Age': [30, 25, 32, 28]
}
df = pd.DataFrame(data)

# Ustawianie indeksu na kolumnę 'Name'
df.set_index('Name', inplace=True)

print("Oryginalny DataFrame z ustawionym indeksem:")
print(df)

# Sortowanie DataFrame według indeksu rosnąco
df_sorted_index = df.sort_index()

print("\nDataFrame posortowany według indeksu rosnąco:")
print(df_sorted_index)

# Sortowanie DataFrame według indeksu malejąco
df_sorted_index_desc = df.sort_index(ascending=False)

print("\nDataFrame posortowany według indeksu malejąco:")
print(df_sorted_index_desc)

```


## Kontrola typów

Kontrola typów w pandas jest kluczowym elementem pracy z danymi, umożliwiającym lepszą organizację, przetwarzanie i analizę danych. Pandas dostarcza różne funkcje, które pomagają zarządzać typami danych w DataFrame i Series.

### Sprawdzenie typów danych:
Możesz sprawdzić typy danych w kolumnach DataFrame za pomocą dtypes.

Przykład:

```python
import pandas as pd

# Przykładowe dane
data = {'Name': ['John', 'Anna', 'Peter'], 'Age': [30, 25, 32], 'Salary': [50000, 60000, 55000]}
df = pd.DataFrame(data)

# Sprawdzenie typów danych
print(df.dtypes)

```


### Konwersja typów danych:
Możesz konwertować typy danych w DataFrame za pomocą metody astype().

Przykład:

```python
# Konwersja kolumny 'Salary' na typ float
df['Salary'] = df['Salary'].astype(float)

print(df.dtypes)

```


### Automatyczne konwertowanie typów danych przy wczytywaniu danych:
Podczas wczytywania pliku CSV można kontrolować typy danych używając parametru dtype.

Przykład:

```python
df = pd.read_csv('example.csv', dtype={'Age': 'int32', 'Salary': 'float'})
print(df.dtypes)

```

### Obsługa brakujących wartości:
Brakujące wartości (NaN) są traktowane jako float w pandas, co czasami wymaga konwersji typów danych, aby dopasować resztę kolumn.

Przykład:

```python
# Przykładowe dane z NaN
data = {'Name': ['John', 'Anna', 'Peter'], 'Age': [30, None, 32], 'Salary': [50000, 60000, None]}
df = pd.DataFrame(data)

# Konwersja kolumny 'Age' na typ float
df['Age'] = df['Age'].astype(float)
print(df.dtypes)

```

## Optymalizacja typów danych

Optymalizacja rozmiaru typów danych jest kluczowym elementem zarządzania pamięcią i wydajnością w pandas. Dobre dopasowanie typów danych pozwala zminimalizować zużycie pamięci i przyspieszyć operacje na DataFrame.

Przykłady typowych optymalizacji:
- Konwersja typów całkowitych: Zamiast domyślnego typu int64, można użyć mniejszych typów, takich jak int8, int16 lub int32, jeśli wartości w kolumnie są w odpowiednich zakresach.
- Konwersja typów zmiennoprzecinkowych: Podobnie, zamiast float64, można użyć float32, jeśli precyzja jest wystarczająca.
- Konwersja typu obiektowego na kategorie: Typ object jest stosowany dla tekstu i innych obiektów, co może być bardzo pamięciochłonne. Można zamienić takie kolumny na typ category, co znacznie zmniejsza zużycie pamięci, gdy kolumny zawierają wiele powtarzających się wartości.

```python
import pandas as pd
import numpy as np

# Przykładowe dane
data = {
    'int_column': [1, 2, 3, 4, 5],
    'float_column': [1.1, 2.2, 3.3, 4.4, 5.5],
    'object_column': ['A', 'B', 'C', 'A', 'B']
}
df = pd.DataFrame(data)

print("Oryginalny DataFrame:")
print(df)
print("\nOryginalne typy danych:")
print(df.dtypes)

# Optymalizacja typów danych
df['int_column'] = df['int_column'].astype(np.int8)
df['float_column'] = df['float_column'].astype(np.float32)
df['object_column'] = df['object_column'].astype('category')

print("\nDataFrame po optymalizacji typów danych:")
print(df)
print("\nTypy danych po optymalizacji:")
print(df.dtypes)

```


### Optymalizacja typów na etapie pobierania danych

```python
import pandas as pd

# Wczytywanie pliku CSV z określeniem typów danych
df = pd.read_csv('example.csv', dtype={'Name': 'category', 'Age': 'int8', 'Salary': 'int32'})

print("Wczytane dane:")
print(df)
print("\nTypy danych po optymalizacji:")
print(df.dtypes)

```### Optymalizacja typów na etapie pobierania danych

```python
import pandas as pd

# Wczytywanie pliku CSV z określeniem typów danych
df = pd.read_csv('example.csv', dtype={'Name': 'category', 'Age': 'int8', 'Salary': 'int32'})

print("Wczytane dane:")
print(df)
print("\nTypy danych po optymalizacji:")
print(df.dtypes)

```

## funkcja rank()

Funkcja rank() w pandas jest używana do przypisywania rang do elementów w Series lub DataFrame. Rangi są przypisane w oparciu o wartości elementów i mogą uwzględniać związki (wartości identyczne). Oto kilka najważniejszych aspektów funkcji rank() oraz przykłady, jak z niej korzystać:

```python
DataFrame.rank(axis=0, method='average', numeric_only=None, na_option='keep', ascending=True, pct=False)

```


### Parametry:

- axis: Oś, wzdłuż której będą przypisywane rangi (0 dla wierszy, 1 dla kolumn).
- method: Sposób przypisywania rang dla związków:
    - 'average' (domyślnie): Przypisuje średnią rangę dla związanych elementów.
    - 'min': Przypisuje najniższą rangę dla związanych elementów.
    - 'max': Przypisuje najwyższą rangę dla związanych elementów.
    - 'first': Przypisuje rangi w kolejności pojawienia się.
    - 'dense': Przypisuje rangi tak, że wszystkie elementy mają różne rangi, a związane elementy otrzymują tę samą rangę.
- numeric_only: Określa, czy tylko kolumny liczbowe mają być brane pod uwagę.
- na_option: Określa sposób traktowania wartości NaN:
- 'keep' (domyślnie): Zachowuje wartości NaN.
- 'top': Traktuje NaN jako najwy
- ascending: Określa, czy elementy powinny być uszeregowane w kolejności rosnącej.
- pct: Określa, czy zwrócone rankingi mają być wyświetlane w postaci percentyli.

## Filtrowanie danych

### Maski logiczne


Maska logiczna to obiekt (w Pandas to `Series`) z wartościami `True` lub `False`, który wskazuje, czy dany wiersz spełnia określony warunek. Możemy stosować maski logiczne do filtrowania danych w DataFrame, aby wybrać tylko te wiersze, które mają wartość `True` w masce.

- Przykład

Załóżmy, że mamy DataFrame z danymi o zamówieniach:

```python
import pandas as pd

data = {
    'order_id': [1, 2, 3, 4, 5],
    'customer': ['Anna', 'Bartek', 'Celina', 'Daniel', 'Ewa'],
    'amount': [150, 240, 50, 330, 90],
    'order_date': ['2023-10-05', '2023-10-15', '2023-11-01', '2023-11-05', '2023-11-10']
}

df = pd.DataFrame(data)
df['order_date'] = pd.to_datetime(df['order_date'])  # Konwersja na format daty
```

Chcemy wyfiltrować zamówienia, których `amount` jest większy niż 100. Możemy utworzyć maskę logiczną:

```python
mask = df['amount'] > 100
print(mask)
```

### Wynik maski:

```plaintext
0     True
1     True
2    False
3     True
4    False
Name: amount, dtype: bool
```

Każdy `True` oznacza, że dany wiersz spełnia warunek (`amount > 100`), a `False` oznacza, że nie spełnia. Możemy teraz użyć tej maski, aby przefiltrować dane:

```python
filtered_df = df[mask]
print(filtered_df)
```

### Wynik filtrowanego DataFrame:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 1        | Anna     | 150    | 2023-10-05 |
| 2        | Bartek   | 240    | 2023-10-15 |
| 4        | Daniel   | 330    | 2023-11-05 |

### Dlaczego maski logiczne są przydatne?

Maski logiczne pozwalają na oddzielenie warunku od właściwego filtrowania. Dzięki temu:

- **Kod jest bardziej czytelny**, ponieważ warunek jest zapisany oddzielnie.
- **Można łatwo sprawdzić maskę** (np. wyświetlając ją), aby zobaczyć, które wiersze spełniają dany warunek.
- Maski są wielokrotnego użytku — można je zastosować w wielu miejscach, co oszczędza czas i minimalizuje ryzyko błędów.


---

### Filtrowanie danych przykłady

Filtracja danych w Pandas to podstawa analizy danych, pozwala skupić się na tych elementach, które nas interesują, i odrzucić resztę. Wyobraź sobie, że masz arkusz kalkulacyjny z informacjami o wszystkich zamówieniach w sklepie, ale chcesz zobaczyć tylko zamówienia z ostatniego miesiąca albo tylko te, których wartość przekracza określoną kwotę. W Pandas wykonujemy to szybko i elastycznie za pomocą filtrowania w DataFrame.

## Krok 1: Wczytajmy przykładowe dane

Załóżmy, że mamy tabelę zamówień w sklepie internetowym:

```python
import pandas as pd

# Tworzenie przykładowych danych
data = {
    'order_id': [1, 2, 3, 4, 5],
    'customer': ['Anna', 'Bartek', 'Celina', 'Daniel', 'Ewa'],
    'amount': [150, 240, 50, 330, 90],
    'order_date': ['2023-10-05', '2023-10-15', '2023-11-01', '2023-11-05', '2023-11-10']
}

# Tworzenie DataFrame
df = pd.DataFrame(data)
df['order_date'] = pd.to_datetime(df['order_date'])  # Konwersja na format daty
print(df)
```

### Wynikowa tabela wygląda tak:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 1        | Anna     | 150    | 2023-10-05 |
| 2        | Bartek   | 240    | 2023-10-15 |
| 3        | Celina   | 50     | 2023-11-01 |
| 4        | Daniel   | 330    | 2023-11-05 |
| 5        | Ewa      | 90     | 2023-11-10 |

### Cel:
Załóżmy, że chcemy filtrować zamówienia z listopada lub zamówienia o wartości powyżej 100 zł. W Pandas mamy różne sposoby filtrowania, które omówię poniżej krok po kroku.

## Krok 2: Filtracja na podstawie jednej kolumny

Chcemy wybrać zamówienia, których wartość (`amount`) jest większa niż 100 zł.

```python
filtered_df = df[df['amount'] > 100]
print(filtered_df)
```

#### Wynik:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 1        | Anna     | 150    | 2023-10-05 |
| 2        | Bartek   | 240    | 2023-10-15 |
| 4        | Daniel   | 330    | 2023-11-05 |

**Wyjaśnienie**: W Pandas zapisujemy filtrację jako warunek (`df['amount'] > 100`), który zwraca wartości `True` lub `False` dla każdej komórki kolumny `amount`. Następnie stosujemy ten warunek na całym DataFrame (`df[...]`), aby uzyskać tylko te wiersze, gdzie warunek jest `True`.

---

## Krok 3: Filtrowanie na podstawie kilku warunków

Możemy łączyć warunki, np. znaleźć zamówienia o wartości większej niż 100 zł oraz złożone w listopadzie 2023.

```python
filtered_df = df[(df['amount'] > 100) & (df['order_date'].dt.month == 11)]
print(filtered_df)
```

#### Wynik:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 4        | Daniel   | 330    | 2023-11-05 |

**Wyjaśnienie**: Stosujemy tutaj dwa warunki jednocześnie:
- `df['amount'] > 100` — sprawdza, czy wartość zamówienia jest większa niż 100 zł.
- `df['order_date'].dt.month == 11` — sprawdza, czy zamówienie zostało złożone w listopadzie (korzystamy z `.dt.month`, aby uzyskać miesiąc z daty).

Operatory `&` (i), `|` (lub) pozwalają łączyć warunki, ale każdy warunek powinien być ujęty w nawiasach.

---

## Krok 4: Filtracja na podstawie wartości tekstowych

Załóżmy, że interesują nas zamówienia od klienta o imieniu `Bartek`.

```python
filtered_df = df[df['customer'] == 'Bartek']
print(filtered_df)
```

#### Wynik:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 2        | Bartek   | 240    | 2023-10-15 |

---

## Krok 5: Filtracja za pomocą `isin()` - wartości z listy

Jeśli chcemy zobaczyć zamówienia od klientów `Anna` lub `Daniel`, użyjemy metody `.isin()`.

```python
filtered_df = df[df['customer'].isin(['Anna', 'Daniel'])]
print(filtered_df)
```

#### Wynik:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 1        | Anna     | 150    | 2023-10-05 |
| 4        | Daniel   | 330    | 2023-11-05 |

**Wyjaśnienie**: `isin()` przyjmuje listę wartości i zwraca wiersze, które zawierają jedną z wartości na liście.

---

## Ciekawostka: Filtracja na podstawie wyrażeń regularnych

Pandas pozwala również na filtrowanie danych tekstowych przy użyciu wyrażeń regularnych. Na przykład, aby znaleźć klientów, których imię zaczyna się na literę "A", możemy skorzystać z `.str.contains()`.

```python
filtered_df = df[df['customer'].str.contains('^A')]
print(filtered_df)
```

#### Wynik:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 1        | Anna     | 150    | 2023-10-05 |

**Wyjaśnienie**: `str.contains('^A')` wyszukuje teksty zaczynające się od litery "A". Symbol `^` oznacza początek tekstu w wyrażeniu regularnym.

---

## Podsumowanie

Pandas oferuje dużą elastyczność w filtrowaniu danych:

- Prosta filtracja: `df[df['column'] <value>]`
- Łączenie warunków: `&` dla "i", `|` dla "lub".
- Wartości z listy: `.isin(['value1', 'value2'])`
- Filtrowanie tekstowe: `.str.contains('regex')`


### Dobre praktyki: Przeniesienie warunku filtrującego do zmiennej

### Dlaczego warto przenieść warunek do zmiennej?

Przeniesienie warunku do zmiennej pomaga:

1. **Zwiększyć czytelność** kodu, szczególnie przy bardziej złożonych warunkach.
2. **Uniknąć powtarzania** tych samych warunków w różnych częściach kodu.
3. **Ułatwić modyfikacje** — jeśli musisz zmienić warunek, zmieniasz go w jednym miejscu.

### Przykład zastosowania

Załóżmy, że chcemy wyfiltrować zamówienia o wartości większej niż 100 zł i złożone w listopadzie. Możemy przenieść warunki do zmiennych:

```python
# Tworzymy zmienne z warunkami
amount_condition = df['amount'] > 100
date_condition = df['order_date'].dt.month == 11

# Tworzymy maskę logiczną na podstawie zmiennych
mask = amount_condition & date_condition

# Filtrowanie DataFrame za pomocą maski
filtered_df = df[mask]
print(filtered_df)
```

### Wynik:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 4        | Daniel   | 330    | 2023-11-05 |

### Dlaczego to rozwiązanie jest lepsze?

1. **Czytelność**: Każda zmienna (`amount_condition`, `date_condition`) jasno opisuje, jaki jest cel warunku.
2. **Łatwość modyfikacji**: Jeśli zmienią się kryteria filtrowania, np. chcemy sprawdzić zamówienia z października zamiast listopada, wystarczy zmodyfikować tylko `date_condition`.
3. **Reużywalność**: Możemy łatwo stosować te same warunki w innych miejscach kodu.

---

## Podsumowanie: Dobre praktyki z maskami logicznymi i zmiennymi warunków

- **Twórz maski logiczne** dla każdego warunku osobno, aby kod był bardziej przejrzysty.
- **Przenoś warunki do zmiennych** i nadawaj im jasne nazwy, aby kod był bardziej zrozumiały i łatwiejszy do modyfikacji.
- **Unikaj powtarzania kodu** — raz zdefiniowane warunki mogą być stosowane w różnych miejscach kodu.


Pandas oferuje metody `where` i `query`, które są bardzo przydatne przy filtrowaniu danych. Każda z nich ma inne zastosowania i może być przydatna w różnych sytuacjach. Zobaczmy krok po kroku, jak działają obie te metody oraz jak i kiedy je stosować.

### Metoda `where`

- Jak działa `where`?

Metoda `where` w Pandas działa trochę jak maska logiczna — zachowuje tylko te wiersze, które spełniają warunek, a pozostałe zamienia na wartości `NaN` (czyli brak danych). Nie usuwa wierszy, które nie spełniają warunku, tylko zastępuje je pustymi wartościami, co jest przydatne, gdy chcesz zachować oryginalny układ danych.

### Przykład zastosowania `where`

Załóżmy, że mamy DataFrame z danymi o zamówieniach:

```python
import pandas as pd

data = {
    'order_id': [1, 2, 3, 4, 5],
    'customer': ['Anna', 'Bartek', 'Celina', 'Daniel', 'Ewa'],
    'amount': [150, 240, 50, 330, 90],
    'order_date': ['2023-10-05', '2023-10-15', '2023-11-01', '2023-11-05', '2023-11-10']
}

df = pd.DataFrame(data)
df['order_date'] = pd.to_datetime(df['order_date'])
```

Jeśli chcemy zachować tylko te zamówienia, których wartość (`amount`) jest większa niż 100, ale nie usuwać pozostałych wierszy, możemy użyć `where`:

```python
filtered_df = df.where(df['amount'] > 100)
print(filtered_df)
```

#### Wynik:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 1        | Anna     | 150    | 2023-10-05 |
| 2        | Bartek   | 240    | 2023-10-15 |
| NaN      | NaN      | NaN    | NaT        |
| 4        | Daniel   | 330    | 2023-11-05 |
| NaN      | NaN      | NaN    | NaT        |

**Co się stało?** Wiersze, które nie spełniają warunku (`amount > 100`), zostały zastąpione przez `NaN`.

#### Zastosowania `where`

- **Filtrowanie z zachowaniem układu danych**: Idealne, gdy chcesz „oznaczyć” pewne wartości bez usuwania wierszy, co jest przydatne przy analizach porównawczych lub gdy chcesz zwizualizować różnice.
- **Przydaje się do maskowania danych**: Na przykład, gdy chcesz zastąpić pewne wartości, ale zachować ogólny kontekst.

---

## Metoda `query`

### Jak działa `query`?

Metoda `query` pozwala filtrować dane za pomocą zapytań napisanych jako wyrażenia tekstowe, podobnie jak w SQL. Jest to przydatne, gdy chcesz filtrować dane w bardziej złożony sposób, korzystając z bardziej naturalnego, tekstowego formatu.

Metoda `query` jest szczególnie przydatna, gdy:
1. Chcesz używać nazw kolumn, które są długie lub mają spacje.
2. Masz złożone filtry i chcesz zapisać je w bardziej zwięzły sposób.

### Przykład zastosowania `query`

Załóżmy, że chcemy znaleźć zamówienia o wartości powyżej 100 zł, które zostały złożone w listopadzie.

```python
filtered_df = df.query('amount > 100 and order_date.dt.month == 11')
print(filtered_df)
```

#### Wynik:

| order_id | customer | amount | order_date |
|----------|----------|--------|------------|
| 4        | Daniel   | 330    | 2023-11-05 |

### Jak działa zapytanie?

W `query` zapisujemy warunki jako tekst, więc `amount > 100 and order_date.dt.month == 11` oznacza „znajdź wszystkie zamówienia, których wartość przekracza 100 zł i zostały złożone w listopadzie”.

### Zastosowania `query`

- **Zwięzły zapis warunków**: `query` pozwala uniknąć używania dodatkowych nawiasów i operatorów `&`, `|`, co może poprawić czytelność kodu.
- **Kiedy kolumny mają spacje lub nietypowe znaki**: `query` umożliwia dostęp do kolumn przez zapis `["nazwa kolumny"]` bezpośrednio w wyrażeniu.
- **Do bardziej skomplikowanych zapytań**: Gdy chcesz połączyć wiele warunków, `query` pozwala zachować czytelność.

---

## Porównanie: `where` vs `query`

| Aspekt            | `where`                                    | `query`                                     |
|-------------------|--------------------------------------------|---------------------------------------------|
| **Działanie**     | Zastępuje wartości niespełniające warunku na `NaN` | Usuwa wiersze, które nie spełniają warunku  |
| **Zastosowanie**  | Maskowanie danych bez ich usuwania         | Tworzenie bardziej czytelnych, złożonych filtrów |
| **Przykłady**     | Przy analizach porównawczych               | Gdy kolumny mają spacje lub chcemy złożone zapytania |
| **Złożoność**     | Lepsze do prostych operacji                | Lepsze do złożonych wyrażeń                  |

---

## Przykład łączonego zastosowania

Możemy także użyć obu metod razem, np. tworząc maskę z `where` i później stosując `query`.

```python
# Tworzenie maski za pomocą where
masked_df = df.where(df['amount'] > 50)

# Stosowanie query na wynikowym DataFrame
result_df = masked_df.query('order_date.dt.month == 11')
print(result_df)
```

To podejście może być przydatne, jeśli chcemy najpierw ograniczyć zbiór danych (np. `where`) i potem stosować bardziej złożone filtrowanie (`query`).

---

## Podsumowanie

- **`where`**: Przydaje się, gdy chcesz zachować strukturalny układ danych i tylko „zaznaczyć” wartości, które nie spełniają warunków.
- **`query`**: Najlepiej używać przy bardziej złożonych filtrach i zapytaniach, zwłaszcza gdy chcesz, by kod był bardziej czytelny i zwięzły.



## Filtrowanie grup danych

Pandas oferuje kilka użytecznych metod do filtrowania danych: `isin`, `isnull`, `notnull` i `between`. Każda z nich pozwala na szybkie znalezienie wierszy na podstawie określonych kryteriów. Omówmy je krótko.

## 1. `isin`

Metoda `isin` pozwala sprawdzić, czy wartości w kolumnie należą do określonego zbioru wartości. Jest przydatna, gdy chcemy filtrować dane na podstawie wielu możliwych wartości.

### Przykład

Załóżmy, że mamy DataFrame z danymi o osobach:

```python
import pandas as pd

data = {'name': ['Anna', 'Bartek', 'Celina', 'Daniel', 'Ewa'],
        'age': [28, 34, 19, 40, 22]}
df = pd.DataFrame(data)
```

Chcemy wybrać osoby o imionach „Anna” lub „Ewa”:

```python
filtered_df = df[df['name'].isin(['Anna', 'Ewa'])]
print(filtered_df)
```

**Wynik:**

| name  | age |
|-------|-----|
| Anna  | 28  |
| Ewa   | 22  |

### Zastosowanie

`isin` jest szczególnie przydatne przy pracy z danymi kategorycznymi, gdzie chcemy filtrować na podstawie listy wartości.

---

## 2. `isnull`

Metoda `isnull` sprawdza, które wartości w DataFrame są puste (`NaN`). Zwraca wartość `True` dla `NaN` i `False` dla pozostałych wartości. Przydaje się, gdy chcemy znaleźć i przeanalizować brakujące dane.

### Przykład

Załóżmy, że mamy DataFrame z brakującymi danymi:

```python
data = {'name': ['Anna', 'Bartek', 'Celina', None, 'Ewa'],
        'age': [28, 34, None, 40, 22]}
df = pd.DataFrame(data)
```

Chcemy znaleźć wiersze z brakującymi wartościami w kolumnie `name`:

```python
null_df = df[df['name'].isnull()]
print(null_df)
```

**Wynik:**

| name | age |
|------|-----|
| None | 40  |

### Zastosowanie

Używamy `isnull`, aby identyfikować brakujące dane i potencjalnie uzupełniać je lub usuwać.

---

## 3. `notnull`

Metoda `notnull` jest przeciwieństwem `isnull`. Zwraca `True` dla wartości niepustych i `False` dla `NaN`. Przydaje się, gdy chcemy pracować tylko z wierszami, które mają kompletne dane.

### Przykład

Chcemy znaleźć wiersze, gdzie kolumna `age` nie jest pusta:

```python
notnull_df = df[df['age'].notnull()]
print(notnull_df)
```

**Wynik:**

| name   | age |
|--------|-----|
| Anna   | 28  |
| Bartek | 34  |
| Daniel | 40  |
| Ewa    | 22  |

### Zastosowanie

`notnull` jest użyteczne, gdy chcemy wyeliminować brakujące dane z dalszych analiz.

---

## 4. `between`

Metoda `between` pozwala filtrować dane na podstawie przedziału wartości (zakresu). Działa tylko na dane numeryczne i daty.

### Przykład

Załóżmy, że chcemy znaleźć osoby w wieku między 20 a 30 lat:

```python
age_filtered_df = df[df['age'].between(20, 30)]
print(age_filtered_df)
```

**Wynik:**

| name  | age |
|-------|-----|
| Anna  | 28  |
| Ewa   | 22  |

### Zastosowanie

`between` jest wygodne, gdy chcemy ustawić dolną i górną granicę filtrowania, np. dla wieku, cen czy dat.

---

## Podsumowanie

- **`isin`** – filtrowanie na podstawie listy wartości.
- **`isnull`** – identyfikacja brakujących danych.
- **`notnull`** – wybór tylko niepustych wartości.
- **`between`** – filtrowanie w zakresie (dolna i górna granica).

Każda z tych metod ma swoje specyficzne zastosowania, ale wszystkie ułatwiają szybkie filtrowanie i czyszczenie danych.

## duplikaty i wartości unikalne

### Metoda `is_unique`

Metoda `is_unique` jest atrybutem, zwraca wartość logiczną (`True` lub `False`) dla serii danych, oznaczającą, czy wszystkie wartości w tej serii są unikalne.

**Przykład:**
```python
import pandas as pd

data = {'Imię': ['Alice', 'Bob', 'Charlie', 'Alice']}
df = pd.DataFrame(data)

print(df['Imię'].is_unique)  # Output: False, ponieważ "Alice" powtarza się
```

### Metoda `unique()`

Metoda `unique()` zwraca tablicę unikalnych wartości w serii danych.

**Przykład:**
```python
import pandas as pd

data = {'Imię': ['Alice', 'Bob', 'Charlie', 'Alice']}
df = pd.DataFrame(data)

print(df['Imię'].unique())  # Output: ['Alice' 'Bob' 'Charlie']
```

### Metoda `nunique()`

Metoda `nunique()` zwraca liczbę unikalnych wartości w serii danych.

**Przykład:**
```python
import pandas as pd

data = {'Imię': ['Alice', 'Bob', 'Charlie', 'Alice']}
df = pd.DataFrame(data)

print(df['Imię'].nunique())  # Output: 3, ponieważ są trzy unikalne imiona
```

### Metoda `duplicated()`

Metoda `duplicated()` zwraca serię wartości logicznych (`True` lub `False`) dla każdego wiersza DataFrame'a, oznaczającą, czy ten wiersz jest duplikatem poprzednich.

**Przykład:**
```python
import pandas as pd

data = {'Imię': ['Alice', 'Bob', 'Charlie', 'Alice']}
df = pd.DataFrame(data)

print(df.duplicated())  # Output: 
# 0    False
# 1    False
# 2    False
# 3     True
```

### Metoda `drop_duplicates()`

Metoda `drop_duplicates()` usuwa z DataFrame'a duplikaty wierszy. Możesz określić, które kolumny powinny być brane pod uwagę przy wykrywaniu duplikatów.

**Przykład:**
```python
import pandas as pd

data = {'Imię': ['Alice', 'Bob', 'Charlie', 'Alice'],
        'Wiek': [25, 30, 35, 25]}
df = pd.DataFrame(data)

# Usuwanie duplikatów z uwzględnieniem wszystkich kolumn
df_bez_duplikatów = df.drop_duplicates()
print(df_bez_duplikatów)
# Output:
#      Imię  Wiek
# 0   Alice    25
# 1     Bob    30
# 2 Charlie    35

# Usuwanie duplikatów tylko w kolumnie 'Imię'
df_bez_duplikatów_imiona = df.drop_duplicates(subset='Imię')
print(df_bez_duplikatów_imiona)
# Output:
#      Imię  Wiek
# 0   Alice    25
# 1     Bob    30
# 2 Charlie    35
```


## Modyfikacja danych

### Zmiana nazwy kolumny

1. Funkcja rename() - Ta funkcja pozwala na zmianę nazwy jednej lub wielu kolumn w dataframe'ie. Przykładowo, aby zmienić nazwę kolumny "A" na "Nowy_nazwa", można użyć następującego kodu:
```python
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df)
# Oryginalny dataframe

df = df.rename(columns={'A': 'Nowy_nazwa'})
print(df)
# Dataframe z zmienioną nazwą kolumny "A" na "Nowy_nazwa"
```
2. Przypisanie nowej nazwy kolumnie - Można też zmieniać nazwy kolumn bezpośrednio w dataframe'ie za pomocą operatora przypisania (=). Przykładowo, aby zmienić nazwę kolumny "A" na "Nowy_nazwa", można użyć następującego kodu:
```python
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df)
# Oryginalny dataframe

df['Nowy_nazwa'] = df['A']
del df['A']
print(df)
# Dataframe z zmienioną nazwą kolumny "A" na "Nowy_nazwa"
```
3. Modyfikacja indexu - W przypadku dataframe'a, w którym index to pierwszy rząd i jest on widoczny (np. `df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})`), można też zmienić nazwę kolumny poprzez modyfikację indexu. Przykładowo, aby zmienić nazwę kolumny "A" na "Nowy_nazwa", można użyć następującego kodu:
```python
import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df)
# Oryginalny dataframe

df.columns = df.columns.str.replace('A', 'Nowy_nazwa')
print(df)
# Dataframe z zmienioną nazwą kolumny "A" na "Nowy_nazwa"
```