# Pandas – Lekcja 2: Operacje na DataFrame

Po przejściu przez ten notatnik będziesz potrafić:

1. Tworzyć `DataFrame` na kilka sposobów – z list, słowników, macierzy *NumPy*, serii i plików CSV.
2. Szybko podglądać dane (`head`, `tail`, `describe`).
3. Zarządzać indeksem (ustanawiać, resetować, modyfikować).
4. Pobierać dane precyzyjnie za pomocą `loc`, `iloc`, `at`, `iat`.
5. Selekcjonować i filtrować wiersze oraz kolumny, także przy wielu warunkach logicznych.
6. Wycinać, czyścić i modyfikować dane.
7. Przećwiczyć wszystko na realistycznym zbiorze cen produktów.

Na końcu znajdziesz **zadania praktyczne** – rozwiąż je, aby utrwalić wiedzę.

In [None]:
import pandas as pd
import numpy as np

## 1 <a id='konstruktory'></a> Tworzenie `DataFrame` – różne konstruktory

In [None]:
df_dict = pd.DataFrame({
    'Imię': ['Adam'],
    'Wiek': [30]
})

In [None]:
df_dict

In [None]:
# 1A. Z słownika list
df_dict = pd.DataFrame({
    'Imię': ['Anna', 'Bartek', 'Celina'],
    'Wiek': [23, 35, 29]
})
df_dict

In [None]:
# 1B. Z listy słowników
df_list_of_dicts = pd.DataFrame([
    {'Miasto': 'Warszawa', 'Populacja': 1793579},
    {'Miasto': 'Kraków',   'Populacja': 779115},
])
df_list_of_dicts

In [None]:
# 1C. Z listy list + kolumny
df_list = pd.DataFrame(
    [[1, 2, 3], [4, 5, 6]],
    columns=['A', 'B', 'C']
)
df_list

In [None]:
# 1D. Z macierzy NumPy
arr = np.random.randn(4, 3)

In [None]:
arr

In [None]:

df_arr = pd.DataFrame(arr, columns=['X', 'Y', 'Z'])
df_arr

## 2 <a id='podglad'></a> `head`, `tail`, `describe`
Funkcje **`head()`** i **`tail()`** pozwalają podejrzeć początek i koniec danych, a **`describe()`** – błyskawicznie uzyskać statystyki opisowe dla kolumn numerycznych. Przyjrzyjmy się temu na zbiorze `df_arr` z poprzedniego przykładu.

In [None]:
arr = np.random.randn(10, 3)
df_demo = pd.DataFrame(arr, columns=['X', 'Y', 'Z'])

print('Pierwsze 5 wierszy:')
df_demo.head()

In [None]:
display(df_demo)
df_demo.head()

In [None]:
print(df_demo.head())

In [None]:
display(df_demo.head())

In [None]:
print('\nOstatnie 3 wiersze:')
display(df_demo.tail(3))

In [None]:

print('\nStatystyki opisowe:')
display(df_demo.describe())

## 3 <a id='indeks'></a> Praca z indeksem
Indeks identyfikuje wiersze w `DataFrame`.

In [None]:
df_idx = pd.DataFrame({
    'Kraj': ['Polska', 'Czechy', 'Słowacja'],
    'PKB_mld_USD': [614, 282, 114]
})
display(df_idx)

In [None]:
df_idx.index

In [None]:
# Ustawiamy kolumnę 'Kraj' jako indeks
df_country = df_idx.set_index('Kraj')


In [None]:
print('Po ustawieniu indeksu:')
df_country

In [None]:
df_country.index

In [None]:
# Resetujemy indeks
print('\nPo reset_index():')
df_country.reset_index()

In [None]:
# Wielopoziomowy indeks
df_multi = pd.DataFrame({
    'Region': ['EU', 'EU', 'EU', 'NA', 'NA'],
    'Państwo': ['Polska', 'Niemcy', 'Francja', 'USA', 'Kanada'],
    'PKB_per_capita': [15900, 46000, 43000, 65000, 52000]
}).set_index(['Region', 'Państwo'])
print('\nIndeks wielopoziomowy:')
df_multi

In [None]:
df_multi.index

Tworzenie DataFrame z indeksem:

In [None]:
df_idx = pd.DataFrame({
    'Kraj': ['Polska', 'Czechy', 'Słowacja'],
    'PKB_mld_USD': [614, 282, 114]
},
index=['PL', 'CZ', 'SL'])
display(df_idx)

Modyfikacja indeksu bezpośrednio:

In [None]:
df_idx.index = ['POL', 'CZE', 'SLO']

In [None]:
df_idx

## 4 <a id='dostep'></a> Praca z kolumnami

In [None]:
df_access = pd.DataFrame({
    'Imię': ['Alan', 'Beata', 'Celina', 'Daniel'],
    'Wiek': [34, 28, 25, 42],
    'Miasto': ['Gdańsk', 'Warszawa', 'Wrocław', 'Poznań']
}, index=['a', 'b', 'c', 'd'])
df_access

In [None]:
df_access.columns

In [None]:
df_access['Imię']

In [None]:
type(df_access['Imię'])

In [None]:
df_access[['Imię']]

In [None]:
type(df_access[['Imię']])

In [None]:
df_access[['Imię', 'Wiek']]

## 5 <a id='dostep'></a> Dostęp do danych: `loc`, `iloc`, `at`, `iat`

Uczymy się czterech metod dostępu: **etykietowy** (`loc`, `at`) oraz **pozycjny** (`iloc`, `iat`).

`loc` - wybór poprzez nazwę w indeksie:

In [None]:
df_access.loc['a']

In [None]:
df_access.loc[['a']]

In [None]:
df_access.loc[['a', 'd']]

In [None]:
df_access.loc[['a', 'd'], ['Wiek']]

`iloc` - wybór poprzez numer indeksu:

In [None]:
df_access.iloc[0]

In [None]:
df_access.iloc[[0]]

In [None]:
df_access.iloc[0:2]

In [None]:
df_access.iloc[0:2, 1]

`at` - wybór pojedynczej wartości:

In [None]:
df_access.at['a', 'Miasto']

`iat` - wybór pojedynczej wartości poprzez jej pozycję

In [None]:
df_access.iat[0, 2]

## 6 <a id='selektory'></a> Wybieranie części danych



In [None]:
df_sel = pd.DataFrame({
    'Produkt': ['Kawa', 'Herbata', 'Sok', 'Woda', 'Piwo'],
    'Cena': [19.90, 9.99, 6.50, 2.00, 3.80],
    'Kategoria': ['Napoje', 'Napoje', 'Napoje', 'Napoje', 'Alkohol']
})
df_sel

Sprawdzenie liczby wierszy:

In [None]:
len(df_sel)

In [None]:
len(df_sel.columns)

Wymiary tabelki (tak samo jak w NumPy)

In [None]:
df_sel.shape

In [None]:
df_sel.values

In [None]:
df_sel.dtypes

In [None]:
df_sel['Cena'] > 3

In [None]:
df_sel[df_sel['Cena'] > 3]

In [None]:
df_sel[df_sel['Kategoria'] != 'Alkohol']

In [None]:
df_sel[(df_sel['Cena'] > 3) & (df_sel['Kategoria'] != 'Alkohol')]



In [None]:
df_sel[(df_sel['Cena'] > 5) | (df_sel['Kategoria'] == 'Alkohol')]


## 7 Modyfikacja danych

### Modyfikacja pojedynczych wartości

In [None]:
df = pd.DataFrame({
    'Produkt': ['Kawa', 'Herbata', 'Sok', 'Woda'],
    'Cena': [19.90, 9.99, 6.50, 2.00],
    'Stan_magazyn': [50, 20, 100, 300]
})
df

In [None]:
df.at[0, 'Cena'] = 21.50
df

In [None]:
df.iat[2, 1] = 7.00
df

In [None]:
df.loc[3, 'Stan_magazyn'] = 280
df

### Modyfikacja kolumn

In [None]:
df['Cena']

In [None]:
df['Cena'] = [22, 11, 8, 1.6]
df

In [None]:
df['Cena'] * 1.10

In [None]:
# podniesienie wszystkich cen o 10%
df['Cena'] = df['Cena'] * 1.10
df

In [None]:
df['Stan_magazyn'].dtypes

In [None]:
df['Stan_magazyn'] = df['Stan_magazyn'].astype(float)

In [None]:
df

In [None]:
df['Stan_magazyn'].dtypes

### Dodawanie i usuwanie kolumn

In [None]:
df['VAT'] = df['Cena'] * 0.23
df

In [None]:
df.drop(columns='VAT')

In [None]:
df

In [None]:
df.drop(columns=['VAT'], inplace=True)
df

In [None]:
['Premium' if x > 10 else 'Ekonomiczna' for x in df['Cena']]

In [None]:
df['Klasa'] = ['Premium' if x > 10 else 'Ekonomiczna' for x in df['Cena']]
df

### Modyfikacja i usuwanie wierszy

In [None]:
# Zmiana wiersza 1 (indeks = 1) – podajemy Series z nazwami kolumn
df.loc[1] = pd.Series({'Produkt': 'Nowa Herbata', 'Cena': 12.99, 'Stan_magazyn': 25})

In [None]:
df

In [None]:
# Ustaw cena = 0 dla produktów, których magazyn > 250
df.loc[df['Stan_magazyn'] > 250, 'Cena'] = 0
df

In [None]:
df.loc[4] = pd.Series({'Produkt': 'Jeszcze nowsza Herbata', 'Cena': 12.99, 'Stan_magazyn': 25})

In [None]:
df

In [None]:
# Usuwamy wiersz o indeksie 2
df = df.drop(index=2)
df


## 9 Zadania praktyczne 📝
Spróbuj samodzielnie wykonać poniższe ćwiczenia w nowym notatniku lub w osobnych komórkach.

Poniżej jest kod, który wczytuje plik CSV z danymi sprzedaży (`sales_records.csv`), pamiętaj żeby umieścić go w katalogu roboczym w Colab lub na komputerze.

Następnie wykonaj następujące zadania:

1. **Podejrzyj dane**:
   Wyświetl pierwsze 5 oraz ostatnie 3 wiersze danych.

2. **Zarządzanie indeksem**:
   Ustaw kolumnę „Order ID” jako indeks, a następnie zresetuj indeks do domyślnego.

4. **Dostęp do danych**:
   Odczytaj wartość kolumny „Country” z pierwszego wiersza. Następnie wyświetl wiersze od 10 do 14 oraz pierwsze trzy kolumny.

5. **Filtrowanie danych**:
   Znajdź wszystkie zamówienia, w których „Total Profit” przekracza 1000000 oraz region to „Europe”.

6. **Tworzenie nowej kolumny**:
   Oblicz procentową marżę zysku (Total Profit / Total Revenue \* 100) i dodaj ją jako nową kolumnę.


In [None]:
df = pd.read_csv('sales_records.csv')

In [None]:
df