In [1]:
import pandas as pd
import matplotlib.pyplot as plt

# Ustawienia dla polskich znaków
plt.rcParams['font.sans-serif'] = ['DejaVu Sans']

# **Wstęp do pandas**

`Pandas` to biblioteka w Pythonie, która umożliwia łatwe i efektywne manipulowanie oraz analizowanie danych.

Jest szczególnie przydatna do pracy z danymi tabelarycznymi, podobnymi do tych w arkuszach kalkulacyjnych.

## CZĘŚĆ 1: Tworzenie DataFrame z polskimi danymi

In [2]:
# Przykład 1: Dane o polskich miastach
data_miasta = {
    'Miasto': ['Warszawa', 'Kraków', 'Łódź', 'Wrocław', 'Poznań', 'Gdańsk', 'Szczecin'],
    'Województwo': ['mazowieckie', 'małopolskie', 'łódzkie', 'dolnośląskie',
                    'wielkopolskie', 'pomorskie', 'zachodniopomorskie'],
    'Populacja': [1863056, 779966, 672185, 643782, 532048, 470907, 395513],
    'Powierzchnia_km2': [517, 327, 293, 293, 262, 262, 301],
    'Rok_nadania_praw': [1413, 1257, 1423, 1242, 1253, 1263, 1243]
}

miasta = pd.DataFrame(data_miasta)
print(miasta)

     Miasto         Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
0  Warszawa         mazowieckie    1863056               517              1413
1    Kraków         małopolskie     779966               327              1257
2      Łódź             łódzkie     672185               293              1423
3   Wrocław        dolnośląskie     643782               293              1242
4    Poznań       wielkopolskie     532048               262              1253
5    Gdańsk           pomorskie     470907               262              1263
6  Szczecin  zachodniopomorskie     395513               301              1243


## CZĘŚĆ 2: PODSTAWOWE METODY INSPEKCJI DANYCH

In [3]:
print(">>> .head() - Pierwsze 5 wierszy (lub inna liczba)")
print(miasta.head(3))

>>> .head() - Pierwsze 5 wierszy (lub inna liczba)
     Miasto  Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
0  Warszawa  mazowieckie    1863056               517              1413
1    Kraków  małopolskie     779966               327              1257
2      Łódź      łódzkie     672185               293              1423


In [4]:
print(">>> .info() - Informacje o strukturze danych")
miasta.info()

>>> .info() - Informacje o strukturze danych
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 5 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Miasto            7 non-null      object
 1   Województwo       7 non-null      object
 2   Populacja         7 non-null      int64 
 3   Powierzchnia_km2  7 non-null      int64 
 4   Rok_nadania_praw  7 non-null      int64 
dtypes: int64(3), object(2)
memory usage: 412.0+ bytes


In [5]:
print(">>> .shape - Wymiary DataFrame (wiersze, kolumny)")
print(f"Nasz DataFrame ma: {miasta.shape[0]} wierszy i {miasta.shape[1]} kolumn")

>>> .shape - Wymiary DataFrame (wiersze, kolumny)
Nasz DataFrame ma: 7 wierszy i 5 kolumn


In [6]:
print(">>> .describe() - Statystyki opisowe dla kolumn numerycznych")
print(miasta.describe())

>>> .describe() - Statystyki opisowe dla kolumn numerycznych
          Populacja  Powierzchnia_km2  Rok_nadania_praw
count  7.000000e+00          7.000000          7.000000
mean   7.653510e+05        322.142857       1299.142857
std    5.010882e+05         88.856492         81.581102
min    3.955130e+05        262.000000       1242.000000
25%    5.014775e+05        277.500000       1248.000000
50%    6.437820e+05        293.000000       1257.000000
75%    7.260755e+05        314.000000       1338.000000
max    1.863056e+06        517.000000       1423.000000


In [7]:
print(">>> .columns - Nazwy kolumn")
print(miasta.columns.tolist())

>>> .columns - Nazwy kolumn
['Miasto', 'Województwo', 'Populacja', 'Powierzchnia_km2', 'Rok_nadania_praw']


In [8]:
print(">>> .index - Indeks wierszy")
print(miasta.index)

>>> .index - Indeks wierszy
RangeIndex(start=0, stop=7, step=1)


## CZĘŚĆ 3: SORTOWANIE DANYCH

In [10]:
print("1. Sortowanie rosnąco po populacji:")
print(miasta.sort_values("Populacja").head())

1. Sortowanie rosnąco po populacji:
     Miasto         Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
6  Szczecin  zachodniopomorskie     395513               301              1243
5    Gdańsk           pomorskie     470907               262              1263
4    Poznań       wielkopolskie     532048               262              1253
3   Wrocław        dolnośląskie     643782               293              1242
2      Łódź             łódzkie     672185               293              1423


In [11]:
print("2. Sortowanie malejąco po populacji:")
print(miasta.sort_values("Populacja", ascending=False).head())

2. Sortowanie malejąco po populacji:
     Miasto    Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
0  Warszawa    mazowieckie    1863056               517              1413
1    Kraków    małopolskie     779966               327              1257
2      Łódź        łódzkie     672185               293              1423
3   Wrocław   dolnośląskie     643782               293              1242
4    Poznań  wielkopolskie     532048               262              1253


In [12]:
print("3. Sortowanie według wielu kolumn:")
print("   (Województwo rosnąco, potem Populacja malejąco)")
print(miasta.sort_values(["Województwo", "Populacja"],
                         ascending=[True, False]))

3. Sortowanie według wielu kolumn:
   (Województwo rosnąco, potem Populacja malejąco)
     Miasto         Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
3   Wrocław        dolnośląskie     643782               293              1242
0  Warszawa         mazowieckie    1863056               517              1413
1    Kraków         małopolskie     779966               327              1257
5    Gdańsk           pomorskie     470907               262              1263
4    Poznań       wielkopolskie     532048               262              1253
6  Szczecin  zachodniopomorskie     395513               301              1243
2      Łódź             łódzkie     672185               293              1423


## CZĘŚĆ 4: WYBIERANIE KOLUMN

In [13]:
print("1. Jedna kolumna (zwraca Series):")
print(miasta["Miasto"])
print(f"\nTyp: {type(miasta['Miasto'])}")

1. Jedna kolumna (zwraca Series):
0    Warszawa
1      Kraków
2        Łódź
3     Wrocław
4      Poznań
5      Gdańsk
6    Szczecin
Name: Miasto, dtype: object

Typ: <class 'pandas.core.series.Series'>


In [14]:
print("2. Wiele kolumn (zwraca DataFrame):")
print(miasta[["Miasto", "Populacja"]])

2. Wiele kolumn (zwraca DataFrame):
     Miasto  Populacja
0  Warszawa    1863056
1    Kraków     779966
2      Łódź     672185
3   Wrocław     643782
4    Poznań     532048
5    Gdańsk     470907
6  Szczecin     395513


In [15]:
print("3. Używanie zmiennej z listą kolumn:")
kolumny_do_wyswietlenia = ["Miasto", "Województwo", "Populacja"]
print(miasta[kolumny_do_wyswietlenia])

3. Używanie zmiennej z listą kolumn:
     Miasto         Województwo  Populacja
0  Warszawa         mazowieckie    1863056
1    Kraków         małopolskie     779966
2      Łódź             łódzkie     672185
3   Wrocław        dolnośląskie     643782
4    Poznań       wielkopolskie     532048
5    Gdańsk           pomorskie     470907
6  Szczecin  zachodniopomorskie     395513


## CZĘŚĆ 5: FILTROWANIE WIERSZY

In [None]:
print("1. Miasta z populacją powyżej 600 000:")
print(miasta[miasta["Populacja"] > 600000])

1. Miasta z populacją powyżej 600 000:
     Miasto   Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
0  Warszawa   mazowieckie    1863056               517              1413
1    Kraków   małopolskie     779966               327              1257
2      Łódź       łódzkie     672185               293              1423
3   Wrocław  dolnośląskie     643782               293              1242


In [None]:
print("2. Miasta z województwa mazowieckiego:")
print(miasta[miasta["Województwo"] == "mazowieckie"])

2. Miasta z województwa mazowieckiego:
     Miasto  Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
0  Warszawa  mazowieckie    1863056               517              1413


In [None]:
print("3. Miasta z prawami miejskimi przed 1300 rokiem:")
print(miasta[miasta["Rok_nadania_praw"] < 1300])

3. Miasta z prawami miejskimi przed 1300 rokiem:
     Miasto         Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
1    Kraków         małopolskie     779966               327              1257
3   Wrocław        dolnośląskie     643782               293              1242
4    Poznań       wielkopolskie     532048               262              1253
5    Gdańsk           pomorskie     470907               262              1263
6  Szczecin  zachodniopomorskie     395513               301              1243


In [None]:
print("4. Złożone warunki z operatorem AND (&):")
print("   Miasta powyżej 500k ludności I powierzchnia powyżej 280 km²")
duze_miasta = miasta[(miasta["Populacja"] > 500000) &
                     (miasta["Powierzchnia_km2"] > 280)]
print(duze_miasta)

4. Złożone warunki z operatorem AND (&):
   Miasta powyżej 500k ludności I powierzchnia powyżej 280 km²
     Miasto   Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
0  Warszawa   mazowieckie    1863056               517              1413
1    Kraków   małopolskie     779966               327              1257
2      Łódź       łódzkie     672185               293              1423
3   Wrocław  dolnośląskie     643782               293              1242


In [None]:
print("5. Złożone warunki z operatorem OR (|):")
print("   Miasta z Warszawy LUB Krakowa")
stolice = miasta[(miasta["Miasto"] == "Warszawa") |
                 (miasta["Miasto"] == "Kraków")]
print(stolice)


5. Złożone warunki z operatorem OR (|):
   Miasta z Warszawy LUB Krakowa
     Miasto  Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
0  Warszawa  mazowieckie    1863056               517              1413
1    Kraków  małopolskie     779966               327              1257


In [None]:
print("6. Używanie .isin() dla wielu wartości:")
wybrane_miasta = ["Warszawa", "Kraków", "Wrocław"]
print(miasta[miasta["Miasto"].isin(wybrane_miasta)])

6. Używanie .isin() dla wielu wartości:
     Miasto   Województwo  Populacja  Powierzchnia_km2  Rok_nadania_praw
0  Warszawa   mazowieckie    1863056               517              1413
1    Kraków   małopolskie     779966               327              1257
3   Wrocław  dolnośląskie     643782               293              1242


## CZĘŚĆ 6: DODAWANIE NOWYCH KOLUMN

In [None]:
print("1. Obliczanie gęstości zaludnienia:")
miasta["Gęstość_na_km2"] = miasta["Populacja"] / miasta["Powierzchnia_km2"]
print(miasta[["Miasto", "Populacja", "Powierzchnia_km2", "Gęstość_na_km2"]])

1. Obliczanie gęstości zaludnienia:
     Miasto  Populacja  Powierzchnia_km2  Gęstość_na_km2
0  Warszawa    1863056               517     3603.589942
1    Kraków     779966               327     2385.217125
2      Łódź     672185               293     2294.146758
3   Wrocław     643782               293     2197.208191
4    Poznań     532048               262     2030.717557
5    Gdańsk     470907               262     1797.354962
6  Szczecin     395513               301     1313.996678


In [None]:
print("2. Kategoryzacja miast według wielkości:")
def kategoryzuj_miasto(populacja):
    if populacja > 1000000:
        return "Bardzo duże"
    elif populacja > 500000:
        return "Duże"
    else:
        return "Średnie"

miasta["Kategoria"] = miasta["Populacja"].apply(kategoryzuj_miasto)
print(miasta[["Miasto", "Populacja", "Kategoria"]])

2. Kategoryzacja miast według wielkości:
     Miasto  Populacja    Kategoria
0  Warszawa    1863056  Bardzo duże
1    Kraków     779966         Duże
2      Łódź     672185         Duże
3   Wrocław     643782         Duże
4    Poznań     532048         Duże
5    Gdańsk     470907      Średnie
6  Szczecin     395513      Średnie


# **Zadania**

In [9]:
# Dataset do zadań
temperatura = pd.DataFrame({
    'Miasto': ['Warszawa', 'Kraków', 'Gdańsk', 'Wrocław', 'Poznań', 'Łódź'],
    'Styczeń': [-2, -1, 0, -1, -2, -3],
    'Kwiecień': [9, 10, 8, 11, 10, 9],
    'Lipiec': [19, 20, 17, 21, 19, 20],
    'Październik': [9, 9, 10, 10, 9, 8]
})

print("Dataset 'temperatura' - średnie temperatury w polskich miastach:")
print(temperatura)

Dataset 'temperatura' - średnie temperatury w polskich miastach:
     Miasto  Styczeń  Kwiecień  Lipiec  Październik
0  Warszawa       -2         9      19            9
1    Kraków       -1        10      20            9
2    Gdańsk        0         8      17           10
3   Wrocław       -1        11      21           10
4    Poznań       -2        10      19            9
5      Łódź       -3         9      20            8


## **Zadanie 1: podstawowa inspekcja**

Używając DataFrame `temperatura`, wykonaj następujące operacje:

a) Wyświetl pierwsze 3 wiersze

b) Wyświetl informacje o typach danych (.info())

c) Wyświetl kształt DataFrame (.shape)

d) Wyświetl tylko nazwy kolumn (.columns)

In [None]:
# Zadanie 1 — a) head(3), b) info()
print("a) Pierwsze 3 wiersze:")
display(temperatura.head(3))

print("\nb) Informacje o typach danych:")
temperatura.info()


In [None]:
# Zadanie 1 — c) shape, d) columns
print("c) Kształt DataFrame (wiersze, kolumny):", temperatura.shape)
print("\nd) Nazwy kolumn:")
print(list(temperatura.columns))


## **Zadanie 2: sortowanie**

a) Posortuj miasta według temperatury w lipcu (rosnąco)

b) Posortuj miasta według temperatury w styczniu (malejąco)

c) Posortuj miasta według temperatury w lipcu (malejąco), a następnie według kwietnia (rosnąco)

In [None]:
# Zadanie 2 — sortowanie
# a) Lipiec rosnąco
print("a) Sort wg 'Lipiec' rosnąco:")
display(temperatura.sort_values(by="Lipiec", ascending=True))

# b) Styczeń malejąco
print("\nb) Sort wg 'Styczeń' malejąco:")
display(temperatura.sort_values(by="Styczeń", ascending=False))

# c) Lipiec malejąco, następnie Kwiecień rosnąco
print("\nc) Sort wg 'Lipiec' malejąco, potem 'Kwiecień' rosnąco:")
display(temperatura.sort_values(by=["Lipiec","Kwiecień"], ascending=[False, True]))


## **Zadanie 3: Wybieranie kolumn**

a) Wybierz tylko kolumnę 'Miasto' (wynik: Series)

b) Wybierz kolumny 'Miasto' i 'Lipiec' (wynik: DataFrame)

c) Wybierz kolumny 'Miasto', 'Styczeń' i 'Lipiec', używając zmiennej z listą nazw kolumn

In [None]:
# Zadanie 3 — wybieranie kolumn
# a) tylko 'Miasto' (Series)
print("a) Kolumna 'Miasto' (Series):")
display(temperatura["Miasto"])

# b) 'Miasto' i 'Lipiec' (DataFrame)
print("\nb) Kolumny 'Miasto' i 'Lipiec':")
display(temperatura[["Miasto", "Lipiec"]])

# c) przez listę nazw
kolumny = ["Miasto", "Styczeń", "Lipiec"]
print("\nc) Wybrane kolumny:", kolumny)
display(temperatura[kolumny])


## **Zadanie 4: Filtrowanie**
a) Znajdź miasta, gdzie temperatura w lipcu jest większa niż 19 stopni

b) Znajdź miasta, gdzie temperatura w styczniu jest większa lub równa -1

c) Znajdź miasta, gdzie temperatura w kwietniu wynosi dokładnie 10 stopni

d) Znajdź miasta, gdzie temperatura w lipcu jest 20 LUB temperatura w styczniu jest -1

In [None]:
# Zadanie 4 — filtrowanie
# a) Lipiec > 19
print("a) Miasta z 'Lipiec' > 19:")
display(temperatura[temperatura["Lipiec"] > 19])

# b) Styczeń >= -1
print("\nb) Miasta z 'Styczeń' >= -1:")
display(temperatura[temperatura["Styczeń"] >= -1])


## **Zadanie 5: Złożone filtrowanie**
a) Znajdź miasta, gdzie temperatura w lipcu > 18 ORAZ w styczniu >= -2

b) Znajdź miasta: 'Warszawa', 'Kraków', 'Gdańsk'

c) Znajdź miasta, gdzie temperatura w lipcu jest między 18 a 20 stopni (włącznie)

In [None]:
# Zadanie 5 — złożone filtrowanie
# a) Lipiec > 18 AND Styczeń >= -2
print("a) Lipiec > 18 i Styczeń >= -2:")
maska = (temperatura["Lipiec"] > 18) & (temperatura["Styczeń"] >= -2)
display(temperatura[maska])

# b) Wybrane miasta
print("\nb) Miasta: Warszawa, Kraków, Gdańsk:")
display(temperatura[temperatura["Miasto"].isin(["Warszawa","Kraków","Gdańsk"])])

# c) Lipiec między 18 a 20 (włącznie)
print("\nc) Lipiec między 18 a 20 (włącznie):")
display(temperatura[temperatura["Lipiec"].between(18, 20, inclusive="both")])


## **Zadanie 6: Dodawanie nowych kolumn**
a) Dodaj kolumnę 'Średnia_roczna' - średnia z wszystkich miesięcy

b) Dodaj kolumnę 'Amplituda' - różnica między lipcem a styczniem

c) Dodaj kolumnę 'Ciepłe_miasto' (True jeśli średnia roczna > 11, False w przeciwnym razie)

In [None]:
# Zadanie 6 — dodawanie nowych kolumn
mies_cols = ["Styczeń","Kwiecień","Lipiec","Październik"]

# a) Średnia_roczna
temperatura["Średnia_roczna"] = temperatura[mies_cols].mean(axis=1)

# b) Amplituda (Lipiec - Styczeń)
temperatura["Amplituda"] = temperatura["Lipiec"] - temperatura["Styczeń"]

# c) Ciepłe_miasto (średnia > 11)
temperatura["Ciepłe_miasto"] = temperatura["Średnia_roczna"] > 11

display(temperatura)


## **Zadanie: zaawansowane**


```
# Nowy dataset dla zaawansowanego zadania
wyniki_egzaminy = pd.DataFrame({
    'Student': ['Anna', 'Bartek', 'Celina', 'Damian', 'Ewa', 'Filip', 'Gabriela', 'Hubert'],
    'Matematyka': [85, 92, 78, 88, 95, 72, 89, 81],
    'Fizyka': [78, 88, 82, 75, 91, 68, 85, 79],
    'Informatyka': [92, 85, 88, 90, 89, 95, 82, 87],
    'Kierunek': ['Informatyka', 'Fizyka', 'Matematyka', 'Informatyka',
                 'Matematyka', 'Informatyka', 'Fizyka', 'Matematyka']
})
```





a) Dodaj kolumnę 'Średnia' z wyników z trzech przedmiotów

b) Dodaj kolumnę 'Status' - 'Zaliczony' jeśli średnia >= 85, 'Niezaliczony' w przeciwnym razie

c) Dla każdego kierunku znajdź studenta z najwyższą średnią:
   - Przefiltruj po kierunku
   - Posortuj według średniej malejąco
   - Weź pierwszy wiersz
   - Wykonaj dla każdego z 3 kierunków

d) Znajdź wszystkich studentów informatyki, którzy mają średnią >= 85
   i wynik z informatyki >= 90, posortowanych według średniej malejąco

In [None]:
# Zadanie zaawansowane
# Tworzymy dataset
wyniki_egzaminy = pd.DataFrame({
    'Student': ['Anna', 'Bartek', 'Celina', 'Damian', 'Ewa', 'Filip', 'Gabriela', 'Hubert'],
    'Matematyka': [85, 92, 78, 88, 95, 72, 89, 81],
    'Fizyka': [78, 88, 82, 75, 91, 68, 85, 79],
    'Informatyka': [92, 85, 88, 90, 89, 95, 82, 87],
    'Kierunek': ['Informatyka', 'Fizyka', 'Matematyka', 'Informatyka',
                 'Matematyka', 'Informatyka', 'Fizyka', 'Matematyka']
})

# a) kolumna 'Średnia'
wyniki_egzaminy["Średnia"] = wyniki_egzaminy[["Matematyka","Fizyka","Informatyka"]].mean(axis=1)

# b) kolumna 'Status'
wyniki_egzaminy["Status"] = np.where(wyniki_egzaminy["Średnia"] >= 85, "Zaliczony", "Niezaliczony")

print("Tabela wyników z kolumnami 'Średnia' i 'Status':")
display(wyniki_egzaminy)

# c) dla każdego kierunku — student z najwyższą średnią
print("\nNajlepsi studenci per kierunek:")
best_per_dir = (wyniki_egzaminy
                .sort_values(["Kierunek","Średnia"], ascending=[True, False])
                .groupby("Kierunek", as_index=False)
                .head(1))
display(best_per_dir[["Kierunek","Student","Średnia"]])

# d) Informatyka: średnia >=85 i Informatyka >=90, sort malejąco po średniej
print("\nInformatyka — filtr: Średnia >= 85 i Informatyka >= 90:")
filtr_inf = (wyniki_egzaminy
             .query("Kierunek == 'Informatyka'")
             .query("Średnia >= 85 and Informatyka >= 90")
             .sort_values("Średnia", ascending=False))
display(filtr_inf[["Student","Średnia","Informatyka","Kierunek"]])
