# Warsztaty KNIF - 09.01.2023r.

![pandas.png](attachment:pandas.png)

# Czym jest biblioteka Pandas?

In [1]:
import pandas as pd
import numpy as np 

**Pandas** (skrót od "Python data analysis"), jest jednym z najbardziej rozbudowanych pakietów, do analizy danych, w Python. Możemy za jego pomocą, wczytywać dane, czyścić, modyfikować, a nawet analizować. Wszystko to co umożliwia nam SQL, Excel i dużo więcej.

Pandas jest zbudowany na bazie dwóch innych biobliotek – numpy i matplotlib.

**NumPy** to biblioteka dodająca obsługę dużych, wielowymiarowych tabel i macierzy.

**Matplotlib** to z kolei biblioteka do tworzenia wykresów i wizualizacji danych.

Oprócz funkcjonalności, Pandas jest biblioteką intuicyjną i przejrzystą.

## Pandas Series

Pierwszy typ danych to "Series". Dla analogii, możemy porównać ją do kolumny z Excela. Działa ona podobnie do listy w Python, jednak daje nam większe możliwości.

Dla przykładu stwórzmy "kolumnę" liczbową:

In [2]:
kol = pd.Series([-4,0,2,4,6,23]) 
kol

0    -4
1     0
2     2
3     4
4     6
5    23
dtype: int64

### Działania przeróżne

In [3]:
# mnożenie
kol*10

0    -40
1      0
2     20
3     40
4     60
5    230
dtype: int64

In [4]:
# moduł
kol.abs()

0     4
1     0
2     2
3     4
4     6
5    23
dtype: int64

In [5]:
# trochę statystyki
kol.describe()

count     6.000000
mean      5.166667
std       9.389711
min      -4.000000
25%       0.500000
50%       3.000000
75%       5.500000
max      23.000000
dtype: float64

### Manipulacja indeksami

In [6]:
kol.index

RangeIndex(start=0, stop=6, step=1)

In [10]:
kol.index += 200
kol

800    -4
801     0
802     2
803     4
804     6
805    23
dtype: int64

In [11]:
kol.index = ["a", "b", "c", "d", "e", "f"]
kol

a    -4
b     0
c     2
d     4
e     6
f    23
dtype: int64

Pandas Series może zawierać różne typy danych, nie tylko liczbowe

Stwórzmy listę, która zawiera więcej niż jeden typ danych:

In [12]:
tr = ["Wyczółkowski", 390, False, "Wyczółkowski", None, "Baczyński", "Orzeszkowa", 21.37, np.NaN]
tr

['Wyczółkowski',
 390,
 False,
 'Wyczółkowski',
 None,
 'Baczyński',
 'Orzeszkowa',
 21.37,
 nan]

In [13]:
# Tworzymy pandasową serię danych (1-wymiarową)
IC = pd.Series(tr)
IC

0    Wyczółkowski
1             390
2           False
3    Wyczółkowski
4            None
5       Baczyński
6      Orzeszkowa
7           21.37
8             NaN
dtype: object

In [16]:
# Wyświetlanie pierwszych wyrazów (domyślnie 5)
IC.head(3)

0    Wyczółkowski
1             390
2           False
dtype: object

In [17]:
# Wyświetlanie ostatnich wyrazów (domyślnie 5)
IC.tail(2)

7    21.37
8      NaN
dtype: object

In [18]:
IC.count()

7

In [19]:
IC.nunique()

6

In [20]:
IC.value_counts()

Wyczółkowski    2
False           1
Orzeszkowa      1
21.37           1
Baczyński       1
390             1
dtype: int64

## Pandas DataFrame

Drugi typ danych, to DataFrame. O ile "Series" porównywaliśmy do kolumny, o tyle DataFrame możemy nazwać odpowiednikiem tabeli.

In [21]:
spółka = ["Arriva RP",
"Koleje Dolnośląskie",
"Koleje Małopolskie",
"Koleje Mazowieckie",
"Koleje Śląskie",
"Koleje Wielkopolskie",
"Leo Express",
"Łódzka Kolej Aglomeracyjna",
"PKP Intercity",
"PKP SKM",
"POLREGIO",
"RegioJet",
"SKM Warszawa",
"SKPL Cargo",
"Usedomer Baderbahn",
"Warszawska Kolej Dojazdowa"]

In [22]:
lipiec = [89.47,79.17,91.06,90.46,91.46,90.38,92.86,84.75,55.50,94.18,84.77,38.30,93.84,92.31,90.70,99.60]

In [23]:
sierpień = [94.18,79.49,91.79,89.89,92.36,92.34,76.92,88.89,58.27,96.04,86.26,50.81,93.64,95.67,91.59,98.79]

In [24]:
wrzesień = [95.03,82.98,95.12,92.09,93.37,92.51,92.59,86.57,74.50,95.96,89.84,50.00,92.46,95.93,97.45,98.70]

In [25]:
III_kwartał = [92.91,80.53,92.63,90.83,92.42,91.74,87.65,86.74,62.32,95.38,86.93,46.48,93.32,94.78,93.70,99.03]

In [26]:
dic = {"Spółka": spółka, 
       "lipiec": lipiec,
       "sierpień": sierpień,
       "wrzesień": wrzesień,
       "III kwartał": III_kwartał}
pkp = pd.DataFrame(dic, columns=dic.keys())
pkp

Unnamed: 0,Spółka,lipiec,sierpień,wrzesień,III kwartał
0,Arriva RP,89.47,94.18,95.03,92.91
1,Koleje Dolnośląskie,79.17,79.49,82.98,80.53
2,Koleje Małopolskie,91.06,91.79,95.12,92.63
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83
4,Koleje Śląskie,91.46,92.36,93.37,92.42
5,Koleje Wielkopolskie,90.38,92.34,92.51,91.74
6,Leo Express,92.86,76.92,92.59,87.65
7,Łódzka Kolej Aglomeracyjna,84.75,88.89,86.57,86.74
8,PKP Intercity,55.5,58.27,74.5,62.32
9,PKP SKM,94.18,96.04,95.96,95.38


In [27]:
# rozmiar tabeli
pkp.shape

(16, 5)

In [28]:
# nazwy kolumn
pkp.columns

Index(['Spółka', 'lipiec', 'sierpień', 'wrzesień', 'III kwartał'], dtype='object')

In [29]:
# Wyświetlenie konkretnej kolumny
pkp["lipiec"]

0     89.47
1     79.17
2     91.06
3     90.46
4     91.46
5     90.38
6     92.86
7     84.75
8     55.50
9     94.18
10    84.77
11    38.30
12    93.84
13    92.31
14    90.70
15    99.60
Name: lipiec, dtype: float64

In [30]:
pkp.lipiec

0     89.47
1     79.17
2     91.06
3     90.46
4     91.46
5     90.38
6     92.86
7     84.75
8     55.50
9     94.18
10    84.77
11    38.30
12    93.84
13    92.31
14    90.70
15    99.60
Name: lipiec, dtype: float64

In [31]:
# Wyświetlenie dwóch kolumn
pkp[["Spółka", "lipiec"]]

Unnamed: 0,Spółka,lipiec
0,Arriva RP,89.47
1,Koleje Dolnośląskie,79.17
2,Koleje Małopolskie,91.06
3,Koleje Mazowieckie,90.46
4,Koleje Śląskie,91.46
5,Koleje Wielkopolskie,90.38
6,Leo Express,92.86
7,Łódzka Kolej Aglomeracyjna,84.75
8,PKP Intercity,55.5
9,PKP SKM,94.18


In [32]:
# Wyświetlenie konkretnego wiersza (w tym wypadku 10)
pkp[9:10]

Unnamed: 0,Spółka,lipiec,sierpień,wrzesień,III kwartał
9,PKP SKM,94.18,96.04,95.96,95.38


In [33]:
# ewentualnie
pkp.loc[9]

Spółka         PKP SKM
lipiec           94.18
sierpień         96.04
wrzesień         95.96
III kwartał      95.38
Name: 9, dtype: object

Jak wyszukać interesujące nas dane? Załóżmy, że szukamy wszystkich spółek które w lipcu zanotowały punktualność poniżej 60%.

In [34]:
pkp["lipiec"] < 60

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8      True
9     False
10    False
11     True
12    False
13    False
14    False
15    False
Name: lipiec, dtype: bool

In [35]:
# Nakładamy maskę
pkp[pkp["lipiec"] < 60]

Unnamed: 0,Spółka,lipiec,sierpień,wrzesień,III kwartał
8,PKP Intercity,55.5,58.27,74.5,62.32
11,RegioJet,38.3,50.81,50.0,46.48


In [36]:
#Wyświetlanie konkretnych informacji
pkp[["Spółka", "lipiec"]][pkp["lipiec"] < 60]

Unnamed: 0,Spółka,lipiec
8,PKP Intercity,55.5
11,RegioJet,38.3


In [37]:
# Możemy też dodawać kilka warunków naraz
pkp[(80 < pkp["III kwartał"]) & (pkp["III kwartał"] < 90)]

Unnamed: 0,Spółka,lipiec,sierpień,wrzesień,III kwartał
1,Koleje Dolnośląskie,79.17,79.49,82.98,80.53
6,Leo Express,92.86,76.92,92.59,87.65
7,Łódzka Kolej Aglomeracyjna,84.75,88.89,86.57,86.74
10,POLREGIO,84.77,86.26,89.84,86.93


### Sortowanie danych

Powiedzmy, że chcemy posortować nasze dane względem punktualności w III kwartale. Możemy to zrobić w następujący sposób:

In [38]:
# Tworzymy kopię
pkb = pkp.copy()
pkb.head()

Unnamed: 0,Spółka,lipiec,sierpień,wrzesień,III kwartał
0,Arriva RP,89.47,94.18,95.03,92.91
1,Koleje Dolnośląskie,79.17,79.49,82.98,80.53
2,Koleje Małopolskie,91.06,91.79,95.12,92.63
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83
4,Koleje Śląskie,91.46,92.36,93.37,92.42


In [39]:
# Sortowanie rosnąco
pkb.sort_values(by = ["III kwartał"])

Unnamed: 0,Spółka,lipiec,sierpień,wrzesień,III kwartał
11,RegioJet,38.3,50.81,50.0,46.48
8,PKP Intercity,55.5,58.27,74.5,62.32
1,Koleje Dolnośląskie,79.17,79.49,82.98,80.53
7,Łódzka Kolej Aglomeracyjna,84.75,88.89,86.57,86.74
10,POLREGIO,84.77,86.26,89.84,86.93
6,Leo Express,92.86,76.92,92.59,87.65
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83
5,Koleje Wielkopolskie,90.38,92.34,92.51,91.74
4,Koleje Śląskie,91.46,92.36,93.37,92.42
2,Koleje Małopolskie,91.06,91.79,95.12,92.63


In [40]:
# Sortowanie malejąco
pkb.sort_values(by = ["III kwartał"], ascending = False)

Unnamed: 0,Spółka,lipiec,sierpień,wrzesień,III kwartał
15,Warszawska Kolej Dojazdowa,99.6,98.79,98.7,99.03
9,PKP SKM,94.18,96.04,95.96,95.38
13,SKPL Cargo,92.31,95.67,95.93,94.78
14,Usedomer Baderbahn,90.7,91.59,97.45,93.7
12,SKM Warszawa,93.84,93.64,92.46,93.32
0,Arriva RP,89.47,94.18,95.03,92.91
2,Koleje Małopolskie,91.06,91.79,95.12,92.63
4,Koleje Śląskie,91.46,92.36,93.37,92.42
5,Koleje Wielkopolskie,90.38,92.34,92.51,91.74
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83


In [None]:
pkb

### Zmiana nazwy kolumny

In [43]:
pkp.rename(columns = {'Spółka':'Nazwa spółki'}, inplace = True)
pkp.head()

Unnamed: 0,Nazwa spółki,lipiec,sierpień,wrzesień,III kwartał
0,Arriva RP,89.47,94.18,95.03,92.91
1,Koleje Dolnośląskie,79.17,79.49,82.98,80.53
2,Koleje Małopolskie,91.06,91.79,95.12,92.63
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83
4,Koleje Śląskie,91.46,92.36,93.37,92.42


### Zmiana pojedynczej komórki (.loc)

In [44]:
pkp.loc[pkp["Nazwa spółki"] == "Koleje Dolnośląskie","Nazwa spółki"]

1    Koleje Dolnośląskie
Name: Nazwa spółki, dtype: object

In [45]:
pkp.loc[pkp["Nazwa spółki"] == "Koleje Dolnośląskie","Nazwa spółki"] = "Koleje Górnośląskie"
pkp.head()

Unnamed: 0,Nazwa spółki,lipiec,sierpień,wrzesień,III kwartał
0,Arriva RP,89.47,94.18,95.03,92.91
1,Koleje Górnośląskie,79.17,79.49,82.98,80.53
2,Koleje Małopolskie,91.06,91.79,95.12,92.63
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83
4,Koleje Śląskie,91.46,92.36,93.37,92.42


### inny sposób (.at)

In [46]:
pkp.at[1,"Nazwa spółki"]

'Koleje Górnośląskie'

In [47]:
pkp.at[1, "Nazwa spółki"] = "Koleje Środkowośląskie"
pkp.head()

Unnamed: 0,Nazwa spółki,lipiec,sierpień,wrzesień,III kwartał
0,Arriva RP,89.47,94.18,95.03,92.91
1,Koleje Środkowośląskie,79.17,79.49,82.98,80.53
2,Koleje Małopolskie,91.06,91.79,95.12,92.63
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83
4,Koleje Śląskie,91.46,92.36,93.37,92.42


### Dodawanie danych

In [48]:
coś = pkp["lipiec"]-pkp["III kwartał"]
coś

0    -3.44
1    -1.36
2    -1.57
3    -0.37
4    -0.96
5    -1.36
6     5.21
7    -1.99
8    -6.82
9    -1.20
10   -2.16
11   -8.18
12    0.52
13   -2.47
14   -3.00
15    0.57
dtype: float64

In [49]:
pkp["różnica"] = coś
pkp.head()

Unnamed: 0,Nazwa spółki,lipiec,sierpień,wrzesień,III kwartał,różnica
0,Arriva RP,89.47,94.18,95.03,92.91,-3.44
1,Koleje Środkowośląskie,79.17,79.49,82.98,80.53,-1.36
2,Koleje Małopolskie,91.06,91.79,95.12,92.63,-1.57
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83,-0.37
4,Koleje Śląskie,91.46,92.36,93.37,92.42,-0.96


### inny sposób (insert)

In [50]:
pkp.insert(1, "AAA", coś)

In [51]:
pkp.head()

Unnamed: 0,Nazwa spółki,AAA,lipiec,sierpień,wrzesień,III kwartał,różnica
0,Arriva RP,-3.44,89.47,94.18,95.03,92.91,-3.44
1,Koleje Środkowośląskie,-1.36,79.17,79.49,82.98,80.53,-1.36
2,Koleje Małopolskie,-1.57,91.06,91.79,95.12,92.63,-1.57
3,Koleje Mazowieckie,-0.37,90.46,89.89,92.09,90.83,-0.37
4,Koleje Śląskie,-0.96,91.46,92.36,93.37,92.42,-0.96


### Usuwanie danych

In [52]:
# usuwanie kolumny
pkp.drop(["AAA"], axis = 1, inplace = True) # ewentualnie pkp.drop(pkp.columns[1], ...)

In [53]:
pkp.head()

Unnamed: 0,Nazwa spółki,lipiec,sierpień,wrzesień,III kwartał,różnica
0,Arriva RP,89.47,94.18,95.03,92.91,-3.44
1,Koleje Środkowośląskie,79.17,79.49,82.98,80.53,-1.36
2,Koleje Małopolskie,91.06,91.79,95.12,92.63,-1.57
3,Koleje Mazowieckie,90.46,89.89,92.09,90.83,-0.37
4,Koleje Śląskie,91.46,92.36,93.37,92.42,-0.96


In [54]:
# usuwanie wierszy
pkp.drop(pkp[pkp["lipiec"] < 90].index, inplace = True)

In [59]:
pkp.drop([15], inplace = True)

In [60]:
pkp

Unnamed: 0,Nazwa spółki,lipiec,sierpień,wrzesień,III kwartał,różnica
5,Koleje Wielkopolskie,90.38,92.34,92.51,91.74,-1.36
6,Leo Express,92.86,76.92,92.59,87.65,5.21
9,PKP SKM,94.18,96.04,95.96,95.38,-1.2
12,SKM Warszawa,93.84,93.64,92.46,93.32,0.52
13,SKPL Cargo,92.31,95.67,95.93,94.78,-2.47
14,Usedomer Baderbahn,90.7,91.59,97.45,93.7,-3.0


In [61]:
pkp.reset_index(drop = True)

Unnamed: 0,Nazwa spółki,lipiec,sierpień,wrzesień,III kwartał,różnica
0,Koleje Wielkopolskie,90.38,92.34,92.51,91.74,-1.36
1,Leo Express,92.86,76.92,92.59,87.65,5.21
2,PKP SKM,94.18,96.04,95.96,95.38,-1.2
3,SKM Warszawa,93.84,93.64,92.46,93.32,0.52
4,SKPL Cargo,92.31,95.67,95.93,94.78,-2.47
5,Usedomer Baderbahn,90.7,91.59,97.45,93.7,-3.0


# Zadania

In [66]:
#PKP = pd.read_excel("witam.xlsx")
PKP = pd.read_csv("warsztaty_knif.csv", delimiter = ";", decimal = ",")

In [65]:
import os
os.getcwd()

'C:\\Users\\Michau x'

In [67]:
PKP.head()

Unnamed: 0,nazwa stacji,długość geograficzna,szerokośc geograficzna,województwo,powiat,gmina,wymiana pasażerska,linie kolejowe,średnia zatrzymań,średnia liczba pasażerów na 1 zatrzymanie,Unnamed: 10
0,Biała Podlaska,23.1305,52.0202,Lubelskie,powiat Biała Podlaska,Biała Podlaska,1300,002,27.186301,45,
1,Białogard,15.9776,54.0098,Zachodniopomorskie,powiat białogardzki,Białogard,1200,"202, 404",57.290411,20,
2,Białystok,23.1359,53.134,Podlaskie,powiat Białystok,Białystok,4900,"006, 032, 037, 038, 515, 836",73.846575,65,
3,Bielsko-Biała Główna,19.0454,49.8298,Śląskie,powiat Bielsko-Biała,Bielsko-Biała,4300,"117, 139, 190",70.016438,60,
4,Bochnia,20.4313,49.9773,Małopolskie,powiat bocheński,Bochnia,1800,091,84.238356,20,


## Zadanie 1
* Usuń kolumnę zawierającą wartości NaN
* Zmień nazwę kolumny "średnia liczba pasażerów na 1 zatrzymanie" na "zatłoczenie"

In [68]:
PKP.drop(PKP.columns[PKP.shape[1]-1], axis = 1, inplace = True)
PKP.head()

Unnamed: 0,nazwa stacji,długość geograficzna,szerokośc geograficzna,województwo,powiat,gmina,wymiana pasażerska,linie kolejowe,średnia zatrzymań,średnia liczba pasażerów na 1 zatrzymanie
0,Biała Podlaska,23.1305,52.0202,Lubelskie,powiat Biała Podlaska,Biała Podlaska,1300,002,27.186301,45
1,Białogard,15.9776,54.0098,Zachodniopomorskie,powiat białogardzki,Białogard,1200,"202, 404",57.290411,20
2,Białystok,23.1359,53.134,Podlaskie,powiat Białystok,Białystok,4900,"006, 032, 037, 038, 515, 836",73.846575,65
3,Bielsko-Biała Główna,19.0454,49.8298,Śląskie,powiat Bielsko-Biała,Bielsko-Biała,4300,"117, 139, 190",70.016438,60
4,Bochnia,20.4313,49.9773,Małopolskie,powiat bocheński,Bochnia,1800,091,84.238356,20


In [69]:
PKP.rename(columns = {'średnia liczba pasażerów na 1 zatrzymanie':'zatłoczenie'}, inplace = True)
PKP.head()

Unnamed: 0,nazwa stacji,długość geograficzna,szerokośc geograficzna,województwo,powiat,gmina,wymiana pasażerska,linie kolejowe,średnia zatrzymań,zatłoczenie
0,Biała Podlaska,23.1305,52.0202,Lubelskie,powiat Biała Podlaska,Biała Podlaska,1300,002,27.186301,45
1,Białogard,15.9776,54.0098,Zachodniopomorskie,powiat białogardzki,Białogard,1200,"202, 404",57.290411,20
2,Białystok,23.1359,53.134,Podlaskie,powiat Białystok,Białystok,4900,"006, 032, 037, 038, 515, 836",73.846575,65
3,Bielsko-Biała Główna,19.0454,49.8298,Śląskie,powiat Bielsko-Biała,Bielsko-Biała,4300,"117, 139, 190",70.016438,60
4,Bochnia,20.4313,49.9773,Małopolskie,powiat bocheński,Bochnia,1800,091,84.238356,20


## Zadanie 2
* Posortuj dane malejąco, w zależności od wymiany pasażerskiej
* Zmień indeksowanie w taki sposób, by pierwsza stacja miała indeks 1 a każda kolejna o jeden mniejszy
* Wyświetl 5 pierwszych stacji oraz 7 ostatnich

In [70]:
PKP.sort_values(by = ["wymiana pasażerska"], ascending = False, inplace = True)
PKP.head()

Unnamed: 0,nazwa stacji,długość geograficzna,szerokośc geograficzna,województwo,powiat,gmina,wymiana pasażerska,linie kolejowe,średnia zatrzymań,zatłoczenie
184,Wrocław Główny,17.0363,51.0981,Dolnośląskie,powiat Wrocław,Wrocław,46900,"132, 271, 273, 276, 285, 763",434.427397,110
103,Poznań Główny,16.9117,52.4015,Wielkopolskie,powiat Poznań,Poznań,41000,"003, 271, 272, 351",386.284932,105
55,Kraków Główny,19.9479,50.0685,Małopolskie,powiat Kraków,Kraków,32200,"008, 091, 118, 133",319.638356,100
43,Katowice,19.0173,50.2576,Śląskie,powiat Katowice,Katowice,30400,"001, 137, 138, 139, 656, 713",409.479452,75
151,Warszawa Centralna,21.0027,52.2287,Mazowieckie,powiat Warszawa,Warszawa,24400,002,195.210959,125


In [71]:
PKP.index = range(1,199) # ewentualnie PKP.reset_index(drop=True) i PKP.index += 1
PKP.head()

Unnamed: 0,nazwa stacji,długość geograficzna,szerokośc geograficzna,województwo,powiat,gmina,wymiana pasażerska,linie kolejowe,średnia zatrzymań,zatłoczenie
1,Wrocław Główny,17.0363,51.0981,Dolnośląskie,powiat Wrocław,Wrocław,46900,"132, 271, 273, 276, 285, 763",434.427397,110
2,Poznań Główny,16.9117,52.4015,Wielkopolskie,powiat Poznań,Poznań,41000,"003, 271, 272, 351",386.284932,105
3,Kraków Główny,19.9479,50.0685,Małopolskie,powiat Kraków,Kraków,32200,"008, 091, 118, 133",319.638356,100
4,Katowice,19.0173,50.2576,Śląskie,powiat Katowice,Katowice,30400,"001, 137, 138, 139, 656, 713",409.479452,75
5,Warszawa Centralna,21.0027,52.2287,Mazowieckie,powiat Warszawa,Warszawa,24400,002,195.210959,125


In [None]:
PKP.tail(7)

## Zadanie 3
* Znajdź i wyświetl nazwy czterech województw z największą liczbą stacji kolejowych
* Znajdź średnią ilość stacji przypadających na jedno województwo

In [None]:
PKP["województwo"].value_counts().head(4)

In [None]:
PKP["województwo"].value_counts().mean()

## Zadanie 4
* Wyświetl nazwy stacji, których średnia zatrzymań znajduje się w przedziale (40, 45)

In [72]:
PKP[(PKP["średnia zatrzymań"] > 40) & (PKP["średnia zatrzymań"] < 45)]

Unnamed: 0,nazwa stacji,długość geograficzna,szerokośc geograficzna,województwo,powiat,gmina,wymiana pasażerska,linie kolejowe,średnia zatrzymań,zatłoczenie
90,Elbląg,19.4163,54.1508,Warmińsko-Mazurskie,powiat Elbląg,Elbląg,2200,204,43.59726,50
104,Gorzów Wielkopolski,15.2293,52.7273,Lubuskie,powiat Gorzów Wielkopolski,Gorzów Wielkopolski,1900,"203, 367, 415",42.263014,45
127,Strzelin,17.0603,50.7848,Dolnośląskie,powiat strzeliński,Strzelin,1600,276,40.534247,40
141,Brzeg Dolny,16.726,51.2665,Dolnośląskie,powiat wołowski,Brzeg Dolny,1400,273,41.257534,35
147,Wołów,16.6334,51.3335,Dolnośląskie,powiat wołowski,Wołów,1300,273,41.243836,30


## Zadanie 5
* Stwórz kopię danych, a następnie zmień w jej obrębie nazwę drugiej stacji na "KNIF Główny" oraz usuń dane o dwóch ostatnich stacjach

In [None]:
kopia = PKP.copy()

In [None]:
kopia.at[1, "nazwa stacji"] = "KNIF Główny"
kopia.head()

In [None]:
kopia.tail()

In [None]:
kopia.drop([kopia.shape[0]-1, kopia.shape[0]-2], inplace = True)

In [None]:
kopia.tail()

## Zadanie 6

* Stwórz nową kolumnę "bajo jajo", która będzie stosunkiem wymiany pasażerskiej danej stacji do jej długości geograficznej.

In [None]:
PKP["bajo jajo"] = PKP["wymiana pasażerska"]/PKP["długość geograficzna"]
PKP.head()