<a href="https://colab.research.google.com/github/trypuz/ai_dla_kazdego/blob/main/data_science_dla_kazdego/pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Pandas

Pandas, od angielskiej frazy *panel data analysis, jest biblioteką służącą do przetwarzania danych, w szczególności analizy danych.

Podstawowymi obiektami Pandas są obiekty typu `Series` i `DataFrame`. Pierwsze z wymienionych można rozumieć jako wektory Numpy z etykietami (ang. *labels*) indeksów wierszy (choć ściśle rzecz ujmując od wersji 0.13.0 `Series` nie są już podklasą klasy `ndarray` NumPy, lecz `NDFrame`). Natomiast obiekty typu `DataFrame` są tabelami z etykietami zarówno dla ideksów (wierszy) jak i kolumn. 

Połączenie etykiet z danymi jest bardzo silne w Pandas i pozwala na różne interesujące operacje, o których napiszemy poniżej.

Pandas importujemy za pomocą `import pandas as pd`.

In [2]:
import numpy as np
import pandas as pd

## Series

Obiekty typu `Series` możemy utworzyć z listy lub z wektora Numpy:

In [None]:
l = [1, 2, 3]
pd.Series(l)

0    1
1    2
2    3
dtype: int64

In [None]:
a = np.array(l)
pd.Series(a)

0    1
1    2
2    3
dtype: int64

In [41]:
pd.Series(np.random.randint(0,10,5))

0    4
1    5
2    0
3    4
4    5
dtype: int64

Zauważmy, że automatycznie pojawiły się indeksy numeryczne od `0` do `2`.

Gdybyśmy chcieli nadać własne nazwy indeksom możemy zrobić to tak:

In [None]:
labels = ['label1','label2','label3']
pd.Series(data=l, index=labels)

label1    1
label2    2
label3    3
dtype: int64

In [None]:
pd.Series(data=a, index=labels)

label1    1
label2    2
label3    3
dtype: int64

Jeśli danych będzie mniej niż etykiet, to otrzymamy następujący obiekt:

Poręcznie jest tworzyć obiekty `Series` korzystając ze słowników. Klucze słownika staną się indeksami, a wartości słownika danymi.

In [10]:
d = {'k1': 1, 'k2':2, 'k3': 3}
pd.Series(d)

k1    1
k2    2
k3    3
dtype: int64

Możemy również dodać własny indeks do słownika, który jeśli będzie korespondował z kluczami słownika, to ,,przejmie,, wartości ze słownika. Etykiety z indeksu, które nie będą miały odpowienika wśród kluczy słownika, otrzymają przypisaną wartość `Nan` (ang. *not a number*), która oznacza brakujące dane.

In [11]:
pd.Series(data=d, index=['k2', 'k3', 'k1', 'k4'])

k2    2.0
k3    3.0
k1    1.0
k4    NaN
dtype: float64

Nadawanie znaczących nazw indeksom jest możliwe i sensowne, gdy rozumiemy dane. Na przykład poniżej utworzymy dwa obiekty typu `Series`, które będą przechowywać dane dotyczące liczby ludności w danym kraju w roku 1922 i 2022.

In [13]:
countries = ['USA', 'Italy', 'Germany', 'Poland']
population_1922 = pd.Series(data=[110, 37, 62, 24], index=countries)
population_2022 = pd.Series(data=[331, 60, 83, 38], index=countries)
population_2022

USA        331
Italy       60
Germany     83
Poland      38
dtype: int64

Pomimo tego, że `Series` nie są już podklasą `ndarray`, to zachowują się one bardzo podobnie jak tablice. Na przykład pobieranie elementów z `Series`, `slicing`, filtrowanie, czy operacje matematyczne wyglądają bardzo podobnie.

Na przykład za pomocą numeru pozycji możemy pobrać dane dotyczące liczby lubności w konkretnym kraju, np.:

In [14]:
population_2022[-1]

38

Możemy to również zrobić za pomocą nazwy indeksu, np.:

In [None]:
population_2022['Poland']

38

Poniżej widzimy użycie *slicing*u: 

In [15]:
population_2022[:3]

USA        331
Italy       60
Germany     83
dtype: int64

In [17]:
population_1922[population_1922 > 50]

USA        110
Germany     62
dtype: int64

Gdybyśmy chcieli zbadać przyrost ludności od 1922 do 2022, to możemy zrobić to bardzo prosto:

In [None]:
population_2022 - population_1922

USA        221
Italy       23
Germany     21
Poland      14
dtype: int64

Możemy również sprawdzić jak będzie liczba ludności w danym kraju, jeśli aktualna się podwoi:

In [18]:
population_2022 * 2

USA        662
Italy      120
Germany    166
Poland      76
dtype: int64

Interesujące jest zachowanie `Series` gdy chcemy wykonać operacje na dwóch obiektach tego typu, które tylko w części mają te same indeksy. Weźmy `population_2022[:3]`, czyli dane bez `Poland` i  `population_2022[2:]`, czyli dane bez `USA` i `Italy`. Obia obiekty mają więc tylko jeden wspólny indeks, `Germany`. Wykonajmy teraz na tych tablicach operację `+`:

In [20]:
population_2022[:3] + population_2022[2:]

Germany    166.0
Italy        NaN
Poland       NaN
USA          NaN
dtype: float64

## DataFrame

Obiekt typu `DataFrame` można utworzyć z wektorów i macierzy NumPy, z list i słowników, oraz obiektów typu `Series`.

W taki sposób tworzymy obiekt typu `DataFrame` z macierzy Numpy:

In [24]:
np.random.seed(43)
a = np.random.randint(1,10,(3,4))
df = pd.DataFrame(data=a)
df

Unnamed: 0,0,1,2,3
0,5,1,2,6
1,1,4,2,3
2,8,1,4,3


In [55]:
index = ['R1', 'R2', 'R3']
columns = ['C1', 'C2', 'C3', 'C4']

df = pd.DataFrame(data=a, index=index, columns=columns)
df

Unnamed: 0,C1,C2,C3,C4
R1,2,3,3,4
R2,6,5,5,1
R3,6,9,1,1


W taki sposób tworzymy obiekt typu `DataFrame` ze słownika, którego wartościami są obiekty `Series`:

In [57]:
s = {'C1': pd.Series([1, 2, 3], index=['R1', 'R2', 'R3']),
     'C2': pd.Series([4, 5, 6, 7], index=['R1', 'R2', 'R3', 'R4'])}

df = pd.DataFrame(s)
df 

Unnamed: 0,C1,C2
R1,1.0,4
R2,2.0,5
R3,3.0,6
R4,,7


Można załadować wybrane wiersze i kolumny:

In [58]:
s = {'C1': pd.Series([1, 2, 3], index=['R1', 'R2', 'R3']),
     'C2': pd.Series([4, 5, 6, 7], index=['R1', 'R2', 'R3', 'R4'])}

df = pd.DataFrame(s, index=['R4', 'R3', 'R1'], columns=['C2'])
df 

Unnamed: 0,C2
R4,7
R3,6
R1,4


Możemy również wykorzystać listę słowników:

In [59]:
l = [{'C1': 1, 'C2': 4},
     {'C1': 2, 'C2': 5},
     {'C1': 3, 'C2': 6}]

df = pd.DataFrame(l, index=['R1', 'R2', 'R3'])
df

Unnamed: 0,C1,C2
R1,1,4
R2,2,5
R3,3,6


Albo słownik z listami:

In [60]:
d = {'C1': [1, 2, 3],
     'C2': [4, 5, 6]}

df = pd.DataFrame(d, index=['R1', 'R2', 'R3'])
df

Unnamed: 0,C1,C2
R1,1,4
R2,2,5
R3,3,6


### Pobieranie i zmiana elementów `DataFrame`

Do pobierania i zmiany elementów `DataFrame` możemy wykorzystać metody znane z pracy ze słownikami lub `Series`.

In [107]:
index = ['R1', 'R2', 'R3']
columns = ['C1', 'C2', 'C3', 'C4']
a = np.random.randint(1,10,(3,4))
df = pd.DataFrame(data=a, index=index, columns=columns)
df

Unnamed: 0,C1,C2,C3,C4
R1,6,9,1,4
R2,7,5,7,8
R3,5,6,9,5


Pobranie kolumny:

In [108]:
df['C1']

R1    6
R2    7
R3    5
Name: C1, dtype: int64

Do pobranie kilku kolumn należy użyć listy etykiet:

In [109]:
df[['C1', 'C2']] # passing list

Unnamed: 0,C1,C2
R1,6,9
R2,7,5
R3,5,6


Łatwo jest dodać nową kolumnę. Poniżej tworzymy nową kolumnę będącą sumą dwóch pierwszych:

In [110]:
df['C1+C2'] = df['C1'] + df['C2']
df

Unnamed: 0,C1,C2,C3,C4,C1+C2
R1,6,9,1,4,15
R2,7,5,7,8,12
R3,5,6,9,5,11


Możemy kolumnę usunąć z widoku, ale nie z `DataFrame` za pomocą funkcji `drop` (ważne jest wskazanie osi `axis=1`):

In [111]:
df.drop('C1+C2', axis=1)

Unnamed: 0,C1,C2,C3,C4
R1,6,9,1,4
R2,7,5,7,8
R3,5,6,9,5


In [112]:
df

Unnamed: 0,C1,C2,C3,C4,C1+C2
R1,6,9,1,4,15
R2,7,5,7,8,12
R3,5,6,9,5,11


Użycie `drop` dla indeksów (wierszy) ma permanetny skutek:

In [113]:
df = df.drop('R1', axis=0)
df

Unnamed: 0,C1,C2,C3,C4,C1+C2
R2,7,5,7,8,12
R3,5,6,9,5,11


Podobnie `pop` dla kolumn:

In [114]:
df.pop('C1+C2')
df

Unnamed: 0,C1,C2,C3,C4
R2,7,5,7,8
R3,5,6,9,5


Wróćmy do początkowej postaci `df`:

In [123]:
df = pd.DataFrame(data=a, index=index, columns=columns)
df

Unnamed: 0,C1,C2,C3,C4
R1,6,9,1,4
R2,7,5,7,8
R3,5,6,9,5


Pobranie wiersza lub wierszy:

In [124]:
df.loc['R1'] # look for a row

C1    6
C2    9
C3    1
C4    4
Name: R1, dtype: int64

In [125]:
df.loc[['R1', 'R2']] # passing a list of rows

Unnamed: 0,C1,C2,C3,C4
R1,6,9,1,4
R2,7,5,7,8


Możemy również skorzystać z funkcji `iloc` i indeksów numerycznych:

In [126]:
df.iloc[0]

C1    6
C2    9
C3    1
C4    4
Name: R1, dtype: int64

In [127]:
df.iloc[-1]

C1    5
C2    6
C3    9
C4    5
Name: R3, dtype: int64

In [128]:
df.iloc[0:2]

Unnamed: 0,C1,C2,C3,C4
R1,6,9,1,4
R2,7,5,7,8


`loc` może również posłużyć do pobrania elementu lub fragmentu `DataFrame`:

In [130]:
df.loc['R1', 'C1']

6

In [131]:
df.loc[['R1', 'R2'], ['C1', 'C2']]

Unnamed: 0,C1,C2
R1,6,9
R2,7,5


Filtrowanie

In [132]:
df > 5

Unnamed: 0,C1,C2,C3,C4
R1,True,True,False,False
R2,True,False,True,True
R3,False,True,True,False


In [138]:
df[df > 5]

Unnamed: 0,C1,C2,C3,C4
R1,6.0,9.0,,
R2,7.0,,7.0,8.0
R3,,6.0,9.0,


In [139]:
df['C1'] > 5 # columns are efatures

R1     True
R2     True
R3    False
Name: C1, dtype: bool

In [136]:
df[df['C1']>2]

Unnamed: 0,C1,C2,C3,C4
R1,6,9,1,4
R2,7,5,7,8
R3,5,6,9,5


In [140]:
df[df['C1']>2]['C2']

R1    9
R2    5
R3    6
Name: C2, dtype: int64

In [141]:
(df['C1']>1) & (df['C3']<5)

R1     True
R2    False
R3    False
dtype: bool

In [142]:
(df['C1']>1) | (df['C3']<5)

R1    True
R2    True
R3    True
dtype: bool

In [143]:
df[(df['C1']>1) & (df['C3']<5)]

Unnamed: 0,C1,C2,C3,C4
R1,6,9,1,4


In [144]:
df

Unnamed: 0,C1,C2,C3,C4
R1,6,9,1,4
R2,7,5,7,8
R3,5,6,9,5


In [None]:
df.reset_index()

Unnamed: 0,index,C1,C2,C3,C4
0,R1,5,1,2,6
1,R2,1,4,2,3
2,R3,8,1,4,3


In [None]:
new_index = ['A', 'B', 'C']
df['new_index'] = new_index

In [None]:
df

Unnamed: 0,C1,C2,C3,C4,new_index
R1,5,1,2,6,A
R2,1,4,2,3,B
R3,8,1,4,3,C


In [None]:
df.set_index('new_index') # new_index is not an index

Unnamed: 0_level_0,C1,C2,C3,C4
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
A,5,1,2,6
B,1,4,2,3
C,8,1,4,3


In [None]:
df = df.set_index('new_index')

In [None]:
df.columns

Index(['C1', 'C2', 'C3', 'C4'], dtype='object')

In [None]:
df.describe()

Unnamed: 0,C1,C2,C3,C4
count,3.0,3.0,3.0,3.0
mean,4.666667,2.0,2.666667,4.0
std,3.511885,1.732051,1.154701,1.732051
min,1.0,1.0,2.0,3.0
25%,3.0,1.0,2.0,3.0
50%,5.0,1.0,2.0,3.0
75%,6.5,2.5,3.0,4.5
max,8.0,4.0,4.0,6.0


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, A to C
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   C1      3 non-null      int64
 1   C2      3 non-null      int64
 2   C3      3 non-null      int64
 3   C4      3 non-null      int64
dtypes: int64(4)
memory usage: 228.0+ bytes


In [None]:
df.dtypes

C1    int64
C2    int64
C3    int64
C4    int64
dtype: object

## Brakujące dane

In [None]:
index = ['R1', 'R2', 'R3']
columns = ['C1', 'C2', 'C3', 'C4']
data = [[1, np.nan, 3, 4],
        [np.nan, 6, np.nan, 8],
        [9, 10, 11, 12]]

In [None]:
df = pd.DataFrame(data, index, columns)
df

Unnamed: 0,C1,C2,C3,C4
R1,1.0,,3.0,4
R2,,6.0,,8
R3,9.0,10.0,11.0,12


### Usuwanie

In [None]:
df.dropna()

Unnamed: 0,C1,C2,C3,C4
R3,9.0,10.0,11.0,12


In [None]:
df.dropna(axis=1)

Unnamed: 0,C4
R1,4
R2,8
R3,12


In [None]:
df.dropna(thresh=2)

Unnamed: 0,C1,C2,C3,C4
R1,1.0,,3.0,4
R2,,6.0,,8
R3,9.0,10.0,11.0,12


In [None]:
df.dropna(thresh=3)

Unnamed: 0,C1,C2,C3,C4
R1,1.0,,3.0,4
R3,9.0,10.0,11.0,12


In [None]:
perc_75 = 0.75 * len(df)
df.dropna(thresh=perc_75)

Unnamed: 0,C1,C2,C3,C4
R1,1.0,,3.0,4
R3,9.0,10.0,11.0,12


### Uzupełnianie

In [None]:
df

Unnamed: 0,C1,C2,C3,C4
R1,1.0,,3.0,4
R2,,6.0,,8
R3,9.0,10.0,11.0,12


In [None]:
df.fillna(value=0)

Unnamed: 0,C1,C2,C3,C4
R1,1.0,0.0,3.0,4
R2,0.0,6.0,0.0,8
R3,9.0,10.0,11.0,12


In [None]:
df['C1'].fillna(value=0)

R1    1.0
R2    0.0
R3    9.0
Name: C1, dtype: float64

In [None]:
df['C1'].mean()

5.0

In [None]:
df['C1'].fillna(value=df['C1'].mean())

R1    1.0
R2    5.0
R3    9.0
Name: C1, dtype: float64

In [None]:
df.fillna(df.mean())

Unnamed: 0,C1,C2,C3,C4
R1,1.0,8.0,3.0,4
R2,5.0,6.0,7.0,8
R3,9.0,10.0,11.0,12


## Grupowanie

In [None]:
# split apply combine
# aggregation methods: Sum, Std, Mean, Count, Max, Min
# https://www.kaggle.com/code/sohier/tutorial-accessing-data-with-pandas/data

# Park Code
# National Parks Service park code.

# Park Name
# Office park name.

# State
# US state(s) in which the park is located. Comma-separated.

# Acres
# Size of the park in acres.

In [None]:
pwd

'/content'

In [None]:
df = pd.read_csv('parks.csv', usecols=[1,2,3])
df.head()

Unnamed: 0,Park Name,State,Acres
0,Acadia National Park,ME,47390
1,Arches National Park,UT,76519
2,Badlands National Park,SD,242756
3,Big Bend National Park,TX,801163
4,Biscayne National Park,FL,172924


In [None]:
df.groupby('State').count()

Unnamed: 0_level_0,Park Name,Acres
State,Unnamed: 1_level_1,Unnamed: 2_level_1
AK,8,8
AR,1,1
AZ,3,3
CA,7,7
"CA, NV",1,1
CO,4,4
FL,3,3
HI,2,2
KY,1,1
ME,1,1


In [None]:
df.groupby('State').sum()

Unnamed: 0_level_0,Acres
State,Unnamed: 1_level_1
AK,31159251
AR,5550
AZ,1402376
CA,2912014
"CA, NV",4740912
CO,393884
FL,1746163
HI,352525
KY,52830
ME,47390


In [None]:
df.groupby('State').describe()

Unnamed: 0_level_0,Acres,Acres,Acres,Acres,Acres,Acres,Acres,Acres
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
State,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
AK,8.0,3894906.0,2677238.0,669983.0,2402479.0,3298621.0,4636872.0,8323148.0
AR,1.0,5550.0,,5550.0,5550.0,5550.0,5550.0,5550.0
AZ,3.0,467458.7,649471.7,91440.0,92486.5,93533.0,655468.0,1217403.0
CA,7.0,416002.0,371630.4,26606.0,109442.0,249561.0,775505.5,865952.0
"CA, NV",1.0,4740912.0,,4740912.0,4740912.0,4740912.0,4740912.0,4740912.0
CO,4.0,98471.0,111845.7,32950.0,40475.5,47553.0,105548.5,265828.0
FL,3.0,582054.3,804181.0,64701.0,118812.5,172924.0,840731.0,1508538.0
HI,2.0,176262.5,208127.7,29094.0,102678.25,176262.5,249846.75,323431.0
KY,1.0,52830.0,,52830.0,52830.0,52830.0,52830.0,52830.0
ME,1.0,47390.0,,47390.0,47390.0,47390.0,47390.0,47390.0


In [None]:
df.groupby('State').describe().transpose()

Unnamed: 0,State,AK,AR,AZ,CA,"CA, NV",CO,FL,HI,KY,ME,...,OR,SC,SD,"TN, NC",TX,UT,VA,WA,WY,"WY, MT, ID"
Acres,count,8.0,1.0,3.0,7.0,1.0,4.0,3.0,2.0,1.0,1.0,...,1.0,1.0,2.0,1.0,2.0,5.0,1.0,3.0,1.0,1.0
Acres,mean,3894906.0,5550.0,467458.7,416002.0,4740912.0,98471.0,582054.3,176262.5,52830.0,47390.0,...,183224.0,26546.0,135525.5,521490.0,443789.5,167690.8,199045.0,554352.333333,309995.0,2219791.0
Acres,std,2677238.0,,649471.7,371630.378769,,111845.732835,804181.0,208127.688654,,,...,,,151646.8274,,505402.450533,123003.263155,,346185.16575,,
Acres,min,669983.0,5550.0,91440.0,26606.0,4740912.0,32950.0,64701.0,29094.0,52830.0,47390.0,...,183224.0,26546.0,28295.0,521490.0,86416.0,35835.0,199045.0,235625.0,309995.0,2219791.0
Acres,25%,2402479.0,5550.0,92486.5,109442.0,4740912.0,40475.5,118812.5,102678.25,52830.0,47390.0,...,183224.0,26546.0,81910.25,521490.0,265102.75,76519.0,199045.0,370203.0,309995.0,2219791.0
Acres,50%,3298621.0,5550.0,93533.0,249561.0,4740912.0,47553.0,172924.0,176262.5,52830.0,47390.0,...,183224.0,26546.0,135525.5,521490.0,443789.5,146598.0,199045.0,504781.0,309995.0,2219791.0
Acres,75%,4636872.0,5550.0,655468.0,775505.5,4740912.0,105548.5,840731.0,249846.75,52830.0,47390.0,...,183224.0,26546.0,189140.75,521490.0,622476.25,241904.0,199045.0,713716.0,309995.0,2219791.0
Acres,max,8323148.0,5550.0,1217403.0,865952.0,4740912.0,265828.0,1508538.0,323431.0,52830.0,47390.0,...,183224.0,26546.0,242756.0,521490.0,801163.0,337598.0,199045.0,922651.0,309995.0,2219791.0


## Operacje

In [None]:
students = {'student':['Adamski', 'Adamski', 'Adamski', 'Bachleda', 'Bachleda', 'Curuś', 'Curuś'],
            'grade':[2, 3, 3, 5, 5, 3, 5],
            'test':['kol1', 'kol2', 'kol2', 'kol1', 'kol3', 'kol2', 'kol3']}
df = pd.DataFrame(students)
df

Unnamed: 0,student,grade,test
0,Adamski,2,kol1
1,Adamski,3,kol2
2,Adamski,3,kol2
3,Bachleda,5,kol1
4,Bachleda,5,kol3
5,Curuś,3,kol2
6,Curuś,5,kol3


In [None]:
df['test'].unique()

array(['kol1', 'kol2', 'kol3'], dtype=object)

In [None]:
df['test'].nunique()

3

In [None]:
df['test'].value_counts()

kol2    3
kol1    2
kol3    2
Name: test, dtype: int64

In [None]:
df.drop_duplicates()

Unnamed: 0,student,grade,test
0,Adamski,2,kol1
1,Adamski,3,kol2
3,Bachleda,5,kol1
4,Bachleda,5,kol3
5,Curuś,3,kol2
6,Curuś,5,kol3


In [None]:
df['new_grade'] = df['grade'] + 1 
df

Unnamed: 0,student,grade,test,new_grade
0,Adamski,2,kol1,3
1,Adamski,3,kol2,4
2,Adamski,3,kol2,4
3,Bachleda,5,kol1,6
4,Bachleda,5,kol3,6
5,Curuś,3,kol2,4
6,Curuś,5,kol3,6


In [None]:
def one_up(grade):
  return grade+1 if grade < 5 else grade

In [None]:
df['grade'].apply(one_up)

0    3
1    4
2    4
3    5
4    5
5    4
6    5
Name: grade, dtype: int64

In [None]:
df['new_grade'] = df['grade'].apply(one_up)
df

Unnamed: 0,student,grade,test,new_grade
0,Adamski,2,kol1,3
1,Adamski,3,kol2,4
2,Adamski,3,kol2,4
3,Bachleda,5,kol1,5
4,Bachleda,5,kol3,5
5,Curuś,3,kol2,4
6,Curuś,5,kol3,5


In [None]:
test_content_map = {'kol1':'Przepływ sterowania w Pythonie',
                    'kol2':'Programowanie obiektowe',
                    'kol3':'Numpy i Pandas'}

df['test_content'] = df['test'].map(test_content_map)
df                    

Unnamed: 0,student,grade,test,new_grade,test_content
0,Adamski,2,kol1,3,Przepływ sterowania w Pythonie
1,Adamski,3,kol2,4,Programowanie obiektowe
2,Adamski,3,kol2,4,Programowanie obiektowe
3,Bachleda,5,kol1,5,Przepływ sterowania w Pythonie
4,Bachleda,5,kol3,5,Numpy i Pandas
5,Curuś,3,kol2,4,Programowanie obiektowe
6,Curuś,5,kol3,5,Numpy i Pandas


In [None]:
df[['grade','test']].min()

grade       2
test     kol1
dtype: object

In [None]:
df['grade'].idxmin()

0

In [None]:
df.columns = ['student', 'ocena', 'kolokwium', 'nowa ocena', 'treść kolokwium']
df

Unnamed: 0,student,ocena,kolokwium,nowa ocena,treść kolokwium
0,Adamski,2,kol1,3,Przepływ sterowania w Pythonie
1,Adamski,3,kol2,4,Programowanie obiektowe
2,Adamski,3,kol2,4,Programowanie obiektowe
3,Bachleda,5,kol1,5,Przepływ sterowania w Pythonie
4,Bachleda,5,kol3,5,Numpy i Pandas
5,Curuś,3,kol2,4,Programowanie obiektowe
6,Curuś,5,kol3,5,Numpy i Pandas


In [None]:
df.sort_values('kolokwium', ascending=False)

Unnamed: 0,student,ocena,kolokwium,nowa ocena,treść kolokwium
4,Bachleda,5,kol3,5,Numpy i Pandas
6,Curuś,5,kol3,5,Numpy i Pandas
1,Adamski,3,kol2,4,Programowanie obiektowe
2,Adamski,3,kol2,4,Programowanie obiektowe
5,Curuś,3,kol2,4,Programowanie obiektowe
0,Adamski,2,kol1,3,Przepływ sterowania w Pythonie
3,Bachleda,5,kol1,5,Przepływ sterowania w Pythonie


In [None]:
pd.get_dummies(df['kolokwium'])

Unnamed: 0,kol1,kol2,kol3
0,1,0,0
1,0,1,0
2,0,1,0
3,1,0,0
4,0,0,1
5,0,1,0
6,0,0,1


## Czytanie plików i zapisywanie do plików

https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html

In [None]:
df.to_csv('students.csv')
df = pd.read_csv('students.csv')
df

Unnamed: 0.1,Unnamed: 0,student,ocena,kolokwium,nowa ocena,treść kolokwium
0,0,Adamski,2,kol1,3,Przepływ sterowania w Pythonie
1,1,Adamski,3,kol2,4,Programowanie obiektowe
2,2,Adamski,3,kol2,4,Programowanie obiektowe
3,3,Bachleda,5,kol1,5,Przepływ sterowania w Pythonie
4,4,Bachleda,5,kol3,5,Numpy i Pandas
5,5,Curuś,3,kol2,4,Programowanie obiektowe
6,6,Curuś,5,kol3,5,Numpy i Pandas
