# Wczytanie bibliotek

In [1]:
import pandas as pd
import numpy as np

## 2. Serie i ramki danych (Series and Data Frames)

### Serie

Seria - jednowymiarowa tablica przechowująca konkretny jeden typ danych (integers, strings, floating point numbers, Python objects).
Etykiety elementów nazywane są indeksem (index).

Serie są bardzo podobne do ndarray, fcje numpy na nich działają.

Tworzenie serii z tabeli numpy ndarray

In [2]:
s = pd.Series(np.random.randn(5), index = ["a", "b", "c", "d", "e"])

In [3]:
s

a    0.086076
b    0.050558
c   -0.369284
d   -0.508609
e    0.827123
dtype: float64

In [4]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [5]:
pd.Series(np.random.randn(5))

0    0.608813
1    1.617106
2   -2.408194
3    1.429673
4   -1.285901
dtype: float64

In [6]:
s.to_numpy()

array([ 0.0860759 ,  0.0505575 , -0.36928391, -0.50860919,  0.82712272])

Serie ze słownika

In [7]:
d = {"b": 1, "a": 0, "c": 2}

In [8]:
pd.Series(d)

b    1
a    0
c    2
dtype: int64

In [9]:
pd.Series(d, index = ["b", "c", "d", "a"])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

In [10]:
type(np.nan)

float

In [11]:
s["b"]

0.05055750487742177

In [12]:
s["a"] = 5

In [13]:
s

a    5.000000
b    0.050558
c   -0.369284
d   -0.508609
e    0.827123
dtype: float64

### Ramki danych (Data Frames)

Ramka Danych (Data Frame) - dwuwymiarowa tablica danych z indeksem, w której kolumny mogą być różnych 
typów. Można myśleć o niej jak o tabeli SQL albo słowniku zawierającym serie danych.

In [14]:
osoby = {
    "imię": ["Agnieszka", "Jan", "Anna"],
    "nazwisko": ["Sołtys", "Nowak", "Nowak"],
    "email": ["agnieszka.sołtys@email.com", "jan.nowak@gmail.com", "anna.nowak@email.com"]
}

In [15]:
df = pd.DataFrame(osoby)

In [16]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


### Wybór kolumn

In [17]:
df["email"]

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
2          anna.nowak@email.com
Name: email, dtype: object

In [18]:
type(df["email"])

pandas.core.series.Series

In [19]:
df.email

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
2          anna.nowak@email.com
Name: email, dtype: object

wiele kolumn

In [20]:
df[["imię", "email"]] # indeksowanie listą

Unnamed: 0,imię,email
0,Agnieszka,agnieszka.sołtys@email.com
1,Jan,jan.nowak@gmail.com
2,Anna,anna.nowak@email.com


In [21]:
df.columns

Index(['imię', 'nazwisko', 'email'], dtype='object')

### Wybór wierszy (loc, iloc)

iloc - integer locator

In [22]:
df.iloc[0]

imię                         Agnieszka
nazwisko                        Sołtys
email       agnieszka.sołtys@email.com
Name: 0, dtype: object

wiele wierszy

In [23]:
df.iloc[[0,1]]

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com


In [26]:
df.iloc[[0,1], 2] # nie nazwy, tylko numery - integer locator

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
Name: email, dtype: object

In [25]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


loc 

In [29]:
df.loc[0, "nazwisko"] # odwoływanie po nazwach!

'Sołtys'

In [30]:
df.loc[[0,1], ["email", "imię"]]

Unnamed: 0,email,imię
0,agnieszka.sołtys@email.com,Agnieszka
1,jan.nowak@gmail.com,Jan


## 3. Indeksowanie

Domyślnie liczby 0,1,2,... Czasem sensowny jest jakiś inny indeks, np. adres email (numer PESEL), w PANDAS 
nie musi on być unikalny.

In [31]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


In [32]:
df.set_index("email")

Unnamed: 0_level_0,imię,nazwisko
email,Unnamed: 1_level_1,Unnamed: 2_level_1
agnieszka.sołtys@email.com,Agnieszka,Sołtys
jan.nowak@gmail.com,Jan,Nowak
anna.nowak@email.com,Anna,Nowak


In [33]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


In [34]:
df.set_index("email", inplace = True)

In [35]:
df

Unnamed: 0_level_0,imię,nazwisko
email,Unnamed: 1_level_1,Unnamed: 2_level_1
agnieszka.sołtys@email.com,Agnieszka,Sołtys
jan.nowak@gmail.com,Jan,Nowak
anna.nowak@email.com,Anna,Nowak


In [36]:
df.index

Index(['agnieszka.sołtys@email.com', 'jan.nowak@gmail.com',
       'anna.nowak@email.com'],
      dtype='object', name='email')

In [37]:
df.loc["jan.nowak@gmail.com"]

imię          Jan
nazwisko    Nowak
Name: jan.nowak@gmail.com, dtype: object

In [39]:
df.iloc[0]

imię        Agnieszka
nazwisko       Sołtys
Name: agnieszka.sołtys@email.com, dtype: object

In [40]:
df.reset_index(inplace = True)

In [41]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


### Indeksy hierarchiczne (zagnieżdżone)

In [42]:
iterables = [["bar", "baz", "foo", "qux"], ["one", "two"]]

In [43]:
index = pd.MultiIndex.from_product(iterables, names = ["first", "second"])

In [44]:
s = pd.Series(np.random.randn(8), index = index)

In [45]:
s

first  second
bar    one      -0.405969
       two       0.196577
baz    one       1.182120
       two       0.420792
foo    one       0.922954
       two      -1.842617
qux    one       0.340414
       two       0.207405
dtype: float64

In [46]:
s["bar", "one"]

-0.4059691020269081

In [47]:
s["bar"]

second
one   -0.405969
two    0.196577
dtype: float64

## 5. Filtrowanie

In [48]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [49]:
df["nazwisko"] == "Nowak" # maska  (filter mask) seria True/Flase odpowiadająca wielkości ramki

0    False
1     True
2     True
Name: nazwisko, dtype: bool

In [50]:
filt = (df["nazwisko"] == "Nowak")

In [51]:
df[filt]

Unnamed: 0,email,imię,nazwisko
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [52]:
df[df["nazwisko"] == "Nowak"]

Unnamed: 0,email,imię,nazwisko
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [53]:
df.loc[filt]

Unnamed: 0,email,imię,nazwisko
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [54]:
df.loc[filt, "imię"]

1     Jan
2    Anna
Name: imię, dtype: object

### & , | i ~

In [55]:
filt = (df["nazwisko"] == "Nowak") & (df["imię"] == "Jan")

In [56]:
df[filt]

Unnamed: 0,email,imię,nazwisko
1,jan.nowak@gmail.com,Jan,Nowak


In [57]:
filt = (df["nazwisko"] == "Sołtys") | (df["imię"] == "Jan")

In [58]:
df[filt]

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak


In [59]:
df.loc[~filt]

Unnamed: 0,email,imię,nazwisko
2,anna.nowak@email.com,Anna,Nowak


## 6. Dane jakościowe

zmienne jakościowe to zmienne niemierzalne: 
- nominalne, np. kolor oczu (niebieskie, zielone, brązowe),
- porządkowe, np. wykształcenie (podstawowe, średnie, wyższe)

In [60]:
s1 = pd.Series(["a", "b", "c", "a"], dtype = "category")

In [61]:
s1

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [62]:
s2 = pd.Series(pd.Categorical(["a", "b", "c", "a"], categories = ["a", "b", "c"], ordered = True))

In [63]:
s2

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [64]:
df_cat = pd.DataFrame({"wielkość": np.random.randint(0, 100, 200)})

In [65]:
df_cat

Unnamed: 0,wielkość
0,40
1,87
2,34
3,19
4,17
...,...
195,85
196,98
197,46
198,82


In [68]:
pd.cut(df_cat["wielkość"], range(0, 105, 25), right = False)

0       [25, 50)
1      [75, 100)
2       [25, 50)
3        [0, 25)
4        [0, 25)
         ...    
195    [75, 100)
196    [75, 100)
197     [25, 50)
198    [75, 100)
199    [75, 100)
Name: wielkość, Length: 200, dtype: category
Categories (4, interval[int64, left]): [[0, 25) < [25, 50) < [50, 75) < [75, 100)]

In [69]:
df_cat["grupa"] = pd.cut(df_cat["wielkość"], range(0, 105, 25), right = False, labels = ["mały", "średni", "duży", "bardzo duży"])

In [70]:
df_cat

Unnamed: 0,wielkość,grupa
0,40,średni
1,87,bardzo duży
2,34,średni
3,19,mały
4,17,mały
...,...,...
195,85,bardzo duży
196,98,bardzo duży
197,46,średni
198,82,bardzo duży


In [73]:
df_cat["grupa"].value_counts()

mały           52
duży           50
bardzo duży    50
średni         48
Name: grupa, dtype: int64

In [74]:
s2

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [75]:
s2.cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [76]:
s2.cat.codes

0    0
1    1
2    2
3    0
dtype: int8

In [77]:
s2

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [78]:
s2 = s2.cat.rename_categories(["mały", "średni", "duży"])

In [79]:
s2

0      mały
1    średni
2      duży
3      mały
dtype: category
Categories (3, object): ['mały' < 'średni' < 'duży']

## 7. Zmiana kolumn i wierszy

### zmiana nazw kolumn

In [80]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [81]:
df.columns = ["Email", "Imię", "Nazwisko"]

In [82]:
df

Unnamed: 0,Email,Imię,Nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [83]:
df.columns = df.columns.str.upper()

In [84]:
df

Unnamed: 0,EMAIL,IMIĘ,NAZWISKO
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [85]:
df.columns = df.columns.str.replace("Ę", "E")

In [86]:
df

Unnamed: 0,EMAIL,IMIE,NAZWISKO
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [87]:
df.rename(columns = {"IMIE" : "imię", "NAZWISKO" : "nazwisko"}, inplace = True)

In [88]:
df

Unnamed: 0,EMAIL,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [89]:
df.columns = df.columns.str.lower()

In [90]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


### zmiana wierszy

In [91]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [92]:
df.loc[2] = ["maria.kowalska@wp.pl", "Maria", "Kowalska"]

In [93]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,maria.kowalska@wp.pl,Maria,Kowalska


In [94]:
df.loc[2, ["imię", "nazwisko"]] = ["Anna", "Nowak"]

In [95]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,maria.kowalska@wp.pl,Anna,Nowak


### uwaga, tutaj potrzebne loc!

In [96]:
filt = (df["email"] == "maria.kowalska@wp.pl")

In [97]:
df[filt, "email"] = "anna.nowak@email.com"

TypeError: unhashable type: 'Series'

In [98]:
df.loc[filt, "email"] = "anna.nowak@email.com"

In [99]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


### zmiana kolumn

In [100]:
df["email"] = df["email"].str.upper()

In [101]:
df

Unnamed: 0,email,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna,Nowak


### apply

Serie - użyje fcji dla każdego elementu serii

In [103]:
df

Unnamed: 0,email,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna,Nowak


In [102]:
df["email"].apply(len)

0    26
1    19
2    20
Name: email, dtype: int64

In [104]:
def update_email(email):
    return email.replace(".COM", ".PL")

In [105]:
df["email"] = df["email"].apply(update_email)

In [106]:
df

Unnamed: 0,email,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.PL,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.PL,Jan,Nowak
2,ANNA.NOWAK@EMAIL.PL,Anna,Nowak


In [107]:
df["email"] = df["email"].apply(lambda x: x.replace(".PL", ".COM"))

In [108]:
df

Unnamed: 0,email,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna,Nowak


apply na ramkach danych (Data Frame) - użycie fcji dla każdego wiersza lub każdej kolumny

In [116]:
df

Unnamed: 0,email,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna,Nowak


In [111]:
df.apply(len) # dla każdej kolumny

email       3
imię        3
nazwisko    3
dtype: int64

In [112]:
df.apply(len, axis = "columns") # dla każdego wiersza

0    3
1    3
2    3
dtype: int64

In [113]:
df.apply(lambda x: x.max())

email       JAN.NOWAK@GMAIL.COM
imię                        Jan
nazwisko                 Sołtys
dtype: object

In [114]:
df

Unnamed: 0,email,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna,Nowak


### applymap - tylko dla ramek danych (Data Frames), użycie funkcji dla każdego elementu 

In [115]:
df.applymap(len)

Unnamed: 0,email,imię,nazwisko
0,26,9,6
1,19,3,5
2,20,4,5


### map - tylko dla serii, podstaw wartości, uwaga na NAN!

In [117]:
df

Unnamed: 0,email,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna,Nowak


In [118]:
df["imię"].map({"Jan": "Janusz", "Anna": "Joanna"})

0       NaN
1    Janusz
2    Joanna
Name: imię, dtype: object

### replace

In [119]:
df["imię"].replace({"Jan": "Janusz", "Anna": "Joanna"})

0    Agnieszka
1       Janusz
2       Joanna
Name: imię, dtype: object

## 8. Obsługa obserwacji brakujących

usuwanie braków danych

In [120]:
osoby1 = {
    'imię': ['Agnieszka', 'Jan', 'Anna', 'Janusz', np.nan, None, 'NA'],
    'nazwisko': ['Sołtys', 'Kowalski', 'Kowalska', 'Nowak', np.nan, pd.NaT, 'Missing'],
    'email': ['agnieszka.soltys@email.com', 'jan.kowalski@wp.pl', 'anna.kowalska@wp.pl', 'januszek@email.com', None, "antek.nowak@gmail.com", np.nan],
    'age': ['25', '55', '63', '36', None, None, 'Missing']
}

In [121]:
df1 = pd.DataFrame(osoby1)

In [122]:
df1

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


In [123]:
df1.isna()

Unnamed: 0,imię,nazwisko,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,True,True,True,True
5,True,True,False,True
6,False,False,True,False


In [124]:
df1.dropna()

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36


In [126]:
df1

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


In [125]:
df1.dropna(axis = "index", how = "any") # domyślnie: usuń wiersze, gdzie jest chociaż jeden brak w danych

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36


In [127]:
df1.dropna(axis = "columns", how = "any") 

0
1
2
3
4
5
6


In [128]:
df1.dropna(axis = "index", how = "all") # wszystkie elementy w wierszu to braki danych - wyrzucamy

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


In [129]:
df1.dropna(axis = "index", how = "any", subset = "email", inplace = True)

In [130]:
df1

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25.0
1,Jan,Kowalski,jan.kowalski@wp.pl,55.0
2,Anna,Kowalska,anna.kowalska@wp.pl,63.0
3,Janusz,Nowak,januszek@email.com,36.0
5,,NaT,antek.nowak@gmail.com,


In [131]:
df1.dropna(axis = "index", how = "any", subset = ["email", "imię"])

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36


ujednolicenie braków

In [132]:
df2 = pd.DataFrame(osoby1)

In [133]:
df2

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


In [134]:
df2.replace("NA", np.nan)

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


In [135]:
df2.replace("Missing", np.nan)

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25.0
1,Jan,Kowalski,jan.kowalski@wp.pl,55.0
2,Anna,Kowalska,anna.kowalska@wp.pl,63.0
3,Janusz,Nowak,januszek@email.com,36.0
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,,,


wypełnianie braków

In [137]:
df2.fillna("MISSING")

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,MISSING,MISSING,MISSING,MISSING
5,MISSING,MISSING,antek.nowak@gmail.com,MISSING
6,,Missing,MISSING,Missing


## 9. Dodawanie/usuwanie wierszy i kolumn

podobne do zmiany wierszy i kolumn

dodawanie kolumn

In [138]:
df

Unnamed: 0,email,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna,Nowak


In [141]:
df["imię_i_nazwisko"] = df["imię"] + " " + df["nazwisko"]

In [142]:
df

Unnamed: 0,email,imię,nazwisko,imię_i_nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka,Sołtys,Agnieszka Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan,Nowak,Jan Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna,Nowak,Anna Nowak


usuwanie kolumn

In [143]:
df.drop(columns = ["imię", "nazwisko"], inplace = True)

In [144]:
df

Unnamed: 0,email,imię_i_nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak


In [145]:
df[["imię", "nazwisko"]] = df["imię_i_nazwisko"].str.split(" ", expand = True) # expand = True 
# powoduje zwrcanaie data frame

In [146]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak


dodawanie wierszy

In [147]:
df1 = pd.DataFrame({"imię": "Katarzyna", "nazwisko": "Kowalska"}, index = [0])

In [148]:
df1

Unnamed: 0,imię,nazwisko
0,Katarzyna,Kowalska


In [149]:
df = pd.concat([df, df1], ignore_index = True)

In [150]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak
3,,,Katarzyna,Kowalska


In [151]:
df3 = pd.concat([df, df1])

In [152]:
df3

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak
3,,,Katarzyna,Kowalska
0,,,Katarzyna,Kowalska


usuwanie wierszy

In [154]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak
3,,,Katarzyna,Kowalska


In [155]:
df.drop(index = 3, inplace = True)

In [156]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak


### 10. Sortowanie

In [157]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak


In [159]:
df.sort_values(by = "nazwisko", ascending = True)

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys


In [160]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak


In [161]:
df.sort_values(by = ["nazwisko", "imię"], ascending = [True, False], inplace = True)

In [162]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
1,JAN.NOWAK@GMAIL.COM,Jan Nowak,Jan,Nowak
2,ANNA.NOWAK@EMAIL.COM,Anna Nowak,Anna,Nowak
0,AGNIESZKA.SOŁTYS@EMAIL.COM,Agnieszka Sołtys,Agnieszka,Sołtys
