# Wczytanie bibliotek

In [1]:
import pandas as pd
import numpy as np

## 2. Serie i ramki danych (Series and Data Frames)

### Serie

Seria - jednowymiarowa tablica przechowująca konkretny jeden typ danych (integers, strings, floating point numbers, Python objects).
Etykiety elementów nazywane są indeksem (index).

Serie są bardzo podobne do ndarray, fcje numpy na nich działają.

Serie z tabeli numpy ndarray

In [2]:
s = pd.Series(np.random.randn(5), index=["a", "b", "c", "d", "e"])

In [3]:
s

a   -0.012473
b   -0.425707
c   -0.246763
d    0.483913
e    1.672875
dtype: float64

In [4]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [5]:
pd.Series(np.random.randn(5)) # domyślny indeks

0    0.901714
1   -1.078345
2   -0.038986
3   -0.934455
4   -0.896473
dtype: float64

In [6]:
s.to_numpy()

array([-0.01247294, -0.42570727, -0.24676285,  0.4839127 ,  1.67287527])

Serie ze słownika (dictionary)

In [7]:
d = {"b": 1, "a": 0, "c": 2}
pd.Series(d)

b    1
a    0
c    2
dtype: int64

In [8]:
pd.Series(d, index=["b", "c", "d", "a"])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

NaN - braki w danych (missing values) w pandas, NaN jest typem float, dlatego konwersja całego Series do float!

In [9]:
type(np.nan)

float

Serie działają podobnie jak słowniki - do elementów można odwoływać się poprzez indeks

In [10]:
s['b']

-0.42570726564149214

In [11]:
s['a'] = 5

In [12]:
s

a    5.000000
b   -0.425707
c   -0.246763
d    0.483913
e    1.672875
dtype: float64

### Ramki danych (Data Frames)

Ramka Danych (Data Frame) - dwuwymiarowa tablica danych z indeksem, w której kolumny mogą być różnych 
typów. Można myśleć o niej jak o tabeli SQL albo słowniku zawierającym serie danych.

In [13]:
osoby = {
    "imię": ["Agnieszka", "Jan", "Anna"],
    "nazwisko": ["Sołtys", "Nowak", "Nowak"],
    "email": ["agnieszka.sołtys@email.com", "jan.nowak@gmail.com", "anna.nowak@email.com"]
}

In [14]:
osoby # ramki danych podobne do słowników, ale mają dużo więcej funkcjonalności!

{'imię': ['Agnieszka', 'Jan', 'Anna'],
 'nazwisko': ['Sołtys', 'Nowak', 'Nowak'],
 'email': ['agnieszka.sołtys@email.com',
  'jan.nowak@gmail.com',
  'anna.nowak@email.com']}

In [15]:
df = pd.DataFrame(osoby)

In [16]:
df # indeksy 0, 1, 2

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


### Wybór kolumn

jedna kolumna

In [17]:
df["email"] # dtype object dla strings 

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
2          anna.nowak@email.com
Name: email, dtype: object

In [18]:
type(df["email"])

pandas.core.series.Series

In [19]:
df.email # ale uwaga na spacje i atrybuty w Python!

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
2          anna.nowak@email.com
Name: email, dtype: object

wiele kolumn

In [20]:
df[["imię", "email"]] # indeksowanie listą, dostajemy mniejszą ramkę danych

Unnamed: 0,imię,email
0,Agnieszka,agnieszka.sołtys@email.com
1,Jan,jan.nowak@gmail.com
2,Anna,anna.nowak@email.com


In [21]:
df.columns # nazwy kolumn

Index(['imię', 'nazwisko', 'email'], dtype='object')

### Wybór wierszy (loc, iloc)

iloc - integer location

In [22]:
df.iloc[0] # pierwszy wiersz

imię                         Agnieszka
nazwisko                        Sołtys
email       agnieszka.sołtys@email.com
Name: 0, dtype: object

wiele wierszy

In [23]:
df.iloc[[0, 1]]

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com


In [24]:
df.iloc[[0, 1], 2] # nie nazwy, tylko integers! Tutaj indeksy to 0, 1, 2 ale jak np. a, b, to nie, tylko integers

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
Name: email, dtype: object

loc - wybór poprzez nazwę/indeks

In [25]:
df.loc[0] # tutaj to samo, bo indeksy to 0,1,2

imię                         Agnieszka
nazwisko                        Sołtys
email       agnieszka.sołtys@email.com
Name: 0, dtype: object

In [26]:
df.loc[[0, 1], ["email", "imię"]]

Unnamed: 0,email,imię
0,agnieszka.sołtys@email.com,Agnieszka
1,jan.nowak@gmail.com,Jan


## 3. Indeksowanie

Domyślnie liczby 0,1,2,... Czasem sensowny jest jakiś inny indeks, np. adres email (numer PESEL), w PANDAS 
nie musi on być unikalny.

In [27]:
df.set_index("email")

Unnamed: 0_level_0,imię,nazwisko
email,Unnamed: 1_level_1,Unnamed: 2_level_1
agnieszka.sołtys@email.com,Agnieszka,Sołtys
jan.nowak@gmail.com,Jan,Nowak
anna.nowak@email.com,Anna,Nowak


In [28]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


In [29]:
df.set_index("email", inplace = True) # inplace = True!

In [30]:
df

Unnamed: 0_level_0,imię,nazwisko
email,Unnamed: 1_level_1,Unnamed: 2_level_1
agnieszka.sołtys@email.com,Agnieszka,Sołtys
jan.nowak@gmail.com,Jan,Nowak
anna.nowak@email.com,Anna,Nowak


In [31]:
df.index # indeks ma nazwę

Index(['agnieszka.sołtys@email.com', 'jan.nowak@gmail.com',
       'anna.nowak@email.com'],
      dtype='object', name='email')

In [32]:
df.loc["jan.nowak@gmail.com", "imię"]

'Jan'

In [34]:
# df.loc[0]

In [35]:
df.iloc[0]

imię        Agnieszka
nazwisko       Sołtys
Name: agnieszka.sołtys@email.com, dtype: object

In [36]:
df.reset_index(inplace = True)

In [37]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


### Indeksy hierarchiczne (zagnieżdżone)

In [38]:
iterables = [["bar", "baz", "foo", "qux"], ["one", "two"]]

In [39]:
index = pd.MultiIndex.from_product(iterables, names=["first", "second"])

In [40]:
s = pd.Series(np.random.randn(8), index=index)

In [41]:
s

first  second
bar    one       0.454088
       two      -0.940389
baz    one      -0.778149
       two      -0.225574
foo    one      -0.553826
       two       0.818882
qux    one      -0.450864
       two      -1.492118
dtype: float64

In [41]:
#s[('bar', 'two')]

In [42]:
s["bar"]["two"]

-0.9403887213062767

In [43]:
s["bar"]

second
one    0.454088
two   -0.940389
dtype: float64

## 5. Filtrowanie

In [45]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [44]:
df["nazwisko"] == "Nowak" # maska (filter mask) - seria True/False odpowiadająca weilkości ramki danych

0    False
1     True
2     True
Name: nazwisko, dtype: bool

In [46]:
filt = (df["nazwisko"] == "Nowak") # filtr

In [47]:
df[filt]

Unnamed: 0,email,imię,nazwisko
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


Można też

In [48]:
df[df["nazwisko"] == "Nowak"]

Unnamed: 0,email,imię,nazwisko
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [49]:
df.loc[filt]

Unnamed: 0,email,imię,nazwisko
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [50]:
df.loc[filt, "imię"] # też można od razu kolumny

1     Jan
2    Anna
Name: imię, dtype: object

### & , | i ~

W Python poza pandas and i or

In [51]:
filt = (df["nazwisko"] == "Nowak") & (df["imię"] == "Jan") # i

In [52]:
df.loc[filt, "email"]

1    jan.nowak@gmail.com
Name: email, dtype: object

In [53]:
filt = (df["nazwisko"] == "Sołtys") | (df["imię"] == "Jan") # lub

In [54]:
df.loc[filt, "email"]

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
Name: email, dtype: object

In [55]:
df.loc[~filt, "email"] # negacja

2    anna.nowak@email.com
Name: email, dtype: object

## 6. Dane jakościowe

zmienne jakościowe to zmienne niemierzalne: 
- nominalne, np. kolor oczu (niebieskie, zielone, brązowe),
- porządkowe, np. wykształcenie (podstawowe, średnie, wyższe)

In [58]:
s1 = pd.Series(["a", "b", "c", "a"], dtype="category")

In [59]:
s1

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a', 'b', 'c']

In [69]:
s2 = pd.Series(pd.Categorical(["a", "b", "c", "a"], categories=["a", "b", "c"], ordered=True))

In [70]:
s2

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [62]:
df_cat = pd.DataFrame({"A": ["a", "b", "c", "a"]})

In [63]:
df_cat["B"] = df_cat["A"].astype("category")

In [64]:
df_cat

Unnamed: 0,A,B
0,a,a
1,b,b
2,c,c
3,a,a


In [65]:
df_cat.dtypes

A      object
B    category
dtype: object

In [71]:
df_cat2 = pd.DataFrame({"wielkość": np.random.randint(0, 100, 20)})

In [72]:
pd.cut(df_cat2["wielkość"], range(0, 105, 25), right=False)

0      [25, 50)
1       [0, 25)
2      [25, 50)
3       [0, 25)
4      [50, 75)
5      [50, 75)
6      [25, 50)
7      [25, 50)
8       [0, 25)
9     [75, 100)
10    [75, 100)
11    [75, 100)
12     [25, 50)
13     [25, 50)
14     [25, 50)
15     [25, 50)
16      [0, 25)
17     [50, 75)
18    [75, 100)
19     [25, 50)
Name: wielkość, dtype: category
Categories (4, interval[int64, left]): [[0, 25) < [25, 50) < [50, 75) < [75, 100)]

In [73]:
df_cat2["grupa"] = pd.cut(df_cat2["wielkość"], range(0, 105, 25), right=False, labels = ["mały", "średni", "duży", "bardzo duży"])

In [74]:
df_cat2

Unnamed: 0,wielkość,grupa
0,38,średni
1,22,mały
2,29,średni
3,7,mały
4,58,duży
5,66,duży
6,31,średni
7,46,średni
8,5,mały
9,90,bardzo duży


In [75]:
df_cat2["grupa"].value_counts()

średni         9
mały           4
bardzo duży    4
duży           3
Name: grupa, dtype: int64

In [78]:
s2

0    a
1    b
2    c
3    a
dtype: category
Categories (3, object): ['a' < 'b' < 'c']

In [76]:
s2.cat.codes

0    0
1    1
2    2
3    0
dtype: int8

In [77]:
s2.cat.categories

Index(['a', 'b', 'c'], dtype='object')

In [79]:
s2 = s2.cat.rename_categories(["mały", "średni", "duży"])

In [80]:
s2

0      mały
1    średni
2      duży
3      mały
dtype: category
Categories (3, object): ['mały' < 'średni' < 'duży']

In [81]:
s2[0] = "średni"

In [82]:
s2

0    średni
1    średni
2      duży
3      mały
dtype: category
Categories (3, object): ['mały' < 'średni' < 'duży']

In [84]:
# s2[0] = "bardzo duży"

In [85]:
s2 = s2.cat.add_categories("bardzo duży")

In [86]:
s2

0    średni
1    średni
2      duży
3      mały
dtype: category
Categories (4, object): ['mały' < 'średni' < 'duży' < 'bardzo duży']

In [87]:
s2[0] = "bardzo duży"

In [88]:
s2

0    bardzo duży
1         średni
2           duży
3           mały
dtype: category
Categories (4, object): ['mały' < 'średni' < 'duży' < 'bardzo duży']

In [89]:
s2.sort_values()

3           mały
1         średni
2           duży
0    bardzo duży
dtype: category
Categories (4, object): ['mały' < 'średni' < 'duży' < 'bardzo duży']

In [90]:
s2 = s2.cat.reorder_categories(["mały","bardzo duży","duży","średni"], ordered=True)

In [91]:
s2.sort_values()

3           mały
0    bardzo duży
2           duży
1         średni
dtype: category
Categories (4, object): ['mały' < 'bardzo duży' < 'duży' < 'średni']

## 7. Zmiana kolumn i wierszy

### zmiana nazw kolumn

In [92]:
df.columns = ["Email", "Imię", "Nazwisko"]

In [93]:
df

Unnamed: 0,Email,Imię,Nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [94]:
df.columns = df.columns.str.upper()

In [95]:
df

Unnamed: 0,EMAIL,IMIĘ,NAZWISKO
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [96]:
df.columns = df.columns.str.replace("Ę", "E")

In [97]:
df

Unnamed: 0,EMAIL,IMIE,NAZWISKO
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [98]:
df.rename(columns = {'IMIE':'imię', "NAZWISKO":"nazwisko" }, inplace = True)

In [99]:
df

Unnamed: 0,EMAIL,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [100]:
df.columns = df.columns.str.lower()

### zmiana wierszy

In [None]:
df

In [101]:
df.loc[2] = ["maria.kowalska@wp.pl", "Maria", "Kowalska"]

In [103]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,maria.kowalska@wp.pl,Maria,Kowalska


In [104]:
df.loc[2, ["imię", "nazwisko"]] = ["Anna", "Nowak"]

In [105]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,maria.kowalska@wp.pl,Anna,Nowak


### uwaga, tutaj potrzebne loc!

In [106]:
filt = (df["email"] == "maria.kowalska@wp.pl")

In [107]:
df[filt]

Unnamed: 0,email,imię,nazwisko
2,maria.kowalska@wp.pl,Anna,Nowak


In [108]:
# df[filt, "email"] = "anna.nowak@email.com"

In [109]:
df.loc[filt, "email"] = "Anna.nowak@email.com"

In [110]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,Anna.nowak@email.com,Anna,Nowak


### zmiana kolumn

In [111]:
df["email"] = df["email"].str.lower()

In [112]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


### apply

Serie - użycie funkcji dla każdego elementu serii

In [113]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


In [114]:
df["email"].apply(len)

0    26
1    19
2    20
Name: email, dtype: int64

In [115]:
def update_email(email):
    return email.replace(".com", ".pl")

In [116]:
df["email"] = df["email"].apply(update_email)

In [117]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.pl,Agnieszka,Sołtys
1,jan.nowak@gmail.pl,Jan,Nowak
2,anna.nowak@email.pl,Anna,Nowak


funkcja lambda

In [118]:
df["email"] = df["email"].apply(lambda x: x.replace(".pl", ".com"))

In [119]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


apply na ramkach danych (Data Frame) - użycie funkcji dla każdego wiersza lub kolumny

In [120]:
df.apply(len) # długość każdej kolumny

email       3
imię        3
nazwisko    3
dtype: int64

In [121]:
df.apply(len, axis = "columns") # długość każdego wiersza

0    3
1    3
2    3
dtype: int64

In [122]:
df.apply(lambda x: x.max()) # wg alfabetu

email       jan.nowak@gmail.com
imię                        Jan
nazwisko                 Sołtys
dtype: object

### applymap - tylko dla ramek danych (Data Frames), użycie funkcji dla każdego elementu 

In [123]:
df.applymap(len)

Unnamed: 0,email,imię,nazwisko
0,26,9,6
1,19,3,5
2,20,4,5


### map - tylko dla serii, podstaw wartości, uwaga na NAN!

In [124]:
df["imię"].map({'Jan':'Janusz', 'Anna':"Joanna"})

0       NaN
1    Janusz
2    Joanna
Name: imię, dtype: object

### replace

In [125]:
df["imię"].replace({'Jan':'Janusz', 'Anna':"Joanna"})

0    Agnieszka
1       Janusz
2       Joanna
Name: imię, dtype: object

In [126]:
df["imię"] = df["imię"].replace({'Jan':'Janusz', 'Anna':"Joanna"})

In [127]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Janusz,Nowak
2,anna.nowak@email.com,Joanna,Nowak


## 8. Obsługa obserwacji brakujących

usuwanie braków danych

In [128]:
osoby1 = {
    'imię': ['Agnieszka', 'Jan', 'Anna', 'Janusz', np.nan, None, 'NA'],
    'nazwisko': ['Sołtys', 'Kowalski', 'Kowalska', 'Nowak', np.nan, pd.NaT, 'Missing'],
    'email': ['agnieszka.soltys@email.com', 'jan.kowalski@wp.pl', 'anna.kowalska@wp.pl', 'januszek@email.com', None, "antek.nowak@gmail.com", np.nan],
    'age': ['25', '55', '63', '36', None, None, 'Missing']
}

In [129]:
df1 = pd.DataFrame(osoby1)

In [130]:
df1

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


In [133]:
df1.isna()

Unnamed: 0,imię,nazwisko,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,True,True,True,True
5,True,True,False,True
6,False,False,True,False


In [134]:
df1.dropna()

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36


In [135]:
df1.dropna(axis = "index", how = "any") # domyślne: usuń wiersze, gdzie chociaż jeden brak w danych

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36


In [136]:
df1.dropna(axis = "columns", how = "any")

0
1
2
3
4
5
6


In [137]:
df1.dropna(axis = "index", how = "all") 

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


In [138]:
df1.dropna(axis = "index", how = "any", subset = 'email', inplace = True) 

In [139]:
df1

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25.0
1,Jan,Kowalski,jan.kowalski@wp.pl,55.0
2,Anna,Kowalska,anna.kowalska@wp.pl,63.0
3,Janusz,Nowak,januszek@email.com,36.0
5,,NaT,antek.nowak@gmail.com,


In [140]:
df1.dropna(axis = "index", how = "any", subset = ['email', 'imię']) 

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36


ujednolicenie braków

In [141]:
df1 = pd.DataFrame(osoby1)

In [142]:
df1.replace('NA', np.nan)

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


In [143]:
df1.replace('Missing', np.nan)

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25.0
1,Jan,Kowalski,jan.kowalski@wp.pl,55.0
2,Anna,Kowalska,anna.kowalska@wp.pl,63.0
3,Janusz,Nowak,januszek@email.com,36.0
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,,,


In [144]:
df1

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,,,,
5,,NaT,antek.nowak@gmail.com,
6,,Missing,,Missing


wypełnianie braków

In [145]:
df1.fillna('MISSING')

Unnamed: 0,imię,nazwisko,email,age
0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25
1,Jan,Kowalski,jan.kowalski@wp.pl,55
2,Anna,Kowalska,anna.kowalska@wp.pl,63
3,Janusz,Nowak,januszek@email.com,36
4,MISSING,MISSING,MISSING,MISSING
5,MISSING,MISSING,antek.nowak@gmail.com,MISSING
6,,Missing,MISSING,Missing


In [146]:
df1.to_csv("df1.csv")

In [147]:
na_vals = ['NA', 'Missing']

In [148]:
df2 = pd.read_csv("df1.csv", na_values = na_vals)

In [149]:
df2

Unnamed: 0.1,Unnamed: 0,imię,nazwisko,email,age
0,0,Agnieszka,Sołtys,agnieszka.soltys@email.com,25.0
1,1,Jan,Kowalski,jan.kowalski@wp.pl,55.0
2,2,Anna,Kowalska,anna.kowalska@wp.pl,63.0
3,3,Janusz,Nowak,januszek@email.com,36.0
4,4,,,,
5,5,,,antek.nowak@gmail.com,
6,6,,,,


In [150]:
# df2['age'] = df2['age'].astype(int)

In [151]:
df2['age'] = df2['age'].astype(float) # np.nan jest typu float!

In [152]:
df2['age'].mean()

44.75

## 9. Dodawanie/usuwanie wierszy i kolumn

podobne do zmiany wierszy i kolumn

dodawanie kolumn

In [153]:
df["imię_i_nazwisko"] = df["imię"] + " " + df["nazwisko"] # nie . bo Python nie wiedziałby czy atrybut

In [154]:
df

Unnamed: 0,email,imię,nazwisko,imię_i_nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys,Agnieszka Sołtys
1,jan.nowak@gmail.com,Janusz,Nowak,Janusz Nowak
2,anna.nowak@email.com,Joanna,Nowak,Joanna Nowak


usuwanie kolumn

In [155]:
df.drop(columns = ["imię", "nazwisko"], inplace = True)

In [156]:
df

Unnamed: 0,email,imię_i_nazwisko
0,agnieszka.sołtys@email.com,Agnieszka Sołtys
1,jan.nowak@gmail.com,Janusz Nowak
2,anna.nowak@email.com,Joanna Nowak


In [157]:
df[["imię", "nazwisko"]] = df["imię_i_nazwisko"].str.split(" ", expand = True) # expand nie lista, tylko DF

In [158]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka Sołtys,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Janusz Nowak,Janusz,Nowak
2,anna.nowak@email.com,Joanna Nowak,Joanna,Nowak


dodawanie wierszy

In [160]:
df1 = pd.DataFrame({'imię': 'Katarzyna', 'nazwisko': 'Kowalska'}, index = [0])

In [161]:
df1

Unnamed: 0,imię,nazwisko
0,Katarzyna,Kowalska


In [162]:
df = pd.concat([df, df1], ignore_index = True)

In [163]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka Sołtys,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Janusz Nowak,Janusz,Nowak
2,anna.nowak@email.com,Joanna Nowak,Joanna,Nowak
3,,,Katarzyna,Kowalska


usuwanie wierszy

In [164]:
df.drop(index = 3)

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka Sołtys,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Janusz Nowak,Janusz,Nowak
2,anna.nowak@email.com,Joanna Nowak,Joanna,Nowak


In [165]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka Sołtys,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Janusz Nowak,Janusz,Nowak
2,anna.nowak@email.com,Joanna Nowak,Joanna,Nowak
3,,,Katarzyna,Kowalska


In [166]:
filt = (df["nazwisko"] == "Kowalska") 

In [167]:
df.drop(index = df[filt].index, inplace = True) # usuwanie z użyciem filtra

In [168]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka Sołtys,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Janusz Nowak,Janusz,Nowak
2,anna.nowak@email.com,Joanna Nowak,Joanna,Nowak


### 10. Sortowanie

In [169]:
df.sort_values(by = 'nazwisko', ascending = False)

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka Sołtys,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Janusz Nowak,Janusz,Nowak
2,anna.nowak@email.com,Joanna Nowak,Joanna,Nowak


In [170]:
df.sort_values(by = ['nazwisko', 'imię'], ascending = [True, False], inplace = True)

In [157]:
df

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
2,anna.nowak@email.com,Joanna Nowak,Joanna,Nowak
1,jan.nowak@gmail.com,Janusz Nowak,Janusz,Nowak
0,agnieszka.sołtys@email.com,Agnieszka Sołtys,Agnieszka,Sołtys


In [171]:
df.sort_index()

Unnamed: 0,email,imię_i_nazwisko,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka Sołtys,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Janusz Nowak,Janusz,Nowak
2,anna.nowak@email.com,Joanna Nowak,Joanna,Nowak


In [172]:
df["imię"].sort_values()

0    Agnieszka
1       Janusz
2       Joanna
Name: imię, dtype: object