# Wczytanie bibliotek

In [1]:
import pandas as pd
import numpy as np

## 2. Serie i ramki danych (Series and Data Frames)

### Serie

Seria - jednowymiarowa tablica przechowująca konkretny jeden typ danych (integers, strings, floating point numbers, Python objects).
Etykiety elementów nazywane są indeksem (index).

Serie są bardzo podobne do ndarray, fcje numpy na nich działają.

Tworzenie serii z tabeli numpy ndarray

In [2]:
s = pd.Series(np.random.randn(5), index = ["a", "b", "c", "d", "e"])

In [3]:
s

a    0.086076
b    0.050558
c   -0.369284
d   -0.508609
e    0.827123
dtype: float64

In [4]:
s.index

Index(['a', 'b', 'c', 'd', 'e'], dtype='object')

In [5]:
pd.Series(np.random.randn(5))

0    0.608813
1    1.617106
2   -2.408194
3    1.429673
4   -1.285901
dtype: float64

In [6]:
s.to_numpy()

array([ 0.0860759 ,  0.0505575 , -0.36928391, -0.50860919,  0.82712272])

Serie ze słownika

In [7]:
d = {"b": 1, "a": 0, "c": 2}

In [8]:
pd.Series(d)

b    1
a    0
c    2
dtype: int64

In [9]:
pd.Series(d, index = ["b", "c", "d", "a"])

b    1.0
c    2.0
d    NaN
a    0.0
dtype: float64

In [10]:
type(np.nan)

float

In [11]:
s["b"]

0.05055750487742177

In [12]:
s["a"] = 5

In [13]:
s

a    5.000000
b    0.050558
c   -0.369284
d   -0.508609
e    0.827123
dtype: float64

### Ramki danych (Data Frames)

Ramka Danych (Data Frame) - dwuwymiarowa tablica danych z indeksem, w której kolumny mogą być różnych 
typów. Można myśleć o niej jak o tabeli SQL albo słowniku zawierającym serie danych.

In [14]:
osoby = {
    "imię": ["Agnieszka", "Jan", "Anna"],
    "nazwisko": ["Sołtys", "Nowak", "Nowak"],
    "email": ["agnieszka.sołtys@email.com", "jan.nowak@gmail.com", "anna.nowak@email.com"]
}

In [15]:
df = pd.DataFrame(osoby)

In [16]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


### Wybór kolumn

In [17]:
df["email"]

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
2          anna.nowak@email.com
Name: email, dtype: object

In [18]:
type(df["email"])

pandas.core.series.Series

In [19]:
df.email

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
2          anna.nowak@email.com
Name: email, dtype: object

wiele kolumn

In [20]:
df[["imię", "email"]] # indeksowanie listą

Unnamed: 0,imię,email
0,Agnieszka,agnieszka.sołtys@email.com
1,Jan,jan.nowak@gmail.com
2,Anna,anna.nowak@email.com


In [21]:
df.columns

Index(['imię', 'nazwisko', 'email'], dtype='object')

### Wybór wierszy (loc, iloc)

iloc - integer locator

In [22]:
df.iloc[0]

imię                         Agnieszka
nazwisko                        Sołtys
email       agnieszka.sołtys@email.com
Name: 0, dtype: object

wiele wierszy

In [23]:
df.iloc[[0,1]]

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com


In [26]:
df.iloc[[0,1], 2] # nie nazwy, tylko numery - integer locator

0    agnieszka.sołtys@email.com
1           jan.nowak@gmail.com
Name: email, dtype: object

In [25]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


loc 

In [29]:
df.loc[0, "nazwisko"] # odwoływanie po nazwach!

'Sołtys'

In [30]:
df.loc[[0,1], ["email", "imię"]]

Unnamed: 0,email,imię
0,agnieszka.sołtys@email.com,Agnieszka
1,jan.nowak@gmail.com,Jan


## 3. Indeksowanie

Domyślnie liczby 0,1,2,... Czasem sensowny jest jakiś inny indeks, np. adres email (numer PESEL), w PANDAS 
nie musi on być unikalny.

In [31]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


In [32]:
df.set_index("email")

Unnamed: 0_level_0,imię,nazwisko
email,Unnamed: 1_level_1,Unnamed: 2_level_1
agnieszka.sołtys@email.com,Agnieszka,Sołtys
jan.nowak@gmail.com,Jan,Nowak
anna.nowak@email.com,Anna,Nowak


In [33]:
df

Unnamed: 0,imię,nazwisko,email
0,Agnieszka,Sołtys,agnieszka.sołtys@email.com
1,Jan,Nowak,jan.nowak@gmail.com
2,Anna,Nowak,anna.nowak@email.com


In [34]:
df.set_index("email", inplace = True)

In [35]:
df

Unnamed: 0_level_0,imię,nazwisko
email,Unnamed: 1_level_1,Unnamed: 2_level_1
agnieszka.sołtys@email.com,Agnieszka,Sołtys
jan.nowak@gmail.com,Jan,Nowak
anna.nowak@email.com,Anna,Nowak


In [36]:
df.index

Index(['agnieszka.sołtys@email.com', 'jan.nowak@gmail.com',
       'anna.nowak@email.com'],
      dtype='object', name='email')

In [37]:
df.loc["jan.nowak@gmail.com"]

imię          Jan
nazwisko    Nowak
Name: jan.nowak@gmail.com, dtype: object

In [39]:
df.iloc[0]

imię        Agnieszka
nazwisko       Sołtys
Name: agnieszka.sołtys@email.com, dtype: object

In [40]:
df.reset_index(inplace = True)

In [41]:
df

Unnamed: 0,email,imię,nazwisko
0,agnieszka.sołtys@email.com,Agnieszka,Sołtys
1,jan.nowak@gmail.com,Jan,Nowak
2,anna.nowak@email.com,Anna,Nowak


### Indeksy hierarchiczne (zagnieżdżone)

In [42]:
iterables = [["bar", "baz", "foo", "qux"], ["one", "two"]]

In [43]:
index = pd.MultiIndex.from_product(iterables, names = ["first", "second"])

In [44]:
s = pd.Series(np.random.randn(8), index = index)

In [45]:
s

first  second
bar    one      -0.405969
       two       0.196577
baz    one       1.182120
       two       0.420792
foo    one       0.922954
       two      -1.842617
qux    one       0.340414
       two       0.207405
dtype: float64

In [46]:
s["bar", "one"]

-0.4059691020269081

In [47]:
s["bar"]

second
one   -0.405969
two    0.196577
dtype: float64

## 5. Filtrowanie

### & , | i ~

## 6. Dane jakościowe

zmienne jakościowe to zmienne niemierzalne: 
- nominalne, np. kolor oczu (niebieskie, zielone, brązowe),
- porządkowe, np. wykształcenie (podstawowe, średnie, wyższe)

## 7. Zmiana kolumn i wierszy

### zmiana nazw kolumn

### zmiana wierszy

### uwaga, tutaj potrzebne loc!

### zmiana kolumn

### apply

### applymap - tylko dla ramek danych (Data Frames), użycie funkcji dla każdego elementu 

### map - tylko dla serii, podstaw wartości, uwaga na NAN!

### replace

## 8. Obsługa obserwacji brakujących

usuwanie braków danych

In [2]:
osoby1 = {
    'imię': ['Agnieszka', 'Jan', 'Anna', 'Janusz', np.nan, None, 'NA'],
    'nazwisko': ['Sołtys', 'Kowalski', 'Kowalska', 'Nowak', np.nan, pd.NaT, 'Missing'],
    'email': ['agnieszka.soltys@email.com', 'jan.kowalski@wp.pl', 'anna.kowalska@wp.pl', 'januszek@email.com', None, "antek.nowak@gmail.com", np.nan],
    'age': ['25', '55', '63', '36', None, None, 'Missing']
}

ujednolicenie braków

wypełnianie braków

## 9. Dodawanie/usuwanie wierszy i kolumn

podobne do zmiany wierszy i kolumn

dodawanie kolumn

usuwanie kolumn

dodawanie wierszy

usuwanie wierszy

### 10. Sortowanie