### Wprowadzenie do biblioteki pandas 

Przetwarzanie danych przy użyciu pandas to działania na wyższym poziomie uogólnienia. Sprowadza się to do przetwarzania obiektu o nazwie Data frame. Koncepcyjnie sam DataFrame to złożenie obiektów typu seria które są połączone przy użyciu wspólnego indeksu (lub wartości bo wartość może stanowić index).
W praktyce DataFrame (df), może nie zawierać żadnych serii lub zawierać jedną serie lub kilkanaście. Czyli pojedyńczą "kolumnę" stanowią obiekty serii oznacza to że mogą w kolumnie być przechowywane obiekty określonego typu one różne typy danych. Np. tekst, liczba obiekt, zazwyczaj jest to liczba lub literał. Wewnątrz mogą być również obiekty typu NaN (missing Value). W przypadku przeszukiwania obiektów/list mogą być kłopotliwe w obsłudze. Wtedy trzeba pobierać pojedyncze wartości potem je przeparsować. 
Data frame z szerszej perspektywy przypomina tabele asoscjacyjną z indeksem. Warto wspomnieć że indeksem mogą być tylko obiekty niemutowalne (niezmienne). Z indeksem data frame może być skojarzona struktura która nie jest płaska. Np. krotka składająca się z dwóch elementów lub może być to też napis. (coś takiego dzieje się przy grupowaniu względem kilku kolumn). 
Seria numpy mogą mieć swoje nazwy. Nazwa ta jest przejmowana przez kolumny data frame i w rezultacie one również mogą mieć nazwę (lub numer). 

In [6]:
import pandas as pd

Pracę z biblioteką rozpoczynamy od jej importu nastepnie tworzymy obiekt dataFrame, który możemy dzięki funkcjom wbudowanym dość sprawnie przetwarzać. Jak tworzymy DataFrame - w najprostszym przypakdu rozpoczynamy od tworzenia słownika ktory przekonwertujemy odpowiednią funkcją biblioteki na df.
Słownik zostanie przekonwertowany w nastepujący sposó klucz będzie nazwą serii (nazwą kolumny) natomiast wartości będą wierszami. Indeks domyślnie będzie wartością liczbową

### Tworzenie DataFrame

In [15]:
#przykład - tworzenie DF ze słownika 

#krok 1 - przygotowanie słownika z danymi 
#każda uporządkowana para stanowić będzie pojedynczą serię (kolumnę)

employees = {"imie":["Jan","Piotr","Paweł","Adam"],
           "nazwisko":["Kowalski","Nowak","Zieliński","Witkowski"],
            "rok urodzenia":[1970, 1980, 1985, 1999]
            }
employees # kontrolne wywołanie obiektu

# Krok 2 - tworzenie DataFrame

df = pd.DataFrame(employees) # tworzenie DataFrame
df # kontrolne wywołanie df

Unnamed: 0,imie,nazwisko,rok urodzenia
0,Jan,Kowalski,1970
1,Piotr,Nowak,1980
2,Paweł,Zieliński,1985
3,Adam,Witkowski,1999


Powyższy obiekt DF składa się z trzech obiektów serii.
Domyślnie został utworzony indeks numeryczne. 
Można zrobić dedykowane (własne) - np. numery pesel

#### Właściwości DF\

In [18]:
#wywołanie wartości przypisanych do indeksu
df.index 
list(df.index)

[0, 1, 2, 3]

In [20]:
#wywołanie nazw kolumn
list(df.columns)

['imie', 'nazwisko', 'rok urodzenia']

#### Modyfikacja nazwy kolumny

In [21]:
#modyfikacje zawartości np. name
#df.columns[2]="rok_urodzenia" w ten sposób nie można -ponieważ jest to obiekt niemutowalny

df.columns = ['imie','nazwisko','rok_urodzenia'] # tak będzie działać
df

Unnamed: 0,imie,nazwisko,rok_urodzenia
0,Jan,Kowalski,1970
1,Piotr,Nowak,1980
2,Paweł,Zieliński,1985
3,Adam,Witkowski,1999


In [23]:
#dostęp do kolumny
df['imie']

0      Jan
1    Piotr
2    Paweł
3     Adam
Name: imie, dtype: object

In [25]:
type(df['imie']) #sprawdzam punkt

pandas.core.series.Series

In [27]:
df.imie #alternatywny sposób wywołania kolumny przy użyciu innej notacji (będzie działać gy nie ma spacji i słów kluczowych python)

0      Jan
1    Piotr
2    Paweł
3     Adam
Name: imie, dtype: object

In [36]:
#wywołanie kilku kolumn 
df[["imie","nazwisko"]] 
#kolejność można zmieniać df[["nazwisko","imie"]] - też będzie działać

Unnamed: 0,imie,nazwisko
0,Jan,Kowalski
1,Piotr,Nowak
2,Paweł,Zieliński
3,Adam,Witkowski


In [37]:
df

Unnamed: 0,imie,nazwisko,rok_urodzenia
0,Jan,Kowalski,1970
1,Piotr,Nowak,1980
2,Paweł,Zieliński,1985
3,Adam,Witkowski,1999


In [45]:
# dodawanie kolumny w  której wartości będą obliczane na podstawie działania funkcji
df['wiek']=2021-df['rok_urodzenia'] # przykład hardkodowania czyli wartość jest na sztywno wpisana
df

Unnamed: 0,imie,nazwisko,rok_urodzenia,wiek
0,Jan,Kowalski,1970,51
1,Piotr,Nowak,1980,41
2,Paweł,Zieliński,1985,36
3,Adam,Witkowski,1999,22


In [49]:
# dodawanie kolumny w  której wartości będą obliczane na 
#podstawie działania funkcji która dynamicznie pobiera wartość roku
from datetime import datetime
datetime.now().year # tutaj jest wywołanie bierzącego roku
df['wiek']=datetime.now().year-df['rok_urodzenia'] # przykład dynamicznie wczytywania roku
df

Unnamed: 0,imie,nazwisko,rok_urodzenia,wiek
0,Jan,Kowalski,1970,51
1,Piotr,Nowak,1980,41
2,Paweł,Zieliński,1985,36
3,Adam,Witkowski,1999,22


In [53]:
# usuwanie kolumny w  której wartości będą obliczane na podstawie działania funkcji
#del(df['wiek']) # usuwamy del
df

Unnamed: 0,imie,nazwisko,rok_urodzenia,wiek
0,Jan,Kowalski,1970,51
1,Piotr,Nowak,1980,41
2,Paweł,Zieliński,1985,36
3,Adam,Witkowski,1999,22


In [54]:
df

Unnamed: 0,imie,nazwisko,rok_urodzenia,wiek
0,Jan,Kowalski,1970,51
1,Piotr,Nowak,1980,41
2,Paweł,Zieliński,1985,36
3,Adam,Witkowski,1999,22


In [22]:
df.values #wyświetlenie wszystkich wartości wewnątrz frame!

array([['Jan', 'Kowalski', 1970],
       ['Piotr', 'Nowak', 1980],
       ['Paweł', 'Zieliński', 1985],
       ['Adam', 'Witkowski', 1999]], dtype=object)