# Pandas - informacje wstępne
na podstawie https://www.w3schools.com/python/pandas/default.asp


### 1. Biblioteka Pandas - informacje
Biblioteka do pracy ze zbiorami danych. Posiada funkcje do analizy, oczyszczania, eksplorowania i przerwarzania danych. 

Biblioteka Pandas umożliwia analizowanie dużych zbiorów danych (Big Data) oraz wyciąganie z nich wniosków bazując na podstawach statystyki. Umożliwia porządkowanie i przetwarzanie zbiorów oraaz pozwala je robić bardziej czytelnymi. Pozwala również identyfikować istotne dane.

Do najważniejszych możliwości biblioteki Pandas można zaliczyć wyznaczanie korelacji między kolumnami, wyznaczanie wartości średnich, wartości minimalnych i maksymalnych. Pozwala również usuwać niepotrzebne wiersze lub poprawiać wiersze 

Sama nazwa Pandas odnosi się do "Panel Data" lub do "Python Data Analysis". Bibliotekę utworzył w 2008 Wes McKinney. Stronę projektu można znaleźć w serwisie GitHub pod adresem: https://github.com/pandas-dev/pandas.


### 2. Instalacja

Bibliotekę można zainstalować za pomocą managera pakietów - pip: pip3 install pandas

### 3. Import

Istnieje możliwość importu biblioteki lub/oraz nadania jej nazwie aliasu za pomocą poleceń
import pandas lub import pandas as pd. Przykłady:



In [3]:
import pandas

moje_dane = {
  'cars': ["BMW", "Volvo", "Ford"],
  'passings': [3, 7, 2]
}

myvar = pandas.DataFrame(moje_dane)

print(myvar)

    cars  passings
0    BMW         3
1  Volvo         7
2   Ford         2


In [4]:
import pandas as pd

mydataset = {
  'cars': ["BMW", "Volvo", "Ford"],
  'passings': [3, 7, 2]
}

myvar = pd.DataFrame(mydataset)

print(myvar)

    cars  passings
0    BMW         3
1  Volvo         7
2   Ford         2


### 4. Sprawdzanie wersji biblioteki Pandas

Wersję biblioteki można sprawdzić za pomocą atrybutu __version__. Przykład: 

In [5]:
import pandas as pd

print(pd.__version__)

1.3.4


### 5. Obiekt typu Series

Obiekt typu Series (szereg) w bibliotece Pandas jest odpowiednikiem kolumny w tabeli. Jest to jednowymiarowa tablica (lista) przechowująca dane dowolnego typu. 
Przykład - tworzenie prostego szeregu:

In [6]:
import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a)

print(myvar)

0    1
1    7
2    2
dtype: int64


### 6. Etykiety

Jeżeli nie podano inaczej - wartości w szeregu są zaetykietowane poprzez numer indeksu w liście (numer liczony od 00). 
Przykład:
Aby zwrócić pierwszą wartość z szeregu można skorzystać z instrukcji:
print(myvar[0])

In [7]:
print(myvar[0])

1


### 7. Tworzenie etykiet

Korzystając z argumentu index możemy utworzyć nowe etykiety danych w szeregu.
Przykład:

In [8]:
import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a, index = ["x", "y", "z"])

print(myvar)

x    1
y    7
z    2
dtype: int64


Po utworzeniu etykiet, do wartości przechowywanych w szeregu można odnosić się za pomocą tych etykiet.
Przykład:

In [9]:
print(myvar["y"])

7


### 8. Obiekty klucz-wartość jako szeregi

Tworząc szereg można wykorzystać obiety typu klucz-wartość (czyli tzw. słowniki).
Przykład - tworzenie szeregu ze słownika:

In [10]:
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories)

print(myvar)

day1    420
day2    380
day3    390
dtype: int64


Uwaga: wartości klucza słownika stają się etykietami.

Aby zwrócić (wyświetlić) tylko wybrane wartości ze słownika można wykorzystać argument index aby uściślić, jakie dane zwrócić.
Przykład: Zwracamy tylko dane dla day1 i day2:

In [11]:
import pandas as pd

calories = {"day1": 420, "day2": 380, "day3": 390}

myvar = pd.Series(calories, index = ["day1", "day2"])

print(myvar)

day1    420
day2    380
dtype: int64


### 9. Ramki danych (data frames)

Zbiory danych w Pandas są zwykle wielkowymiarowymi tabelami, nazywanymi ramkami danych (DataFrames). W odniesieniu do nich, szereg można traktować jaki jedną z kolumn tabeli, natomiast ramkę danych jako całą tabelę. 
Przykład - tworzymy ramkę danych z dwóch szeregów:

In [14]:
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data)

print(df)

   calories  duration
0       420        50
1       380        40
2       390        45


### 10. Zwracanie wierszy

Ramka danych to dwuwymiarowa struktura danych - podobnie jak dwuwymiarowa tablica z wierszami i kolumnami. ABy wyświetlić dany wiersz możemy skorzystać z atrybutu loc.
Przykład - zwracanie pierwszego wiersza:

In [15]:
print(df.loc[0])

calories    420
duration     50
Name: 0, dtype: int64


Przykład - zwracanie pierwszego i drugiego wiersza:

In [16]:
#use a list of indexes:
print(df.loc[[0, 1]])

   calories  duration
0       420        50
1       380        40


Aby zwrócić całą ramkę danych można skorzystać z instrukcji: print(df.to_string()) 

### 11. Nazywanie wierszy za pomocą wskaźników (indeksów)

Za pomocą argumentu index można poetykietować wiersze w ramce danych.
Przykład - nadawanie nazw wierszom w ramce danych:

In [17]:
import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

df = pd.DataFrame(data, index = ["day1", "day2", "day3"])

print(df) 

      calories  duration
day1       420        50
day2       380        40
day3       390        45


 Wyświetlanie wierszy za pomocą ich nazw wykonujemy korzystając z metody loc.
 Przykład - zwracanie wiersza o nazwie "day2"

In [18]:
print(df.loc["day2"])

calories    380
duration     40
Name: day2, dtype: int64


### 12. Wczytywanie danych

Wczytywanie danych w formacie CSV: df = pd.read_csv('data.csv')

Wczytywanie danych w formacie JSON: df = pd.read_json('data.json')

### 13. Wyświetlanie i analiza danych

Domyślnie wywołując zapełnioną ramkę danych zostanie zwrócone 5 pierwszych i 5 ostatnich wierszy. Wyświetlanie w innych formach odbywa się przy zastosowaniu metod:

head(n) - zwraca pierwsze n wierszy, domyślnie n=5

tail(n) - zwraca ostatnie n wierszy, domyślnie n=5

Ramka danych posiada również metodę info(), która zwraca najważniejsze informacje dotyczące zbioru - wraz z informacją na temat występowania wartości typu null oraz non-null.

### 14. Czyszczenie danych

Przez czyszczenie danych rozumiemy naprawianie źle wprowadzonych (wadliwych) danych. Do wadliwych danych możemy zaliczyć m.in. puste komórki, dane w złym formacie, złe dane, duplikaty.

### 15. Puste komórki

Puste komórki mogą w efekcie powodować błędy w wyliczanych statystykach. Jednym ze sposobów jest usuwanie komórek. Jeżeli zbiór danych jest duży - to rozwiązanie jest do zaakceptowania. 

Usuwanie pustych komórek wykonujemy poleceniem dropna(). Domyślnie - zawsze zwraca nową ramkę danych nie zmieniająć oryginału. Jeżeli chcemy podmienić oryginał, możemy skorzystać z argumentu inplace i nadać mu wartość True: dropna(inplace = True).

Przykład:

In [19]:
new_df = df.dropna()
df.dropna(inplace = True)

Komórki zawieracjące wartości NULL naprawiamy również metodą dropna().

Zastępowanie pustych wartości - kolejny sposób radzenia sobie z brakującymi danymi. Metoda polega na wypełnieniu uszkodzonych komórek. Wykonujemy to za pomocą metody fillna(), która jako pierwszy argument przyjmuje wartość do wstawienia. 

Metoda fillna() może być również wykorzystana do wypełenia brakujących komórek w oparciu o wartość średnią, medianę lub dominantę. 

Przykład - usuwanie brakujących rekordów:

In [20]:
import pandas as pd

df = pd.read_csv('data.csv')

new_df = df.dropna()

print(new_df.to_string())

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.0
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45    105       132     246.0
24         60   

Przykład - usuwanie brakujących rekordów (nadpisywanie oryginalnej ramki):

In [21]:
import pandas as pd

df = pd.read_csv('data.csv')

df.dropna(inplace = True)

print(df.to_string())

     Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.0
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0
23         45    105       132     246.0
24         60   

Przykład - Zastępowanie wartości NULL wartością 130:

In [22]:
import pandas as pd

df = pd.read_csv('data.csv')

df.fillna(130, inplace = True)

Przykład - zastąpienie wartości NULL na wartość 130 tylko w zadanej kolumnie:

In [23]:
import pandas as pd

df = pd.read_csv('data.csv')

df["Calories"].fillna(130, inplace = True)

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem średniej:

In [24]:
import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].mean()

df["Calories"].fillna(x, inplace = True)

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem mediany:

In [25]:
import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].median()

df["Calories"].fillna(x, inplace = True)

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem dominanty (mody):

In [26]:
import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].mode()[0]

df["Calories"].fillna(x, inplace = True)

### 16. Błędny format danych

Analiza danych zawierających komórki z błędami formatu może być bardzo kłopotliwa albo nawet niemożliwa. Poradzić sobie z tym problemem można na dwa sposoby: usunąć wiersze zawierające błędne formaty lub dokonać konwersji wszystkich komórek (np. w kolejnych kolumnach) na jednakowy format. 

Przykład - konwersja formatu (na format daty) w zadanej kolumnie za pomocą metody to_datetime():

In [4]:
import pandas as pd

df = pd.read_csv('data.csv')

df

#df['Date'] = pd.to_datetime(df['Date'])

#print(df.to_string())

Unnamed: 0,Duration,Pulse,Maxpulse,Calories
0,60,110,130,409.1
1,60,117,145,479.0
2,60,103,135,340.0
3,45,109,175,282.4
4,45,117,148,406.0
...,...,...,...,...
164,60,105,140,290.8
165,60,110,145,300.0
166,60,115,145,310.2
167,75,120,150,320.4


Przykład - usuwanie wierszy zawierające dane nieokreślone (NaN, NaT, ...) za pomocą metody dropna():

In [5]:
df.dropna(subset=['Date'], inplace = True)

KeyError: ['Date']

### 17. Złe dane

Zdarza się, że tabela zawiera nie tyle braki czy dane w złym formacie, ale błędne wyniki. Dla przykładu - w momencie zbierania danych rejestrator pomylił miejsca po przecinku (tzw. błędy grube). Tego typu usterki naprawiamy wykonując podstawienia błędnych danych lub poprzez usuwanie wierszy. 

Przykład - podstawianie poprawionych danych do zlokalizowanej komórki z błędem:

In [6]:
df.loc[7, 'Duration'] = 45

In [7]:
for x in df.index: 
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120

Przykład - usuwanie wierszy:

In [8]:
for x in df.index: 
  if df.loc[x, "Duration"] > 120:
    df.drop(x, inplace = True)

### 18. Duplikaty

Przez duplikat rozumiemy powtórzenie rekordu w tabeli. Pandas posiada metody zarówno do wyświetlania duplikatów jak również do ich usuwania.

Przykład - wyszukiwanie duplikatów:

In [10]:
print(df.duplicated())

0      False
1      False
2      False
3      False
4      False
       ...  
164    False
165    False
166    False
167    False
168    False
Length: 169, dtype: bool


Przykład - usuwanie duplikatów:

In [11]:
df.drop_duplicates(inplace = True)