# Pandas

### 1. Wstęp 
Nazwa Pandas odnosi się do wyrażenia "Panel Data" lub do "Python Data Analysis". Autorem biblioteki jest Wes McKinney, który utworzył ją w 2008 roku. Stronę projektu można znaleźć pod adresem: https://github.com/pandas-dev/pandas.

Biblioteka Pandas służy do pracy z danymi - posiada wiele użytecznych rozwiązań umożliwiających bądź ułatwiająych wykonywanie rutynowych działań na danych. Posiada m. in. funkcje do:
- oczyszczania danych, 
- analizy danych, 
- eksplorowania danych, 
- przetwarzania danych. 
Pandas pozwala również na pracę z dużymi zbiorami danych (tzw. Big Data) oraz posiada bogaty zbiór funkcji statystycznych. Do najważniejszych możliwości pakietu Pandas możemy zaliczyć:
- wyznaczanie wartości mimimalnych i maksymalnych, 
- wyznaczanie wartości średnich,
- wyznaczanie korelacji między kolumnami
- usuwanie niepotrzebnych wierszy lub poprawianie uszkodzonych

### 2. Instalacja

Bibliotekę można zainstalować za pomocą managera pakietów pip korzystając z polecenia w programie powłoki: 
- pip install pandas (system Windows)
- pip3 install pandas (system macOS)

### 3. Import

Bibliotekę możemy zaimportować w całości za pomocą jej nazwy, nadać jej alias lub zaimportować wyłącznie wybrany moduł/klasę:
- import pandas
- import pansad as pd
- from pandas import DataFrame

W trakcie pracy z pakietem może okazać się, że musimy sprawdzić jego wersję. Wersję pakietu można znaleźć w polu __version__ pakietu pandas.

#### Przykład - sprawdzanie wersji biblioteki Pandas

<pre>import pandas
pandas.__version__</pre>

### 4. Szeregi (obiet typu Series)

Szeregi (obiety typu Series) w bibliotece Pandas są odpowiednikiem kolumny w tabeli. Można je określić jako jednowymiarowe tablice, bądź listy przechowujące dane dowolnego typu.

#### Przykład - tworzenie szeregu

<pre>import pandas as pd

lista = [1, 2, [3, 3], "cztery", 5]

szereg = pd.Series(lista)

print(szereg)</pre>

In [1]:
import pandas as pd

lista = [1, 2, [3, 3], "cztery", 5]

szereg = pd.Series(lista)

print(szereg)

0         1
1         2
2    [3, 3]
3    cztery
4         5
dtype: object


Powyższy przykład pokazuje, że elementy szeregu posiadają etykiety (wartości po lewej stronie kolumny). Domyślnie etykiety przyjmują wartości indeksu w liście (liczone od 0). 

### Etykietowanie elementów szeregu

Poprzedni przykład ilustrował, że domyślnie etykiety przyjmują wartość indeksu w liście (liczone od 0). Aby nadać kolejnym elementom szeregu etykiety należy skorzystać z argumentu index, a po znaku równości podać listę (w nawiasach kwadratowych) z kolejnymi nazwami w postaci tekstowej, rozdzielone przecinkami. 

#### Przykład - etykietowanie

<pre>
import pandas as pd

lista = [5000, 6000, 4500, 3000]

wynagrodzenia = pd.Series(lista, index=["Kowalski", "Nowak", "Matysik", "Molęda"])

print(wynagrodzenia)
</pre>

Po utworzeniu etykiet zyskujemy możliwość odnoszenia się do elementów szeregu poprzez etykietę, np.:

<pre>
print(wynagrodzenia['Nowak'])
</pre>

### Obiekty klucz-wartość jako szeregi

Szeregi możemy tworzyć również z obiektów przechowujących pary klucz-wartość, czyli ze słowników. Wówczas klucz par staje się etykietą. 

Przykład:

<pre>
import pandas as pd

miesiace = {"styczeń": 1, "luty": 2, "marzec": 3, "kwiecień": 4}

kalendarz = pd.Series(miesiace)

print(kalendarz)
</pre>

W tym przypadku za pomocą argumentu index możemy wskazać, które elementy słownika mają zostać wstawione do szeregu. Przykład:

<pre>
import pandas as pd

miesiace = {"styczeń": 1, "luty": 2, "marzec": 3, "kwiecień": 4}

kalendarz = pd.Series(miesiace, index=["luty", "kwiecień"])

print(kalendarz)
</pre>

### Ramki danych
Dane są zazwyczaj przechowywane w wielokolumnowych tabelach (lub wielowymiarowych macierzach). Do pracy z takimi obiektami służą ramki danych (z agn. data frame). W porównaniu do ramek danych można powiedzieć, że szereg może odpowiadać pojedyńczej kolumnie z ramki. 

Przykład - tworzymy ramkę danych z dwóch szeregów:

<pre>
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia)

print(df)
</pre>

In [2]:
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia)

print(df)

   styczeń  luty
0     5000  5200
1     6000  6200
2     7000  7200
3     8000  8200


### Zwracanie wierszy z ramki danych
Ramki danych to zazwyczaj struktury dwuwymiarowe - posiadają kolumny i wiersze. Aby zwrócić wiersz z ramki danych należy skorzystać z polecenia loc[nr_wiersza].

Przykłady:

<pre>import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia)
</pre>

- zwracanie pierwszego wiersza: 

<pre>
print(df.loc[0])
</pre>

- zwracanie pierwszego i drugiego wiersza:
<pre>
print(df.loc[[0, 1]])
</pre>

- zwracanie wierszy od pierwszego do trzeciego:
<pre>
print(df.loc[0:2]])
</pre>

Aby zwrócić całą ramkę danych można skorzystać z instrukcji: print(df.to_string())

### Etykietowanie wierszy 

Aby nadać nazwy poszczególnym wierszom w ramce danych, możemy skorzystać (ponownie) z argumentu index, do którego po znaku równości przypiszemy listę nazw kolejnych wierszy rozdzielone przecinkami. 

Przykład - etykietowanie wierszy

<pre>
import pandas as pd

wynagrodzenia = {
  "styczeń": [5000, 6000, 7000, 8000],
  "luty": [5200, 6200, 7200, 8200]
}

df = pd.DataFrame(wynagrodzenia, index = ["Kowalski", "Nowak", "Cieślak", "Stasik"])

print(df)
</pre>

Indeks wiersza może posłużyć do wskazania danego wiersza:

<pre>
print(df.loc["Nowak"])
</pre>

### Wczytywanie danych

Zazwyczaj korzystamy z biblioteki Pandas do analizowania danych przechowywanych w zasobach komputera np. w postaci plików tekstowych. Często stosowanymi formatami dla plików z danymi są formaty: 
- csv (plik tekstowy z danymi rozdzielonymi ustalonym separatorem)
- json (pliki zawierające ustrukturalizowane dane w postaci zbliżonej do słowników)
- xlsx (pliki w formacie programu MS Excel)

Pliki w poszczególnych formatach możemy importować korzystając z następujących instrukcji:
- wczytywanie danych w formacie csv: df = pd.read_csv('plik_z_danymi.csv')
- wczytywanie danych w formacie json: df = pd.read_json('plik_z_danymi.json')
- wczytywanie danych w formacie xlsx: df = pd.read_excel('plik_z_danymi.xlsx')

### Wyświetlanie i analiza danych

Domyślnie wywołując zapełnioną ramkę danych zostanie zwrócone 5 pierwszych i 5 ostatnich wierszy. Wyświetlanie w innych formach odbywa się przy zastosowaniu metod:

- head(n) - zwraca pierwsze n wierszy, domyślnie n=5
- tail(n) - zwraca ostatnie n wierszy, domyślnie n=5

Ramka danych posiada również metodę info(), która zwraca najważniejsze informacje dotyczące zbioru - wraz z informacją na temat występowania wartości typu null oraz non-null.

### Czyszczenie danych

Przez czyszczenie danych rozumiemy naprawianie źle wprowadzonych (wadliwych) danych. Do wadliwych danych możemy zaliczyć m.in. puste komórki, dane w złym formacie, złe dane, duplikaty.

#### Puste komórki

Powszechnym problemem wielu zbiorów danych są puste komórki. Nieobsłużone puste komówki mogą być przyczyną błędów w wyliczanych statystykach (np. przy wyliczaniu średniej, suma elementów będzie dzielona przez złą wartość). 

Jednym ze sposobów radzenia sobie z problemem pustych komórek jest ich usuwanie. Jeżeli zbiór danych jest duży - to rozwiązanie jest do zaakceptowania. 

Usuwanie pustych komórek wykonujemy poleceniem dropna(). Domyślnie - zawsze zwraca nową ramkę danych nie zmieniająć oryginału. 

Jeżeli chcemy podmienić oryginał, możemy skorzystać z argumentu inplace i nadać mu wartość True: dropna(inplace = True).

Przykład:

<pre>
new_df = df.dropna()
df.dropna(inplace = True)
</pre>

Komórki zawieracjące wartości NULL możemy również naprawić korzystając z metody dropna().

Problem brakujących wartości możemy również rozwiązać poprzez zastępowanie pustych komórek. Ta metoda polega na wypełnieniu uszkodzonych komórek za pomocą polecenia fillna(), która jako pierwszy argument przyjmuje wartość do wstawienia. 

Argumentem metody fillna() może w szczególności być średnia, mediana lub dominanta. 

Przykład - usuwanie brakujących rekordów:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

new_df = df.dropna()

print(new_df.to_string())
</pre>

Przykład - usuwanie brakujących rekordów (nadpisywanie oryginalnej ramki):

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df.dropna(inplace = True)

print(df.to_string())
</pre>

Przykład - zastępowanie wartości NULL wartością 111:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df.fillna(130, inplace = True)
</pre>

Przykład - zastąpienie wartości NULL na wartość 111 tylko w zadanej kolumnie:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df["nazwa kolumny"].fillna(111, inplace = True)
</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem średniej:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].mean()

df["nazwa kolumny"].fillna(x, inplace = True)

</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem mediany:

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].median()

df["nazwa kolumny"].fillna(x, inplace = True)
</pre>

Przykład - zastępowanie brakujących wartości w zadanej kolumnie z wykorzystaniem dominanty (mody):

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

x = df["nazwa kolumny"].mode()[0]

df["nazwa kolumny"].fillna(x, inplace = True)
</pre>

#### Błędny format danych
 
Analiza danych zawierających komórki z błędami formatu może być bardzo kłopotliwa albo nawet niemożliwa. Poradzić sobie z tym problemem można na dwa sposoby: usunąć wiersze zawierające błędne formaty lub dokonać konwersji wszystkich komórek (np. w kolejnych kolumnach) na jednakowy format. 

Przykład - konwersja formatu (na format daty) w zadanej kolumnie za pomocą metody to_datetime():

<pre>
import pandas as pd

df = pd.read_csv('plik_z_danymi.csv')

df['Data'] = pd.to_datetime(df['Data'])

print(df.to_string())
</pre>

Przykład - usuwanie wierszy zawierające dane nieokreślone (NaN, NaT, ...) za pomocą metody dropna():

<pre>
df.dropna(subset=['Date'], inplace = True)
</pre>

#### Złe dane

Zdarza się, że tabela zawiera nie tyle braki czy dane w złym formacie, ale błędne wyniki. Dla przykładu - w momencie zbierania danych rejestrator pomylił miejsca po przecinku (tzw. błędy grube). Tego typu usterki naprawiamy wykonując podstawienia błędnych danych lub poprzez usuwanie wierszy.

Przykład - podstawianie poprawionych danych do zlokalizowanej komórki z błędem:

<pre>
df.loc[7, 'Duration'] = 45
for x in df.index: 
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120
</pre>

Przykład - usuwanie wierszy:

<pre>
for x in df.index: 
  if df.loc[x, "Duration"] > 120:
    df.drop(x, inplace = True)
</pre>

#### Duplikaty
Przez duplikat rozumiemy powtórzenie rekordu w tabeli. Pandas posiada metody zarówno do wyświetlania duplikatów jak również do ich usuwania.

Przykład - wyszukiwanie duplikatów:
<pre>
print(df.duplicated())
</pre>

Przykład - usuwanie duplikatów:
<pre>
df.drop_duplicates(inplace = True)
</pre>

### Przegląd przydatnych instrukcji

Poniżej zostały wymienione wybrane instrukcje przydatne w trakcie pracy z danymi za pomocą pakietu pandas w postaci ramki danych (tutaj przypisanej do zmiennej df):
- df.info() - opis danych, zwraca opis zawartości poszczególnych kolumn
- list(df) - zwraca listę kolumn w ramce danych
- df.rename(columns={"old name 1" : "new name 1", "old name 2" : "new name 2"}) - zmiana nazw kolumn, nazwy do zamiany podawane są w postaci słownika
- df.corr() - zwraca tablicę korelacji pomiędzy kolumnami w ramce danych
- df["col1_name"].corr(df["col2_name"]) - zwraca współczynnik korelacji pomiędzy zadanymi kolumnami
- df["col_name"].unique() - zwraca unikatowe wartości w kolumnie
- df.replace(to_replace=value_1, value=value_2, inplace=True) - podmienia wskazaną wartość w całej ramce danych
- df.hist() - zwraca histogram ze wszystkich kolumn
- df.insert(loc, column, value) - wstawia kolumnę do ramki danych
- df.drop(columns = ["col_1", "col_2", "col_3"]) - usuwa z ramki danych wskazane kolumny

Bogatym źródłem informacji dot. wszystkich dostępnych instrukcji jest strona internetowa biblioteki pandas: https://pandas.pydata.org/docs/reference/frame.html

W czasie pracy z pandas (w szczególności na początku) warto wspierać się arkuszem informacyjnym przygotowanym przez twórców pakietu: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

### Dobre praktyki - tworzenie czystego kodu

Tworząc program staramy się zastępować powtarzalne sekwencje (czasem skomplikowanego i niezrozumiałego) kodu - funkcjami, które wywołujemy w potrzebnych miejscach. 

### Wyrażenia lambda i funkcja map()

Wyrażenia lambda to funkcje anonimowe - nie posiadają nazwy. Służą one do wykorzystania w "miejscu", ale możemy je przypisać do zmiennych i jedno wyrażenie lambda wykorzystywać wielokrotnie.
<pre>
lambda x: x**2

lambda x, y: x**2 + 2*x*y + y**2
</pre>

Fukcja map() zwraca listę/tablicę/mapę wyrażeń, na których wykonano zadaną operację. Jako artument może przyjmować m. in. wyrażenie lambda.

<pre>
map(lambda x: x*x, list)
</pre>

### Regresja liniowa

Jeżeli między danymi istnieje trend (zmienna niezależna i zmienna zależna są skorelowane) możemy go przedstawić w postaci funkcji liniowej, "najlepiej" przechodzącej pomiędzy punktami reprezentującymi dane. Narzędziem do znajdowania parametrów tej funkcji liniowej jest regresja liniowa. 

Instalacja:
<pre>
pip install scikit-learn
</pre>

Zastosowanie:
<pre>
import numpy as np
from sklearn.linear_model import LinearRegression

model = LinearRegression(fit_intercept=True).fit(X, y)
model
</pre>

# Zadania

### Zadanie 1
Wczytaj dane z pliku "tablice_trygonometryczne.csv" jako Float, wyczyścić błędy (wpisać zamiast nich NaN) i wykreśl sin(a) oraz ctg(a) przez matplotlib.pyplot i bezpośrednio z pandas.

### Zadanie 2
Wczytaj dane z pliku Excela tablice_trygonometryczne_i_szumy.xlsx z arkusza szumy i wykreśl dane z poszczególnych kolumn. Przedstaw dane w jak najbardziej przejrzysty sposób. Wykonaj regresję liniową dla kolumn przechowujących szum i wykreśl uzyskane linie trendu.

### Zadanie 3
Wczytaj pliki births.xlsx oraz geonames.xlsx i wyświetl korzystając z biblioteki Pandas. Jeżeli dane zawierają wady utrudniające ich odczyt - usuń je korzystając z poznanych mechanizmów. Zapoznaj się z danymi zawartymi w plikach.