# Wprowadzenie do Pandas i Seaborn

## Pandas

Pakiet Pandas udostępnia dwa obiekty służące do wygodnego przechowywania danych i ułatwiających manipulowanie danymi:
* **Series** to obiekt reprezentujący jednowymiarową tablicę danych
* **DataFrame** to dwu-wymiarowa tabela danych.

Pandas WWW: <https://pandas.pydata.org/>  
Pandas Tutorial: <https://pandas.pydata.org/docs/getting_started/10min.html>

## Series

Seria jest obiektem reprezentującym jednowymiarową tablicę danych, której elementy są indeksowane. Seria może być utworzona z dowolnej kolekcji liczb: krotki, listy, tablicy numpy a nawet ze słownika. Obiekt Series udostępna wiele metod pozwalających operować na danych w serii, zawiera też  metody do wizualizowania danych. Dodatkowo, wiele funkcji z pakietu numpy może byc użytych na tym obiekcie, jeżli tylko seria zawiera liczby.

In [None]:
import pandas as pd

s = pd.Series([3.1, 2.4, -1.7, 0.2, -2.9, 4.5])   # seria utworzona z listy liczb

print(s)
print('Values=', s.values)     # wartości serii
print('Index=', s.index)       # indeksy  serii 
print('Pierwszy element:', s[0])  


In [None]:
import numpy as np

s2 = pd.Series(np.random.randn(6))  # seria utworzona z tablicy numpy

print(s2)
print('Values=', s2.values)   # wartości serii
print('Index=', s2.index)     # indeksy serii
print('Pierwszy element:', s2[0])

W odróżnieniu do tablic indeksami nie muszą być liczby całkowite. 

In [None]:
# indeksami moga być łańcychy znakowe
s3 = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

print('Values=', s3.values)   # wartości
print('Index=', s3.index)     # indeksy

print(s3)

print(s3['a'])     # indeksowanie za pomocą napisów
print(s3[0])       # indeksowanie liczbami całkowitymi nadal działa

In [None]:
capitals = {'MI': 'Lansing', 'CA': 'Sacramento', 'TX': 'Austin', 'MN': 'St Paul'}

s4 = pd.Series(capitals)   # seria ze słownika

print(s4)
print('Values=', s4.values)   # wartości
print('Index=', s4.index)     # indeksy
print('Element o indeksie CA:', s4['CA'])

Obiekt Series w wielu sytuacjach zachowuje się podobnie do tablic NumPy. W podobny sposób indeksuje się elementy serii, z tą róznicą, że przekroje równiwież dotyczą indeksów.

In [None]:
s3 = pd.Series([1.2, 2.5, -2.2, 3.1, -0.8, -3.2], 
            index = ['a','b','c','d','e','f'])
print(s3)

print('s3[2]=', s3[2])        # trzeci element serii

print('s3[1:3]=')             # przekrój serii (elementy od 1 do 3)
print(s3[1:3])



In [None]:
print('size =', s3.size)    # ilość elementów serii

In [None]:
print(s3[s3 > 0])   # filtrowanie za pomocą reguł logicznych

In [None]:
print(s3 + 4)       # operacje arytmetyczne, dodawanie wartości skalarnej
print(s3 / 4)    

print(s3 + s3)      # suma wektorów
print(s3 + [1 ,2, 3, 4, 5, 6 ])

Jeżeli seria zawiera liczby to mozna wykonać na niej funkcje NumPy.

In [None]:
print(np.exp(s3))
print(np.log(s3 + 4))    # funkcje NumPy stosowane na serii

Obiekt serii posiada wiele metod operujących na jednowymiarowej serii danych, np. funkcje statystyczne (np. min, median) ale także metody wizualizujące dane (np. hist, plot).   

Lista metod klasy Series: <https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html>

In [None]:
s4 = pd.Series(np.random.randn(100))

print(s4.head())    
print('Sredna', s4.mean())
print('Mediana', s4.median())

In [None]:
s4.hist()          # histogram

In [None]:
print(s4.describe())    # zestaw statystyk opisowaych

In [None]:
s5 = pd.Series([42, 2, 3, 5], index=['d', 'c', 'b' , 'a'])
s5.plot()     # wykres liniowy

In [None]:
s5.plot(kind='bar', title='Wykres słópkowy')    # wykres słópkowy

In [None]:
print(s5.sort_values())     # sortowanie wartości
print(s5.sort_index())      # sortowanie indeksów

## DataFrame

Obiek DataFrame reprezentuje 2-wymiarową tabelę danych, która posiada indeksowane kolumny oraz wiersze. Każda kolumna to obiekt Series, może zawierać elementy innego typu (liczby, wartości kategoryczne, napisy, serie czasowe, itd.) i reprezentuje pojedyńczą zmienną. 

In [None]:
# tabela utworzona z tablicy numpy
x = pd.DataFrame(np.random.rand(3,3))   
x

Kolumny mogą być indeksowane za pomocą napisów, można traktować te napisy jak nazwy zmiennych. 

In [None]:
# tworzeie tabeli DataFrame z tablicy numpy
import numpy as np

x = np.random.randn(5,3)  # create a 5 by 3 random matrix
data = pd.DataFrame(x, columns=['x1','x2','x3'])
data

In [None]:
# tworzenie tabeli DataFrame ze słownika, klucze słownika stają się nazwami kolumn
cars = {'make': ['Ford', 'Honda', 'Toyota', 'Tesla'],
       'model': ['Taurus', 'Accord', 'Camry', 'Model S'],
       'MSRP': [27595, 23570, 23495, 68000]}          

carData = pd.DataFrame(cars)   # tabela ze słownika, klucze to nazwy kolumn (zmiennych)
carData                        # wyświetlanie tabeli w notatniku

In [None]:
# tabela utworzona ze słownika zawierającego serie
d = {'x': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'y': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
     'z': pd.Series([42], index=['d'])}
df = pd.DataFrame(d)
df

In [None]:
print(df.index)       # indeksy wierszy
print(df.columns)     # indeksy (nazwy) kolumn

### Operacje na kolumnach

Dodawanie nowych kolumn w tabeli przypomina dodawnanie nowych elementów do słownika.

In [None]:
df = pd.DataFrame({'a' : [1, 2, 3, 4], 'b' : [5, 6, 7, 8]})  

df['rok'] = 2020                 # dodanie kolumny ze stała wartością
df['col1'] = ['Raz','Dwa','Trzy', 'Cztery']   # dodawanie zmiennej z listą wartości
df['x1'] = np.random.rand(4)
df                  

Kolumna tabeli jest obiektem Series

In [None]:
print(df['a'])
print(type(df['a']))


Kolumna dostępna jest też w poprzez atrybut obiektu DataFrame o tej samej nazwie

In [None]:
print(df['a'])
print(df.a)
print(type(df.a))

In [None]:
# usuwanie kolumn
del df['a']
df

## Indeksowanie tablic DataFrame

Elementy DataFrame moga być indeksowane podobnie jak tablice numpy. Atrybut `iloc` umożliwia indeksowanie za pomocą liczb całkowitych (określa pozycję elementu)  

In [None]:
df.iloc[2]    # wiersz 3 tabeli, wynikiem jest seria, której elementy moga być różnego typu

In [None]:
df.iloc[:, 2]   # trzecia kolumna tabeli

In [None]:
df.iloc[:2, 1:3]     # przekrój danych (wiersz od początku do 2 i kolumna od 1 do 3)

###  Operacje arytmetyczne

Jeżeli tablica zawiera dane liczbowe to można na nich wykonywac operacje arytmetyczne a nawet metody numpy.

In [None]:
data = pd.DataFrame(np.random.rand(5, 3), columns=['x1', 'x2', 'x3'])
print(data)

print('Transpozycja:')
print(data.T)    # transpozycja 

print('Dodawanie:')
print(data + 4)    # dodawanie liczby do wszystkich elementów

print('Mnożenie:')
print(data * 10)   # mnożenie

print('np.exp():')
print(np.exp(data))   # exp() dla wszystkich elementów



In [None]:
# operacje arytmetyczne na kolumnach
data['x4'] = data['x1'] * data['x2']    
data['x5'] = data['x1'] > 0.5 
data


Tablica DataFrame posiada wiele przydatnych metod ułatwiających operowanie danymi, wyznaczanie statystyk i sporządzenie wykresów.

Zobacz: <https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html>

## Import danych z plików CSV

In [None]:
tips = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')

Informacje o nazwie i typie zmiennych (kolumn)

In [None]:
tips.info()     # informacje o zmiennych

In [None]:
tips.head()     # podgląd początku tabeli

Podstawowe statystyki dotyczące zmiennych (kolumn)

In [None]:
tips.describe()   # wynik tylko dla zmiennych liczbowych 

In [None]:
import numpy as np
tips.describe(include=[np.object])    # informacje o zmiennych nominalnych 

In [None]:
print(data.abs())    # wartość bezwzględna

print('Max:')
print(data.max())    # maksimum wzgl. kolumn 

print('Średnia dla wierszy:')
print(data.mean(axis=1))    # średnia względem wierszy 

data.plot()               # wykres liniowy

In [None]:
# wykres skrzynowy dla wybranych kolumn
tips[['total_bill','tip']].plot(kind='box', title='Box plot')

In [None]:
# wykres rozrzutu dla zmiennych 'total_bill' i 'tip'
tips.plot(kind='scatter', x='total_bill', y='tip', title='Wykres rozrzutu')

## Grupowanie danych

Operacja grupowania pozwala w wygodny sposób wykonać operacje na grupach danych (np. wyznaczyć wartośc śrdnią w grupach).

In [None]:
tips_mean = tips.groupby(['sex']).mean()    # średnie wartości napiwków (tips) w grupach zdefiniowanych przez płeć 

tips_mean[['tip']].plot(kind='bar')

tips_mean

In [None]:
tips.groupby(['smoker', 'sex']).count()    # grupowanie po dwóch zmiennych 

## Pakiet Seaborn

Seaborn to biblioteka do wizualizacji danych bazująca na matplotlib, która udostępnia zestaw narzędzi do tworzenia typowych wykresów uzywanych w statystyce i analizie danych. Źródlem danych dla wykresów Seaborn mogą być serie i tabele Pandas.

WWW: <https://seaborn.pydata.org/>  
Tutorial: <https://seaborn.pydata.org/tutorial.html>  
Rodzaje dostepnych wykresów, API <https://seaborn.pydata.org/api.html>



In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import seaborn as sns
sns.set(style="darkgrid")     # ustawienie stylu

In [None]:
tips = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')

### Wykres rozkładu danych

In [None]:
# histogram z dopasowanymym wykresem rozkładu gęstości
ax = sns.distplot(tips.total_bill)

In [None]:
# wykres skrzynkowy w grupach utworzonych przez zmienną 'sex'
sns.boxplot(y='tip', x='sex', data=tips)

### Wykresy relacji dwóch zmiennych

In [None]:
sns.scatterplot(x="total_bill", y="tip", data=tips);  # wykres rozrzutu
sns.scatterplot(x="total_bill", y="tip", data=tips, hue='sex');  # grupy w różnych kolorach
sns.relplot(x="total_bill", y="tip", data=tips, col='sex', kind='scatter');  # grupy na osobnych wykresach


### Wykresy zmiennych dyskretnych: 

In [None]:
# wykres słópkowy liczby próbek w grupach 
sns.countplot("sex", data=tips)

# to samo w podziale na grupy 'time'
sns.catplot("sex", col="time", data=tips, kind="count")


## Zadanie

Korzystając z pakietu Pandas oraz Seaborn wykonaj eksplorację danych dotyczących chorób serca zawartych w pliku:
<https://www.fizyka.umk.pl/~grochu/wdm/files/heart-cleveland.csv>

Dane zawierają 303 przypadku opisane 12 zmiennymi. Ostatnia zmienna zawiera informacje o występowaniu schorzenia serca.
```
1. age  - wiek
2. sex - płeć (male, female) 
3. cp -  rodzaj bólu klatki piersiowej (chest pain type: typical angina, atypical angina, non-anginal pain, asymptomatic)
4. trestbps -  ciśnienie krwi (resting blood pressure (in mm Hg on admission to the hospital)) 
5. chol -   cholesterol  (serum cholestoral in mg/dl )
6. fbs -   poziom cukru  we krwi (fasting blood sugar > 120 mg/dl (true or false) )
7. restecg - wynik badań kardiograficznych (normal, left_vent_hyper, st_t_wave_abnormality)
8. thalac -`maksymalne tętno
9. exang - angina wywołana wysiłkiem fizycznym (yes, no)
10. oldpeak -  głebokość odcinka ST na wykresie EKG (ST depression induced by exercise relative to rest)
11. slope -  nachylenie odcinka ST na wykresie EKG (the slope of the peak exercise ST segment (upsloping, flat, downsloping))
12. class  - przewidywana wartość, występowanie schorzenia (absence, presence)
```

1. Zaimportuj dane do tablicy DataFrame
2. Wyświetl informacje o nazwie i typie zmiennych
3. Za pomocą funkcji [describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) wyświetl statystyki opisowe dotyczące zmiennych ciągłych (min, max, mean, ...) oraz osobno informacje o częstości występowania zmiennych dyskretnych (count, unique, freq)
4. Jaki jest śreni poziom cholesterolu (`chol`) dla każdej płci (`sex`) ? Wynik przestaw w postaci liczbowej oraz za pomocą stosowanego wykresu (np. słupkowego [barplot()](https://seaborn.pydata.org/generated/seaborn.barplot.html#seaborn.barplot))
5. Narysuj wykres rozrzutu dla wszystkich par zmiennych z danymi numerycznymi korzystając z metody [pairplot()](https://seaborn.pydata.org/generated/seaborn.pairplot.html#seaborn.pairplot). Na podstawie wykresu wybierz parę zmiennych, które można podejrzewać o liniową zależność i wyrysyj dla tej pary zmiennych wykres rozrzutu z naniesioną linią regresyjną za pomocą funkcji [regplot()](https://seaborn.pydata.org/generated/seaborn.regplot.html#seaborn.regplot) lub [lmplot()](https://seaborn.pydata.org/generated/seaborn.lmplot.html#seaborn.lmplot)
