# Wprowadzenie do Pandas i Seaborn

## Pandas

Pakiet Pandas udostępnia dwa obiekty służące do wygodnego przechowywania danych i ułatwiających manipulowanie danymi:
* **Series** to obiekt reprezentujący jednowymiarową tablicę danych
* **DataFrame** to dwu-wymiarowa tabela danych (zbiór obiektów series)

Pandas WWW: <https://pandas.pydata.org/>  
Pandas Tutorial: <https://pandas.pydata.org/docs/getting_started/10min.html>

## Series

Seria jest obiektem reprezentującym jednowymiarową tablicę danych, której elementy są indeksowane. Seria może być utworzona z dowolnej kolekcji liczb: krotki, listy, tablicy numpy a nawet ze słownika. Obiekt Series udostępna wiele metod pozwalających operować na danych w serii, zawiera też  metody do wizualizowania danych. Dodatkowo, wiele funkcji z pakietu numpy może byc użytych na tym obiekcie, jeżeli tylko seria zawiera liczby.

In [None]:
import pandas as pd

s = pd.Series([3.1, 2.4, -1.7, 0.2, -2.9, 4.5])   # seria utworzona z listy liczb

print(s)
print('Values=', s.values)     # wartości serii
print('Index=', s.index)       # indeksy  serii 
print('Pierwszy element:', s[0])  

In [None]:
import numpy as np

s2 = pd.Series(np.random.randn(6))  # seria utworzona z tablicy numpy

print(s2)
print('Values=', s2.values)   # wartości serii
print('Index=', s2.index)     # indeksy serii
print('Pierwszy element:', s2[0])

W odróżnieniu do tablic indeksami nie muszą być liczby całkowite. 

In [None]:
# indeksami moga być łańcychy znakowe
s3 = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])

print('Values=', s3.values)   # wartości
print('Index=', s3.index)     # indeksy

print(s3)

print(s3['a'])     # indeksowanie za pomocą napisów
print(s3[0])       # indeksowanie liczbami całkowitymi nadal działa

In [None]:
capitals = {'MI': 'Lansing', 'CA': 'Sacramento', 'TX': 'Austin', 'MN': 'St Paul'}

s4 = pd.Series(capitals)   # seria ze słownika

print(s4)
print('Values=', s4.values)   # wartości w postaci tablicy NumPy
print('Index=',  s4.index)     # indeksy to klucze słownika capitals
print('Element o indeksie CA:', s4['CA'])

Obiekt Series w wielu sytuacjach zachowuje się podobnie do tablic NumPy. W podobny sposób indeksuje się elementy serii, z tą róznicą, że przekroje równiwież dotyczą indeksów.

In [None]:
s3 = pd.Series([1.2, 2.5, -2.2, 3.1, -0.8], 
            index = ['pn','wt','śr','czw','pt'])
print(s3)

print('s3[2]=', s3[2])        # trzeci element serii

print('s3[1:3]=')
print(s[1:3])            # przekrój serii (elementy od 1 do 2)
print(s3['wt':'czw'])    # elementy od wt do czw

In [None]:
s3[s3 > 0]    # filtrowanie za pomocą reguł logicznych

In [None]:
s3[(s3 > 0) & (s3 < 3) | (s3.index == 'pt')]  

## Operacje arytmetyczne 

In [None]:
print(s3 + 4)       # operacje arytmetyczne, dodawanie wartości skalarnej
print(s3 / 4)    

In [None]:
print(s3 + s3)      # suma wektorów
print(s3 + [1 ,2, 3, 4, 5 ])

## Funkcje numpy

Jeżeli seria zawiera liczby to mozna wykonać na niej funkcje NumPy.

In [None]:
print(np.exp(s3))   # funkcje NumPy stosowane na serii

In [None]:
print(np.log(s3 + 4))    

Obiekt serii posiada wiele metod operujących na jednowymiarowej serii danych, np. funkcje statystyczne (np. min, median) ale także metody wizualizujące dane (np. hist, plot).   

Lista metod klasy Series: <https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html>

In [None]:
s4 = pd.Series(np.random.randn(1000))

print(s4.head())    
print('Sredna', s4.mean())
print('Mediana', s4.median())

In [None]:
s4.hist(bins=100)          # histogram

In [None]:
print(s4.describe())    # zestaw statystyk opisowaych

In [None]:
s5 = pd.Series([42, 12, 3, 5], index=['d', 'c', 'b' , 'a'])
s5.plot()     # wykres liniowy
s5

In [None]:
s5.plot(kind='bar', title='Wykres słupkowy')    # wykres słupkowy

In [None]:
print(s5.sort_values())     # sortowanie wartości
print(s5.sort_index())      # sortowanie indeksów

## DataFrame

Obiek DataFrame reprezentuje 2-wymiarową tabelę danych, która posiada indeksowane kolumny oraz wiersze. Każda kolumna to obiekt Series. Kolumna reprezenteje zmeinną i może zawierać elementy różnego typu (liczby, wartości kategoryczne, napisy, serie czasowe, itd.). 

In [None]:
# tabela utworzona z tablicy numpy
x = pd.DataFrame(np.random.rand(3,4))
display(x)

Kolumny mogą być indeksowane za pomocą napisów - nazwy zmiennych.

In [None]:
# tworzeie tabeli DataFrame z tablicy numpy
import numpy as np

x = np.random.randn(5,3)  # create a 5 by 3 random matrix
data = pd.DataFrame(x, columns=['x1','x2','x3'])
data

In [None]:
# tworzenie tabeli DataFrame ze słownika

cars = {'make': ['Ford', 'Honda', 'Toyota', 'Tesla'],
       'model': ['Taurus', 'Accord', 'Camry', 'Model S'],
       'MSRP': [27595, 23570, 23495, 68000]}          

carData = pd.DataFrame(cars)   # tabela ze słownika, klucze to nazwy kolumn (zmiennych)
carData                        

In [None]:
# tabela utworzona ze słownika zawierającego serie
d = {'x': pd.Series([1., 2., 3.], index=['a', 'b', 'c']),
     'y': pd.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd']),
     'z': pd.Series([42], index=['d'])}
df = pd.DataFrame(d)
df

In [None]:
print(df.index)       # indeksy wierszy
print(df.columns)     # indeksy (nazwy) kolumn

### Operacje na kolumnach

Dodawanie nowych kolumn w tabeli przypomina dodawnanie nowych elementów do słownika.

In [None]:
df = pd.DataFrame({'a' : [1, 2, 3, 4], 'b' : [5, 6, 7, 8]})  
df

In [None]:
df['a']

In [None]:
df['rok'] = 2021                              # dodanie kolumny ze stałą wartością
df['liczby'] = ['Raz','Dwa','Trzy', 'Cztery']   # dodawanie zmiennej z listą wartości
df['x1'] = np.random.rand(4 )
df                  

In [None]:
# usuwanie kolumn
del df['b']
df

Kolumna tabeli jest obiektem Series

In [None]:
print(df['a'])   # zmienna 'a'
print(df['x1'])   # zmienna 'x1'

print(type(df['a']))

In [None]:
df[ ['rok','a'] ]      # wybór kilku zmiennych 

In [None]:
type(df[['a','rok']])      # wynik jest typu DataFrame

Kolumna dostępna jest też w poprzez atrybut obiektu DataFrame o tej samej nazwie

In [None]:
print(df['a'])        # zmienna 'a'
print(df.a)           # także zmienna  'a' 
print(type(df.a))
df.rok

## Indeksowanie tablic DataFrame

* atrybut `iloc` umożliwia indeksowanie za pomocą liczb całkowitych (lub macierzy boolowskich), podobnie jak w NumPy
* atrybut `loc` umożliwia indeksowanie za pomocą etykiet oraz macierzy boolowskich

In [None]:
display(df)

df.iloc[2]    # wiersz 3, wynikiem jest seria, której elementy moga być różnego typu

In [None]:
df.iloc[2 ,1]    # 3 wiersz, 2 kolumna

In [None]:
df.loc[2]   # tu etykiety są liczbami, więc taki sam rezultat jak df.iloc[2]

Indeksowanie zakresów dwukropkiem : podobnie jak w NumPy

In [None]:
display(df)
df.iloc[:, 2]   # trzecia kolumna tabeli -> wynikiem seria

In [None]:
df.iloc[:2, 1:3]     # przekrój danych (wiersze 0,1,2 i kolumny 1,2) -> wynik DataFrame

In [None]:
df.loc[1:2]    # zauwaz, że loc[] uwzglednia ostatni element indeksowania

In [None]:
df.loc[:2, 'rok':'x1']

In [None]:
df.loc[:2, ['rok', 'x1']]

In [None]:
df[ (df.a > 2) & (df.liczby == "Trzy") ]

In [None]:
df.loc[ (df.a > 2) & (df.liczby == "Trzy")]

In [None]:
# iloc[s] -> blad, gdy indeksujemy obiektem boolowskim Series
df.iloc[ ((df.a > 2) & (df.liczby == "Trzy")) ]  

In [None]:
mask = (df.a > 2) & (df.liczby == "Trzy")
display(mask)
print(type(mask))

df.iloc[mask.values]   # OK, indeksowanie tablica boolowska ndarray

###  Operacje arytmetyczne

Jeżeli tablica zawiera dane liczbowe to można na nich wykonywac operacje arytmetyczne a nawet metody numpy.

In [None]:
data = pd.DataFrame(np.random.rand(5, 3), columns=['x1', 'x2', 'x3'])
print(data)

print('Transpozycja:')
print(data.T)    # transpozycja 

print('Dodawanie:')
print(data + 4)    # dodawanie liczby do wszystkich elementów

print('Mnożenie:')
print(data * 10)   # mnożenie

print('np.exp():')
print(np.exp(data))   # exp() dla wszystkich elementów

In [None]:
# operacje arytmetyczne na kolumnach
data['x4'] = data['x1'] * data['x2']    
data['x5'] = data['x1'] > 0.5 
data

Tablica DataFrame posiada wiele przydatnych metod ułatwiających operowanie danymi, wyznaczanie statystyk i sporządzenie wykresów.

Zobacz: <https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html>

## Import danych z plików CSV

In [None]:
tips = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')
tips

Informacje o nazwie i typie zmiennych (kolumn)

In [None]:
tips.info()     # informacje o zmiennych

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 303 entries, 0 to 302
Data columns (total 12 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   age       303 non-null    float64
 1   sex       303 non-null    object 
 2   cp        303 non-null    object 
 3   trestbps  303 non-null    float64
 4   chol      303 non-null    float64
 5   fbs       303 non-null    object 
 6   restecg   303 non-null    object 
 7   thalach   303 non-null    float64
 8   exang     303 non-null    object 
 9   oldpeak   303 non-null    float64
 10  slope     303 non-null    object 
 11  class     303 non-null    object 
dtypes: float64(5), object(7)
memory usage: 28.5+ KB


In [None]:
tips.head()     # podgląd początku tabeli

Podstawowe statystyki dotyczące zmiennych (kolumn)

In [None]:
tips.describe()   # domyślnie wynik tylko dla zmiennych liczbowych (ciągłych)

Unnamed: 0,age,trestbps,chol,thalach,oldpeak
count,303.0,303.0,303.0,303.0,303.0
mean,54.366337,131.623762,246.264026,149.646865,1.039604
std,9.082101,17.538143,51.830751,22.905161,1.161075
min,29.0,94.0,126.0,71.0,0.0
25%,47.5,120.0,211.0,133.5,0.0
50%,55.0,130.0,240.0,153.0,0.8
75%,61.0,140.0,274.5,166.0,1.6
max,77.0,200.0,564.0,202.0,6.2


In [None]:
tips[['smoker']].describe()     # statystyki zmiennej nominalnej (zmienna typu np.object)

In [None]:
import numpy as np
tips.describe(include=[np.object])    # informacje o zmiennych nominalnych 

In [None]:
print('Max:')
print(tips.max())    # maksimum wzgl. kolumn 

print('Średnie wartości w grupie mężczyzn:')
print(tips[tips.sex == 'Male'].mean())  

print('Maksimum w wierszach')
print(tips.max(axis=1))    # maksimum wzgl. wierszy 

Max:
age                            77
sex                          male
cp                     typ_angina
trestbps                      200
chol                          564
fbs                             t
restecg     st_t_wave_abnormality
thalach                       202
exang                         yes
oldpeak                       6.2
slope                          up
class                    presence
dtype: object
Średnie wartości w grupie mężczyzn:
age        NaN
sex        NaN
cp         NaN
trestbps   NaN
chol       NaN
fbs        NaN
restecg    NaN
thalach    NaN
exang      NaN
oldpeak    NaN
slope      NaN
class      NaN
dtype: float64
Maksimum w wierszach
0      233.0
1      286.0
2      229.0
3      250.0
4      204.0
       ...  
298    193.0
299    131.0
300    236.0
301    175.0
302    175.0
Length: 303, dtype: float64


## Wykresy

In [None]:
# wykres liniowy, domyslnie os x to indeksy Dataframe
tips.plot()
tips

Rodzaje wykresów, argument 'kind': 
  'line' (default), 'bar', 'hist', 'box', 'kde', 'area', 'pie', 'scatter'

In [None]:
# wykres skrzynowy dla wybranych kolumn
tips[['total_bill','tip']].plot(kind='box', title='Box plot')

In [None]:
# wykres rozrzutu dla zmiennych 'total_bill' i 'tip'
tips.plot(kind='scatter', x='total_bill', y='tip', title='Wykres rozrzutu')

In [None]:
tips[ tips.sex == 'Male'].plot(kind = 'hist', y = 'total_bill', title='Histogram')
tips[ tips.sex == 'Female'].plot(kind = 'hist', y = 'total_bill')

KeyError: ignored

## Grupowanie danych

Operacja grupowania pozwala w wygodny sposób wykonać operacje na grupach danych (np. wyznaczyć wartośc śrdnią w grupach).

In [None]:
tips_mean = tips.groupby(['sex']).mean()    # średnie wartości napiwków (tips) w grupach zdefiniowanych przez płeć 

display(tips_mean)

tips_mean[['tip']].plot(kind='bar')

In [None]:
tips.groupby(['smoker', 'sex']).count()    # grupowanie po dwóch zmiennych 

In [None]:
tips.groupby(['smoker', 'sex']).mean() 

In [None]:
tips.groupby(['smoker', 'sex']).mean().plot(kind='bar')

## Pakiet Seaborn

Seaborn to biblioteka do wizualizacji danych bazująca na matplotlib, która udostępnia zestaw narzędzi do tworzenia typowych wykresów używanych w statystyce i analizie danych. Źródłem danych dla wykresów Seaborn mogą być serie i tabele Pandas.

WWW: <https://seaborn.pydata.org/>  
Tutorial: <https://seaborn.pydata.org/tutorial.html>  
Rodzaje dostepnych wykresów, API <https://seaborn.pydata.org/api.html>



In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import seaborn as sns
sns.set(style="darkgrid")     # ustawienie stylu

In [None]:
tips = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')
tips

### Wykres rozkładu danych


In [None]:
# histogram z dopasowanymym wykresem rozkładu gęstości dla pojedynczej zmiennej
sns.distplot(tips.total_bill)

In [None]:
# wykres skrzynkowy w grupach utworzonych przez zmienną 'sex'
sns.boxplot(data=tips, y='tip', x='sex')

### Wykresy relacji dwóch zmiennych

In [None]:
sns.scatterplot(data=tips, x="total_bill", y="tip");  # wykres rozrzutu

In [None]:
sns.scatterplot(data=tips, x="total_bill", y="tip", hue='sex');  # grupy w różnych kolorach

In [None]:
sns.relplot(x="total_bill", y="tip", data=tips, col='sex', kind='scatter');  
# grupy na osobnych wykresach
# relplot() jest ogolna funkcja do wykresow relacji

### Wykresy zmiennych dyskretnych: 

In [None]:
# wykres słópkowy liczby próbek w grupach 
sns.countplot(data=tips, x="sex")

In [None]:
# to samo w podziale na grupy 'time' 
# catplot() ogolna funkcja to zmiennych kategorycznych
sns.catplot(data=tips, kind="count", x="sex", col="time")

In [None]:
# wykres liniowy 
sns.lineplot(data=tips, x='total_bill', y='tip')

In [None]:
# gdy 'x' zmienna kategoryczna to przebieg wart. sredniej z przedziałem ufnosci
sns.lineplot(data=tips, x='size', y='tip')

## Zadanie

Korzystając z pakietu Pandas oraz Seaborn wykonaj eksplorację danych dotyczących chorób serca zawartych w pliku:
<https://www.fizyka.umk.pl/~grochu/wdm/files/heart-cleveland.csv>

Dane zawierają 303 przypadku opisane 12 zmiennymi. Ostatnia zmienna zawiera informacje o występowaniu schorzenia serca.
```
1. age  - wiek
2. sex - płeć (male, female) 
3. cp -  rodzaj bólu klatki piersiowej (chest pain type: typical angina, atypical angina, non-anginal pain, asymptomatic)
4. trestbps -  ciśnienie krwi (resting blood pressure (in mm Hg on admission to the hospital)) 
5. chol -   cholesterol  (serum cholestoral in mg/dl )
6. fbs -   poziom cukru  we krwi (fasting blood sugar > 120 mg/dl (true or false) )
7. restecg - wynik badań kardiograficznych (normal, left_vent_hyper, st_t_wave_abnormality)
8. thalac -`maksymalne tętno
9. exang - angina wywołana wysiłkiem fizycznym (yes, no)
10. oldpeak -  głebokość odcinka ST na wykresie EKG (ST depression induced by exercise relative to rest)
11. slope -  nachylenie odcinka ST na wykresie EKG (the slope of the peak exercise ST segment (upsloping, flat, downsloping))
12. class  - przewidywana wartość, występowanie schorzenia (absence, presence)
```

1. Zaimportuj dane do tablicy DataFrame
2. Wyświetl informacje o nazwie i typie zmiennych
3. Za pomocą funkcji [describe()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) wyświetl statystyki opisowe dotyczące zmiennych ciągłych (min, max, mean, ...) oraz osobno informacje o częstości występowania zmiennych dyskretnych (count, unique, freq)
4. Jaki jest średni poziom cholesterolu (`chol`) dla każdej płci (`sex`) ? Wynik przestaw w postaci liczbowej oraz za pomocą stosowanego wykresu (np. słupkowego [barplot()](https://seaborn.pydata.org/generated/seaborn.barplot.html#seaborn.barplot))
5. Narysuj wykres rozrzutu dla wszystkich par zmiennych z danymi numerycznymi korzystając z metody [pairplot()](https://seaborn.pydata.org/generated/seaborn.pairplot.html#seaborn.pairplot). Na podstawie wykresu wybierz parę zmiennych, które można podejrzewać o liniową zależność i wyrysyj dla tej pary zmiennych wykres rozrzutu z naniesioną linią regresyjną za pomocą funkcji [regplot()](https://seaborn.pydata.org/generated/seaborn.regplot.html#seaborn.regplot) lub [lmplot()](https://seaborn.pydata.org/generated/seaborn.lmplot.html#seaborn.lmplot)


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import seaborn as sns
sns.set(style="darkgrid")

#Zad1
tips = pd.read_csv('https://www.fizyka.umk.pl/~grochu/wdm/files/heart-cleveland.csv')

x = pd.DataFrame(tips)
#display(x)

#Zad2

y = x.info()

#Zad3

y = x.describe(include=[np.number])
display(y)

z = x.describe(include=[np.object])
display(z)

#Zad4

print("Male")
print(x[x.sex == 'male'].iloc[:, 4].mean())

print("Female")
print(x[x.sex == 'female'].iloc[:, 4].mean())

sns.barplot(x = "sex", y = "chol", data = x)

#Zad5

sns.pairplot(data = x)

sns.lmplot(data = x, x ='age', y ='thalach')



