# Seaborn
Seaborn jest pakietem do wizualizacji statystycznych bazującym na matplotlib.

W trakcie tworzenia wykresów, będziemy mogli wykorystywać funkcje z biblioteki matplotlib

Dokumentacja: https://seaborn.pydata.org/ 

Zbiór danych do analizy: https://www.kaggle.com/datasets/rabieelkharoua/students-performance-dataset

In [None]:
#pip install seaborn

In [2]:
import pandas as pd
import numpy as np 
import matplotlib.pyplot as plt 
import seaborn as sns

In [3]:
# puść ten kod, 
# jeżeli wywołujesz plik  w folderze rozwiąznaia, 
# a ramka danych znajduje się w folderze data
import os 
os.chdir('../')

In [4]:
# Wczytanie zbioru
df = pd.read_csv("data/Student_performance_data.csv")

In [None]:
df.columns

In [6]:
cols = ['Age','GPA','ParentalSupport','Extracurricular']

In [None]:
# pairplot
sns.pairplot(df[cols])

In [None]:
# heatmap - mapa ciepła - często stosowana przy wizualizacji korelacji
plt.figure(figsize=[10,8])
sns.heatmap(df.corr(method = 'spearman').round(2), annot= True,linewidths=0.1)
plt.show()

In [None]:
# Histogramy
sns.histplot(data=df, x='GPA')

In [None]:
# Histogramy
sns.histplot(df[['GPA','StudyTimeWeekly']])

In [None]:
# Sprawdźmy czas nauki w różnych grupach ocen
# Weźmy najlepsze i najsłabsze oceny
df['GradeClass'].value_counts()

In [None]:
# wizualizacja liczebności grup
sns.countplot(df,x='GradeClass')
plt.show()

In [13]:
df_highest = df[df['GradeClass']==0.0]
df_lowest  = df[df['GradeClass']==4.0]

In [None]:
# Sprawdźmy najpierw średnią
sns.histplot(df_highest,x='GPA',alpha = 0.8, label = 'Highest' )
sns.histplot(df_lowest,x='GPA',alpha= 0.8, label = 'Lowest')
plt.legend()
plt.show()



In [None]:
# Denisty plot
sns.kdeplot(df_highest, x='StudyTimeWeekly', alpha = 0.6, fill=True)
sns.kdeplot(df_lowest,x= 'StudyTimeWeekly', alpha = 0.6, fill= True)
plt.legend(['High','Low'])
plt.title('Study time weekly for the highest and the lowest grade')
plt.show()

In [None]:
sns.kdeplot(df,x= 'StudyTimeWeekly', alpha =0.6, fill= True, hue ='GradeClass',common_norm=False)
plt.title('Study time weekly per grade')
plt.show()

In [17]:
# Box plot

In [None]:
sns.boxplot(df, x= 'StudyTimeWeekly', fill=True, hue ='GradeClass')
plt.title('Study time weekly per grade')
plt.show()

### Violin plot
Jest to połączenie box plot z density plot

In [None]:
# Violin plot
sns.violinplot(df,x = 'StudyTimeWeekly', fill= True, hue = 'GradeClass')
plt.title('Study time weekly per grade')
plt.show()

In [None]:
# Na koniec inne spojrzenie na liczbę godzin i średnią ocen.
sns.jointplot(df, x='StudyTimeWeekly', y='GPA')
plt.show()

Wszystkie powyższe wykresy wskazują, że większa liczba godzin nauki przekłada się na wyższy wynik. 
Powinniśmy również do problemu wielowymiarowo, co oznacza, że w tych podrgupach, inne czynniki mogły mieć wpływ na finalną ocenę.