# Sissejuhatus
Andmed sisaldavad 648 portugali keele õpilaste alkoholi tarbimise kogust skaalal 1-5 ja palju infot nende sotsiaalse elu, pere ja tulevikuplaanide kohta.

Eesmärk on analüüsida õpilaste alkoholi tarbimise omadusi ning leida seosed alkoholi tarbimise koguse ja muude aspektide vahel. 

In [None]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

pd.set_option('display.max_rows', 20)
df = pd.read_csv("../input/student-por.csv")

# Andmed
Andmetes on kokku 30 veergu, aga meie analüüsime järgmiseid:
1. school - õpilase kool ('GP' - Gabriel Pereira or 'MS' - Mousinho da Silveira)
2 .sex - õpilase sugu ('F' - naine või 'M' - mees)
3. age - õpilase vanus (number: 15 kuni 22)
4. Medu - ema haridus  (number: 0 - puudub, 1 - algklassid, 2 – põhikooli haridus, 3 – keskharidus or 4 – kõrgem haridus)
5. Fedu - isa haridus (number: 0 - puudub, 1 - algklassid, 2 – põhikooli haridus, 3 – keskharidus or 4 – kõrgem haridus)
6. studytime - nädalane õpingutele pühendatud aeg (number: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
7. failures - eelmiste ainete läbikukkumised (number: n if 1<=n<3, else 4)
8. goout - sõpradega väljas käimine (number: 1 - väga madal kuni 5 - väga kõrge)
9. Dalc - tööpäevade alkoholi tarbimine (number: 1 - väga madal kuni 5 - väga kõrge)
10. Walc - nädalavahetuse alkoholi tarbimine (number: 1 - väga madal kuni 5 - väga kõrge)
11. absences - puudumised koolist (number: 0 kuni 93)
12. G1 - esimese poolaasta hinne (number:  0 kuni 20)
13. G2 - teise poolaasta hine (number:  0 kuni 20)
14. G3 - lõplik aine hinne (number:  0 kuni 20)

In [None]:
df

# Õpilased
Suure osa õpilastest moodustavad 15-17 vanused. Vähem on 19-aastaseid ja leidub ka paar 20-22 aastast õpilast.

In [None]:
explode = (0, 0, 0, 0, 0.1, 0.2, 0.3, 0.4)
ax = df.age.value_counts().plot.pie(figsize=(12, 12), explode=explode, fontsize=16)
ax.set_title('Õpilaste vanus', fontsize=20)
ax.set_xlabel('', fontsize=16)
ax.set_ylabel('', fontsize=16)

# Alkohol ja õppimine
On näha, et need, kes alkoholi vähem tarbivad, pühenduvad rohkem aega õppimisele. Alkholi tarbimise ja kursuse lõpliku hinde vahel seos puudub. Alkoholi tarbimise kogus on otseselt seotus sõpradega välja minemise arvuga. Vanemate haridus ei mõjuta seda, kui palju õpilane alkoholi tarbib.

In [None]:
df.groupby("Dalc")["G3","absences","goout","Fedu","Medu","studytime"].mean()

Tööpäevadel on alkoholi tarbimine ebapopulaarne. Nädalavahetusel ei tarbi alkoholi kaks korda vähem inimesi, kui tööpäevadel.

In [None]:
import matplotlib.patches as mpatches
fig, ax = plt.subplots(figsize=(12,12))

a_heights, a_bins = np.histogram(df.Dalc, bins=np.arange(1, 7, 1))
b_heights, b_bins = np.histogram(df.Walc, bins=a_bins)

width = (a_bins[1] - a_bins[0]) / 3

ax.set_xticks(np.arange(1+width/2, 6, 1))
ax.set_xticklabels(np.arange(1, 6, 1))

ax.set_title('Alkoholi tarbimise kogus tööpäevadel ja nädalavahetusel', fontsize=20)
ax.set_xlabel('Alkoholi joomise kogus', fontsize=16)
ax.set_ylabel('Sagedus', fontsize=16)

work = mpatches.Patch(color='cornflowerblue', label='Tööpäev')
weekend = mpatches.Patch(color='seagreen', label='Nädalavahetus')
ax.legend(handles=[work, weekend], fontsize=12)

ax.bar(a_bins[:-1], a_heights, width=width, facecolor='cornflowerblue')
ax.bar(b_bins[:-1]+width, b_heights, width=width, facecolor='seagreen')

In [None]:
age = df['G3']
con = df[['Walc', 'Dalc']].mean(axis=1)
s = con.value_counts()**1.4

plt.figure(figsize=(12,12))
plt.scatter(x=age, y=con, s=s, color='cornflowerblue')
plt.title('Õpitulemuste ja joomissageduse scatterplot', fontsize=20)

plt.xlabel('Kursuse hinne skaalal 0-20', fontsize=16)
plt.ylabel('Alkoholi joomise kogus', fontsize=16)

# Puudumised ja alkoholi tarbimine
Järgmisena me vaatame seosed, mis võivad olla puudumiste arvu ja alkholi tarbimise vahel.

In [None]:
df.plot.scatter("absences","Dalc")

Üldine seos vanuse, alkoholi tarbimise ja muude näitajate keskmise vahel.

In [None]:
pd.set_option('display.max_rows', 32)
df.groupby(["age", "Walc"]).mean().round(1)