# ICD - Projeto Final: Student Alcohol Consumption

## By:
     Fernanda Carolina da Silva Pereira 
     Euller Saez Lage Silva 
     Diego Pereira
     
## External info:
    
[Link p/ Video](https://bit.ly/video-apresentacao-ICD-21-2)

[Repositório no Github](https://github.com/ferprr/data-science-project)

## Introdução

Neste trabalho vamos analisar características que se relacionam ao consumo de álcool de estudantes do Ensino Médio.

## Motivação

Entender como o consumo de álcool pode afetar o desempenho dos estudantes de diferentes idades.

## Dados Utilizados

Para a realização deste projeto, foi necessário utilizar alguns conjuntos de dados de domínio público. Nesta seção iremos entrar em mais detalhes sobre as bases utilizadas.

### Alcohol Consumption

**Descrição:** Conjunto de dados contendo informações sobre consumo de álcool entre estudantes de 15 a 22 anos em Portugal. Inclui informações sobre notas, estrutura familiar, faltas, reprovações, idade e gênero binário dos participantes.

**Fonte:** [Alcohol Consumption] (https://www.kaggle.com/uciml/student-alcohol-consumption)

## Perguntas

### 1 - Qual a influência do consumo de álcool nas notas dos alunos?


### 2 - Qual a  influência do consumo de álcool nas faltas dos alunos na escola?


### 3 - Qual a influência da quantidade de tempo livre no consumo de álcool dos alunos?

## Limpeza dos Dados

As bases de dados selecionadas possuem alguns dados nos quais não estamos interessados e que podemos remover para melhorar o desempenho e facilitar o trabalho.

In [None]:
import pandas as pd
import matplotlib
from matplotlib import pyplot as plt
import matplotlib.ticker as ticker
import numpy as np
import seaborn as sns
sns.set()

# Tamanho default das figuras
matplotlib.rcParams['figure.figsize'] = (15.0, 9.0)

# Carregando dataset
alcohol_consumption = pd.read_csv('../databases/student-mat.zip', compression='zip')

# Definindo a chave "aluno"
alcohol_consumption_aux = alcohol_consumption
alcohol_consumption_aux.insert(loc=0, column='aluno', value=alcohol_consumption_aux.set_index(["school","sex","age","address","famsize","Pstatus","Medu","Fedu","Mjob","Fjob","reason","nursery","internet"]).index.factorize()[0]+1)

# Removendo alunos duplicados
alcohol_consumption_aux.drop_duplicates(subset=['aluno'])

# Drop missing values
alcohol_consumption_aux.dropna(inplace=True)
alcohol_consumption_aux.reset_index(drop=True, inplace=True)

alcohol_consumption = alcohol_consumption_aux
alcohol_consumption

### Legenda para colunas do dataset


- school - estudantes (binário: 'GP' - Gabriel Pereira ou 'MS' - Mousinho da Silveira)
- sex - sexo (binário: 'F' - feminino ou 'M' - masculino)
- age - idade (numérico: de 15 a 22)
- address - tipo de endereço de casa (binário: 'U' - urbano ou 'R' - rural)
- famsize - tamanho  da família (binário: 'LE3' - menor ou igual a 3 ou 'GT3' - maior que 3)
- Pstatus - estado de coabitação dos pais (binário: 'T' - vivendo juntos ou 'A' - separados)
- Medu - educação da mãe (numérico: 0 - nenhum, 1 - educação primária (4 ano), 2 – 5 a 9 ano, 3 – educação secundária ou 4 – ensino superior)
- Fedu - educação do pai  (numérico: 0 - nenhum, 1 - educação primária (4 ano), 2 – 5 a 9 ano, 3 – educação secundária ou 4 – ensino superior)
- Mjob - trabalho da mãe (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other') 
- Fjob - trabalho do pai (nominal: 'teacher', 'health' care related, civil 'services' (e.g. administrative or police), 'at_home' or 'other') 
- reason - razão para escolher esta escola (nominal: close to 'home', school 'reputation', 'course' preference or 'other') 
- guardian - responsável pelo aluno (nominal: 'mother', 'father' ou 'other')
- traveltime - tempo de viagem de casa para escola (numérico: 1 - <15 min., 2 - 15 a 30 min., 3 - 30 min. a 1 hour, ou 4 - >1 hora)
- studytime - tempo de estudo semanal (numérico: 1 - <2 horas, 2 - 2 a 5 horas, 3 - 5 a 10 horas, ou 4 - >10 horas)
- failures - número de reprovações em aulas anteriores (numérico: n se 1<=n<3, se não, 4)
- schoolsup - apoio educacional extra (binário: sim ou não)
- famsup - apoio educacional familiar (binário: sim ou não)
- paid - aulas extras pagas dentro da disciplina do curso (Matemática ou Português) (binário: sim ou não)
- activities - atividades extra-curriculares (binário: sim ou não)
- nursery - frequentou a creche (binário: sim ou não)
- higher - quer fazer ensino superior (binário: sim ou não)
- internet - acesso à nternet em casa (binário: sim ou não)
- romantic - em relacionamento amoroso (binário: sim ou não)
- famrel - qualidade das relações familiares (numérico: de 1 - muito ruim a 5 - excelente)
- freetime - tempo livre após escola (numérico: de 1 - muito baixo a 5 - muito alto)
- goout - saídas com amigos (numérico: de 1 - muito baixo a 5 - muito alto)
- Dalc - consumo de álcool em dias úteis (numérico: de 1 - muito baixo a 5 - muito alto)
- Walc - consumo de álcool em finais de semana (numérico: de 1 - muito baixo a 5 - muito alto)
- health - situação de saúde atual (numérico: de 1 - muito ruim a 5 - excelente)
- absences - número de faltas (numérico: de 0 a 93)

Notas relacionadas às disciplinas Matemática ou Português:

- G1 - nota do primeiro período (numérico: de 0 a 20)
- G2 - nota do segundo período  (numérico: de 0 a 20)
- G3 - nota final (numérico: de 0 a 20, output target)


## Análise Exploratória

### Média de consumo de álcool por idade

Gráfico do nível consumo de álcool - de 1 (muito baixo) a 5 (muito alto) - por idade.

In [None]:
alcohol_consumption.groupby('age', as_index=False)[['Dalc', 'Walc']].aggregate('mean').plot.line(x='age')


### Consumo de álcool por sexo

Gráfico do nível consumo de álcool - de 1 (muito baixo) a 5 (muito alto) - para o sexo feminino e masculino.

In [None]:
alcohol_consumption.groupby('sex')[['Dalc', 'Walc']].aggregate('mean').plot.bar(by='sex', stacked=True)

### Idade dos envolvidos

Gráfico para o intervalo de idade dos participantes.

In [None]:
ax = sns.catplot(x="sex", y="age",
            kind="boxen", data=alcohol_consumption)

# Limita os valores dos eixos
ax.set(ylim=(10, 25))

plt.show()

### Consumo de álcool por status de coabitação dos pais

Boxplots no consumo de álcool em dias de semana e finais e semana tanto para pais separados (A) e que moram juntos (T).

In [None]:
# Boxplot dos valores
alcohol_consumption.boxplot(column=['Dalc', 'Walc'], by='Pstatus')

Comparação da média de consumo de álcool entre alunos com pais que moram juntos ou separados, para consumo em dias da semana e finais de semana.

In [None]:
# Gráfico de barras com a média para consumos 
alcohol_consumption.groupby('Pstatus')[['Dalc', 'Walc']].aggregate('mean').plot.bar(by='Pstatus', stacked=True)

### Consumo de álcool para frequência que um aluno sai com os amigos

Para cada nível de frequência que um aluno sai com seus amigos, verificamos a distribuição do consumos de álcool entre os alunos que se encaixam no grupo através de um boxplot.

In [None]:
alcohol_consumption.boxplot(column=['Dalc', 'Walc'], by='goout')

Verificamos como a média do consumo de álcool varia em relação a quanto um aluno sai com seus amigos.

In [None]:
alcohol_consumption.groupby('goout', as_index=False)[['Dalc', 'Walc']].aggregate('mean').plot.line(x='goout')

...

## Testes de Hipótese e Intervalo de Confiança

...