# Projeto 2 - C Dados

_Português - Este Projeto está atualmente sendo mantido por Enricco Gemha, Paola BBS Friedel, Rafael C Leventhal, Marcelo R Barranco._

_English - This Project is currently being held by Enricco Gemha, Paola BBS Friedel, Rafael C Leventhal, Marcelo R Barranco._

## Aviso
Para nos referirmos a certos termos recorrentes, usaremos abreviações, todas listadas abaixo:
- df: DataFrame
- pd: biblioteca do Python chamada Pandas

## Kickstart do Projeto

In [1]:
# importando bibliotecas que serão utilizadas e definindo ajustes
%matplotlib inline
import pandas as pd
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt

In [2]:
# transformando a database em um df do pd
students = pd.read_csv('students.csv')

In [3]:
# checando o df
students

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,MS,M,20,U,LE3,A,2,2,services,services,...,5,5,4,4,5,4,11,9,9,9
391,MS,M,17,U,LE3,T,3,1,services,services,...,2,4,5,3,4,2,3,14,16,16
392,MS,M,21,R,GT3,T,1,1,other,other,...,5,5,3,3,3,3,3,10,8,7
393,MS,M,18,R,LE3,T,3,2,services,other,...,4,4,1,3,4,5,0,11,12,10


## Limpando o df

**1º passo**: Retirar as features (colunas) cujas informações não serão utilizadas nesse projeto.

In [4]:
students.drop(columns=['reason', 'freetime', 'G2', 'G1', 'higher', 'nursery', 'Walc', 'guardian', 'school', 'famsize'], inplace=True)
students

Unnamed: 0,sex,age,address,Pstatus,Medu,Fedu,Mjob,Fjob,traveltime,studytime,...,paid,activities,internet,romantic,famrel,goout,Dalc,health,absences,G3
0,F,18,U,A,4,4,at_home,teacher,2,2,...,no,no,no,no,4,4,1,3,6,6
1,F,17,U,T,1,1,at_home,other,1,2,...,no,no,yes,no,5,3,1,3,4,6
2,F,15,U,T,1,1,at_home,other,1,2,...,yes,no,yes,no,4,2,2,3,10,10
3,F,15,U,T,4,2,health,services,1,3,...,yes,yes,yes,yes,3,2,1,5,2,15
4,F,16,U,T,3,3,other,other,1,2,...,yes,no,no,no,4,2,1,5,4,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,M,20,U,A,2,2,services,services,1,2,...,yes,no,no,no,5,4,4,4,11,9
391,M,17,U,T,3,1,services,services,2,1,...,no,no,yes,no,2,5,3,2,3,16
392,M,21,R,T,1,1,other,other,1,1,...,no,no,no,no,5,3,3,3,3,7
393,M,18,R,T,3,2,services,other,3,1,...,no,no,yes,no,4,1,3,5,0,10


**2º passo**: Unir as features (colunas) cujos temas convergem, para aumentar a qualidade de análise de cada feature.

Lista de features que serão unidas:

</hr>

- family_environment (numérico: de 1 - muito ruim a 5 - excelente)
    - Pstatus - pais divorciados ou não (binário: 'T' - vivendo juntos ou 'A' - separados)
    - famsup - suporte educacional da família (binário: 'yes' ou 'no')
    - famrel - qualidade do relacionamento familiar (numérico: de 1 - muito ruim a 5 - excelente)

</hr>

- heritage (numérico: 1 - muito dedicado, 2 - dedicado, 3 - pais dedicados)
    - Medu - escolaridade da mãe (numérico: 0 - nenhum, 1 - educação básica (4º ano), 2 - 5º ao 9º ano, 3 - ensino médio ou 4 - curso superior)
    - Fedu - escolaridade da mãe (numérico: 0 - nenhum, 1 - educação básica (4º ano), 2 - 5º ao 9º ano, 3 - ensino médio ou 4 - curso superior)

</hr>

- vigilance (numérico: 1 - progênitor em casa, 2 - progênitor professor, 3 - outros)
    - Mjob - trabalho da mãe (nominal: 'teacher', 'health' relacionado, civil 'services', 'at_home' ou 'other')
    - Fjob - trabalho da mãe (nominal: 'teacher', 'health' relacionado, civil 'services', 'at_home' ou 'other')

</hr>

- dedication (numérico: 1 - muito dedicado, 2 - dedicado, 3 - normal, 4 - pouco dedicado, 5 - nenhuma dedicação)
    - absences - número de faltas na escola (numérico: de 0 a 93)
    - Dalc - consumo de álcool em dias de aula (numérico: de 1 - muito baixo a 5 - muito alto)
    - studytime - tempo semanal de estudo (numérico: 1 - <2 hour, 2 - 2 a 5 hour, 3 - 5 a 10 hour, ou 4 - >10 hour)
    - internet - acesso à internet (binário: 'yes' ou 'no')
    - schoolsup - aulas de reforço gratuito (binário: 'yes' ou 'no')
    - paid - aulas de reforço pago (binário: 'yes' ou 'no')

</hr>

- extra_activities (numérico: de 1 - muito baixa a 5 - muito alta)
    - goout - sair com os amigos (numérico: de 1 - muito baixo a 5 - muito alto)
    - romantic - ter um relacionamento romântico (binário: 'yes' ou 'no')
    - traveltime - tempo de viagem até a escola (numérico: 1 - <15 min., 2 - 15 a 30 min., 3 - 30 min. a 1 hour, ou 4 - >1 hour)
    - activities - atividade extracurricular (binário: 'yes' ou 'no')

### FEATURE: family_environment

**SIGNIFICADO**: qualidade e estabilidade do ambiente familiar.

**TIPO**: numérico, de 1 - muito ruim a 5 - excelente.

**COMO SERÁ CRIADA**: Cada aluno começará com score 0, sendo descontada 1 para cada variável de "valor negativo" e adicionado 1 para cada variável de "valor positivo". Se ao fim, restar um valor negativo, ele será convertido para score 0.

**VARIÁVEIS QUE SERÃO ABSORVIDAS**: `famsize`, `Pstatus`, `famsup`.

In [5]:
family_environment = [] # iniciando a variável da feature nova
for i in range(len(students.Pstatus)): # loop utilizando um index para identificar a linha de cada aluno
    score = 0 # iniciando a variável de score da feature nova
    if (students.Pstatus)[i] == 'T': 
        score += 1
    if (students.Pstatus)[i] == 'A':
        score -= 1
    if (students.famsup)[i] == 'no':
        score -= 1
    if (students.famsup)[i] == 'yes':
        score += 1
    if (students.famrel)[i] == 1:
        score -= 2
    if (students.famrel)[i] == 2:
        score -= 1
    if (students.famrel)[i] == 4:
        score += 1
    if (students.famrel)[i] == 5:
        score += 2
    if score < 0:
        score = 0
    family_environment.append(score)

In [6]:
students['family_environment'] = family_environment
students.drop(columns=['Pstatus', 'famsup', 'famrel'], inplace=True)
students

Unnamed: 0,sex,age,address,Medu,Fedu,Mjob,Fjob,traveltime,studytime,failures,...,paid,activities,internet,romantic,goout,Dalc,health,absences,G3,family_environment
0,F,18,U,4,4,at_home,teacher,2,2,0,...,no,no,no,no,4,1,3,6,6,0
1,F,17,U,1,1,at_home,other,1,2,0,...,no,no,yes,no,3,1,3,4,6,4
2,F,15,U,1,1,at_home,other,1,2,3,...,yes,no,yes,no,2,2,3,10,10,1
3,F,15,U,4,2,health,services,1,3,0,...,yes,yes,yes,yes,2,1,5,2,15,2
4,F,16,U,3,3,other,other,1,2,0,...,yes,no,no,no,2,1,5,4,10,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,M,20,U,2,2,services,services,1,2,2,...,yes,no,no,no,4,4,4,11,9,2
391,M,17,U,3,1,services,services,2,1,0,...,no,no,yes,no,5,3,2,3,16,0
392,M,21,R,1,1,other,other,1,1,3,...,no,no,no,no,3,3,3,3,7,2
393,M,18,R,3,2,services,other,3,1,0,...,no,no,yes,no,1,3,5,0,10,1


### FEATURE: heritage

**SIGNIFICADO**: nível de escolaridade dos pais.

**TIPO**: numérico, 1 - muito dedicado, 2 - dedicado, 3 - pais dedicados.

**COMO SERÁ CRIADA**: O valor será a média entre Medu e Fedu, indo de 0 a 4.

**VARIÁVEIS QUE SERÃO ABSORVIDAS**: `Medu`, `Fedu`.

In [7]:
heritage = [] # iniciando a variável da feature nova
for i in range(len(students.Medu)): # loop utilizando um index para identificar a linha de cada aluno
    heritage.append(int(((students.Medu)[i] + (students.Fedu)[i])/2)) # adicionando a variável de score da feature nova

In [8]:
students['heritage'] = heritage
students.drop(columns=['Medu', 'Fedu'], inplace=True)
students

Unnamed: 0,sex,age,address,Mjob,Fjob,traveltime,studytime,failures,schoolsup,paid,activities,internet,romantic,goout,Dalc,health,absences,G3,family_environment,heritage
0,F,18,U,at_home,teacher,2,2,0,yes,no,no,no,no,4,1,3,6,6,0,4
1,F,17,U,at_home,other,1,2,0,no,no,no,yes,no,3,1,3,4,6,4,1
2,F,15,U,at_home,other,1,2,3,yes,yes,no,yes,no,2,2,3,10,10,1,1
3,F,15,U,health,services,1,3,0,no,yes,yes,yes,yes,2,1,5,2,15,2,3
4,F,16,U,other,other,1,2,0,no,yes,no,no,no,2,1,5,4,10,3,3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,M,20,U,services,services,1,2,2,no,yes,no,no,no,4,4,4,11,9,2,2
391,M,17,U,services,services,2,1,0,no,no,no,yes,no,5,3,2,3,16,0,2
392,M,21,R,other,other,1,1,3,no,no,no,no,no,3,3,3,3,7,2,1
393,M,18,R,services,other,3,1,0,no,no,no,yes,no,1,3,5,0,10,1,2


### FEATURE: vigilance

**SIGNIFICADO**: se algum dos pais trabalha de casa ou como professor, ou seja, está atento ao estudo filho.

**TIPO**: binário, 'yes' - algum dos pais atento, 'no' - nenhum dos pais atento.

**COMO SERÁ CRIADA**: Se o pai ou a mãe trabalha de casa ou como professor, a variável é 'yes'. Caso contrário é 'no'.

**VARIÁVEIS QUE SERÃO ABSORVIDAS**: `Mjob`, `Fjob`.

In [9]:
vigilance = [] # iniciando a variável da feature nova
for i in range(len(students.Mjob)): # loop utilizando um index para identificar a linha de cada aluno
    if ((students.Mjob)[i]) == 'teacher' or ((students.Mjob)[i]) == 'at_home' or ((students.Fjob)[i]) == 'teacher' or ((students.Fjob)[i]) == 'at_home':
        vigilance.append('yes') # adicionando a variável de score da feature nova
    else:
        vigilance.append('no') # adicionando a variável de score da feature nova

In [10]:
students['vigilance'] = vigilance
students.drop(columns=['Mjob', 'Fjob'], inplace=True)
students

Unnamed: 0,sex,age,address,traveltime,studytime,failures,schoolsup,paid,activities,internet,romantic,goout,Dalc,health,absences,G3,family_environment,heritage,vigilance
0,F,18,U,2,2,0,yes,no,no,no,no,4,1,3,6,6,0,4,yes
1,F,17,U,1,2,0,no,no,no,yes,no,3,1,3,4,6,4,1,yes
2,F,15,U,1,2,3,yes,yes,no,yes,no,2,2,3,10,10,1,1,yes
3,F,15,U,1,3,0,no,yes,yes,yes,yes,2,1,5,2,15,2,3,no
4,F,16,U,1,2,0,no,yes,no,no,no,2,1,5,4,10,3,3,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,M,20,U,1,2,2,no,yes,no,no,no,4,4,4,11,9,2,2,no
391,M,17,U,2,1,0,no,no,no,yes,no,5,3,2,3,16,0,2,no
392,M,21,R,1,1,3,no,no,no,no,no,3,3,3,3,7,2,1,no
393,M,18,R,3,1,0,no,no,no,yes,no,1,3,5,0,10,1,2,no


### FEATURE: dedication 

**SIGNIFICADO**: nível de dedicação/condição de estudo do aluno.

**TIPO**: numérico, 1 - muito dedicado, 2 - dedicado, 3 - normal, 4 - pouco dedicado, 5 - nenhuma dedicação.

**COMO SERÁ CRIADA**: O score se inicia em 1. Se o tempo de estudo semanal tem valor 1 ou 2, acrescenta-se 1 ponto ao score. Se o consumo de álcool tiver valor maior ou igual a 3, acrescenta-se 1 ponto ao score. Se o número de faltas for maior que 10% do limite, acrescenta-se 1 ponto ao score. Se tiver acesso a internet ou aulas de reforço gratuito ou aulas de reforço gratuito, acrescenta-se 1 ponto ao score.

**VARIÁVEIS QUE SERÃO ABSORVIDAS**: `absences`, `Dalc`, `studytime`, `internet`, `schoolsup`, `paid`.

In [11]:
dedication = [] # iniciando a variável da feature nova
score = 1
limite = round(93 * 0.1)
for i in range(len(students.absences)): # loop utilizando um index para identificar a linha de cada aluno
    if (students.absences[i]) > limite:
        score += 1
    if (students.Dalc[i]) > 3:
        score += 1
    if (students.studytime[i]) < 3:
        score += 1
    if (students.internet[i]) == 'no':
        score += 1
    if (students.paid[i]) == 'no':
        score += 1
    if (students.schoolsup[i]) == 'no':
        score += 1
    if score > 5:
        score = 5
    dedication.append(score)

In [12]:
students['dedication'] = dedication
students.drop(columns=['absences', 'Dalc', 'studytime', 'internet', 'schoolsup', 'paid'], inplace=True)
students

Unnamed: 0,sex,age,address,traveltime,failures,activities,romantic,goout,health,G3,family_environment,heritage,vigilance,dedication
0,F,18,U,2,0,no,no,4,3,6,0,4,yes,4
1,F,17,U,1,0,no,no,3,3,6,4,1,yes,5
2,F,15,U,1,3,no,no,2,3,10,1,1,yes,5
3,F,15,U,1,0,yes,yes,2,5,15,2,3,no,5
4,F,16,U,1,0,no,no,2,5,10,3,3,no,5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,M,20,U,1,2,no,no,4,4,9,2,2,no,5
391,M,17,U,2,0,no,no,5,2,16,0,2,no,5
392,M,21,R,1,3,no,no,3,3,7,2,1,no,5
393,M,18,R,3,0,no,no,1,5,10,1,2,no,5


### FEATURE: extra_activities

**SIGNIFICADO**: atividades extracurriculares que consomem o tempo do aluno faz.

**TIPO**: numérico, de 1 - muito baixa a 5 - muito alta.

**COMO SERÁ CRIADA**: O score se inicia em 1. Se sair com os amigos for maior que 2, acrescenta-se 1 ponto ao score. Se o tempo de viagem até a escola tiver valor maior ou igual a 3, acrescenta-se 1 ponto ao score. Se o aluno tiver um relacionamento romântico, acrescenta-se 1 ponto ao score. Se tiver alguma atividade extra, acrescenta-se 1 ponto ao score.

**VARIÁVEIS QUE SERÃO ABSORVIDAS**: `goout`, `romantic`, `traveltime`, `activities`.

In [13]:
extra_activities = [] # iniciando a variável da feature nova
score = 1
for i in range(len(students.goout)): # loop utilizando um index para identificar a linha de cada aluno
    if (students.goout[i]) > 2:
        score += 1
    if (students.traveltime[i]) >= 3:
        score += 1
    if (students.romantic[i]) < 'yes':
        score += 1
    if (students.activities[i]) == 'yes':
        score += 1
    if score > 5:
        score = 5
    extra_activities.append(score)

In [14]:
students['extra_activities'] = extra_activities
students.drop(columns=['goout', 'romantic', 'traveltime', 'activities'], inplace=True)
students

Unnamed: 0,sex,age,address,failures,health,G3,family_environment,heritage,vigilance,dedication,extra_activities
0,F,18,U,0,3,6,0,4,yes,4,3
1,F,17,U,0,3,6,4,1,yes,5,5
2,F,15,U,3,3,10,1,1,yes,5,5
3,F,15,U,0,5,15,2,3,no,5,5
4,F,16,U,0,5,10,3,3,no,5,5
...,...,...,...,...,...,...,...,...,...,...,...
390,M,20,U,2,4,9,2,2,no,5,5
391,M,17,U,0,2,16,0,2,no,5,5
392,M,21,R,3,3,7,2,1,no,5,5
393,M,18,R,0,5,10,1,2,no,5,5


In [15]:
students['final_grade'] = students.G3
anexar = []
for student in students['final_grade']:
    anexar.append(student/2) # para transformar 0-20 até 0-10
students.drop(columns='G3', inplace=True)
students

Unnamed: 0,sex,age,address,failures,health,family_environment,heritage,vigilance,dedication,extra_activities,final_grade
0,F,18,U,0,3,0,4,yes,4,3,6
1,F,17,U,0,3,4,1,yes,5,5,6
2,F,15,U,3,3,1,1,yes,5,5,10
3,F,15,U,0,5,2,3,no,5,5,15
4,F,16,U,0,5,3,3,no,5,5,10
...,...,...,...,...,...,...,...,...,...,...,...
390,M,20,U,2,4,2,2,no,5,5,9
391,M,17,U,0,2,0,2,no,5,5,16
392,M,21,R,3,3,2,1,no,5,5,7
393,M,18,R,0,5,1,2,no,5,5,10


## Referências Bibliográficas

- to-do