# Projeto 2 - C Dados

_Português - Este Projeto está atualmente sendo mantido por Enricco Gemha, Paola BBS Friedel, Rafael C Leventhal, Marcelo R Barranco._

_English - This Project is currently being held by Enricco Gemha, Paola BBS Friedel, Rafael C Leventhal, Marcelo R Barranco._

## Aviso
Para nos referirmos a certos termos recorrentes, usaremos abreviações, todas listadas abaixo:
- df: DataFrame
- pd: biblioteca do Python chamada Pandas

## Kickstart do Projeto

In [1]:
# importando bibliotecas que serão utilizadas e definindo ajustes
import pandas as pd
import numpy as np
import seaborn as sns
from scipy import stats
import matplotlib.pyplot as plt

In [2]:
# transformando a database em um df do pd
students = pd.read_csv('students.csv')

In [3]:
# checando o df
students

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,6,5,6,6
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,4,5,5,6
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,10,7,8,10
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,2,15,14,15
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,4,6,10,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,MS,M,20,U,LE3,A,2,2,services,services,...,5,5,4,4,5,4,11,9,9,9
391,MS,M,17,U,LE3,T,3,1,services,services,...,2,4,5,3,4,2,3,14,16,16
392,MS,M,21,R,GT3,T,1,1,other,other,...,5,5,3,3,3,3,3,10,8,7
393,MS,M,18,R,LE3,T,3,2,services,other,...,4,4,1,3,4,5,0,11,12,10


## Limpando o df

**Próximo passo**: Retirar as features (colunas) cujas informações não serão utilizadas nesse projeto.

In [4]:
students.drop(columns='school', inplace=True)
students

Unnamed: 0,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,F,18,U,GT3,A,4,4,at_home,teacher,course,...,4,3,4,1,1,3,6,5,6,6
1,F,17,U,GT3,T,1,1,at_home,other,course,...,5,3,3,1,1,3,4,5,5,6
2,F,15,U,LE3,T,1,1,at_home,other,other,...,4,3,2,2,3,3,10,7,8,10
3,F,15,U,GT3,T,4,2,health,services,home,...,3,2,2,1,1,5,2,15,14,15
4,F,16,U,GT3,T,3,3,other,other,home,...,4,3,2,1,2,5,4,6,10,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
390,M,20,U,LE3,A,2,2,services,services,course,...,5,5,4,4,5,4,11,9,9,9
391,M,17,U,LE3,T,3,1,services,services,course,...,2,4,5,3,4,2,3,14,16,16
392,M,21,R,GT3,T,1,1,other,other,course,...,5,5,3,3,3,3,3,10,8,7
393,M,18,R,LE3,T,3,2,services,other,course,...,4,4,1,3,4,5,0,11,12,10


## Estabelecendo o df de treinamento

A próxima etapa é transformar é dar uma nova "roupagem" para o df `students`, criando variáveis dummies para as colunas que contém variáveis qualitativas, o que facilita o seu entendimento.

In [7]:
train = students.copy()
label_dummies = []
for column in train.columns:
    if train[column].dtype.kind == 'O':
        dummies = pd.get_dummies(train[column]).iloc[:, 1:]
        label_dummies.append(dummies.columns.values.tolist())
        dummies.columns = [f'{column} {col}' for col in dummies.columns]
        train = pd.concat(
            [
                train, dummies
            ], axis=1
        )
        train.drop(columns=column, inplace=True)
train

[['M'], ['U'], ['LE3'], ['T'], ['health', 'other', 'services', 'teacher'], ['health', 'other', 'services', 'teacher'], ['home', 'other', 'reputation'], ['mother', 'other'], ['yes'], ['yes'], ['yes'], ['yes'], ['yes'], ['yes'], ['yes'], ['yes']]


## Análise Exploratória

**Próximo passo**: Com o objetivo de encontrar features que possuem forte correlação, ou seja, cujos temas convergem, devemos utilizar o comando `.corr()` para obter as correlações entre as features do df. Vale lembrar que uma correlação é forte se: `|corr| >= 0.7`

In [None]:
# separando o target e as features em 2 variáveis diferentes
target = train.G3.to_numpy()
features = train.drop(columns='G3').to_numpy()
features

Para verificar se há alguma feature que possui correlação forte com outra feature, montamos um df com as correlações entre as colunas e linhas, cruzando todas as features entre si.

In [None]:
features_corr = (train.drop(columns='G3')).corr()
for coluna in list(features_corr):
    for correlation in features_corr[coluna]:
        if correlation >= 0.7 and correlation != 1.0:
            print(correlation)
            print(f'{coluna} e {}')
            print('\n')

Após a análise do df `features_corr` pode-se concluir que todas as features que foram comparadas entre si tem correlação fraca ou moderada, exceto `G1` e `G2`, que serão cruciais para, mais a frente, analisar o comportamento do target `G3`. Portanto, conclui-se não se deve descartar nenhuma variável que possua correlação forte com outra.

## Relacionando target com features

**Próximo passo**: agora que testamos a correlação entre as features, partiremos para correlacionar a variável `target` com cada feature individualmente. 

In [None]:
target_corr = (train.drop(columns='G3')).corrwith(train.G3, method='pearson')
target_corr.sort_values(ascending=True, inplace=True)
target_corr

Portanto, pode-se confirmar que `target_corr` apresenta somente forte correlação com G1 e G2, enquanto com o restante possui correlação baixa.

### Gráfico de box

Para melhorar a visualização de variáveis qualitativas, usaremos o `boxplot`.

In [8]:
i = len(label_dummies)
plt.figure(figsize=(10,8))
sns.boxplot(x=f'{label_dummies}', y=f'{label_dummies}', data=pd.melt(train.drop(columns='G3')))
plt.tight_layout();

ValueError: Could not interpret input '[['M'], ['U'], ['LE3'], ['T'], ['health', 'other', 'services', 'teacher'], ['health', 'other', 'services', 'teacher'], ['home', 'other', 'reputation'], ['mother', 'other'], ['yes'], ['yes'], ['yes'], ['yes'], ['yes'], ['yes'], ['yes'], ['yes']]'

<Figure size 720x576 with 0 Axes>

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error


X_train, X_test, Y_train, Y_test = train_test_split(features, target, test_size=0.3)
model = LinearRegression()
model.fit(X_train, Y_train)
Y_pred = model.predict(X_test)

mean_squared_error(Y_test, Y_pred)

## Referências Bibliográficas

- to-do