# Problema de regressão: 

Base **diabetes_numeric.csv** e uma **regressão linear**

## **Importação de bibliotecas e funções e carregamento do dataset**

In [1]:
import pandas as pd 
import numpy as np
from matplotlib import pyplot as plt

# importando função para separar dados de treino e teste
from sklearn.model_selection import train_test_split

# importando métricas de avaliação
from sklearn import metrics

In [2]:
# Pegar a rota para o arquivo das variáveis de ambiente
from decouple import config
home_dir = config('HOME')

# Carregando o dataset
ds_diabetes = pd.read_csv(home_dir + '/Documentos/Code/ML-IGTI/datasets/diabetes_numeric.csv')

## **Conhecendo o dataframe**

In [3]:
# Base de regressão
ds_diabetes.head(10)

Unnamed: 0,age,deficit,c_peptide
0,5.2,-8.1,4.8
1,8.8,-16.1,4.1
2,10.5,-0.9,5.2
3,10.6,-7.8,5.5
4,10.4,-29.0,5.0
5,1.8,-19.2,3.4
6,12.7,-18.9,3.4
7,15.6,-10.6,4.9
8,5.8,-2.8,5.6
9,1.9,-25.0,3.7


## **Quantidade de instâncias e features do dataset**

In [4]:
# Base de regressão
print('Amostras e Features', ds_diabetes.shape)

Amostras e Features (43, 3)


## **Verificação da existência de dados faltantes**

### *Dataset: diabetes_numeric.csv*

In [5]:
# estrutura do dataset
ds_diabetes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 43 entries, 0 to 42
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   age        43 non-null     float64
 1   deficit    43 non-null     float64
 2   c_peptide  43 non-null     float64
dtypes: float64(3)
memory usage: 1.1 KB


In [6]:
# estatísticas do dataset
ds_diabetes.describe()

Unnamed: 0,age,deficit,c_peptide
count,43.0,43.0,43.0
mean,9.032558,-8.148837,4.746512
std,4.022539,7.12308,0.720565
min,0.9,-29.0,3.0
25%,5.5,-12.7,4.45
50%,10.4,-7.8,4.9
75%,11.85,-2.0,5.1
max,15.6,-0.2,6.6


In [7]:
# contagem de valores nulos por coluna
ds_diabetes.isnull().sum()

age          0
deficit      0
c_peptide    0
dtype: int64

OBS: 
Separar os conjuntos de treino e teste, usando a função train_test_slipt, com test_size = 0.25 e random_state = 42.

## **Regressão linear**

In [8]:
# separação dos conjuntos de treino e teste
X = ds_diabetes[["age","deficit"]].values
y = ds_diabetes["c_peptide"].values

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

print('Formato dos dados:', X_train.shape, y_train.shape)
print('Formato dos dados de normalizacao:', X_test.shape, y_test.shape)

Formato dos dados: (32, 2) (32,)
Formato dos dados de normalizacao: (11, 2) (11,)


In [9]:
# importando o moddelo de regressão linear
from sklearn.linear_model import LinearRegression

# importando as métricas que serão usadas para avaliação
from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

In [10]:
# treinando o modelo com o conjunto de treino
regression = LinearRegression()

regression.fit(X_train, y_train)

In [11]:
# aplicando o modelo treinado para previsão
y_pred = regression.predict(X_test)

In [12]:
p = pd.DataFrame({'Real': y_test, 'Previsto': y_pred})
p.head(10)

Unnamed: 0,Real,Previsto
0,6.0,5.256343
1,5.7,5.355738
2,5.1,5.118052
3,5.1,4.716996
4,3.9,4.348632
5,4.1,4.750498
6,5.0,4.05683
7,4.8,4.413207
8,5.6,4.656556
9,5.5,4.820646


In [13]:
# avaliando o modelo

R_2 = r2_score(y_test, y_pred)  #realiza o cálculo do R2
print("Coeficiente de Determinação (R2):", R_2)

MAE = mean_absolute_error(y_test, y_pred)  #realiza o cálculo do MAE
print("Coeficiente MAE:", MAE)

MSE = mean_squared_error(y_test, y_pred)  #realiza o cálculo do MSE
print("Coeficiente MSE:", MSE)

Coeficiente de Determinação (R2): 0.21880597788432787
Coeficiente MAE: 0.6107422323514552
Coeficiente MSE: 0.4745269473181976
