üìå 1. Defini√ß√£o do Problema de Predi√ß√£o Bin√°ria
üéØ Objetivo

Definir uma tarefa de classifica√ß√£o bin√°ria relacionada ao problema de neg√≥cio.
Neste caso, vamos prever se o estoque est√° em n√≠vel cr√≠tico (baixo) com base em vari√°veis operacionais.

In [5]:
import sklearn
print(sklearn.__version__)

1.7.2


In [6]:
import pandas as pd
import numpy as np

# Carregar dados (ajuste o caminho conforme necess√°rio)
df = pd.read_excel("DasaMatHosp.xlsx")

# Garantir que DataHora √© datetime
df['DataHora'] = pd.to_datetime(df['DataHora'], errors='coerce')

# Criar vari√°vel bin√°ria: estoque cr√≠tico
limite_critico = df['Estoque'].quantile(0.25)
df['EstoqueCritico'] = (df['Estoque'] < limite_critico).astype(int)

df.head()


Unnamed: 0,Material,DataHora,Estoque,Custo_Unitario,Custo_Total,EstoqueCritico
0,Seringas,2024-05-17 15:00:00,66.0,0.45,29.7,1
1,M√°scaras N95,2024-05-27 09:00:00,320.0,5.15,1648.0,0
2,Algod√£o,2024-01-01 00:00:00,351.0,0.25,87.75,0
3,Seringas,2024-04-16 06:00:00,565.0,0.44,248.6,0
4,Luvas Cir√∫rgicas,2024-08-22 18:00:00,171.0,0.89,152.19,1


üìä 2. Modelo KNN ‚Äî Previs√£o Bin√°ria
üß© Justificativa

O K-Nearest Neighbors (KNN) classifica com base na similaridade entre amostras.
O valor de k define o n√∫mero de vizinhos.
Um bom ponto inicial √© k = sqrt(n_amostras).

In [7]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

# Selecionar vari√°veis explicativas e alvo
df_modelo = df.dropna(subset=['Estoque', 'Custo_Unitario', 'Custo_Total', 'DataHora']).copy()
df_modelo = pd.get_dummies(df_modelo, columns=['Material'], drop_first=True)

X = df_modelo.drop(columns=['Estoque', 'DataHora', 'EstoqueCritico'])
y = df_modelo['EstoqueCritico']

# Divis√£o treino/teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Normaliza√ß√£o
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Defini√ß√£o de k
k = int(np.sqrt(len(X_train)))
print("Valor de k escolhido:", k)

# Treinamento do modelo KNN
modelo_knn = KNeighborsClassifier(n_neighbors=k)
modelo_knn.fit(X_train_scaled, y_train)


Valor de k escolhido: 143


0,1,2
,n_neighbors,143
,weights,'uniform'
,algorithm,'auto'
,leaf_size,30
,p,2
,metric,'minkowski'
,metric_params,
,n_jobs,


üìà 3. Avalia√ß√£o do Modelo KNN

In [8]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

y_pred_knn = modelo_knn.predict(X_test_scaled)

print("Acur√°cia:", accuracy_score(y_test, y_pred_knn))
print("Precis√£o:", precision_score(y_test, y_pred_knn))
print("Recall:", recall_score(y_test, y_pred_knn))
print("F1-Score:", f1_score(y_test, y_pred_knn))
print("Matriz de Confus√£o:\n", confusion_matrix(y_test, y_pred_knn))


Acur√°cia: 0.9946493624772313
Precis√£o: 0.9900090826521344
Recall: 0.9886621315192744
F1-Score: 0.9893351486271841
Matriz de Confus√£o:
 [[6557   22]
 [  25 2180]]


üî¢ 4. Regress√£o Log√≠stica
üéØ Objetivo

Modelar a probabilidade de estoque cr√≠tico com um modelo linear probabil√≠stico.

In [9]:
from sklearn.linear_model import LogisticRegression

modelo_log = LogisticRegression(max_iter=500)
modelo_log.fit(X_train_scaled, y_train)

y_pred_log = modelo_log.predict(X_test_scaled)


üìä Interpreta√ß√£o dos Coeficientes

In [10]:
coef_log = pd.DataFrame({
    'Vari√°vel': X.columns,
    'Coeficiente': modelo_log.coef_[0]
}).sort_values(by='Coeficiente', ascending=False)
coef_log.head(10)


Unnamed: 0,Vari√°vel,Coeficiente
0,Custo_Unitario,16.63952
6,Material_M√°scaras N95,-0.72452
3,Material_Dipirona,-0.831967
7,Material_Paracetamol,-0.964194
9,Material_Soro Fisiol√≥gico,-1.338899
10,Material_√Ålcool 70%,-2.000262
5,Material_Luvas Cir√∫rgicas,-2.891969
8,Material_Seringas,-3.060235
2,Material_Algod√£o,-3.290164
4,Material_Gaze Est√©ril,-4.497152


‚öñÔ∏è 5. Compara√ß√£o ‚Äî KNN vs Regress√£o Log√≠stica

In [11]:
metrics_comparison = pd.DataFrame({
    'Modelo': ['KNN', 'Regress√£o Log√≠stica'],
    'Acur√°cia': [
        accuracy_score(y_test, y_pred_knn),
        accuracy_score(y_test, y_pred_log)
    ],
    'Precis√£o': [
        precision_score(y_test, y_pred_knn),
        precision_score(y_test, y_pred_log)
    ],
    'Recall': [
        recall_score(y_test, y_pred_knn),
        recall_score(y_test, y_pred_log)
    ],
    'F1-Score': [
        f1_score(y_test, y_pred_knn),
        f1_score(y_test, y_pred_log)
    ]
})
metrics_comparison


Unnamed: 0,Modelo,Acur√°cia,Precis√£o,Recall,F1-Score
0,KNN,0.994649,0.990009,0.988662,0.989335
1,Regress√£o Log√≠stica,0.996699,0.990975,0.995918,0.99344


üìâ 6. Ridge Regression (Regress√£o Regularizada)
üéØ Objetivo

Aplicar regulariza√ß√£o L2 para prever o Estoque (vari√°vel cont√≠nua).


In [12]:
from sklearn.linear_model import Ridge
from sklearn.metrics import r2_score, mean_squared_error

X_reg = df_modelo.drop(columns=['Estoque', 'DataHora', 'EstoqueCritico'])
y_reg = df_modelo['Estoque']

modelo_ridge = Ridge(alpha=1.0)
modelo_ridge.fit(X_reg, y_reg)

y_pred_ridge = modelo_ridge.predict(X_reg)

print("R¬≤ Ridge:", r2_score(y_reg, y_pred_ridge))
print("RMSE Ridge:", np.sqrt(mean_squared_error(y_reg, y_pred_ridge)))


R¬≤ Ridge: 0.635937098019246
RMSE Ridge: 94.30035436269263


üßÆ 7. Lasso Regression
üéØ Objetivo

Aplicar regulariza√ß√£o L1 e verificar se vari√°veis irrelevantes s√£o eliminadas.

In [13]:
from sklearn.linear_model import Lasso

modelo_lasso = Lasso(alpha=0.1)
modelo_lasso.fit(X_reg, y_reg)

coef_lasso = pd.DataFrame({
    'Vari√°vel': X_reg.columns,
    'Coef_Lasso': modelo_lasso.coef_
}).sort_values(by='Coef_Lasso', ascending=False)

print("Coeficientes n√£o nulos:", (coef_lasso['Coef_Lasso'] != 0).sum())
coef_lasso.head(10)


Coeficientes n√£o nulos: 8


Unnamed: 0,Vari√°vel,Coef_Lasso
3,Material_Dipirona,97.674394
7,Material_Paracetamol,84.387916
2,Material_Algod√£o,15.933697
10,Material_√Ålcool 70%,3.647857
1,Custo_Total,0.3785
9,Material_Soro Fisiol√≥gico,-0.0
5,Material_Luvas Cir√∫rgicas,-0.0
6,Material_M√°scaras N95,-0.0
4,Material_Gaze Est√©ril,-1.797271
8,Material_Seringas,-2.785889


üìà 8. Regress√£o Polinomial
üéØ Objetivo

Testar um modelo de grau 2 para capturar rela√ß√µes n√£o lineares.

In [14]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import LinearRegression

poly = PolynomialFeatures(degree=2)
X_poly = poly.fit_transform(X_reg)

modelo_poly = LinearRegression()
modelo_poly.fit(X_poly, y_reg)

y_pred_poly = modelo_poly.predict(X_poly)

print("R¬≤ Polinomial:", r2_score(y_reg, y_pred_poly))
print("RMSE Polinomial:", np.sqrt(mean_squared_error(y_reg, y_pred_poly)))


R¬≤ Polinomial: 0.9975007179915731
RMSE Polinomial: 7.813268391045277


üå≥ 9. √Årvore de Decis√£o e Random Forest
üå≤ √Årvores de Decis√£o

In [15]:
from sklearn.tree import DecisionTreeClassifier

arvore = DecisionTreeClassifier(max_depth=4, random_state=42)
arvore.fit(X_train, y_train)
y_pred_arvore = arvore.predict(X_test)


üå≥ Random Forest

In [16]:
from sklearn.ensemble import RandomForestClassifier

floresta = RandomForestClassifier(n_estimators=100, random_state=42)
floresta.fit(X_train, y_train)
y_pred_floresta = floresta.predict(X_test)


üìä Avalia√ß√£o

In [17]:
for nome, y_pred in [("√Årvore", y_pred_arvore), ("Random Forest", y_pred_floresta)]:
    print(f"\n{nome}")
    print("Acur√°cia:", accuracy_score(y_test, y_pred))
    print("Precis√£o:", precision_score(y_test, y_pred))
    print("Recall:", recall_score(y_test, y_pred))
    print("F1-Score:", f1_score(y_test, y_pred))



√Årvore
Acur√°cia: 0.9290755919854281
Precis√£o: 0.952
Recall: 0.7555555555555555
F1-Score: 0.8424778761061947

Random Forest
Acur√°cia: 0.9982923497267759
Precis√£o: 0.997275204359673
Recall: 0.9959183673469387
F1-Score: 0.9965963240299524


# Relat√≥rio Executivo ‚Äì Compara√ß√£o de Modelos (Sprint 4)
## 1. Vis√£o Geral

Esta sprint teve como objetivo a constru√ß√£o, an√°lise e compara√ß√£o de diferentes modelos de aprendizado de m√°quina aplicados ao problema de previs√£o de falta de estoque cr√≠tico, utilizando dados hist√≥ricos de materiais hospitalares. Foram implementadas abordagens tanto de regress√£o quanto de classifica√ß√£o, avaliando desempenho, interpretabilidade e adequa√ß√£o ao contexto operacional.

## 2. Modelos Avaliados
### 2.1 Regress√£o Linear Simples e M√∫ltipla


Principais vari√°veis explicativas: Custo_Total, Custo_Unitario, e dummies de Material

Objetivo: Estimar o consumo mensal com base em custos e tipo de material.

#### Resumo:

Os modelos apresentaram desempenho consistente, sendo a Regress√£o M√∫ltipla mais robusta ao incorporar vari√°veis categ√≥ricas (materiais).

Coeficientes mostraram influ√™ncia negativa para materiais como Gaze Est√©ril e √Ålcool 70%, sugerindo maior consumo relativo (menor estoque dispon√≠vel).

### 2.2 Regress√µes Regularizadas (Ridge e Lasso)

<table> 
    <thead>
        <tr>
            <th>Modelo</th>
            <th>R¬≤</th>
            <th>RMSE</th>
            <th>Interpreta√ß√£o</th>
        </tr>
    </thead> 
    <tbody> 
        <tr>
            <td><b>Ridge</b></td>
            <td>0.636</td>
            <td>94.30</td>
            <td>Reduziu vari√¢ncia e suavizou coeficientes extremos, por√©m com leve perda de explica√ß√£o.</td>
        </tr> 
        <tr>
            <td><b>Lasso</b></td>
            <td>‚Äî</td>
            <td>‚Äî</td>
            <td>Reduziu o n√∫mero de vari√°veis para 8, eliminando colunas com baixa relev√¢ncia.</td>
        </tr> 
    </tbody> 
</table>

#### An√°lise:

* A Ridge Regression foi eficiente para reduzir overfitting e estabilizar coeficientes.

* A Lasso Regression destacou as vari√°veis mais relevantes (Dipirona, Paracetamol, Algod√£o, √Ålcool 70%), auxiliando na interpreta√ß√£o e simplifica√ß√£o do modelo.

### 2.3 Regress√£o Polinomial

* R¬≤: 0.9975

* RMSE: 7.81

#### An√°lise:

A regress√£o polinomial de grau 2 apresentou ganho expressivo de desempenho, indicando rela√ß√£o n√£o-linear entre custo e estoque.

Apesar da alta precis√£o, h√° risco de overfitting ‚Äî o modelo se ajusta muito bem aos dados de treino, podendo perder generaliza√ß√£o.

### 2.4 Modelos de Classifica√ß√£o
* K-Nearest Neighbors (KNN)

* Acur√°cia: 0.9946

* Precis√£o: 0.9900

* Recall: 0.9887

* F1-Score: 0.9893

#### Matriz de Confus√£o:
<table> 
    <thead>
        <tr>
            <th></th>
            <th>Predito 0</th>
            <th>Predito 1</th>
        </tr>
    </thead> 
    <tbody> 
        <tr>
            <th>Real 0</th>
            <td>6557</td>
            <td>22</td>
        </tr> 
        <tr>
            <th>Real 1</th>
            <td>25</td>
            <td>2180</td>
        </tr> 
    </tbody> 
</table>

#### An√°lise:
O modelo KNN apresentou excelente desempenho, com baixo n√∫mero de falsos positivos e falsos negativos. O valor de k foi ajustado de forma a equilibrar suaviza√ß√£o e sensibilidade, oferecendo boa performance para detec√ß√£o de risco de desabastecimento.

### Regress√£o Log√≠stica

<table> 
    <thead>
        <tr>
            <th>M√©trica</th>
            <th>Valor</th>
        </tr>
    </thead> 
    <tbody> 
        <tr>
            <td>Acur√°cia</td>
            <td>0.9967</td>
        </tr> 
        <tr>
            <td>Precis√£o</td>
            <td>0.9910</td>
        </tr> 
        <tr>
            <td>Recall</td>
            <td>0.9959</td>
        </tr> 
        <tr>
            <td>F1-Score</td>
            <td>0.9934</td>
        </tr> 
    </tbody> 
</table>

#### Interpreta√ß√£o dos Coeficientes:
Os sinais dos coeficientes indicaram quais materiais t√™m maior probabilidade associada a eventos cr√≠ticos de estoque.
Materiais com coeficientes negativos (ex.: Gaze Est√©ril, √Ålcool 70%) est√£o mais propensos a quedas de estoque, o que pode orientar pol√≠ticas de reposi√ß√£o.

### Comparativo KNN vs. Regress√£o Log√≠stica
<table> 
    <thead>
        <tr>
            <th>Modelo</th>
            <th>Acur√°cia</th>
            <th>Precis√£o</th>
            <th>Recall</th>
            <th>F1-Score</th>
        </tr>
    </thead> 
    <tbody> 
        <tr>
            <td><b>KNN</b></td>
            <td>0.9946</td>
            <td>0.9900</td>
            <td>0.9887</td>
            <td>0.9893</td>
        </tr> 
        <tr>
            <td><b>Regress√£o Log√≠stica</b></td>
            <td>0.9967</td>
            <td>0.9910</td>
            <td>0.9959</td>
            <td>0.9934</td>
        </tr> 
    </tbody> 
</table>

#### Conclus√£o:
A Regress√£o Log√≠stica teve desempenho levemente superior e oferece melhor interpretabilidade, tornando-a mais adequada para ambientes hospitalares que exigem transpar√™ncia em decis√µes.

### 2.5 √Årvores de Decis√£o e Random Forest
<table> 
    <thead>
        <tr>
            <th>Modelo</th>
            <th>Acur√°cia</th>
            <th>Precis√£o</th>
            <th>Recall</th>
            <th>F1-Score</th>
        </tr>
    </thead> 
    <tbody> 
        <tr>
            <td><b>√Årvore de Decis√£o</b></td>
            <td>0.9291</td>
            <td>0.952</td>
            <td>0.756</td>
            <td>0.842</td>
        </tr> 
        <tr>
            <td><b>Random Forest</b></td>
            <td>0.9983</td>
            <td>0.9973</td>
            <td>0.9959</td>
            <td>0.9966</td>
        </tr> 
    </tbody> 
</table>

#### An√°lise:

A √Årvore de Decis√£o √© facilmente interpret√°vel, mas sofreu com sobreajuste e menor recall.

A Random Forest superou todos os classificadores, com alt√≠ssimo desempenho e boa generaliza√ß√£o, tornando-se o modelo mais equilibrado entre precis√£o e robustez.

## 3. Conclus√µes e Recomenda√ß√£o Final
<table> 
    <thead>
        <tr>
            <th>Categoria</th>
            <th>Melhor Modelo</th>
            <th>Justificativa</th>
        </tr>
    </thead> 
    <tbody> 
        <tr>
            <td>Regress√£o Cont√≠nua</td>
            <td><b>Regress√£o Polinomial</b></td>
            <td>Captura rela√ß√£o n√£o-linear e apresenta R¬≤ pr√≥ximo de 1.</td>
        </tr> 
        <tr>
            <td>Classifica√ß√£o Bin√°ria</td>
            <td><b>Random Forest</b></td>
            <td>Excelente equil√≠brio entre precis√£o, recall e robustez.</td>
        </tr> 
        <tr>
            <td>Modelo Explic√°vel</td>
            <td><b>Regress√£o Log√≠stica</b></td>
            <td>Fornece coeficientes interpret√°veis √∫teis para decis√µes de estoque.</td>
        </tr> 
    </tbody> 
</table>



#### Recomenda√ß√£o Final:
A Random Forest √© a abordagem mais indicada para a detec√ß√£o de risco de falta de estoque cr√≠tico, devido √† sua alta acur√°cia e capacidade de generaliza√ß√£o.
No entanto, a Regress√£o Log√≠stica deve ser mantida como modelo de apoio interpretativo, permitindo explicar as vari√°veis que mais contribuem para o evento de desabastecimento.


## Resumo Geral das M√©tricas

<table> 
    <thead>
        <tr>
            <th>Modelo</th>
            <th>Tipo</th>
            <th>Acur√°cia</th>
            <th>R¬≤</th>
            <th>RMSE</th
            ><th>F1-Score</th>
        </tr>
    </thead> 
    <tbody> 
        <tr>
            <td>Regress√£o Simples</td>
            <td>Regress√£o</td>
            <td>‚Äî</td>
            <td>0.63</td>
            <td>94.30</td>
            <td>‚Äî</td>
        </tr> 
        <tr>
            <td>Ridge</td>
            <td>Regress√£o</td>
            <td>‚Äî</td>
            <td>0.64</td>
            <td>94.30</td>
            <td>‚Äî</td>
        </tr> 
        <tr>
            <td>Lasso</td>
            <td>Regress√£o</td>
            <td>‚Äî</td>
            <td>‚Äî</td>
            <td>‚Äî</td>
            <td>‚Äî</td>
        </tr> 
        <tr>
            <td>Polinomial</td>
            <td>Regress√£o</td>
            <td>‚Äî</td>
            <td><b>0.9975</b></td>
            <td><b>7.81</b></td>
            <td>‚Äî</td>
        </tr> 
        <tr>
            <td>KNN</td>
            <td>Classifica√ß√£o</td>
            <td>0.9946</td>
            <td>‚Äî</td>
            <td>‚Äî</td>
            <td>0.9893</td>
        </tr> 
        <tr>
            <td>Regress√£o Log√≠stica</td>
            <td>Classifica√ß√£o</td>
            <td>0.9967</td>
            <td>‚Äî</td>
            <td>‚Äî</td>
            <td>0.9934</td>
        </tr> 
        <tr>
            <td>√Årvore de Decis√£o</td>
            <td>Classifica√ß√£o</td>
            <td>0.9291</td>
            <td>‚Äî</td>
            <td>‚Äî</td>
            <td>0.8425</td>
        </tr> 
        <tr>
            <td>Random Forest</td>
            <td>Classifica√ß√£o</td>
            <td><b>0.9983</b></td>
            <td>‚Äî</td>
            <td>‚Äî</td>
            <td><b>0.9966</b></td>
        </tr>
    </tbody> 
</table>