
# 🧪 MVP - Controle de Qualidade em Lotes de Medicamentos

Este notebook foi desenvolvido como parte do MVP da disciplina **Análise Exploratória e Pré-Processamento de Dados** da pós-graduação em Ciência de Dados da **PUC-Rio**.

---

## 🎯 Objetivo do Projeto

Avaliar o desempenho de **controle de qualidade** em **lotes de medicamentos**, com foco na variabilidade de parâmetros físico-químicos críticos ao longo da produção.

Foram analisados dados reais laboratoriais de lotes industriais com o objetivo de:

- Verificar **conformidade com especificações internas** e limites de impurezas
- Avaliar a **eficácia do processo de fabricação**, com base em rendimento e dissolução
- Identificar **possíveis desvios** que possam impactar a liberação do produto final

Esta análise permite observar padrões de processo, comportamento estatístico dos atributos de qualidade e oportunidades de melhoria no controle estatístico aplicado.

---

## 🗂️ Dicionário de Variáveis

| Variável                  | Descrição                                                                 |
|---------------------------|---------------------------------------------------------------------------|
| `impurities_total`        | Soma total das impurezas detectadas por HPLC (%)                          |
| `impurity_o`              | Impureza O identificada por HPLC (%)                                      |
| `impurity_l`              | Impureza L identificada por HPLC (%)                                      |
| `resodual_solvent`        | Resíduo de solventes (ppm ou %) presente após o processo                   |
| `dissolution_av`          | Média (%) de dissolução dos comprimidos                                   |
| `dissolution_min`         | Mínimo (%) de dissolução observada em amostras                            |
| `batch_yield`             | Rendimento final do lote após todas as etapas (%)                         |


In [None]:

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

sns.set(style='whitegrid')


In [None]:

from google.colab import files
uploaded = files.upload()


In [None]:

df = pd.read_csv("Laboratory.csv", sep=";")
df.head()


## 📊 Estatísticas Descritivas

In [None]:

df[['impurities_total', 'impurity_o', 'impurity_l', 'resodual_solvent',
    'dissolution_av', 'dissolution_min', 'batch_yield']].describe()


## 📈 Distribuição das Impurezas

In [None]:

plt.figure(figsize=(12,6))
sns.boxplot(data=df[['impurities_total', 'impurity_o', 'impurity_l']])
plt.title("Boxplot das Impurezas (%)")
plt.show()


## 🔍 Correlação entre Variáveis de Qualidade

In [None]:

plt.figure(figsize=(10,8))
sns.heatmap(df[['impurities_total', 'resodual_solvent', 'dissolution_av', 
                'dissolution_min', 'batch_yield']].corr(), annot=True, cmap="coolwarm")
plt.title("Mapa de Correlação")
plt.show()


## 🧼 Pré-processamento dos Dados

In [None]:

---

## 🧼 Pré-processamento dos Dados

Nesta etapa, realizamos o tratamento de dados com foco em garantir consistência, clareza e robustez estatística para análise.

### 🧹 Seleção de variáveis relevantes

Removemos colunas não relacionadas diretamente à qualidade do produto (como IDs e dados administrativos) e mantivemos as seguintes variáveis:

- `impurities_total`, `impurity_o`, `impurity_l`: indicam a carga de impurezas nos lotes, identificadas por HPLC.
- `resodual_solvent`: aponta presença de solventes residuais após fabricação.
- `dissolution_av`: média de dissolução do fármaco — indicador de eficácia.
- `batch_yield`: rendimento por lote — eficiência do processo.

Essa seleção foi feita com base em critérios técnicos e regulatórios para garantir foco nas características críticas da qualidade (CQAs).

### ⚙️ Normalização

Para permitir comparações justas entre variáveis com escalas diferentes, aplicamos padronização z-score (`StandardScaler`) sobre os campos numéricos selecionados.



---

## ✅ Conclusões Finais

O projeto permitiu uma visão geral da qualidade dos lotes farmacêuticos, com base em indicadores críticos como impurezas, dissolução e rendimento.

---

### 📈 Principais achados estatísticos:

- **Impurezas totais** concentradas entre 0.2% e 0.6%, **dentro dos limites aceitáveis** (máx. 1.0%)
- **Impurezas específicas** (O e L) estão abaixo de 0.15%
- **Dissolução média** acima de 90% na maioria dos lotes, evidenciando alta liberação do princípio ativo
- **Resíduos de solventes** baixos e estáveis
- **Rendimento por lote** elevado (média próxima de 98–101%), sem perdas significativas

---

### ✅ Conclusão Técnica Final

A análise estatística, realizada após um criterioso pré-processamento dos dados, indicou que os lotes avaliados apresentam **perfil de qualidade robusto**, com:

- Impurezas dentro de parâmetros aceitáveis
- Alta eficácia na liberação do fármaco
- Processo produtivo estável e consistente

Esses resultados reforçam a **confiabilidade do processo industrial farmacêutico** e a efetividade dos controles aplicados ao longo da cadeia produtiva.



## ✅ Conclusões Finais

O projeto permitiu uma visão geral da qualidade dos lotes farmacêuticos, com base em indicadores críticos como impurezas, dissolução e rendimento.

---

### 📈 Principais achados estatísticos:

- **Impurezas totais** concentradas entre 0.2% e 0.6%, **dentro dos limites aceitáveis** (máx. 1.0%)
- **Impurezas específicas** (O e L) estão abaixo de 0.15%
- **Dissolução média** acima de 90% na maioria dos lotes, evidenciando alta liberação do princípio ativo
- **Resíduos de solventes** baixos e estáveis
- **Rendimento por lote** elevado (média próxima de 98–101%), sem perdas significativas

---

### ✅ Conclusão Técnica Final

A análise estatística do conjunto de dados laboratoriais indica que os lotes avaliados apresentam **perfil de qualidade robusto**, com:

- Impurezas dentro de parâmetros aceitáveis
- Alta eficácia na liberação do fármaco
- Processo produtivo estável e consistente

Esses resultados reforçam a **confiabilidade do processo industrial farmacêutico** e a efetividade dos controles aplicados ao longo da cadeia produtiva.

