
# üß™ MVP - Controle de Qualidade em Lotes de Medicamentos

Este notebook foi desenvolvido como parte do MVP da disciplina **An√°lise Explorat√≥ria e Pr√©-Processamento de Dados** da p√≥s-gradua√ß√£o em Ci√™ncia de Dados da **PUC-Rio**.

---

## üéØ Objetivo do Projeto

Avaliar o desempenho de **controle de qualidade** em **lotes de medicamentos**, com foco na variabilidade de par√¢metros f√≠sico-qu√≠micos cr√≠ticos ao longo da produ√ß√£o.

Foram analisados dados reais laboratoriais de lotes industriais com o objetivo de:

- Verificar **conformidade com especifica√ß√µes internas** e limites de impurezas
- Avaliar a **efic√°cia do processo de fabrica√ß√£o**, com base em rendimento e dissolu√ß√£o
- Identificar **poss√≠veis desvios** que possam impactar a libera√ß√£o do produto final

Esta an√°lise permite observar padr√µes de processo, comportamento estat√≠stico dos atributos de qualidade e oportunidades de melhoria no controle estat√≠stico aplicado.

---

## üóÇÔ∏è Dicion√°rio de Vari√°veis

| Vari√°vel                  | Descri√ß√£o                                                                 |
|---------------------------|---------------------------------------------------------------------------|
| `impurities_total`        | Soma total das impurezas detectadas por HPLC (%)                          |
| `impurity_o`              | Impureza O identificada por HPLC (%)                                      |
| `impurity_l`              | Impureza L identificada por HPLC (%)                                      |
| `resodual_solvent`        | Res√≠duo de solventes (ppm ou %) presente ap√≥s o processo                   |
| `dissolution_av`          | M√©dia (%) de dissolu√ß√£o dos comprimidos                                   |
| `dissolution_min`         | M√≠nimo (%) de dissolu√ß√£o observada em amostras                            |
| `batch_yield`             | Rendimento final do lote ap√≥s todas as etapas (%)                         |


In [None]:

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

sns.set(style='whitegrid')


In [None]:

from google.colab import files
uploaded = files.upload()


In [None]:

df = pd.read_csv("Laboratory.csv", sep=";")
df.head()


## üìä Estat√≠sticas Descritivas

In [None]:

df[['impurities_total', 'impurity_o', 'impurity_l', 'resodual_solvent',
    'dissolution_av', 'dissolution_min', 'batch_yield']].describe()


## üìà Distribui√ß√£o das Impurezas

In [None]:

plt.figure(figsize=(12,6))
sns.boxplot(data=df[['impurities_total', 'impurity_o', 'impurity_l']])
plt.title("Boxplot das Impurezas (%)")
plt.show()


## üîç Correla√ß√£o entre Vari√°veis de Qualidade

In [None]:

plt.figure(figsize=(10,8))
sns.heatmap(df[['impurities_total', 'resodual_solvent', 'dissolution_av', 
                'dissolution_min', 'batch_yield']].corr(), annot=True, cmap="coolwarm")
plt.title("Mapa de Correla√ß√£o")
plt.show()


## üßº Pr√©-processamento dos Dados

In [None]:

---

## üßº Pr√©-processamento dos Dados

Nesta etapa, realizamos o tratamento de dados com foco em garantir consist√™ncia, clareza e robustez estat√≠stica para an√°lise.

### üßπ Sele√ß√£o de vari√°veis relevantes

Removemos colunas n√£o relacionadas diretamente √† qualidade do produto (como IDs e dados administrativos) e mantivemos as seguintes vari√°veis:

- `impurities_total`, `impurity_o`, `impurity_l`: indicam a carga de impurezas nos lotes, identificadas por HPLC.
- `resodual_solvent`: aponta presen√ßa de solventes residuais ap√≥s fabrica√ß√£o.
- `dissolution_av`: m√©dia de dissolu√ß√£o do f√°rmaco ‚Äî indicador de efic√°cia.
- `batch_yield`: rendimento por lote ‚Äî efici√™ncia do processo.

Essa sele√ß√£o foi feita com base em crit√©rios t√©cnicos e regulat√≥rios para garantir foco nas caracter√≠sticas cr√≠ticas da qualidade (CQAs).

### ‚öôÔ∏è Normaliza√ß√£o

Para permitir compara√ß√µes justas entre vari√°veis com escalas diferentes, aplicamos padroniza√ß√£o z-score (`StandardScaler`) sobre os campos num√©ricos selecionados.



---

## ‚úÖ Conclus√µes Finais

O projeto permitiu uma vis√£o geral da qualidade dos lotes farmac√™uticos, com base em indicadores cr√≠ticos como impurezas, dissolu√ß√£o e rendimento.

---

### üìà Principais achados estat√≠sticos:

- **Impurezas totais** concentradas entre 0.2% e 0.6%, **dentro dos limites aceit√°veis** (m√°x. 1.0%)
- **Impurezas espec√≠ficas** (O e L) est√£o abaixo de 0.15%
- **Dissolu√ß√£o m√©dia** acima de 90% na maioria dos lotes, evidenciando alta libera√ß√£o do princ√≠pio ativo
- **Res√≠duos de solventes** baixos e est√°veis
- **Rendimento por lote** elevado (m√©dia pr√≥xima de 98‚Äì101%), sem perdas significativas

---

### ‚úÖ Conclus√£o T√©cnica Final

A an√°lise estat√≠stica, realizada ap√≥s um criterioso pr√©-processamento dos dados, indicou que os lotes avaliados apresentam **perfil de qualidade robusto**, com:

- Impurezas dentro de par√¢metros aceit√°veis
- Alta efic√°cia na libera√ß√£o do f√°rmaco
- Processo produtivo est√°vel e consistente

Esses resultados refor√ßam a **confiabilidade do processo industrial farmac√™utico** e a efetividade dos controles aplicados ao longo da cadeia produtiva.



## ‚úÖ Conclus√µes Finais

O projeto permitiu uma vis√£o geral da qualidade dos lotes farmac√™uticos, com base em indicadores cr√≠ticos como impurezas, dissolu√ß√£o e rendimento.

---

### üìà Principais achados estat√≠sticos:

- **Impurezas totais** concentradas entre 0.2% e 0.6%, **dentro dos limites aceit√°veis** (m√°x. 1.0%)
- **Impurezas espec√≠ficas** (O e L) est√£o abaixo de 0.15%
- **Dissolu√ß√£o m√©dia** acima de 90% na maioria dos lotes, evidenciando alta libera√ß√£o do princ√≠pio ativo
- **Res√≠duos de solventes** baixos e est√°veis
- **Rendimento por lote** elevado (m√©dia pr√≥xima de 98‚Äì101%), sem perdas significativas

---

### ‚úÖ Conclus√£o T√©cnica Final

A an√°lise estat√≠stica do conjunto de dados laboratoriais indica que os lotes avaliados apresentam **perfil de qualidade robusto**, com:

- Impurezas dentro de par√¢metros aceit√°veis
- Alta efic√°cia na libera√ß√£o do f√°rmaco
- Processo produtivo est√°vel e consistente

Esses resultados refor√ßam a **confiabilidade do processo industrial farmac√™utico** e a efetividade dos controles aplicados ao longo da cadeia produtiva.

