# Objetivo do Projeto

***O objetivo do projeto é desenvolver um modelo de Machine Learning capaz de prever com precisão o risco de ocorrências de efeitos colaterais em medicamentos.***

Este projeto integra técnicas avançadas de análise de dados e algoritmos preditivos para identificar potenciais riscos associados aos medicamentos, com especial atenção aos casos com alta incidência de efeitos adversos e sinais de dependência. Através de uma abordagem inovadora, o modelo visa não só antecipar complicações antes que elas se tornem críticas, mas também fornecer **insights estratégicos** valiosos que facilitam a tomada de decisão em nível regulatório, clínico e comercial.

### Benefícios e Impactos
- **Segurança do Paciente:**  
  Antecipar riscos permite a implementação de medidas preventivas, garantindo maior segurança aos usuários e minimizando impactos adversos à saúde.

- **Otimização de Processos:**  
  Ao identificar padrões e relações importantes — como a correlação entre dosagem, número de efeitos adversos e potencial de dependência — o projeto possibilita ajustes precisos em formulações e práticas clínicas, contribuindo para a melhoria contínua dos processos internos.

- **Transparência e Explicabilidade:**  
  Utilizando técnicas de explicabilidade, como SHAP, o modelo revela de forma clara quais fatores estão impulsionando as predições, construindo confiança e oferecendo uma base sólida para intervenções estratégicas.


In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from matplotlib.pylab import rcParams
rcParams["figure.figsize"] = 17,8
from funcoes import *



In [2]:
dados = pd.read_csv("medicine_dataset.csv", low_memory=False)
dados.head()

Unnamed: 0,id,name,substitute0,substitute1,substitute2,substitute3,substitute4,sideEffect0,sideEffect1,sideEffect2,...,sideEffect41,use0,use1,use2,use3,use4,Chemical Class,Habit Forming,Therapeutic Class,Action Class
0,1,augmentin 625 duo tablet,Penciclav 500 mg/125 mg Tablet,Moxikind-CV 625 Tablet,Moxiforce-CV 625 Tablet,Fightox 625 Tablet,Novamox CV 625mg Tablet,Vomiting,Nausea,Diarrhea,...,,Treatment of Bacterial infections,,,,,,No,ANTI INFECTIVES,
1,2,azithral 500 tablet,Zithrocare 500mg Tablet,Azax 500 Tablet,Zady 500 Tablet,Cazithro 500mg Tablet,Trulimax 500mg Tablet,Vomiting,Nausea,Abdominal pain,...,,Treatment of Bacterial infections,,,,,Macrolides,No,ANTI INFECTIVES,Macrolides
2,3,ascoril ls syrup,Solvin LS Syrup,Ambrodil-LX Syrup,Zerotuss XP Syrup,Capex LS Syrup,Broxum LS Syrup,Nausea,Vomiting,Diarrhea,...,,Treatment of Cough with mucus,,,,,,No,RESPIRATORY,
3,4,allegra 120mg tablet,Lcfex Tablet,Etofex 120mg Tablet,Nexofex 120mg Tablet,Fexise 120mg Tablet,Histafree 120 Tablet,Headache,Drowsiness,Dizziness,...,,Treatment of Sneezing and runny nose due to al...,Treatment of Allergic conditions,,,,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation)
4,5,avil 25 tablet,Eralet 25mg Tablet,,,,,Sleepiness,Dryness in mouth,,...,,Treatment of Allergic conditions,,,,,Pyridines Derivatives,No,RESPIRATORY,H1 Antihistaminics (First Generation)


# Tratamento dos dados

## Primeiros Tratamentos

In [3]:
print("Quantidade de Valores nulos nas colunas")
print(dados.isnull().sum())

Quantidade de Valores nulos nas colunas
id                        0
name                      0
substitute0            9597
substitute1           14351
substitute2           17985
substitute3           21362
substitute4           24256
sideEffect0               0
sideEffect1            9802
sideEffect2           18718
sideEffect3           40580
sideEffect4           84658
sideEffect5          116960
sideEffect6          156361
sideEffect7          180468
sideEffect8          199712
sideEffect9          210510
sideEffect10         220944
sideEffect11         227887
sideEffect12         231936
sideEffect13         233491
sideEffect14         237799
sideEffect15         240537
sideEffect16         242209
sideEffect17         242836
sideEffect18         243703
sideEffect19         244272
sideEffect20         244995
sideEffect21         245093
sideEffect22         245170
sideEffect23         245313
sideEffect24         245495
sideEffect25         246715
sideEffect26         246715
sideEffe

In [4]:
for coluna in dados.columns:
    unicos = dados[coluna].nunique()
    print("Coluna: {} - Valores Únicos: {} ".format(coluna, unicos))

Coluna: id - Valores Únicos: 248218 
Coluna: name - Valores Únicos: 222825 
Coluna: substitute0 - Valores Únicos: 19374 
Coluna: substitute1 - Valores Únicos: 16309 
Coluna: substitute2 - Valores Únicos: 14289 
Coluna: substitute3 - Valores Únicos: 12774 
Coluna: substitute4 - Valores Únicos: 11688 
Coluna: sideEffect0 - Valores Únicos: 326 
Coluna: sideEffect1 - Valores Únicos: 334 
Coluna: sideEffect2 - Valores Únicos: 351 
Coluna: sideEffect3 - Valores Únicos: 362 
Coluna: sideEffect4 - Valores Únicos: 358 
Coluna: sideEffect5 - Valores Únicos: 324 
Coluna: sideEffect6 - Valores Únicos: 298 
Coluna: sideEffect7 - Valores Únicos: 274 
Coluna: sideEffect8 - Valores Únicos: 253 
Coluna: sideEffect9 - Valores Únicos: 231 
Coluna: sideEffect10 - Valores Únicos: 211 
Coluna: sideEffect11 - Valores Únicos: 181 
Coluna: sideEffect12 - Valores Únicos: 173 
Coluna: sideEffect13 - Valores Únicos: 144 
Coluna: sideEffect14 - Valores Únicos: 120 
Coluna: sideEffect15 - Valores Únicos: 94 
Coluna

In [5]:
## Remoção de 69 linhas onde classe terapêutica é nulo.
#Essa coluna é importante pois será usada para prever valores ausentes de "Action Class" e "Chemical Class"
dados.loc[dados["Therapeutic Class"].notnull()]
dados.shape

(248218, 58)

In [6]:
#Remoção de dados duplicados na coluna nome
dados.drop_duplicates(subset="name", keep="first", inplace=True)

In [7]:
#Primeiras 20 colunas
dados.iloc[:5, 1:21]

Unnamed: 0,name,substitute0,substitute1,substitute2,substitute3,substitute4,sideEffect0,sideEffect1,sideEffect2,sideEffect3,sideEffect4,sideEffect5,sideEffect6,sideEffect7,sideEffect8,sideEffect9,sideEffect10,sideEffect11,sideEffect12,sideEffect13
0,augmentin 625 duo tablet,Penciclav 500 mg/125 mg Tablet,Moxikind-CV 625 Tablet,Moxiforce-CV 625 Tablet,Fightox 625 Tablet,Novamox CV 625mg Tablet,Vomiting,Nausea,Diarrhea,,,,,,,,,,,
1,azithral 500 tablet,Zithrocare 500mg Tablet,Azax 500 Tablet,Zady 500 Tablet,Cazithro 500mg Tablet,Trulimax 500mg Tablet,Vomiting,Nausea,Abdominal pain,Diarrhea,,,,,,,,,,
2,ascoril ls syrup,Solvin LS Syrup,Ambrodil-LX Syrup,Zerotuss XP Syrup,Capex LS Syrup,Broxum LS Syrup,Nausea,Vomiting,Diarrhea,Upset stomach,Stomach pain,Allergic reaction,Dizziness,Headache,Rash,Hives,Tremors,Palpitations,Muscle cramp,Increased heart rate
3,allegra 120mg tablet,Lcfex Tablet,Etofex 120mg Tablet,Nexofex 120mg Tablet,Fexise 120mg Tablet,Histafree 120 Tablet,Headache,Drowsiness,Dizziness,Nausea,,,,,,,,,,
4,avil 25 tablet,Eralet 25mg Tablet,,,,,Sleepiness,Dryness in mouth,,,,,,,,,,,,


In [8]:
dados.shape

(222825, 58)

## Separação do Primeiro DataFrame
+ ***Medicamentos e concorrentes***

* **Aqui podemos conferir o motivo de alguns campos estarem faltando:**
1. > *Alguns medicamentos possuem maior número de substitutos, porém os medicamentos que não tem tantos substitutos tem essas colunas como nulas.*
2. >  *Os efeitos colaterais também tem esse mesmo problema, isso será tratado posteriormente com uma abordagem adaptada para cada caso.*

In [9]:
#Visualização das Últimas Linhas
medicamentos = dados.iloc[:, 1:7]
medicamentos.tail()

Unnamed: 0,name,substitute0,substitute1,substitute2,substitute3,substitute4
248210,ziyapod 100mg oral suspension,Qc Pod Dry Syrup,Actipod 50 Dry Syrup Orange-Lemon,Tilpod 100 Dry Syrup,Jadupox-DS Dry Syrup,Podwel 100 Dry Syrup Orange
248212,zemhart 30mg tablet,Dilzex 30mg Tablet,Diltiaz 30mg Tablet,Triazem 30mg Tablet,Dilti 30mg Tablet,DZ 30mg Tablet
248215,zivex 25mg tablet,HD Zine 25mg Tablet,Hydrocas 25mg Tablet,Hyzox 25 Tablet,Hydil 25mg Tablet,Zyzine 25mg Tablet
248216,zi fast 500mg injection,Zycin 500mg Injection,Aziwok 500mg Injection,Azirow 500mg Injection,Toracin 500mg Injection,Azymed 500mg Injection
248217,zyvocol 1% dusting powder,Canazole Dusting Powder,Clotrex Dusting Powder,AF -C Dusting Powder,Klo-Aid Dusting Powder,Nuforce Dusting Powder


In [10]:
# Contagem de Concorrentes
medicamentos["n_substitutes"] = medicamentos.iloc[:,1:].notnull().sum(axis=1) # Localizar as colunas com os substitutos e contar
medicamentos.head(10)

Unnamed: 0,name,substitute0,substitute1,substitute2,substitute3,substitute4,n_substitutes
0,augmentin 625 duo tablet,Penciclav 500 mg/125 mg Tablet,Moxikind-CV 625 Tablet,Moxiforce-CV 625 Tablet,Fightox 625 Tablet,Novamox CV 625mg Tablet,5
1,azithral 500 tablet,Zithrocare 500mg Tablet,Azax 500 Tablet,Zady 500 Tablet,Cazithro 500mg Tablet,Trulimax 500mg Tablet,5
2,ascoril ls syrup,Solvin LS Syrup,Ambrodil-LX Syrup,Zerotuss XP Syrup,Capex LS Syrup,Broxum LS Syrup,5
3,allegra 120mg tablet,Lcfex Tablet,Etofex 120mg Tablet,Nexofex 120mg Tablet,Fexise 120mg Tablet,Histafree 120 Tablet,5
4,avil 25 tablet,Eralet 25mg Tablet,,,,,1
5,allegra-m tablet,Emlukast-FX Tablet,LCFEX-Mont Tablet,Fixar 10mg/120mg Tablet,Histakind-M Tablet,Histafree-M Tablet,5
6,amoxyclav 625 tablet,Penciclav 500 mg/125 mg Tablet,Moxikind-CV 625 Tablet,Moxiforce-CV 625 Tablet,Fightox 625 Tablet,Novamox CV 625mg Tablet,5
7,azee 500 tablet,Zithrocare 500mg Tablet,Azax 500 Tablet,Zady 500 Tablet,Cazithro 500mg Tablet,Trulimax 500mg Tablet,5
8,atarax 25mg tablet,HD Zine 25mg Tablet,Hyzox 25 Tablet,Hizet 25mg Tablet,Hydil 25mg Tablet,Zyzine 25mg Tablet,5
9,ascoril d plus syrup sugar free,Arnikof D Syrup,Cofsolve-D Syrup,Tucin D Syrup,Akof-D Syrup Sugar Free,Krisbro D Syrup,5


In [11]:
# Preenchimento das nulas
medicamentos.fillna("Not Applicable", inplace=True)
medicamentos.isnull().sum()

name             0
substitute0      0
substitute1      0
substitute2      0
substitute3      0
substitute4      0
n_substitutes    0
dtype: int64

In [12]:
#Essas colunas não serão mais necessárias
dados.drop(columns=["id", "substitute0", "substitute1", "substitute2", "substitute3", "substitute4"], axis=1, inplace=True)

- **Persistência do segundo DataFrame em disco**
+ > DataFrame utilizado no Streamlit para análise de concorrentes e indicação principal

In [13]:
medicamentos = pd.concat((medicamentos, dados.loc[:, ["use0"]]), axis=1)
medicamentos.head(6)

Unnamed: 0,name,substitute0,substitute1,substitute2,substitute3,substitute4,n_substitutes,use0
0,augmentin 625 duo tablet,Penciclav 500 mg/125 mg Tablet,Moxikind-CV 625 Tablet,Moxiforce-CV 625 Tablet,Fightox 625 Tablet,Novamox CV 625mg Tablet,5,Treatment of Bacterial infections
1,azithral 500 tablet,Zithrocare 500mg Tablet,Azax 500 Tablet,Zady 500 Tablet,Cazithro 500mg Tablet,Trulimax 500mg Tablet,5,Treatment of Bacterial infections
2,ascoril ls syrup,Solvin LS Syrup,Ambrodil-LX Syrup,Zerotuss XP Syrup,Capex LS Syrup,Broxum LS Syrup,5,Treatment of Cough with mucus
3,allegra 120mg tablet,Lcfex Tablet,Etofex 120mg Tablet,Nexofex 120mg Tablet,Fexise 120mg Tablet,Histafree 120 Tablet,5,Treatment of Sneezing and runny nose due to al...
4,avil 25 tablet,Eralet 25mg Tablet,Not Applicable,Not Applicable,Not Applicable,Not Applicable,1,Treatment of Allergic conditions
5,allegra-m tablet,Emlukast-FX Tablet,LCFEX-Mont Tablet,Fixar 10mg/120mg Tablet,Histakind-M Tablet,Histafree-M Tablet,5,Treatment of Sneezing and runny nose due to al...


In [14]:
medicamentos.to_csv("medicamentos.csv", index=False)

## Separação do segundo DataFrame
 + ***Efeitos Colaterais dos Medicamentos***

* ***A grande maioria dos medicamentos tem de 5 a 10 efeitos colaterais, porém há algumas excessões***
* > *Alguns medicamentos mais fortes chegam a ter até 40 efeitos colaterais, por isso há tantas colunas dedicadas á efeitos colaterais,
  > porém a maioria dos medicamentos tem no máximo 10 efeitos colaterais, e é essa a quantidade que vamos manter.*

* > *Para não tornar o conjunto de dados muito complexo e evitar a maldição da dimensionalidade vamos aproveitar apenas
   algumas dessas colunas e incluir uma coluna ao final informando a quantidade de efeitos colaterais do medicamento.*

In [15]:
dados.iloc[:10, 21:41]

Unnamed: 0,sideEffect20,sideEffect21,sideEffect22,sideEffect23,sideEffect24,sideEffect25,sideEffect26,sideEffect27,sideEffect28,sideEffect29,sideEffect30,sideEffect31,sideEffect32,sideEffect33,sideEffect34,sideEffect35,sideEffect36,sideEffect37,sideEffect38,sideEffect39
0,,,,,,,,,,,,,,,,,,,,
1,,,,,,,,,,,,,,,,,,,,
2,,,,,,,,,,,,,,,,,,,,
3,,,,,,,,,,,,,,,,,,,,
4,,,,,,,,,,,,,,,,,,,,
5,,,,,,,,,,,,,,,,,,,,
6,,,,,,,,,,,,,,,,,,,,
7,,,,,,,,,,,,,,,,,,,,
8,,,,,,,,,,,,,,,,,,,,
9,,,,,,,,,,,,,,,,,,,,


***Tratamento do DataFrame com os efeitos Colaterais***
- A nova coluna "n_effects" indicará a quantidade de efeitos colaterais do medicamento. Essa informação será de suma importância para a criação da classe
- Através dessa coluna criada será possível prever a ocorrência de múltiplos efeitos colaterais, indicando maior risco no uso do medicamento
- As colunas faltantes serão preenchidas serão preenchidas com "Not Applicable" indicando a não ocorrência de efeitos colaterais na coluna

In [16]:
effects = dados.iloc[:, 1:43] #Localização das colunas com os efeitos colaterais
effects = effects.copy() # Cópia do Dataframe para evitar "warnings"
effects["n_effects"] = effects.notnull().sum(axis=1) #Soma dos efeitos colaterais (Valores não nulos indicam a ocorrência de efeitos)
effects = effects.iloc[:, list(range(11)) + [-1]] # Para diminuir a complexidade do conjunto de dados apenas os 10 primeiros efeitos colaterais e "n_effects" serão mantidos
effects.fillna("Not Applicable", inplace=True)
effects = pd.concat((effects, dados["Therapeutic Class"]), axis=1)
effects.head(10)

Unnamed: 0,sideEffect0,sideEffect1,sideEffect2,sideEffect3,sideEffect4,sideEffect5,sideEffect6,sideEffect7,sideEffect8,sideEffect9,sideEffect10,n_effects,Therapeutic Class
0,Vomiting,Nausea,Diarrhea,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,3,ANTI INFECTIVES
1,Vomiting,Nausea,Abdominal pain,Diarrhea,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,4,ANTI INFECTIVES
2,Nausea,Vomiting,Diarrhea,Upset stomach,Stomach pain,Allergic reaction,Dizziness,Headache,Rash,Hives,Tremors,14,RESPIRATORY
3,Headache,Drowsiness,Dizziness,Nausea,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,4,RESPIRATORY
4,Sleepiness,Dryness in mouth,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,2,RESPIRATORY
5,Nausea,Diarrhea,Vomiting,Skin rash,Flu-like symptoms,Headache,Drowsiness,Dizziness,Not Applicable,Not Applicable,Not Applicable,8,RESPIRATORY
6,Vomiting,Nausea,Diarrhea,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,3,ANTI INFECTIVES
7,Vomiting,Nausea,Abdominal pain,Diarrhea,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,4,ANTI INFECTIVES
8,Sedation,Nausea,Vomiting,Upset stomach,Constipation,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,5,RESPIRATORY
9,Nausea,Vomiting,Loss of appetite,Headache,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Not Applicable,4,RESPIRATORY


In [17]:
# Após termos extraído todas as informações relevantes das colunas Efeitos Colaterais, podemos excluí-las do conjunto de dados original
dados.drop(columns=["sideEffect" + str(i) for i in range(1,42)], inplace=True)
dados = pd.concat((dados, effects["n_effects"]), axis=1 )

In [18]:
#Persistência em disco do Dataframe de efeitos Colaterais
effects.to_csv("effects.csv", index=False)

## Separação do Terceiro DataFrame
* + **Conjunto de Dados para Criação do Modelo de Machine Learning**

* **Alguns medicamentos tem mais de uma indicação por isso manteremos essas colunas. As colunas nulas representam os medicamentos que não tem múltiplas indicações.**


*  ***Para "Classe de Ação" e "Classe Química" vamos utilizar uma abordagem mais sofisticada para imputação de valores faltantes***
* + > *Vamos utilizar as colunas "use0", "Habit Forming", e "Therapeutic Class" para prever esses valores*
* + > *Os valores serão previstos através dos vizinhos mais próximos (KNeighbors)*

In [19]:
#Visualização dos dados originais(Últimas Colunas)
dados.iloc[:6,:]

Unnamed: 0,name,sideEffect0,use0,use1,use2,use3,use4,Chemical Class,Habit Forming,Therapeutic Class,Action Class,n_effects
0,augmentin 625 duo tablet,Vomiting,Treatment of Bacterial infections,,,,,,No,ANTI INFECTIVES,,3
1,azithral 500 tablet,Vomiting,Treatment of Bacterial infections,,,,,Macrolides,No,ANTI INFECTIVES,Macrolides,4
2,ascoril ls syrup,Nausea,Treatment of Cough with mucus,,,,,,No,RESPIRATORY,,14
3,allegra 120mg tablet,Headache,Treatment of Sneezing and runny nose due to al...,Treatment of Allergic conditions,,,,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation),4
4,avil 25 tablet,Sleepiness,Treatment of Allergic conditions,,,,,Pyridines Derivatives,No,RESPIRATORY,H1 Antihistaminics (First Generation),2
5,allegra-m tablet,Nausea,Treatment of Sneezing and runny nose due to al...,,,,,,No,RESPIRATORY,,8


- ***Utilização do Algoritmo KNeighbors para imputação dos Valores de forma mais realista***

 + > "use0", "Habit Forming", "Therapeutic Class" serão usados para prever "Action Class"
 + > Posteriormente "Action Class" se torna uma variável independente ajudando a prever os valores de "Chemical Class"

In [20]:
#Imputação dos Valores Nulos de "Action CLass"
variaveis_independentes = dados.loc[:, ["use0", "Habit Forming", "Therapeutic Class"]] #Variáveis usadas para prever os valores NaN
encoder = LabelEncoder() #Codificação de Categorias
for coluna in variaveis_independentes.columns:
    variaveis_independentes[coluna] = encoder.fit_transform(variaveis_independentes[coluna])

variaveis_dependentes = dados.loc[:, "Action Class"] #Coluna com os valores NaN
campos_conhecidos = variaveis_independentes.loc[variaveis_dependentes.isnull()] #Variáveis independentes para prever os valores NaN
campos_desconhecidos = variaveis_dependentes.loc[variaveis_dependentes.isnull()] #Campos com os valores NaN para serem preenchidos
variaveis_independentes = variaveis_independentes[variaveis_dependentes.notnull()] #Variáveis independentes para treinamento
variaveis_dependentes = variaveis_dependentes[variaveis_dependentes.notnull()] #Variáveis dependentes para treinamento

#Treinamento do Modelo
knn = KNeighborsClassifier(n_neighbors=7) #Preenchimento através dos 7 vizinhos mais próximos
knn.fit(variaveis_independentes, variaveis_dependentes)

In [21]:
previsao_action = knn.predict(campos_conhecidos)
previsao_action

array(['Macrolides', 'Mucolytics',
       'H1 Antihistaminics (second Generation)', ...,
       'Ampicillin & Sulbactam ester compound',
       'P2Y12 inhibitors (ADP receptor)', 'Macrolides'], dtype=object)

In [22]:
print('Valores Imputados em \"Action Class\"')
print(previsao_action.shape[0])

Valores Imputados em "Action Class"
99279


In [23]:
#Transformação em Série para Imputação diretamente nos valores Nulos
previsao_action = pd.Series(previsao_action, index=dados[dados["Action Class"].isnull()].index)
previsao_action

0                                              Macrolides
2                                              Mucolytics
5                  H1 Antihistaminics (second Generation)
6                                              Macrolides
9                                      Cough suppressants
                               ...                       
248199    Selective beta 3-adrenoceptor agonist (Bladder)
248204              H1 Antihistaminics (First Generation)
248207              Ampicillin & Sulbactam ester compound
248208                    P2Y12 inhibitors (ADP receptor)
248209                                         Macrolides
Length: 99279, dtype: object

In [24]:
#Preenchimento dos valores Nulos na coluna "Action Class"
dados["Action Class"] = dados["Action Class"].fillna(previsao_action)
dados["Action Class"]

0                                            Macrolides
1                                            Macrolides
2                                            Mucolytics
3                H1 Antihistaminics (second Generation)
4                 H1 Antihistaminics (First Generation)
                              ...                      
248210                     Cephalosporins: 3 generation
248212    Calcium channel blockers- Nondihydropyridines
248215            H1 Antihistaminics (First Generation)
248216                                       Macrolides
248217            Fungal ergosterol synthesis inhibitor
Name: Action Class, Length: 222825, dtype: object

In [25]:
# Imputação dos Valores Nulos de "Chemical CLass"
# Action Class agora se tornou uma variável independente, ajudando a prever os valores de "Chemical Class"
variaveis_independentes = dados.loc[:, ["use0", "Habit Forming", "Therapeutic Class", "Action Class"]] #Variáveis usadas para prever os valores NaN
encoder = LabelEncoder() #Codificação de Categorias
for coluna in variaveis_independentes.columns:
    variaveis_independentes[coluna] = encoder.fit_transform(variaveis_independentes[coluna])

variaveis_dependentes = dados.loc[:, "Chemical Class"] #Coluna com os valores NaN
campos_conhecidos = variaveis_independentes.loc[variaveis_dependentes.isnull()] #Variáveis independentes para prever os valores NaN
campos_desconhecidos = variaveis_dependentes.loc[variaveis_dependentes.isnull()] #Campos com os valores NaN para serem preechidos
variaveis_independentes = variaveis_independentes[variaveis_dependentes.notnull()] #Variáveis independentes para treinamento
variaveis_dependentes = variaveis_dependentes[variaveis_dependentes.notnull()] #Variáveis dependentes para treinamento

#Treinamento do Modelo
knn = KNeighborsClassifier(n_neighbors=7) #Preenchimento através dos 7 vizinhos mais próximos
knn.fit(variaveis_independentes, variaveis_dependentes)

In [26]:
previsao_chemical = knn.predict(campos_conhecidos)
previsao_chemical

array(['Macrolides', 'Phenylmethylamine Derivative',
       'Diphenylmethane Derivative', ..., 'Penicillin',
       'Alpha amino acid esters', 'Macrolides'], dtype=object)

In [27]:
print('Valores Imputados em \"Chemical Class\"')
previsao_chemical.shape[0]

Valores Imputados em "Chemical Class"


99516

In [28]:
#Transformação em Série para Imputação diretamente nos valores Nulos
previsao_chemical = pd.Series(previsao_chemical, index=dados[dados["Chemical Class"].isnull()].index)
previsao_chemical

0                           Macrolides
2         Phenylmethylamine Derivative
5           Diphenylmethane Derivative
6                           Macrolides
9           Diphenylmethane Derivative
                      ...             
248199              Anilide Derivative
248204    Diphenylmethanes derivatives
248207                      Penicillin
248208         Alpha amino acid esters
248209                      Macrolides
Length: 99516, dtype: object

In [29]:
#Imputação dos valores Nulos
dados["Chemical Class"] = dados["Chemical Class"].fillna(previsao_chemical)
dados["Chemical Class"]

0                                                Macrolides
1                                                Macrolides
2                              Phenylmethylamine Derivative
3                                Diphenylmethane Derivative
4                                     Pyridines Derivatives
                                ...                        
248210    Broad Spectrum (Third & fourth generation ceph...
248212                           Benzothiazepine derivative
248215                                Piperazine Derivative
248216                                           Macrolides
248217                       Azole derivatives {Imidazoles}
Name: Chemical Class, Length: 222825, dtype: object

In [30]:
dados.iloc[:6, :]

Unnamed: 0,name,sideEffect0,use0,use1,use2,use3,use4,Chemical Class,Habit Forming,Therapeutic Class,Action Class,n_effects
0,augmentin 625 duo tablet,Vomiting,Treatment of Bacterial infections,,,,,Macrolides,No,ANTI INFECTIVES,Macrolides,3
1,azithral 500 tablet,Vomiting,Treatment of Bacterial infections,,,,,Macrolides,No,ANTI INFECTIVES,Macrolides,4
2,ascoril ls syrup,Nausea,Treatment of Cough with mucus,,,,,Phenylmethylamine Derivative,No,RESPIRATORY,Mucolytics,14
3,allegra 120mg tablet,Headache,Treatment of Sneezing and runny nose due to al...,Treatment of Allergic conditions,,,,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation),4
4,avil 25 tablet,Sleepiness,Treatment of Allergic conditions,,,,,Pyridines Derivatives,No,RESPIRATORY,H1 Antihistaminics (First Generation),2
5,allegra-m tablet,Nausea,Treatment of Sneezing and runny nose due to al...,,,,,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation),8


In [31]:
dados.fillna("Not Applicable", inplace=True)

In [32]:
dados.head(5)

Unnamed: 0,name,sideEffect0,use0,use1,use2,use3,use4,Chemical Class,Habit Forming,Therapeutic Class,Action Class,n_effects
0,augmentin 625 duo tablet,Vomiting,Treatment of Bacterial infections,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Macrolides,No,ANTI INFECTIVES,Macrolides,3
1,azithral 500 tablet,Vomiting,Treatment of Bacterial infections,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Macrolides,No,ANTI INFECTIVES,Macrolides,4
2,ascoril ls syrup,Nausea,Treatment of Cough with mucus,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Phenylmethylamine Derivative,No,RESPIRATORY,Mucolytics,14
3,allegra 120mg tablet,Headache,Treatment of Sneezing and runny nose due to al...,Treatment of Allergic conditions,Not Applicable,Not Applicable,Not Applicable,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation),4
4,avil 25 tablet,Sleepiness,Treatment of Allergic conditions,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Pyridines Derivatives,No,RESPIRATORY,H1 Antihistaminics (First Generation),2


In [33]:
#Extração das dosagens diretamente dos nomes dos medicamentos 
#Medicamentos sem uma dosagem específica inicialmente serão tratados como 0. Posteriormente eles serão adicionados a uma categoria "sem dosagem"
dosagens = dados["name"].str.extract(r"(\d+)")[0].fillna(0).astype(int) 
dosagens

0         625
1         500
2           0
3         120
4          25
         ... 
248210    100
248212     30
248215     25
248216    500
248217      1
Name: 0, Length: 222825, dtype: int32

In [34]:
dados["dosage"] = dosagens
dados.head(5)

Unnamed: 0,name,sideEffect0,use0,use1,use2,use3,use4,Chemical Class,Habit Forming,Therapeutic Class,Action Class,n_effects,dosage
0,augmentin 625 duo tablet,Vomiting,Treatment of Bacterial infections,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Macrolides,No,ANTI INFECTIVES,Macrolides,3,625
1,azithral 500 tablet,Vomiting,Treatment of Bacterial infections,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Macrolides,No,ANTI INFECTIVES,Macrolides,4,500
2,ascoril ls syrup,Nausea,Treatment of Cough with mucus,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Phenylmethylamine Derivative,No,RESPIRATORY,Mucolytics,14,0
3,allegra 120mg tablet,Headache,Treatment of Sneezing and runny nose due to al...,Treatment of Allergic conditions,Not Applicable,Not Applicable,Not Applicable,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation),4,120
4,avil 25 tablet,Sleepiness,Treatment of Allergic conditions,Not Applicable,Not Applicable,Not Applicable,Not Applicable,Pyridines Derivatives,No,RESPIRATORY,H1 Antihistaminics (First Generation),2,25


In [35]:
medicamentos_ml = dados.loc[:, ["use0", "Chemical Class", "Habit Forming", "Therapeutic Class", "Action Class", "n_effects", "dosage"]]
medicamentos_ml.head()

Unnamed: 0,use0,Chemical Class,Habit Forming,Therapeutic Class,Action Class,n_effects,dosage
0,Treatment of Bacterial infections,Macrolides,No,ANTI INFECTIVES,Macrolides,3,625
1,Treatment of Bacterial infections,Macrolides,No,ANTI INFECTIVES,Macrolides,4,500
2,Treatment of Cough with mucus,Phenylmethylamine Derivative,No,RESPIRATORY,Mucolytics,14,0
3,Treatment of Sneezing and runny nose due to al...,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation),4,120
4,Treatment of Allergic conditions,Pyridines Derivatives,No,RESPIRATORY,H1 Antihistaminics (First Generation),2,25


- **Aqui podemos ver o Dataframe que será usado no treinamento do Modelo**

-  *Vale a pena destacar o ótimo trabalho do Algoritmo KNeighbors, identificando corretamente categorias de Action e Chemical Class*
- *Observe a sensibilidade do algoritmo na captação de categorias como, por exemplo, "Respiratory" e "Anti Infectives"*

In [36]:
medicamentos_ml.loc[:20,:]

Unnamed: 0,use0,Chemical Class,Habit Forming,Therapeutic Class,Action Class,n_effects,dosage
0,Treatment of Bacterial infections,Macrolides,No,ANTI INFECTIVES,Macrolides,3,625
1,Treatment of Bacterial infections,Macrolides,No,ANTI INFECTIVES,Macrolides,4,500
2,Treatment of Cough with mucus,Phenylmethylamine Derivative,No,RESPIRATORY,Mucolytics,14,0
3,Treatment of Sneezing and runny nose due to al...,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation),4,120
4,Treatment of Allergic conditions,Pyridines Derivatives,No,RESPIRATORY,H1 Antihistaminics (First Generation),2,25
5,Treatment of Sneezing and runny nose due to al...,Diphenylmethane Derivative,No,RESPIRATORY,H1 Antihistaminics (second Generation),8,0
6,Treatment of Bacterial infections,Macrolides,No,ANTI INFECTIVES,Macrolides,3,625
7,Treatment of Bacterial infections,Macrolides,No,ANTI INFECTIVES,Macrolides,4,500
8,Treatment of Anxiety,Piperazine Derivative,No,RESPIRATORY,H1 Antihistaminics (First Generation),5,25
9,Treatment of Dry cough,Diphenylmethane Derivative,No,RESPIRATORY,Cough suppressants,4,0


In [37]:
#Persistência em disco do Dataframe para criação do Modelo
medicamentos_ml.to_csv("medicamentos_ml.csv", index=False)