# Trabalho Prático - Módulo IV
**PYTHON AVANÇADO**

---

## Objetivos
Exercitar os seguintes conceitos trabalhados no Módulo:

- Python para aprendizado de máquina
- Programação concorrente com Python


## Enunciado
A linguagem Python é bastante utilizada no meio da ciência de dados e do aprendizado de máquina. Outras áreas do conhecimento, como a matemática, a física e a probabilidade, também a empregam bastante para ajudar a simular e a resolver problemas através da programação. Boa parte da popularidade dessa linguagem está relacionada à forma como o código é construído e à sua facilidade de leitura e de interpretação.

Neste trabalho, será utilizado o scikit-learn e os conceitos apresentados na disciplina para a realização de uma análise de dados baseada em modelos de aprendizado de máquina. Para isso, será utilizado um conjunto de dados público. Esse conjunto de dados consiste em uma pesquisa realizada com um grupo de mulheres. Nessa pesquisa, foram coletados alguns indicadores sobre a saúde e os hábitos dessas pacientes, como número de vezes em que engravidou, seu nível de glicose, sua pressão sanguínea, etc., a fim de prever se a ela vai ou não desenvolver a diabetes. Na última coluna do conjunto de dados (outcome), o valor “1” indica que a paciente possui diabetes, e “0” indica que não. Desse modo, será possível utilizar os algoritmos apresentados e o scikit-learn para tentar prever a ocorrência ou não da doença.

## Código 1

Deve ser utilizado para as questões de concorrência:

In [None]:
# importações
import threading
import time
from random import randint

In [None]:
def funcao_1(num):
    n = num
    while n > 0:
        n -= 1
        print('n_1: {}'.format(n))
        time.sleep(randint(0, 2))


In [None]:
def funcao_2(num):
    n = num
    while n < 100:
        n += 1
        print('n_2: {}'.format(n))
        time.sleep(randint(0, 2))


In [None]:
if __name__ == "__main__":

    t1 = threading.Thread(target = funcao_1, args=(100,))
    t2 = threading.Thread(target = funcao_2, args=(0,))

    t1.start()
    t2.start()

    t1.join()
    t2.join()

    print('Fim!')

## Atividades preparativas

Preparar o ambiente de trabalho com as seguintes definições

### Importar o dataset para o notebook

"dataset_diabetes.csv"

### Implementação dos seguintes algoritmos:

**Algoritmo kNN**

In [None]:
# clf_KNN = KNeighborsClassifier(n_neighbors=5)


**Algoritmo Árvore de decisão**

In [None]:
# clf_arvore = DecisionTreeClassifier(random_state=1)

**Algoritmo Floresta Randômica**

In [None]:
# clf_floresta = RandomForestClassifier(max_depth=10, random_state=1)

**Algoritmo SVM**

In [None]:
# clf_svm=SVC(gamma='auto',random_state=1)

**Algoritmo Rede MLP**

In [None]:
# clf_mlp = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5, 5), random_state=1)

### Observações

- Utilize como entrada as colunas: **Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction e Age**. A saída para os
algoritmos deve ser a coluna **Outcome**.

- Realize a carga dos valores utilizando o método pandas.read_csv()

- Utilize, para normalização dos dados, as definições:

In [None]:
#objeto para a normalização
# normaliza = MinMaxScaler() 

# entradas_normalizadas=normaliza.fit_transform(entradas)


- Utilize, para divisão entre treinamento e teste do algoritmo, as definições: 

In [None]:
# train_test_split(entradas_normalizadas, saida,test_size=0.30,random_state=42)


- Utilize esta sequência de operações para chegar no resultado final:
 - Divida os dados entre entrada e saída;
 - Normalize apenas as entradas utilizando o **MinMaxScaler**;
 - Aplique a divisão entre o treinamento e o teste com o **train_test_split**.

 - Utilize os dados de “teste” para avaliar as previsões de classificação dos modelos. 

**Após as implementações, as questões objetivas deverão ser respondidas**

## Implementação do Modelo

### Modelagem dos dados

In [None]:
# Importações das bibliotecas a serem utilizadas

import pandas as pd
import numpy as np

from pandas import DataFrame
from sklearn import neighbors
from sklearn import metrics

from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import classification_report, accuracy_score

In [None]:
# Importação do Dataset

df = DataFrame(pd.read_csv('/content/datasets_diabetes.csv'))

In [None]:
# Visualizando o dataframe
df.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [None]:
# Dimensões do Dataframe
df.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


In [None]:
# Transformando os dados em array
entradas = df.iloc[:, :-1].values  #dados de entrada (todas as linhas, e todas as colunas menos a última)
saida = df.iloc[:, 8].values  # saídas ou target (todas as linhas, coluna 8, que é a última)

In [None]:
# Normalização dos dados
normaliza = MinMaxScaler()

entradas_normalizadas=normaliza.fit_transform(entradas)

In [None]:
# Divisão dos dados entre treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(entradas_normalizadas, saida, test_size=0.30,random_state=42);
# Dividindo 30% para teste

### Instanciando os classificadores

**KNN**

In [None]:
clf_KNN = KNeighborsClassifier(n_neighbors=5)

**Árvore de decisão**

In [None]:
clf_arvore = DecisionTreeClassifier(random_state=1)

**Floresta Randômica**

In [None]:
clf_floresta = RandomForestClassifier(max_depth=10, random_state=1)

**SVM**

In [None]:
clf_svm=SVC(gamma='auto',random_state=1)

**Rede MLP**

In [None]:
clf_mlp = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5, 5), random_state=1)

## Respostas Finais

### Pergunta 1

**Após a utilização da biblioteca pandas para a leitura dos dados e o método pandas.info() sobre o _dataframe_ construído, é CORRETO afirmar que:**

a) Existem apenas 2 características do tipo “string”.

b) Os valores nulos encontrados estão presentes apenas na variável “Pregnancies”.

c) Os valores nulos estão presentes apenas para a saída dos dados.

d) Não foram encontrados valores nulos após a leitura dos dados.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [None]:
# Resposta:
# Não foram encontrados valores nulos após a leitura dos dados.

###Pergunta 2

**Quantas linhas e colunas, respectivamente, existem no dataset?**

a) 846 e 11.

b) 9 e 768.

c) 11 e 846.

d) 768 e 9.

In [None]:
df.shape

(768, 9)

In [None]:
# Resposta:
# 768, 9

### Pergunta 3

**Quantas colunas do tipo “float64” existem no dataset após a carga dos dados através do método pandas.read_csv()?**

a) 8

b) 2

c) 6

D) 4

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Pregnancies               768 non-null    int64  
 1   Glucose                   768 non-null    int64  
 2   BloodPressure             768 non-null    int64  
 3   SkinThickness             768 non-null    int64  
 4   Insulin                   768 non-null    int64  
 5   BMI                       768 non-null    float64
 6   DiabetesPedigreeFunction  768 non-null    float64
 7   Age                       768 non-null    int64  
 8   Outcome                   768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [None]:
# Resposta:
# 2 colunas

### Pergunta 4 

**Qual é o valor médio presente na coluna “Age”?**

a) 20,53.

b) 33,24.

c) 29,16.

d) 11,76.

In [None]:
df['Age'].mean()

33.240885416666664

In [None]:
# Resposta:
# 33,24

### Pergunta 5

**Utilizando as entradas e a saída como apresentado no enunciado do trabalho,
quantos valores da variável de saída “1” existem no conjunto de dados?**

a) 268

b) 218

c) 500

d) 346

In [None]:
df[df['Outcome'] == 1].count()

Pregnancies                 268
Glucose                     268
BloodPressure               268
SkinThickness               268
Insulin                     268
BMI                         268
DiabetesPedigreeFunction    268
Age                         268
Outcome                     268
dtype: int64

In [None]:
# Resposta
# 268

### Pergunta 6

**Utilizando o método “train_test_split” como apresentado no enunciado, quantas instâncias (linhas) foram selecionadas para o conjunto de dados de treinamento do modelo?**

a) 681

b) 117

c) 323

d) 537

In [None]:
X_train.shape

(537, 8)

In [None]:
# Resposta
# 537 instâncias

### Pergunta 7

**Após dividir as colunas do dataframe entre entrada e saída, aplicar a normalização dos dados como apresentado no enunciado (MinMaxScaler()) e dividir esses dados entre treinamento e teste, aplique o algoritmo KNN. Qual é, aproximadamente, a acurácia do modelo?**

a) 0,62

b) 0,68

c) 0,81

d) 0,84

In [None]:
# Realiza o treinamento do classificador
clf_KNN = clf_KNN.fit(X_train,y_train)

#Realiza a previsão de classificação 
y_pred = clf_KNN.predict(X_test)

In [None]:
# Avaliando a Acurácia

print("Acurácia: {}".format(accuracy_score(y_test, y_pred)))
print(classification_report(y_test, y_pred))

Acurácia: 0.6796536796536796
              precision    recall  f1-score   support

           0       0.74      0.78      0.76       151
           1       0.54      0.49      0.51        80

    accuracy                           0.68       231
   macro avg       0.64      0.63      0.64       231
weighted avg       0.67      0.68      0.68       231



In [None]:
# Resposta
# 0,68

### Pergunta 8

**Após dividir as colunas do dataframe entre entrada e saída, aplicar a normalização dos dados como apresentado no enunciado (MinMaxScaler()) e dividir esses dados entre treinamento e teste, aplique o algoritmo Árvore de Decisão. Qual é, aproximadamente, a acurácia do modelo?**

a) 0,58

b) 0,70

c) 0,88

d) 0,80

In [None]:
# Realiza o treinamento do classificador
clf_arvore = clf_arvore.fit(X_train,y_train)

#Realiza a previsão de classificação 
y_pred = clf_arvore.predict(X_test)

In [None]:
# Avaliando a Acurácia

print("Acurácia: {}".format(accuracy_score(y_test, y_pred)))
print(classification_report(y_test, y_pred))

Acurácia: 0.696969696969697
              precision    recall  f1-score   support

           0       0.81      0.70      0.75       151
           1       0.55      0.69      0.61        80

    accuracy                           0.70       231
   macro avg       0.68      0.69      0.68       231
weighted avg       0.72      0.70      0.70       231



In [None]:
# Resposta
# 0,70

### Pergunta 9

**Após dividir as colunas do dataframe entre entrada e saída, aplicar a normalização dos dados como apresentado no enunciado (MinMaxScaler()) e dividir esses dados entre treinamento e teste, aplique o algoritmo Floresta Randômica. Qual é, aproximadamente, a acurácia do modelo?**

a) 0,84

b) 0,62

c) 0,81

d) 0,74

In [None]:
# Realiza o treinamento do classificador
clf_floresta = clf_floresta.fit(X_train,y_train)

#Realiza a previsão de classificação 
y_pred = clf_floresta.predict(X_test)

In [None]:
# Avaliando a Acurácia

print("Acurácia: {}".format(accuracy_score(y_test, y_pred)))
print(classification_report(y_test, y_pred))

Acurácia: 0.7445887445887446
              precision    recall  f1-score   support

           0       0.81      0.80      0.80       151
           1       0.63      0.64      0.63        80

    accuracy                           0.74       231
   macro avg       0.72      0.72      0.72       231
weighted avg       0.75      0.74      0.74       231



In [None]:
# Resposta
# 0,74

### Pergunta 10

**Após dividir as colunas do dataframe entre entrada e saída, aplicar a normalização dos dados como apresentado no enunciado (MinMaxScaler()) e dividir os dados entre treinamento e teste, aplique o algoritmo SVM. Qual é, aproximadamente, a acurácia do modelo?**

a) 0,83

b) 0,91

c) 0,65

d) 0,77

In [None]:
# Realiza o treinamento do classificador
clf_svm = clf_svm.fit(X_train,y_train)

#Realiza a previsão de classificação 
y_pred = clf_svm.predict(X_test)

In [None]:
# Avaliando a Acurácia

print("Acurácia: {}".format(accuracy_score(y_test, y_pred)))
print(classification_report(y_test, y_pred))

Acurácia: 0.7705627705627706
              precision    recall  f1-score   support

           0       0.78      0.90      0.84       151
           1       0.74      0.53      0.61        80

    accuracy                           0.77       231
   macro avg       0.76      0.71      0.73       231
weighted avg       0.77      0.77      0.76       231



In [None]:
# Resposta
# 0,77

### Pergunta 11

**Após dividir as colunas do dataframe entre entrada e saída, aplicar a normalização dos dados como apresentado no enunciado (MinMaxScaler()) e dividir os dados entre treinamento e teste, aplique o algoritmo MLP. Qual é, aproximadamente, a acurácia do modelo?**

a) 0,83

b) 0,73

c) 0,65

d) 0,91

In [None]:
# Realiza o treinamento do classificador
clf_mlp = clf_mlp.fit(X_train,y_train)

#Realiza a previsão de classificação 
y_pred = clf_mlp.predict(X_test)

In [None]:
# Avaliando a Acurácia

print("Acurácia: {}".format(accuracy_score(y_test, y_pred)))
print(classification_report(y_test, y_pred))

Acurácia: 0.7316017316017316
              precision    recall  f1-score   support

           0       0.80      0.78      0.79       151
           1       0.61      0.64      0.62        80

    accuracy                           0.73       231
   macro avg       0.70      0.71      0.71       231
weighted avg       0.73      0.73      0.73       231



In [None]:
# Resposta
# 0,73

### Pergunta 12

**Dentre todos os modelos implementados seguindo o enunciado deste trabalho prático, qual foi aquele que alcançou maior acurácia?**

a) Árvore de decisão como classificador.

b) SVM como classificador.

c) MLP como classificador.

d) KNN.

In [None]:
# Resposta
# SVM como classificador (0,77)

### Pergunta 13

**Qual dos modelos implementados neste trabalho prático é classificado como um modelo de aprendizado de máquina não-supervisionado?**

a) Apenas o KNN.

b) O KNN e o SVM.

c) Apenas o SVM.

d) Nenhum deles.

In [None]:
# Resposta
# Nenhum deles (todos possuem target)

### Pergunta 14

**Implemente o código 1 presente no enunciado do trabalho. Sobre este código, é INCORRETO afirmar que:**

a) Foram implementadas, explicitamente, duas threads.

b) A tarefa realizada pela funcao_1 sempre será finalizada antes da tarefa executada pela funcao_2.

c) Se os valores da chamada sleep(randint()) forem alterados, o tempo de execução das threads pode ser modificado.

d) Não foi implementado o paralelismo.

In [None]:
# Resposta
# A tarefa realizada pela funcao_1 sempre será finalizada antes da tarfea executada pela funcao_2 (incorreto)

### Pergunta 15

**Considere o código 1. Inverta os parâmetros de entrada para as funções 1 e 2 (entrada funcao_1=0 e entrada funcao_2=100). Após essas modificações, é INCORRETO afirmar que:**

a) Se, além da modificação nos parâmetros de entrada das funções, forem realizadas alterações nas condições de paradas dos loops, podemos ter loops infinitos de
execução.

b) Se alterarmos, além dos parâmetros de entrada, os parâmetros da chamada sleep(randint()), é possível alterar o tempo de execução das threads.

c) Será exibido no console a mensagem “Fim!”.

d) A chamada t1.join() garante que a thread t1 finalizou a execução.

In [None]:
if __name__ == "__main__":

    t1 = threading.Thread(target = funcao_1, args=(0,))
    t2 = threading.Thread(target = funcao_2, args=(100,))

    t1.start()
    t2.start()

    t1.join()
    t2.join()

    print('Fim!')

Fim!


In [None]:
# Resposta
# Se alterarmos, além dos parâmetros de entrada, os parâmetros da chamada sleep(randint()), é possível alterar o tempo de execução das threads. (incorreto)