In [1]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Contribuição: Adriano Santos

# Deep Learning

## Importando as Bibliotecas Nescessária

Esse código abaixo é usado para construir um modelo de aprendizado de máquina que pode prever resultados com base em dados. Ele utiliza bibliotecas como pandas para manipular dados, keras para construir a estrutura do modelo, e sklearn para preparar os dados. O objetivo principal é treinar um modelo que possa fazer previsões com base em um conjunto de dados, o que pode ser útil em várias aplicações, como prever vendas ou diagnósticos médicos.

In [4]:
import pandas as pd
from keras.models import Sequential
from keras.layers import Dense
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.compose import make_column_transformer

## Carregando o Dataset Credit2.csv

Nesse código, estamos basicamente carregando um conjunto de dados chamado "Credit2.csv". Primeiro, definimos o caminho do arquivo onde ele está localizado e especificamos que o separador entre as informações é um ponto e vírgula. Em seguida, usamos uma biblioteca chamada "pandas" para ler esse arquivo e armazenar os dados no objeto "dataset". Por fim, exibimos as 10 primeiras linhas desse conjunto de dados para dar uma rápida olhada em seu conteúdo. É uma etapa inicial comum na análise de dados.

In [8]:
caminho_do_arquivo = "../dados/Credit2.csv"
separador = ";"

dataset = pd.read_csv(caminho_do_arquivo, sep=separador)
dataset.head(10)

Unnamed: 0,ID,checking_status,credit_history,duration,credit_amount,installment_commitment,residence_since,age,existing_credits,num_dependents,class
0,1,<0,critical/other existing credit,6,1169,4,4,67,2,1,good
1,2,0<=X<200,existing paid,48,5951,2,2,22,1,1,bad
2,3,no checking,critical/other existing credit,12,2096,2,3,49,1,2,good
3,4,<0,existing paid,42,7882,2,4,45,1,2,good
4,5,<0,delayed previously,24,4870,3,4,53,2,2,bad
5,6,no checking,existing paid,36,9055,2,4,35,1,2,good
6,7,no checking,existing paid,24,2835,3,4,53,1,1,good
7,8,0<=X<200,existing paid,36,6948,2,2,35,1,1,good
8,9,no checking,existing paid,12,3059,2,4,61,1,1,good
9,10,0<=X<200,critical/other existing credit,30,5234,4,2,28,2,1,bad


## Separando as Variáveis de Entrada e de Saída

Neste código abaixo, estamos realizando duas etapas: primeiro, estamos separando as variáveis de entrada (que contêm informações relevantes) e a variável de saída (que é o resultado que queremos prever) de um conjunto de dados chamado 'dataset'. Em seguida, exibimos as variáveis de entrada para visualização. Isso é útil para entender quais informações estamos usando para fazer previsões ou análises, tornando o processo mais claro para quem está acompanhando.

In [12]:
# Separando as variáveis de entrada (features) e a variável de saída (target)
features = dataset.iloc[:, 1:10].values
target = dataset.iloc[:, 10].values

# Exibindo as features
print(features)

[['<0' 'critical/other existing credit' 6 ... 67 2 1]
 ['0<=X<200' 'existing paid' 48 ... 22 1 1]
 ['no checking' 'critical/other existing credit' 12 ... 49 1 2]
 ...
 ['no checking' 'existing paid' 12 ... 38 1 1]
 ['<0' 'existing paid' 45 ... 23 1 1]
 ['0<=X<200' 'critical/other existing credit' 45 ... 27 1 1]]


## Transformando Coluna de um Conjunto de Dados em Número

Nesse código, estamos transformando a coluna 'checking_status' de um conjunto de dados em números para que o computador possa entendê-la. Isso é feito usando uma técnica chamada LabelEncoder, que associa cada categoria única da coluna a um número. Em seguida, o código exibe as features (características) do conjunto de dados após essa codificação, permitindo que você veja como as categorias foram convertidas em números. Isso é útil para análise de dados e machine learning.

In [15]:
# Codificação da coluna 'checking_status' usando LabelEncoder
label_encoder = LabelEncoder()
features[:, 0] = label_encoder.fit_transform(features[:, 0])

# Exibição das features após a codificação
print(features)

[[1 'critical/other existing credit' 6 ... 67 2 1]
 [0 'existing paid' 48 ... 22 1 1]
 [3 'critical/other existing credit' 12 ... 49 1 2]
 ...
 [3 'existing paid' 12 ... 38 1 1]
 [1 'existing paid' 45 ... 23 1 1]
 [0 'critical/other existing credit' 45 ... 27 1 1]]


## Transformando uma Coluna em Múltiplas Colunas Binárias

Esse código abaixo é usado para transformar uma coluna chamada "credit_history" em múltiplas colunas binárias (0 ou 1), onde cada coluna representa uma categoria única dentro dessa coluna original. Isso é útil para preparar dados para análise ou modelagem de machine learning. O resultado final é uma matriz onde cada linha corresponde a um exemplo de dados e cada coluna representa a presença ou ausência de uma categoria específica de histórico de crédito, tornando os dados mais compreensíveis e úteis para análise ou modelagem.

In [22]:
#one hot encoder coluna credit_history
#deve adicionar 5 colunas
onehotencoder = make_column_transformer(
    (OneHotEncoder(categories='auto', sparse_output=False), [1]), 
    remainder="passthrough"
)
x_transformado = onehotencoder.fit_transform(features)
print(x_transformado)

[[0.0 1.0 0.0 ... 67 2 1]
 [0.0 0.0 0.0 ... 22 1 1]
 [0.0 1.0 0.0 ... 49 1 2]
 ...
 [0.0 0.0 0.0 ... 38 1 1]
 [0.0 0.0 0.0 ... 23 1 1]
 [0.0 1.0 0.0 ... 27 1 1]]


## Removendo a Primeira Coluna das Características

Nesse código simples, estamos trabalhando com um conjunto de dados e removendo a primeira coluna das características (variáveis) para evitar um problema comum chamado "dummy variable trap". Isso é feito para evitar multicolinearidade, que pode atrapalhar análises estatísticas. A variável X_removida agora contém as características restantes após a remoção da primeira coluna, e estamos imprimindo esses dados para visualização. É uma etapa comum em análises de dados para melhorar a qualidade dos resultados.

In [24]:
# Removemos a primeira coluna das features para evitar a dummy variable trap
X_removida = features[:, 1:]
print(X_removida)

[['critical/other existing credit' 6 1169 ... 67 2 1]
 ['existing paid' 48 5951 ... 22 1 1]
 ['critical/other existing credit' 12 2096 ... 49 1 2]
 ...
 ['existing paid' 12 804 ... 38 1 1]
 ['existing paid' 45 1845 ... 23 1 1]
 ['critical/other existing credit' 45 4576 ... 27 1 1]]


## Codificando Dados Categóricos em Números

Este código abaixo está sendo usado para codificar dados categóricos em números. Ele usa a classe 'LabelEncoder' para fazer essa transformação. Os dados originais estão armazenados na variável 'y', e o código os transforma em uma nova representação numérica, armazenada na variável 'y_encoded'. Finalmente, o código imprime os dados codificados para que possam ser facilmente usados em análises ou modelos de machine learning. É uma maneira de tornar dados com categorias mais compreensíveis para computadores.

In [39]:
# Aplicar o LabelEncoder aos dados de destino (variável y)
labelencoder_Y = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)

# Retornar os dados codificados
print(y_encoded)

[1 0 1 1 0 1 1 1 1 0 0 0 1 0 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 0 1
 0 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 0 1 1 1 1 0 1 1 1 1 1
 0 1 0 1 1 1 0 1 1 1 1 1 1 0 1 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1
 1 1 0 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 0 1 0 1 1 1 1 1 0 1 1 1 1 1 0 1 1 1 1
 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 1 0 0 1 0 1 0 0 1 1 1 1 0 0 0 1 0
 1 0 1 0 1 0 0 0 1 0 0 1 0 1 0 1 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1
 1 1 1 1 0 0 0 1 0 1 1 1 1 0 0 0 1 1 0 1 0 1 1 1 1 1 1 0 1 1 0 1 1 1 1 0 1
 1 1 1 1 1 1 0 1 1 0 1 1 1 1 0 0 1 1 1 0 1 1 1 1 1 1 1 1 1 1 0 1 0 1 1 1 0
 1 1 1 1 1 0 0 1 0 1 1 0 0 1 1 1 1 0 1 0 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 0 0
 0 0 0 1 0 1 1 1 1 1 1 1 1 1 1 1 0 1 0 1 0 1 0 1 0 1 0 1 1 1 1 0 1 1 1 0 1
 1 1 1 1 0 0 1 1 0 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 0 1 1 0 1
 1 1 0 1 1 0 1 0 1 0 1 1 0 1 1 1 1 0 1 1 1 1 0 1 0 1 1 1 0 1 1 1 0 1 1 1 0
 0 1 0 1 1 0 1 1 1 1 0 1 1 0 1 1 1 1 1 1 1 1 0 1 1 1 0 0 0 1 0 0 1 1 1 1 1
 1 1 1 1 0 1 1 1 1 1 0 1 

## Dividindo os Dados em 2 Grupos: Treino e Teste

Nesse código, estamos dividindo nossos dados em dois grupos: um para treinar um modelo e outro para testá-lo. Isso nos ajuda a avaliar o quão bem nosso modelo funciona. Em seguida, estamos mostrando o tamanho desses grupos, ou seja, quantos exemplos temos em cada um, para ter uma ideia de quão grande é nossa amostra de treinamento e teste. Essa divisão e visualização são passos importantes no processo de construção e avaliação de modelos de machine learning.

In [42]:
# Dividir o conjunto de dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    x_transformado, y_encoded, test_size=0.2, random_state=0
)

# Imprimir o tamanho dos conjuntos de treino e teste
print(f"Tamanho do conjunto de treino: {len(X_train)} amostras")
print(f"Tamanho do conjunto de teste: {len(X_test)} amostras")

Tamanho do conjunto de treino: 800 amostras
Tamanho do conjunto de teste: 200 amostras


## Preparando os Dados para Análise

Nesse código abaixo, estamos preparando dados para análise. Primeiro, criamos uma ferramenta chamada "scaler" que ajuda a tornar nossos dados comparáveis, como medir algo em diferentes escalas. Em seguida, aplicamos esse "scaler" aos nossos dados de treinamento, garantindo que eles estejam todos na mesma escala. Depois, aplicamos o mesmo "scaler" aos dados de teste, para que possamos usá-los de maneira consistente. Por fim, imprimimos os dados de teste que foram ajustados para essa escala padronizada. Isso é importante em tarefas de análise de dados para obter resultados precisos e comparáveis.

In [45]:
# Inicialize o StandardScaler
scaler = StandardScaler()

# Ajuste e transforme os dados de treinamento
X_train_scaled = scaler.fit_transform(X_train)

# Apenas transforme os dados de teste usando o mesmo scaler
X_test_scaled = scaler.transform(X_test)

# Imprimindo os dados de teste padronizados
print(X_test_scaled)

[[-0.22331316 -0.65270587 -0.30966177 ... -0.50870719 -0.71596668
  -0.42214126]
 [-0.22331316 -0.65270587 -0.30966177 ... -0.85315557 -0.71596668
   2.36887531]
 [-0.22331316 -0.65270587 -0.30966177 ...  0.61075002 -0.71596668
  -0.42214126]
 ...
 [-0.22331316  1.53208366 -0.30966177 ...  0.26630165  1.04100677
  -0.42214126]
 [-0.22331316 -0.65270587  3.22932987 ...  0.52463793  4.55495365
  -0.42214126]
 [-0.22331316 -0.65270587 -0.30966177 ...  0.52463793 -0.71596668
   2.36887531]]


## Criando e Treinando uma Rede Neural

Esse código abaixo cria e treina uma rede neural simples para resolver um problema de classificação binária. Ele define um modelo sequencial com três camadas: duas camadas ocultas com ativação ReLU (função de ativação) e uma camada de saída com ativação sigmoid. A rede é compilada com o otimizador 'adam' e a função de perda 'binary_crossentropy'. Em seguida, é treinada com os dados de treinamento (X_train e y_train) em mini lotes de 10 exemplos, durante 100 épocas, ajustando os pesos da rede para fazer previsões precisas. Essa rede neural é usada principalmente para tarefas de classificação binária, como prever se algo é verdadeiro ou falso.

In [51]:
# Criação do modelo sequencial
model = Sequential()

# Adição das camadas ocultas com ativação ReLU
model.add(Dense(units=6, kernel_initializer='uniform', activation='relu', input_dim=13))
model.add(Dense(units=6, kernel_initializer='uniform', activation='relu'))

# Adição da camada de saída com ativação sigmoid
model.add(Dense(units=1, kernel_initializer='uniform', activation='sigmoid'))

# Compilação do modelo
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

# Treinamento do modelo
model.fit(X_train, y_train, batch_size=10, epochs=100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.src.callbacks.History at 0x16c87aec450>

## Usando um Modelo para Fazer Previsões

Nesse código simples, estamos usando um modelo para fazer previsões com base em algum conjunto de dados (X_test). Em seguida, definimos um limite (limiar) de 0,5 para classificar essas previsões em duas categorias, verdadeiro ou falso. Finalmente, exibimos essas previsões binárias, ou seja, se são verdadeiras (verdadeiro) ou falsas (falso), para ajudar na tomada de decisões. É uma técnica comum em análise de dados e aprendizado de máquina.

In [53]:
# Fazendo previsões com o modelo
previsoes = model.predict(X_test)

# Definindo um limiar (threshold) para classificação binária
limiar = 0.5

# Aplicando o limiar para obter as previsões binárias
previsoes_binarias = (previsoes > limiar)

# Exibindo as previsões binárias
print(previsoes_binarias)

[[False]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [False]
 [False]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [False]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [False]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [ True]
 [False]
 [False]
 [ True]
 [ True]
 [ True]
 

## Calculando e Exibindo a Matriz de Confusão

Esse código abaixo calcula e exibe a chamada "Matriz de Confusão" em um problema de classificação. Essa matriz mostra como um modelo de machine learning se saiu ao prever resultados, comparando as previsões feitas (variável 'previsoes_binarias') com os valores reais (variável 'y_test'). É uma ferramenta importante para avaliar o desempenho do modelo, ajudando a identificar quantos acertos e erros ele teve em suas previsões, o que é útil para entender a qualidade do modelo em termos de classificação.

In [57]:
# Calcular a matriz de confusão
matriz_confusao = confusion_matrix(y_test, previsoes_binarias)

# Exibir a matriz de confusão
print("Matriz de Confusão:\n")
print(matriz_confusao)

Matriz de Confusão:

[[ 19  39]
 [ 19 123]]
