## Carregando base dados

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('IPODataFull.csv', sep=',', encoding='latin-1')

## Selecionando as colunas necessárias para a análise

In [None]:
data = data[['DaysBetterThanSP','daysProfit','Year','Month','Day','dayOfWeek','closeDay0', 'Profitable', 'Safe']]
data = data.rename(columns={
#     'Symbol': 'Ticker',
    'DaysBetterThanSP': 'DiasMelhoresQueSP',
    'daysProfit': 'DiasDeLucro',
    'Year': 'Ano',
    'Month': 'Mês',
    'Day': 'Dia',
    'dayOfWeek': 'DiaDaSemana',
    'closeDay0': 'FechamentoDia0',
    'Profitable': 'Lucrativo',
    'Safe': 'Seguro'
})
display(data)

In [None]:
data.info()

## Visualizando o histograma das colunas para análise

In [None]:
import matplotlib.pyplot as plt  
import seaborn as sns

In [None]:
dados = data.drop(columns = ['Lucrativo', 'Seguro'])
dados.hist(figsize=(15,10))

In [None]:
print('De 3761 empresas, {} foram consideradas lucrativas investir'.format(list(data['Lucrativo']).count(1)))
print('De 3761 empresas, {} empresas foram consideradas seguro investir'.format(list(data['Seguro']).count(1)))

### Vamos gerar algumas estatísticas e visualizações exploratórias dos dados:

In [None]:
sns.pairplot(data, hue='Lucrativo')
plt.show()
display(data.groupby('Lucrativo').mean())
display(data.groupby('Lucrativo').std())

In [None]:
sns.pairplot(data, hue='Seguro')
plt.show()
display(data.groupby('Seguro').mean())
display(data.groupby('Seguro').std())

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# Excluindo as colunas de resposta
x = data.drop(columns = ['Lucrativo', 'Seguro'])

## Predição das coluna "Lucrativo"

### Dividindo conjunto de treinamento e conjunto de teste

In [None]:
y = data['Lucrativo'] # Classe alvo

# Dividindo conjunto de treinamento e conjunto de teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.20, random_state = 8)

###  Transformar dados

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [None]:
# Instanciando o Escalonador
# scaler = StandardScaler()
scaler = MinMaxScaler()

# Treinando o escalonador
scaler.fit(x_train)

# Usando o escalonador treinado para transformar os dados
x_train_scaled = scaler.transform(x_train)
x_test_scaled = scaler.transform(x_test)

### Treinar o algoritmo com diferentes modelos de predição

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score, classification_report

#### Classificador Bayesianos

In [None]:
# Naive Bayes Gaussiano
from sklearn.naive_bayes import GaussianNB

# Passo 4 - Treinar o Classificador
gnb = GaussianNB()  # Criamos o objeto do classificador (não mudamos nenhum hiperpârametro)
gnb.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Passo 5 - Testar o Classificador
y_predicoes = gnb.predict(x_test_scaled) 

# Metricas de precisão, revocação, f1-score e acurácia.
print(classification_report(y_test, y_predicoes))

matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Classificador KNN

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# Treinar o Classificador
knn = KNeighborsClassifier() # Criando classificador
knn.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = knn.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Árvore de decisão

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Treinar o Classificador
dtree = DecisionTreeClassifier() # Criando classificador
dtree.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = dtree.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Treinar o Classificador
rf = RandomForestClassifier(random_state=42) # Criando classificador (hiperparametro de seed)
rf.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = rf.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Máquina de vetor suporte (SVM)

In [None]:
from sklearn.svm import SVC

# Treinar o Classificador
svm = SVC() # Criando classificador
svm.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = svm.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Classificador por regressão logística

In [None]:

from sklearn.linear_model import LogisticRegression

# Treinar o Classificador
logreg = LogisticRegression() # Criando classificador
logreg.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = logreg.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

## Predição das coluna "Seguro"

### Dividindo conjunto de treinamento e conjunto de teste

In [None]:
y = data['Seguro'] # Classe alvo

# Dividindo conjunto de treinamento e conjunto de teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.20, random_state = 8)

###  Transformar dados

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [None]:
# Instanciando o Escalonador
# scaler = StandardScaler()
scaler = MinMaxScaler()

# Treinando o escalonador
scaler.fit(x_train)

# Usando o escalonador treinado para transformar os dados
x_train_scaled = scaler.transform(x_train)
x_test_scaled = scaler.transform(x_test)

### Treinar o algoritmo com diferentes modelos de predição

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score, classification_report

#### Classificador Bayesianos

In [None]:
# Naive Bayes Gaussiano
from sklearn.naive_bayes import GaussianNB

# Passo 4 - Treinar o Classificador
gnb = GaussianNB()  # Criamos o objeto do classificador (não mudamos nenhum hiperpârametro)
gnb.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Passo 5 - Testar o Classificador
y_predicoes = gnb.predict(x_test_scaled) 

# Metricas de precisão, revocação, f1-score e acurácia.
print(classification_report(y_test, y_predicoes))

matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Classificador KNN

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# Treinar o Classificador
knn = KNeighborsClassifier() # Criando classificador
knn.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = knn.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Árvore de decisão

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Treinar o Classificador
dtree = DecisionTreeClassifier() # Criando classificador
dtree.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = dtree.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Treinar o Classificador
rf = RandomForestClassifier(random_state=42) # Criando classificador (hiperparametro de seed)
rf.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = rf.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Máquina de vetor suporte (SVM)

In [None]:
from sklearn.svm import SVC

# Treinar o Classificador
svm = SVC() # Criando classificador
svm.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = svm.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 

#### Classificador por regressão logística

In [None]:

from sklearn.linear_model import LogisticRegression

# Treinar o Classificador
logreg = LogisticRegression() # Criando classificador
logreg.fit(x_train_scaled, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = logreg.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não lucrativo','lucrativo'])
disp.plot(values_format='d') 