## Carregando base dados

In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('IPODataFull.csv', sep=',', encoding='latin-1')

## Selecionando as colunas necessárias para a análise

In [None]:
# Pegando as colunas que utilizaremos para a análise
data = data[['DaysBetterThanSP','daysProfit','Year','Month','Day','dayOfWeek','closeDay0', 'Safe']]
# Renomear elas para o português para melhor entendimento
data = data.rename(columns={
#     'Symbol': 'Ticker',
    'DaysBetterThanSP': 'DiasMelhoresQueSP',
    'daysProfit': 'DiasDeLucro',
    'Year': 'Ano',
    'Month': 'Mês',
    'Day': 'Dia',
    'dayOfWeek': 'DiaDaSemana',
    'closeDay0': 'FechamentoDia0',
    'Safe': 'Seguro'
})
display(data)

In [None]:
# Informações de cada coluna para análise
data.info()

In [None]:
# Descrição de cada coluna
data.describe()

## Visualizando o histograma das colunas para análise

In [None]:
import matplotlib.pyplot as plt  
import seaborn as sns

In [None]:
# Vamos visualizar o histograma para entendermos como cada dado de comporta
dados = data.drop(columns = ['Seguro'])
dados.hist(figsize=(15,10))

In [None]:
print('De 3761 empresas, {} delas foram consideradas seguro de investir'.format(list(data['Seguro']).count(1)))

### Vamos gerar algumas estatísticas e visualizações exploratórias dos dados:

In [None]:
# Gráfico de disperção para entendermso como os dados de relacionam
sns.pairplot(data, hue='Seguro')
plt.show()

# Dentro da coluna 'Seguro', que é a nossa de coluna de predição, realizamos as seguintes análises
display(data.groupby('Seguro').mean())
display(data.groupby('Seguro').std())

In [None]:
data_sample = data.round(1)
# Visualizando gráfico de heatmap para entendermos a correlação precisa entre cada coluna
sns.heatmap(data_sample.corr(), cmap='coolwarm', annot=True)

Com base na análise dos gráficos, constatamos que a coluna 'DiasMelhoresQueSP' apresentava uma forte correlação com a coluna de seguro. Essa correlação poderia afetar negativamente a precisão da nossa análise preditiva, pois os dados estavam relacionados de forma não linear. Por essa razão, realizamos dois testes utilizando modelos de aprendizado de máquina de classificação, e em ambos os casos, obtivemos uma acurácia de 100%.

Após essa avaliação, concluímos que a coluna 'DiasMelhoresQueSP' não acrescentava informações relevantes à análise de classificação, podendo, na verdade, estar interferindo na precisão dos resultados. Sendo assim, decidimos remover essa coluna do conjunto de dados para evitar interferências indesejadas nos resultados da análise preditiva.

# Aprendizado de máquina supervisionado de classificação (preditivo)

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
# Excluindo as colunas de resposta
x = data.drop(columns = ['Seguro', 'DiasMelhoresQueSP'])

### Predição das coluna "Seguro"

### Dividindo conjunto de treinamento e conjunto de teste

In [None]:
y = data['Seguro'] # Classe alvo

# Dividindo conjunto de treinamento e conjunto de teste
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.20, random_state = 8)

###  Transformar dados

In [None]:
from sklearn.preprocessing import StandardScaler, MinMaxScaler

In [None]:
# Instanciando o Escalonador
scaler = StandardScaler()
scaler = MinMaxScaler()

# Treinando o escalonador
scaler.fit(x_train)

# Usando o escalonador treinado para transformar os dados
x_train_scaled = scaler.transform(x_train)
x_test_scaled = scaler.transform(x_test)

### Decidimos não utilizar escalonamento

Após realizarmos testes com o modelo em questão, observamos que a técnica de escalonamento não apresentou melhorias significativas nos resultados das predições. Em vista disso, optamos por não utilizá-la neste caso específico.

### Treinar o algoritmo com diferentes modelos de predição

In [None]:
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay
from sklearn.metrics import f1_score, accuracy_score, precision_score, recall_score, classification_report

#### Classificador Bayesianos

In [None]:
# Naive Bayes Gaussiano
from sklearn.naive_bayes import GaussianNB

# Passo 4 - Treinar o Classificador
gnb = GaussianNB()  # Criamos o objeto do classificador (não mudamos nenhum hiperpârametro)
gnb.fit(x_train, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Passo 5 - Testar o Classificador
y_predicoes = gnb.predict(x_test) 

# Metricas de precisão, revocação, f1-score e acurácia.
print(classification_report(y_test, y_predicoes))

matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não Seguro','Seguro'])
disp.plot(values_format='d') 

#### Classificador KNN

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# Treinar o Classificador
knn = KNeighborsClassifier() # Criando classificador
knn.fit(x_train, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = knn.predict(x_test_scaled) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não Seguro','Seguro'])
disp.plot(values_format='d') 

#### Árvore de decisão

In [None]:
from sklearn.tree import DecisionTreeClassifier

# Treinar o Classificador
dtree = DecisionTreeClassifier() # Criando classificador
dtree.fit(x_train, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = dtree.predict(x_test) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não Seguro','Seguro'])
disp.plot(values_format='d') 

#### Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

# Treinar o Classificador
rf = RandomForestClassifier(random_state=42) # Criando classificador (hiperparametro de seed)
rf.fit(x_train, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = rf.predict(x_test) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não Seguro','Seguro'])
disp.plot(values_format='d') 

#### Máquina de vetor suporte (SVM)

In [None]:
from sklearn.svm import SVC

# Treinar o Classificador
svm = SVC() # Criando classificador
svm.fit(x_train, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = svm.predict(x_test) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não Seguro','Seguro'])
disp.plot(values_format='d') 

#### Classificador por regressão logística

In [None]:
from sklearn.linear_model import LogisticRegression

# Treinar o Classificador
logreg = LogisticRegression() # Criando classificador
logreg.fit(x_train, y_train) # Treinamos o classificador passando apenas o conjunto de dados de treinamento 

# Testar o Classificador
y_predicoes = logreg.predict(x_test) 

print(classification_report(y_test, y_predicoes))

# Criando matriz de confusão para comparar o valor da predição com o real valor
matriz_confusao = confusion_matrix(y_true = y_test,
                                   y_pred = y_predicoes)

figure = plt.figure(figsize=(15, 5))
disp = ConfusionMatrixDisplay(confusion_matrix = matriz_confusao,
                             display_labels = ['Não Seguro','Seguro'])
disp.plot(values_format='d') 

### Análise

Após a análise dos modelos de predição, observamos que o Random Forest obteve a maior acurácia, alcançando 88%. Acreditamos que o desempenho superior deste modelo pode ser atribuído à sua capacidade de lidar com dados de alta dimensionalidade e muitas variáveis, além de apresentar menor tendência ao overfitting em comparação com outros modelos.

O uso de aleatorização e bootstrapping durante o treinamento do modelo também contribuiu para reduzir o impacto de outliers e variáveis irrelevantes, aumentando o desempenho geral do modelo.

Analisando as métricas de precisão e recall, observamos que o modelo teve um desempenho excelente na previsão da classe "0", com uma precisão de 90% e um recall de 96%. Isso significa que o modelo foi capaz de prever corretamente a classe "0" na maioria das vezes e identificar corretamente a maioria das observações reais desta classe.

Por outro lado, o modelo apresentou um desempenho inferior na previsão da classe "1", com uma precisão de 72% e um recall de 44%. Isso indica que, embora o modelo tenha acertado a classe "1" na maioria das vezes, ele teve dificuldade em identificar corretamente as observações reais desta classe.

Portanto, é importante salientar que, embora o Random Forest tenha sido o melhor modelo em termos de acurácia geral, outras métricas como recall e F1-score podem ser mais relevantes dependendo da aplicação prática e da importância relativa das classes. Assim, é importante avaliar cuidadosamente as métricas para selecionar o modelo mais adequado para a tarefa de classificação em questão.

# Aprendizado de máquina não supervisionado de agrupamento (descritivo)

In [None]:
import scipy.cluster.hierarchy as sch   # Dendograma# Algoritmos de Agrupamento

from sklearn.cluster import KMeans, DBSCAN, AgglomerativeClustering
from sklearn.mixture import GaussianMixture

# Avaliacao de desemepnho
from sklearn.metrics import adjusted_rand_score, silhouette_score

### K-Means

Para este modelo, primeiro vamos escolher a quantidade de grupos de separação de dados (clusters) usando o método do "cotovelo":

In [None]:
k = list(range(1, 10))

# Armazena o SSE (soma dos erros quadraticos) para cada quantidade de k
sse = []

# Roda o K-means para cada k fornecido
for i in k:
    kmeans = KMeans(n_clusters=i, random_state=0)
    kmeans.fit(data[['DiasMelhoresQueSP','DiasDeLucro']])
    sse.append(kmeans.inertia_)

plt.rcParams['figure.figsize'] = (10, 5)
# Plota o gráfico com a soma dos erros quadraticos
plt.plot(k, sse, '-o')
plt.xlabel(r'Número de clusters')
plt.ylabel('Inércia')
plt.show()

##### Agora sim!
Optamos por dividir os dados em somente três grupos, já que, a partir do terceiro grupo, a diferença na soma do erro quadrático diminui muito pouco.

In [None]:
# Definindo o modelo de clusterizacao.
kmeans = KMeans(n_clusters=3,random_state=0)

#Implementando o K-Means nos dados:
kmeans.fit(data[['DiasMelhoresQueSP','DiasDeLucro']])

#Salvando os centroides de cada cluster
centroides = kmeans.cluster_centers_

#Salvando os labels dos clusters para cada exemplo
kmeans_labels = kmeans.predict(data[['DiasMelhoresQueSP','DiasDeLucro']])

In [None]:
pd.Series(kmeans_labels).value_counts()

In [None]:
centroides

In [None]:
# Plotando os dados identificando com os seus clusters
plt.scatter(data[['DiasMelhoresQueSP']],data[['DiasDeLucro']], c=kmeans_labels, alpha=0.5, cmap='rainbow')
plt.xlabel('Dias Melhores que SP')
plt.ylabel('Dias de lucro')
# Plotando os centroides
plt.scatter(centroides[:, 0], centroides[:, 1], c='black', marker='X', s=200, alpha=0.5)
plt.rcParams['figure.figsize'] = (15, 10)
plt.show()

### DBSCAN

In [None]:
# Criando o modelo:
dbscan = DBSCAN(eps=8, min_samples=20)
# Ajustando aos dados
dbscan.fit(data[['DiasMelhoresQueSP','DiasDeLucro']])

dbscan_labels = dbscan.labels_
dbscan_labels

In [None]:
# Plotando o grafico:
plt.scatter(data[['DiasMelhoresQueSP']],data[['DiasDeLucro']], c=dbscan_labels, alpha=0.5)
plt.xlabel('Dias Melhores QueSP')
plt.ylabel('Dias De Lucro')
plt.show()

#### Plotando o grafico sem os outliers:

In [None]:
# Mascara para outlier
mascara = dbscan_labels>=0

# Plotando o gráfico
plt.scatter(data[['DiasMelhoresQueSP']][mascara],data[['DiasDeLucro']][mascara], c=dbscan_labels[mascara], alpha=0.5, cmap='rainbow')
plt.xlabel('Dias Melhores QueSP')
plt.ylabel('Dias De Lucro')
plt.show()

### Agrupamento hierárquico

In [None]:
# Criando o modelo
model = AgglomerativeClustering(n_clusters=3,linkage='ward')

model.fit(data[['DiasMelhoresQueSP','DiasDeLucro']])
hierarquico_labels = model.labels_
hierarquico_labels

In [None]:
# plotando os dados identificando com os seus clusters
plt.scatter(data[['DiasMelhoresQueSP']],data[['DiasDeLucro']], c=hierarquico_labels, alpha=0.5, cmap='rainbow')
plt.xlabel('Dias Melhores Que SP')
plt.ylabel('Dias De Lucro')
# plotando os centroides

plt.rcParams['figure.figsize'] = (15, 10)
plt.show()

In [None]:
dendrogram = sch.dendrogram(sch.linkage(data[['DiasMelhoresQueSP','DiasDeLucro']], method = 'ward'))
plt.title('Dendrogam', fontsize = 20)
plt.xlabel('Dias')
plt.ylabel('Distância Euclidiana')
plt.show()

O dendrograma é uma ferramenta visual útil para avaliar a estrutura dos clusters em um algoritmo de agrupamento hierárquico. Ele representa a hierarquia de fusões de clusters, onde os clusters individuais são unidos para formar clusters maiores.

A partir deste dendrograma gerado, podemos observar a distância euclidiana entre os clusters ao longo do eixo y. Quanto mais alta a distância, menos semelhantes são os pontos em cada cluster. É possível ver também que os pontos são agrupados em clusters em diferentes níveis do dendrograma, o que indica diferentes níveis de agrupamento.

## Avaliando o Desempenho dos Algoritmos

##### (a) Usando o **Adjusted Rand Index**

Comparação entre K-Means e Agrupamento Hierarquico:

In [None]:
adjusted_rand_score(kmeans_labels,hierarquico_labels)

Comparação entre K-Means e DBSCAN:

In [None]:
adjusted_rand_score(kmeans_labels,dbscan_labels)

Comparação entre Agrupamento Hierarquico e o DBSCAN:

In [None]:
adjusted_rand_score(hierarquico_labels,dbscan_labels)

O ARI mede a semelhança entre dois conjuntos de rótulos de clusters. Valores próximos de 1 indicam que os rótulos atribuídos pelos algoritmos são semelhantes, enquanto valores próximos de 0 indicam que eles são aleatórios ou não relacionados.

De acordo com os resultados, o ARI para a comparação entre K-Means e Agrupamento Hierárquico é alto (0,75), o que sugere que esses algoritmos têm uma boa concordância nos rótulos de cluster atribuídos aos dados. No entanto, os valores de ARI para as outras comparações são bastante baixos. Em particular, a comparação entre K-Means e DBSCAN tem um valor de ARI de apenas 0,038, o que sugere que esses algoritmos são bastante diferentes na atribuição de rótulos de cluster.

##### (b) Avaliando a métrica de Silhouette

KMEANS:

In [None]:
silhouette_score(data[['DiasMelhoresQueSP','DiasDeLucro']],kmeans_labels)

DBSCAN:

In [None]:
silhouette_score(data[['DiasMelhoresQueSP','DiasDeLucro']],dbscan_labels)

Agrupamento Hierarquico:

In [None]:
silhouette_score(data[['DiasMelhoresQueSP','DiasDeLucro']],hierarquico_labels)

A métrica de Silhouette mede o quão bem cada ponto de dados se encaixa no seu próprio cluster em comparação com outros clusters. Valores positivos indicam que os pontos estão bem agrupados, enquanto valores negativos indicam que eles podem estar no cluster errado.

Os resultados fornecidos mostram que o K-Means tem o valor de Silhouette mais alto (0,539), seguido pelo Agrupamento Hierárquico (0,506), enquanto o DBSCAN tem um valor negativo (-0,110). Isso sugere que o K-Means e o Agrupamento Hierárquico são melhores na formação de clusters com pontos bem agrupados, enquanto o DBSCAN pode ter problemas em atribuir pontos a um cluster apropriado.