# SDSS DR14

Usaremos dados do Sloan Digital Sky Survey DR14 para classificar se o respectivo objeto é uma estrela, uma galáxia ou um quasar. Observações foram realizadas em Julho de 2016

* Importando bibliotecas padrões

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

* Lendo arquivo CSV

In [None]:
dados = pd.read_csv('SLOAN_DR14.csv')

* Exibindo cinco primeiras linhas

In [None]:
dados.head()

* Verificando posição dos objetos

In [None]:
sns.lmplot(x='ra', y='dec', data=dados, hue='class', fit_reg=False, palette='coolwarm', size=6, aspect=2)
plt.title('Coordenadas equatoriais (RA-DEC)')
plt.xlabel('Ascenção reta (graus)')
plt.ylabel('Declinação (graus)')

* Colunas objid, rad, dec run, rerun, camcol, field, specobjid, plate, mjd e fiberid podem ser removidas. São apenas informações das observações

In [None]:
colunas_remover = ['objid','ra','dec','run','rerun','field','fiberid','mjd','plate','specobjid','camcol']

In [None]:
dados = dados.drop(colunas_remover,axis=1)

In [None]:
dados.head()

* Verificando contagem de objetos por classe

In [None]:
sns.countplot(dados['class'])

* Separando cada classe de objeto num dataset

In [None]:
estrela = dados[dados['class']=='STAR']
galaxia = dados[dados['class']=='GALAXY']
qso = dados[dados['class']=='QSO']

* Filtros

![image.png](attachment:image.png)

* Verificando a distribuição da magnitude na banda u (Ultravioleta)

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1, 3,figsize=(10,4))
ax1.hist(estrela['u'])
ax1.set_title('Estrela')
ax1.set_xlabel('u')
ax2.hist(galaxia['u'])
ax2.set_title('Galaxia')
ax2.set_xlabel('u')
ax3.hist(qso['u'])
ax3.set_title('QSO')
ax3.set_xlabel('u')
plt.tight_layout()

* Verificando a distribuição da magnitude na banda g (Green - Verde)

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1, 3,figsize=(10,4))
ax1.hist(estrela['g'])
ax1.set_title('Estrela')
ax1.set_xlabel('g')
ax2.hist(galaxia['g'])
ax2.set_title('Galaxia')
ax2.set_xlabel('g')
ax3.hist(qso['g'])
ax3.set_title('QSO')
ax3.set_xlabel('g')
plt.tight_layout()

* Verificando a distribuição da magnitude na banda r - Red (Vermelho)

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1, 3,figsize=(10,4))
ax1.hist(estrela['r'])
ax1.set_title('Estrela')
ax1.set_xlabel('r')
ax2.hist(galaxia['r'])
ax2.set_title('Galaxia')
ax2.set_xlabel('r')
ax3.hist(qso['r'])
ax3.set_title('QSO')
ax3.set_xlabel('r')
plt.tight_layout()

* Verificando a distribuição da magnitude na banda i (Infrared - Infravermelho)

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1, 3,figsize=(10,4))
ax1.hist(estrela['i'])
ax1.set_title('Estrela')
ax1.set_xlabel('i')
ax2.hist(galaxia['i'])
ax2.set_title('Galaxia')
ax2.set_xlabel('i')
ax3.hist(qso['i'])
ax3.set_title('QSO')
ax3.set_xlabel('i')
plt.tight_layout()

* Verificando a distribuição da magnitude na banda z - Infrared (Infravermelho)

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1, 3,figsize=(10,4))
ax1.hist(estrela['z'])
ax1.set_title('Estrela')
ax1.set_xlabel('z')
ax2.hist(galaxia['z'])
ax2.set_title('Galaxia')
ax2.set_xlabel('z')
ax3.hist(qso['z'])
ax3.set_title('QSO')
ax3.set_xlabel('z')
plt.tight_layout()

* Verifando distribuições dos redshifts (distâncias)

In [None]:
fig, (ax1, ax2, ax3) = plt.subplots(1, 3,figsize=(10,4))
ax1.hist(estrela['redshift'])
ax1.set_title('Estrela')
ax1.set_xlabel('redshift')
ax2.hist(galaxia['redshift'])
ax2.set_title('Galaxia')
ax2.set_xlabel('redshift')
ax3.hist(qso['redshift'])
ax3.set_title('QSO')
ax3.set_xlabel('redshift')
plt.tight_layout()

* Convertendo variável categórica classe para numérica

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
le = LabelEncoder()
dados['class'] = le.fit_transform(dados['class'])

In [None]:
labels = le.classes_

In [None]:
labels

* Verificanco correlação

In [None]:
corr = dados.corr()

In [None]:
sns.heatmap(corr)

* Determinando variáveis X e Y

In [None]:
X = dados.drop('class',axis=1).values
Y = dados['class'].values

* Criando amostras de treino e teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X,Y,test_size=0.3,random_state=42)

* Bibliotecas de métricas de classificação

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [None]:
from sklearn.metrics import confusion_matrix

* Listas para armazenar resultados dos modelos

In [None]:
modelos = []
acuracia = []
precision = []
recall = []
f1 = []

* Modelo 1: Regressão logística

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logreg = LogisticRegression()

In [None]:
logreg.fit(X_treino,Y_treino)

In [None]:
Y_pred_logreg = logreg.predict(X_teste)

In [None]:
cm_logreg = confusion_matrix(Y_teste,Y_pred_logreg)

In [None]:
sns.heatmap(cm_logreg, annot=True, fmt='g', xticklabels=labels, yticklabels=labels)

In [None]:
acc_logreg = accuracy_score(Y_teste,Y_pred_logreg)
precision_logreg = precision_score(Y_teste,Y_pred_logreg,average='macro')
recall_logreg = recall_score(Y_teste,Y_pred_logreg,average='macro')
f1_logreg = f1_score(Y_teste,Y_pred_logreg,average='macro')

In [None]:
print("Acuracia = {:0.2f}%".format(acc_logreg*100))
print("Precisão = {:0.2f}%".format(precision_logreg*100))
print("Recall = {:0.2f}%".format(recall_logreg*100))
print("F1 = {:0.2f}%".format(f1_logreg*100))

In [None]:
modelos.append("Regressão Logistica")
acuracia.append(acc_logreg*100)
precision.append(precision_logreg*100)
recall.append(recall_logreg*100)
f1.append(f1_logreg*100)

* Modelo 2: KNN

In [None]:
from sklearn.neighbors import KNeighborsClassifier

In [None]:
knn = KNeighborsClassifier()

In [None]:
knn.fit(X_treino,Y_treino)

In [None]:
Y_pred_knn = knn.predict(X_teste)

In [None]:
cm_knn = confusion_matrix(Y_teste,Y_pred_knn)

In [None]:
sns.heatmap(cm_knn, annot=True, fmt='g', xticklabels=labels, yticklabels=labels)

In [None]:
acc_knn = accuracy_score(Y_teste,Y_pred_knn)
precision_knn = precision_score(Y_teste,Y_pred_knn,average='macro')
recall_knn = recall_score(Y_teste,Y_pred_knn,average='macro')
f1_knn = f1_score(Y_teste,Y_pred_knn,average='macro')

In [None]:
print("Acuracia = {:0.2f}%".format(acc_knn*100))
print("Precisão = {:0.2f}%".format(precision_knn*100))
print("Recall = {:0.2f}%".format(recall_knn*100))
print("F1 = {:0.2f}%".format(f1_knn*100))

In [None]:
modelos.append("KNN")
acuracia.append(acc_knn*100)
precision.append(precision_knn*100)
recall.append(recall_knn*100)
f1.append(f1_knn*100)

* Modelo 3: Máquina de vetores de suporte

In [None]:
from sklearn.svm import SVC

In [None]:
svc = SVC()

In [None]:
svc.fit(X_treino,Y_treino)

In [None]:
Y_pred_svc = svc.predict(X_teste)

In [None]:
cm_svc = confusion_matrix(Y_teste,Y_pred_svc)

In [None]:
sns.heatmap(cm_svc, annot=True, fmt='g', xticklabels=labels, yticklabels=labels)

In [None]:
acc_svc = accuracy_score(Y_teste,Y_pred_svc)
precision_svc = precision_score(Y_teste,Y_pred_svc,average='macro')
recall_svc = recall_score(Y_teste,Y_pred_svc,average='macro')
f1_svc = f1_score(Y_teste,Y_pred_svc,average='macro')

In [None]:
print("Acuracia = {:0.2f}%".format(acc_svc*100))
print("Precisão = {:0.2f}%".format(precision_svc*100))
print("Recall = {:0.2f}%".format(recall_svc*100))
print("F1 = {:0.2f}%".format(f1_svc*100))

In [None]:
modelos.append("SVC")
acuracia.append(acc_svc*100)
precision.append(precision_svc*100)
recall.append(recall_svc*100)
f1.append(f1_svc*100)

* Modelo 4: Árvore de Decisão

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
dte = DecisionTreeClassifier()

In [None]:
dte.fit(X_treino,Y_treino)

In [None]:
Y_pred_dte = dte.predict(X_teste)

In [None]:
cm_dte = confusion_matrix(Y_teste,Y_pred_dte)

In [None]:
sns.heatmap(cm_dte, annot=True, fmt='g', xticklabels=labels, yticklabels=labels)

In [None]:
acc_dtc = accuracy_score(Y_teste,Y_pred_dte)
precision_dtc = precision_score(Y_teste,Y_pred_dte,average='macro')
recall_dtc = recall_score(Y_teste,Y_pred_dte,average='macro')
f1_dtc = f1_score(Y_teste,Y_pred_dte,average='macro')

In [None]:
print("Acuracia = {:0.2f}%".format(acc_dtc*100))
print("Precisão = {:0.2f}%".format(precision_dtc*100))
print("Recall = {:0.2f}%".format(recall_dtc*100))
print("F1 = {:0.2f}%".format(f1_dtc*100))

In [None]:
modelos.append("Arvore Decisão")
acuracia.append(acc_dtc*100)
precision.append(precision_dtc*100)
recall.append(recall_dtc*100)
f1.append(f1_dtc*100)

* Modelo 5: Floresta aleatória

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
rfc = RandomForestClassifier()

In [None]:
rfc.fit(X_treino,Y_treino)

In [None]:
Y_pred_rfc = dte.predict(X_teste)

In [None]:
cm_rfc = confusion_matrix(Y_teste,Y_pred_rfc)

In [None]:
sns.heatmap(cm_rfc, annot=True, fmt='g', xticklabels=labels, yticklabels=labels)

In [None]:
acc_rfc = accuracy_score(Y_teste,Y_pred_rfc)
precision_rfc = precision_score(Y_teste,Y_pred_rfc,average='macro')
recall_rfc = recall_score(Y_teste,Y_pred_rfc,average='macro')
f1_rfc = f1_score(Y_teste,Y_pred_rfc,average='macro')

In [None]:
print("Acuracia = {:0.2f}%".format(acc_rfc*100))
print("Precisão = {:0.2f}%".format(precision_rfc*100))
print("Recall = {:0.2f}%".format(recall_rfc*100))
print("F1 = {:0.2f}%".format(f1_rfc*100))

In [None]:
modelos.append("Floresta Aleatória")
acuracia.append(acc_rfc*100)
precision.append(precision_rfc*100)
recall.append(recall_rfc*100)
f1.append(f1_rfc*100)

* Modelo 6: Ada Boost

In [None]:
from sklearn.ensemble import AdaBoostClassifier

In [None]:
ada = AdaBoostClassifier()

In [None]:
ada.fit(X_treino,Y_treino)

In [None]:
Y_pred_ada = ada.predict(X_teste)

In [None]:
cm_ada = confusion_matrix(Y_teste,Y_pred_ada)

In [None]:
sns.heatmap(cm_ada, annot=True, fmt='g', xticklabels=labels, yticklabels=labels)

In [None]:
acc_ada = accuracy_score(Y_teste,Y_pred_ada)
precision_ada = precision_score(Y_teste,Y_pred_ada,average='macro')
recall_ada = recall_score(Y_teste,Y_pred_ada,average='macro')
f1_ada = f1_score(Y_teste,Y_pred_ada,average='macro')

In [None]:
print("Acuracia = {:0.2f}%".format(acc_ada*100))
print("Precisão = {:0.2f}%".format(precision_ada*100))
print("Recall = {:0.2f}%".format(recall_ada*100))
print("F1 = {:0.2f}%".format(f1_ada*100))

In [None]:
modelos.append("Ada Boost")
acuracia.append(acc_ada*100)
precision.append(precision_ada*100)
recall.append(recall_ada*100)
f1.append(f1_ada*100)

* Modelo 7: Naive-Bayes

In [None]:
from sklearn.naive_bayes import GaussianNB

In [None]:
nb = GaussianNB()

In [None]:
nb.fit(X_treino,Y_treino)

In [None]:
Y_pred_nb = nb.predict(X_teste)

In [None]:
cm_nb = confusion_matrix(Y_teste,Y_pred_nb)

In [None]:
sns.heatmap(cm_nb, annot=True, fmt='g', xticklabels=labels, yticklabels=labels)

In [None]:
acc_nb = accuracy_score(Y_teste,Y_pred_nb)
precision_nb = precision_score(Y_teste,Y_pred_nb,average='macro')
recall_nb = recall_score(Y_teste,Y_pred_nb,average='macro')
f1_nb = f1_score(Y_teste,Y_pred_nb,average='macro')

In [None]:
print("Acuracia = {:0.2f}%".format(acc_nb*100))
print("Precisão = {:0.2f}%".format(precision_nb*100))
print("Recall = {:0.2f}%".format(recall_nb*100))
print("F1 = {:0.2f}%".format(f1_nb*100))

In [None]:
modelos.append("Naive-Bayes")
acuracia.append(acc_nb*100)
precision.append(precision_nb*100)
recall.append(recall_nb*100)
f1.append(f1_nb*100)

* Criando DataFrame com desempenho dos modelos

In [None]:
dici = {"Modelo" : modelos, "Acuracia" : acuracia, "Precisão" : precision,
       "Recall" : recall, "F1" : f1}

In [None]:
pd_dici = pd.DataFrame(dici)

In [None]:
pd_dici

* Ordenando em ordem crescente usando Recall

In [None]:
pd_dici = pd_dici.sort_values('Recall',ascending=False)

In [None]:
pd_dici

* Árvore de decisão e floresta aleatória apresentaram o mesmo desempenho