# Classificação de galáxias

* Determição do tipo de galáxia
* Dados obtidos na NASA (https://heasarc.gsfc.nasa.gov/db-perl/W3Browse/w3table.pl?tablehead=name%3Dneargalcat&Action=More+Options)

* Importando bibliotecas

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

* Lendo arquivo Excel

In [None]:
dados = pd.read_excel('galaxias.xls',sheet_name='neargalcat')

* Exibindo cinco primeiras linhas

In [None]:
dados.head()

* Verificando quantidade de galáxias para cada tipo

In [None]:
sns.countplot(x=dados['class'])
plt.xticks(rotation=90)
plt.tight_layout()

* Renomeando classes para uma forma mais geral

In [None]:
def fix_classe(x):
    if(x=="IRREGULAR GALAXY"):
        return "Irregular"
    elif(x=="SPIRAL GALAXY"):
         return "Espiral"
    elif(x=="LENTICULAR GALAXY"):
         return "Lenticular"
    elif(x=="IRREGULAR GALAXY HII REGION"):
         return "Irregular"
    else:
         return x

In [None]:
dados['class'] = dados['class'].apply(fix_classe)

In [None]:
sns.countplot(x=dados['class'])
plt.xticks(rotation=90)
plt.tight_layout()

* Removendo galáxias sem classe definida

In [None]:
dados = dados[dados['class']!="UNIDENTIFIED"]

In [None]:
dados.head()

* Exibindo informações dos dados

In [None]:
dados.info()

* Verificando existência de NaNs

In [None]:
dados.isna().sum()

* Removendo linhas das colunas com menos elementos vazios

In [None]:
dados = dados.dropna(subset=['bmag','ks_mag','linear_diameter','abs_bmag'])

In [None]:
dados.isna().sum()

* Separando cada grupo de galáxias num dataframe

In [None]:
irregular = dados[dados['class']=='Irregular']
lenticular = dados[dados['class']=='Lenticular']
espiral = dados[dados['class']=='Espiral']

* Verificando existência de NaNs nas irregulares e substituindo pela mediana

In [None]:
irregular.isna().sum()

In [None]:
irregular['radial_velocity'] = irregular['radial_velocity'].fillna(irregular['radial_velocity'].mean())

* Verificando existência de NaNs nas lenticulares e substituindo pela mediana

In [None]:
lenticular.isna().sum()

In [None]:
lenticular['radial_velocity'] = lenticular['radial_velocity'].fillna(lenticular['radial_velocity'].mean())

* Verificando existência de NaNs nas espirais e substituindo pela mediana

In [None]:
espiral['radial_velocity'] = espiral['radial_velocity'].fillna(espiral['radial_velocity'].mean())

* Juntando dataframes

In [None]:
dados = pd.concat([espiral,lenticular,irregular])

In [None]:
dados.head()

In [None]:
dados.info()

* Analisando posição dos objetos

In [None]:
sns.lmplot(x='ra', y='dec', data=dados, hue='class', fit_reg=False, palette='coolwarm', size=6, aspect=2)
plt.title('Coordenadas equatoriais (RA-DEC)')
plt.xlabel('Ascenção reta (graus)')
plt.ylabel('Declinação (graus)')

* Conforme esperado objetos não estão numa posição preferencial

* Removendo colunas name, ra e dec do dataframe

In [None]:
dados = dados.drop(['name','ra','dec'],axis=1)

In [None]:
dados.head()

* Analisando distribuição das variáveis 

In [None]:
fig, ax = plt.subplots(2,3,figsize=(10,8))
sns.histplot(data=dados,x='bmag',hue='class',ax=ax[0][0])
sns.histplot(data=dados,x='ks_mag',hue='class',ax=ax[0][1])
sns.histplot(data=dados,x='linear_diameter',hue='class',ax=ax[0][2])

sns.histplot(data=dados,x='distance',hue='class',ax=ax[1][0])
sns.histplot(data=dados,x='radial_velocity',hue='class',ax=ax[1][1])
sns.histplot(data=dados,x='abs_bmag',hue='class',ax=ax[1][2])
plt.tight_layout()

* Analisando outliers

In [None]:
fig, ax = plt.subplots(2,3,figsize=(10,8))
sns.boxplot(data=dados,y='bmag',x='class',ax=ax[0][0])
sns.boxplot(data=dados,y='ks_mag',x='class',ax=ax[0][1])
sns.boxplot(data=dados,y='linear_diameter',x='class',ax=ax[0][2])

sns.boxplot(data=dados,y='distance',x='class',ax=ax[1][0])
sns.boxplot(data=dados,y='radial_velocity',x='class',ax=ax[1][1])
sns.boxplot(data=dados,y='abs_bmag',x='class',ax=ax[1][2])
plt.tight_layout()

* Convertendo variável classe para numérica

In [None]:
from sklearn.preprocessing import LabelEncoder

In [None]:
le = LabelEncoder()

In [None]:
dados['class'] = le.fit_transform(dados['class'].values)

In [None]:
dados.head()

* Determinando variáveis X e Y

In [None]:
X = dados.drop('class',axis=1).values
Y = dados['class'].values

* Criando amostras de treino e teste

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
X_treino, X_teste, Y_treino, Y_teste = train_test_split(X,Y,test_size=0.3,random_state=42)

* Importando métricas de classificação

In [None]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

In [None]:
modelos = []
acuracia = []
precisao = []
recall = []
f1 = []

* Modelo 1: Regressão logistica

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
logreg = LogisticRegression()

In [None]:
logreg.fit(X_treino,Y_treino)

In [None]:
Y_pred_logreg = logreg.predict(X_teste)

In [None]:
acc_logreg = accuracy_score(Y_teste,Y_pred_logreg)
prec_logreg = precision_score(Y_teste,Y_pred_logreg,average='macro')
rec_logreg = recall_score(Y_teste,Y_pred_logreg,average='macro')
f1_logreg = f1_score(Y_teste,Y_pred_logreg,average='macro')

In [None]:
print("Acurácia = {:0.2f}%".format(acc_logreg*100))
print("Precisão = {:0.2f}%".format(prec_logreg*100))
print("Recall = {:0.2f}%".format(rec_logreg*100))
print("F1 = {:0.2f}%".format(f1_logreg*100))

In [None]:
modelos.append("Regressão logistica")
acuracia.append(acc_logreg)
precisao.append(prec_logreg)
recall.append(rec_logreg)
f1.append(f1_logreg)

* Modelo 2: Support Vector Machine

In [None]:
from sklearn.svm import SVC

In [None]:
svc = SVC()

In [None]:
svc.fit(X_treino,Y_treino)

In [None]:
Y_pred_svc = svc.predict(X_teste)

In [None]:
acc_svc = accuracy_score(Y_teste,Y_pred_svc)
prec_svc = precision_score(Y_teste,Y_pred_svc,average='macro')
rec_svc = recall_score(Y_teste,Y_pred_svc,average='macro')
f1_svc = f1_score(Y_teste,Y_pred_svc,average='macro')

In [None]:
print("Acurácia = {:0.2f}%".format(acc_svc*100))
print("Precisão = {:0.2f}%".format(prec_svc*100))
print("Recall = {:0.2f}%".format(rec_svc*100))
print("F1 = {:0.2f}%".format(f1_svc*100))

In [None]:
modelos.append("SVC")
acuracia.append(acc_svc)
precisao.append(prec_svc)
recall.append(rec_svc)
f1.append(f1_svc)

* Modelo 3: Naive-Bayes

In [None]:
from sklearn.naive_bayes import GaussianNB

In [None]:
nb = GaussianNB()

In [None]:
nb.fit(X_treino,Y_treino)

In [None]:
Y_pred_nb = nb.predict(X_teste)

In [None]:
acc_nb = accuracy_score(Y_teste,Y_pred_nb)
prec_nb = precision_score(Y_teste,Y_pred_nb,average='macro')
rec_nb = recall_score(Y_teste,Y_pred_nb,average='macro')
f1_nb = f1_score(Y_teste,Y_pred_nb,average='macro')

In [None]:
print("Acurácia = {:0.2f}%".format(acc_nb*100))
print("Precisão = {:0.2f}%".format(prec_nb*100))
print("Recall = {:0.2f}%".format(rec_nb*100))
print("F1 = {:0.2f}%".format(f1_nb*100))

In [None]:
modelos.append("Naive-Bayes")
acuracia.append(acc_nb)
precisao.append(prec_nb)
recall.append(rec_nb)
f1.append(f1_nb)

* Modelo 4: Decision Tree 

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
dtc = DecisionTreeClassifier()

In [None]:
dtc.fit(X_treino,Y_treino)

In [None]:
Y_pred_dtc = dtc.predict(X_teste)

In [None]:
acc_dtc = accuracy_score(Y_teste,Y_pred_dtc)
prec_dtc = precision_score(Y_teste,Y_pred_dtc,average='macro')
rec_dtc = recall_score(Y_teste,Y_pred_dtc,average='macro')
f1_dtc = f1_score(Y_teste,Y_pred_dtc,average='macro')

In [None]:
print("Acurácia = {:0.2f}%".format(acc_dtc*100))
print("Precisão = {:0.2f}%".format(prec_dtc*100))
print("Recall = {:0.2f}%".format(rec_dtc*100))
print("F1 = {:0.2f}%".format(f1_dtc*100))

In [None]:
modelos.append("Decision Tree")
acuracia.append(acc_dtc)
precisao.append(prec_dtc)
recall.append(rec_dtc)
f1.append(f1_dtc)

* Modelo 5: Random Forest

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
rfc = RandomForestClassifier()

In [None]:
rfc.fit(X_treino,Y_treino)

In [None]:
Y_pred_rfc = rfc.predict(X_teste)

In [None]:
acc_rfc = accuracy_score(Y_teste,Y_pred_rfc)
prec_rfc = precision_score(Y_teste,Y_pred_rfc,average='macro')
rec_rfc = recall_score(Y_teste,Y_pred_rfc,average='macro')
f1_rfc = f1_score(Y_teste,Y_pred_rfc,average='macro')

In [None]:
print("Acurácia = {:0.2f}%".format(acc_rfc*100))
print("Precisão = {:0.2f}%".format(prec_rfc*100))
print("Recall = {:0.2f}%".format(rec_rfc*100))
print("F1 = {:0.2f}%".format(f1_rfc*100))

In [None]:
modelos.append("Random Forest")
acuracia.append(acc_rfc)
precisao.append(prec_rfc)
recall.append(rec_rfc)
f1.append(f1_rfc)

* Dataframe com resultados

In [None]:
dicionario = {"Modelo" : modelos, "Acuracia" : acuracia, "Precisao" : precisao,
             "Recall" : recall, "F1" : f1}

In [None]:
pd_di = pd.DataFrame(dicionario)

In [None]:
pd_di

* Determinando melhor modelo

In [None]:
pd_di = pd_di.sort_values(by='Recall',ascending=False)

In [None]:
pd_di

* Random Forest se mostrou o melhor modelo