# Projeto - Cálculo do diâmetro de um asteroide

#### Amanda Lucio, Nayara Gomes

O objetivo dos modelos é medir o diâmetro de um asteroide a partir de medidas sobre o mesmo. O *Dataset* utilizado será  **"Open Asteroid Dataset"** retirado do site https://www.kaggle.com.

Após baixar no Kaggle o arquivo *Asteroid_Updated.csv* contendo os dados sobre asteroides, vamos preparar nosso ambiente com as bibliotecas necessárias e depois importaremos os dados!

## Importando as bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from sklearn.model_selection import train_test_split

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import KFold
from sklearn import metrics
from sklearn.model_selection import cross_val_score

from sklearn.tree import DecisionTreeClassifier, plot_tree

%matplotlib inline

In [None]:
dataAsteroid = pd.read_csv('Data/Asteroid.csv')
dataAsteroid.head()

### Variáveis do *Dataset*

In [None]:
dataAsteroid.columns



In [None]:
columns = ['a', 'e', 'i', 'om', 'w', 'q', 'ad', 'per_y', 'data_arc', 'n_obs_used', 'H', 'diameter','albedo', 'rot_per','moid', 'n', 'per', 'ma']

dataAsteroid=dataAsteroid[columns]
dataAsteroid = dataAsteroid.dropna(subset=["diameter", "rot_per"])  #removendo linhas com diâmetro null
dataAsteroid = dataAsteroid[pd.to_numeric(dataAsteroid['diameter'], errors='coerce').notnull()] #removendo linhas com valores não numéricos no diâmetro
dataAsteroid = dataAsteroid.interpolate()

dataAsteroid = dataAsteroid.astype(float)
dataAsteroid = dataAsteroid.reset_index()


In [None]:
percent_missing = dataAsteroid.isnull().sum() * 100 / len(dataAsteroid)
missing_value_df = pd.DataFrame({'column_name': dataAsteroid.columns,
                                 'percent_missing': percent_missing})
missing_value_df.sort_values('percent_missing', ascending=False)

## Diminuindo Dataset

In [None]:
len(dataAsteroid) #número de rows

In [None]:
np.random.seed(10)

remove_n = 5000
dataAsteroid_indices = np.random.choice(dataAsteroid.index, remove_n, replace=False)
dataAsteroid = dataAsteroid.drop(dataAsteroid_indices)

In [None]:
len(dataAsteroid.index) #número de rows

### Verificação da distribuição dos dados da variável resposta 

In [None]:
sns.distplot(dataAsteroid['diameter'], color='black')
plt.show()

### Detectar e Remover outliers

In [None]:
dataAsteroid.describe()

In [None]:
# Removendo outliers a partir dos valores acima
numOfOutliers= len(dataAsteroid)- len(dataAsteroid[(np.abs(stats.zscore(dataAsteroid)) < 3).all(axis=1)])
dataAsteroid=pd.DataFrame(dataAsteroid[(np.abs(stats.zscore(dataAsteroid)) < 3).all(axis=1)])

# dataAsteroid = dataAsteroid[dataAsteroid.a < 20]
# dataAsteroid = dataAsteroid[dataAsteroid.q < 6]
# dataAsteroid = dataAsteroid[dataAsteroid.n_obs_used < 6000]
# dataAsteroid = dataAsteroid[dataAsteroid.per_y < 15]
# dataAsteroid = dataAsteroid[dataAsteroid.diameter < 400]
# dataAsteroid = dataAsteroid.reset_index()

### Analisando correlações

In [None]:
corr_matrix = dataAsteroid.corr()
corr_matrix["diameter"].sort_values(ascending=False).head()

In [None]:
plt.subplots(figsize=(15,12))
sns.heatmap(corr_matrix,annot=True,annot_kws={'size':10})

### Separando Dados

In [None]:
X = dataAsteroid.drop(['diameter'],axis = 1)
y = dataAsteroid['diameter']
#x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=1242)


In [None]:
X

### Geramos os folds para validação cruzada

In [None]:
kf = KFold(n_splits=10, shuffle=True, random_state=111)

In [None]:
def avalia_classificador(model, kf, X, y, function_RMSE):
    metric_valid = []
    metric_train = []
    y_preds = np.zeros(X.shape[0])
    # a cada iteração em kf, temos k-1 conjuntos para treino e 1 para validação
    # train e valid recebem os indices de treino e validação em cada rodada.
    for train, valid in kf.split(X,y):
        x_train = X.iloc[train] # escolhe apenas os indices de treino
        y_train = y.iloc[train]
        x_valid = X.iloc[valid] # escolhe apenas os indices de validação
        y_valid = y.iloc[valid]
        model.fit(x_train, y_train) # treina o classificador com dados de treino
        y_pred_train = model.predict(x_train) # faz predições nos dados de treino
        y_pred_valid = model.predict(x_valid) # faz predições nos dados de validação
        y_preds[valid] = y_pred_valid # guarda as previsões do fold corrente
        
        # salvando métricas obtidas no dado de treino (k-1 folds) e validação (1 fold)
        metric_valid.append(function_RMSE(y_valid, y_pred_valid)) 
        metric_train.append(function_RMSE(y_train, y_pred_train)) 
    
    # retorna as previsões e a média das métricas de treino e validação
    # obtidas nas iterações do Kfold
    return y_preds, np.array(metric_valid).mean(), np.array(metric_train).mean()

In [None]:
from sklearn.metrics import mean_squared_error
def function_RMSE(y_real, y_pred): 
    return mean_squared_error(y_real, y_pred)**0.5

Modelos: 

* Modelos Lineares
    * Regressão Linear
* Modelos não-lineares    
    * Árvores de decisão
    * Random Forest
    * Gradient Boosting
    * SVM
    * Redes Neurais

#### Baseline

In [None]:
media_valor_m2 = np.mean(y)

In [None]:
#Gera um vetor artificial com o valor da média repetido pelo número de linhas do nosso conjunto.
y_media = np.array([media_valor_m2]*y.shape[0])

#Calcula o desempenho como se a predição do modelo fosse o y médio
print(function_RMSE(y, y_media))

#### Regressão Linear

Temos o seguinte modelo para estimar o diâmetro do asteroide:

**diameter = β0 + β1 × 'data_arc' + β2 ×'n_obs_used' + β3 × 'a'....**

In [None]:
from sklearn.linear_model import LinearRegression

modelLinearRegression = LinearRegression(fit_intercept=True, normalize=True) 

In [None]:
preds, rmse_val, rmse_train = avalia_classificador(modelLinearRegression, kf, X, y, function_RMSE) # treina, valida e calcula desempenho
print('RMSE (validação): ', rmse_val)
print('RMSE (treino): ', rmse_train)

In [None]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# Cria uma nova matriz de atributos com as features polinomiais de grau 2
X_new = PolynomialFeatures(2).fit_transform(X) 

# Reescalona os dados entre 0 e 1 (valor padrão do MinMaxScaler)
X_new = MinMaxScaler().fit_transform(X_new)
X_new = pd.DataFrame(X_new)
print('Número de atributos após transformação:', X_new.shape[1])
preds, rmse_val, rmse_train = avalia_classificador(modelLinearRegression, kf, X_new, y, function_RMSE) 
print('RMSE (validação): ', rmse_val)
print('RMSE (treino): ', rmse_train)

In [None]:
plt.scatter(preds, y);
plt.plot(preds,preds, c ='r')
ax = plt.gca()
ax.set_xlim([-50, 200])
ax.set_ylim([-20, 120])

plt.show()

#### Árvore de decisão

In [None]:
from sklearn import tree
modelTreeDecision = tree.DecisionTreeRegressor(max_features=5, max_depth=3, random_state=10)

In [None]:
preds, rmse_val, rmse_train = avalia_classificador(modelTreeDecision, kf, X, y, function_RMSE) 
print('RMSE (validação): ', rmse_val)
print('RMSE (treino): ', rmse_train)

In [None]:
import graphviz 

columns = ['a', 'e', 'i', 'om', 'w', 'q', 'ad', 'per_y', 'data_arc', 'n_obs_used', 'H', 'diameter','albedo', 'rot_per','moid', 'n', 'per', 'ma']

dot_data = tree.export_graphviz(modelTreeDecision, out_file=None, 
                                feature_names=columns,  
                                filled=True, rounded=True,  
                                special_characters=True)  
graph = graphviz.Source(dot_data)  
graph