A análise a seguir é de um estudo de um conjunto de experimentos, de algoritmos de regressão sobre o dataset [Diamonds](https://www.kaggle.com/shivam2503/diamonds). Um conjunto de dados que reúne aproximandamente 54 mil diamantes com seus 11 atributos, tais como preço, os famosos 4 Cs: Carat (quilat), Clarity (pureza), Color (cores) e Cut (lapidação). Nosso objetivo é predizer o valor de diamante baseado nas características do diamante.

Integrantes:
Anderson José Raimundo,
Anselmo da Silva Macedo e
João Fabio Scurçoni


# **Conteúdo**

<a id="top"></a>

O notebook está organizado como segue:

- [Dados](#dados) - Carregamento dos dados, pré-processamento.
- [Visualização](#visual) - Análise exploratória dos dados.

- [Regressão](#regressao) - Aplicação de algoritmos de Aprendizado de Máquina.
    - [KNN Regressor](#knn) - Regressão com k-NN.
    - [Regressão Linear](#reg_linear) - Regressão com Regressão Linear.
    - [Support Vector Machines](#svm) - Regressão com Support Vector Machines.
    - [Árvore de Decisão](#arv_decisao) - Regressão com Decision Tree.
    - [Random Forest](#forest) - Regressão com Random Forest.
    
    
* [Tabela Final](#tabela) - Tabela comparativa dos algoritmos.

<a id="dados"></a>

-----

# Dados

Esta seção reúne um conjunto de código para carregamento e pré-processamento sobre os dados.

[Voltar para o Topo](#top)


# **Carregando Dados**

In [None]:
import numpy as np # importar numpy
import pandas as pd # importar pandas para realizar a leitura do arquivo csv
import matplotlib.pyplot as plt  #importar matrplotlib para gerar gráficos
import seaborn as sns #importar seaborn para gerar outros tipos de gráficos


In [None]:
df = pd.read_csv('../input/diamonds/diamonds.csv')

## Seleção dos Dados

Nesta seção observamos os dados e iremos retirar alguns atributos que não servirão para a a análise.

**Descrição dos dados**

* **Unnamed:0** - Id único padrão diamante *(remover)*
* **carat** - Quilat - Peso do diamante em gramas
* **cut** - Lapidação - a forma das facetas do diamante que interagem com a luz
* **color** - Tonalidade da cor do diamante
* **clarity** - Pureza do diamante
* **depth** - Porcentagem de profundidade total
* **table** - Largura do topo do diamante em relação ao ponto mais largo
* **price** - preço
* **x** - Comprimento em mm
* **y** - Largura em mm
* **z** - Profundidade em mm

Exibindo os 5 primeiros registros

<a id="visual"></a>

-----

# Visualização dos Dados

Conjunto de visualizações dos dados.

[Voltar para o Topo](#top)

In [None]:
df.head()

Informações sobre os nomes das colunas, tipo de dados e número de linhas por coluna

In [None]:
df.info()

Resumo das estatísitcas

In [None]:
df.describe()

In [None]:
df.describe(include=['O'])

Verificando se tem algum dado nulo.

In [None]:
df.isnull().sum()

Tipos de lapidação (cut)

In [None]:
df['cut'].unique() #Lapidação - Ideal é excelente e Fair ruim

Tipos de tonalidade de cores (color)

In [None]:
df['color'].unique() #Cor - D é mais incolor e J é mais amarelada

Tipos de pureza (clarity)

In [None]:
df['clarity'].unique() #Pureza IF mais puro e I1 menos puro

Quantidade de por cada tipo de lapidação (cut)

In [None]:
df['cut'].value_counts()

Quantidade de por cada tipo de tonalidade de cores (color)

In [None]:
df['color'].value_counts()

Quantidade de por cada tipo de pureza (clarity)

In [None]:
df['clarity'].value_counts()

Verificando a quantidade total do comprimento (x), largura(y)  e profundidade (z) com valor igual a 0.

In [None]:
len(df[(df['x']==0) | (df['y']==0) | (df['z']==0)])

Realizando o cálculo do volume, realizando a multiplicação entre comprimento (x), largura(y)  e profundidade (z)

In [None]:
df["volume"] = df["x"]*df["y"]*df["z"]

Exibindo as primeiros 5 registros já com a nova coluna chamado volume.

In [None]:
df.head()

Removendo as colunas Unnamed:0, x, y, z

In [None]:
columns_remove = ['Unnamed: 0','x','y','z']
df = df.drop(columns_remove, axis=1)

Nova leitura após a remoção das colunas.

In [None]:
df.head()

Total de linhas e colunas.

In [None]:
lines, columns = df.shape
print('Linhas:', lines)
print('Colunas:', columns)

Gráfico de pizza - Porcentagem por tonalidade de cor

In [None]:
labels = df.color.unique().tolist()
sizes = df.color.value_counts().tolist()
explode = (0.1, 0.1, 0.1, 0.1, 0.1, 0.1, 0.1)
plt.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%', shadow=True, startangle=0)
plt.axis('equal')
plt.title("Tonalidade das cores do diamante")
plt.plot()
fig=plt.gcf()
fig.set_size_inches(6,6)
plt.show()

Gráfico de pizza - Porcentagem por tipo de Lapidação

In [None]:
labels = df.cut.unique().tolist()
sizes = df.cut.value_counts().tolist()
explode = (0.1, 0.1, 0.1, 0.1, 0.1) #tamanho do espaçamentos entre os dados
plt.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%', shadow=True, startangle=0)
plt.axis('equal')
plt.title("Tipos de Lapidação (cut)")
plt.plot()
fig=plt.gcf()
fig.set_size_inches(6,6)
plt.show()

Gráfico de pizza - Porcentagem por tipo de Pureza

In [None]:
labels = df.clarity.unique().tolist()
sizes = df.clarity.value_counts().tolist()
explode = (0.1, 0.1, 0.1, 0.1, 0.1,0.1,0.1,0.1)#tamanho do espaçamentos entre os dados
plt.pie(sizes, explode=explode, labels=labels, autopct='%1.1f%%', shadow=True, startangle=0)
plt.axis('equal')
plt.title("Tipos de pureza (clarity)")
plt.plot()
fig=plt.gcf()
fig.set_size_inches(6,6)
plt.show()

Gráfico de barras onde mostra a quantidade de tipos de lapidação

In [None]:
plt.figure(figsize=(10,5))
ax = df['cut'].value_counts().plot.bar(title='Categoria Lapidação (cut) - Quantidade')
plt.xlabel('Tipos de lapidação')
plt.ylabel('Quantidade')



Gráfico de barras onde mostra a quantidade de tipos de pureza

In [None]:
plt.figure(figsize=(10,5))
ax = df['clarity'].value_counts().plot.bar(title='Categoria Pureza (clarity) - Quantidade')
plt.xlabel('Tipos de pureza')
plt.ylabel('Quantidade')

Gráfico de barras onde mostra a quantidade de tonalidade de cor

In [None]:
plt.figure(figsize=(10,5))
df['color'].value_counts().plot.bar(title='Categoria tonalidade de cor (color) - Quantidade')
plt.xlabel('Tipos de cor')
plt.ylabel('Quantidade')

Correlação dos dados
DataFrame.corr() calcula a correlação de pares de colunas. Por padrão é computado a Correlação de Pearson, seu coeficiente de correlação mede a relação estatística, ou associação, entre duas variáveis contínuas.

In [None]:
corr = df.corr(method='pearson') # extraindo a correlação dos dados

# heatmap - gráfico de calor
plt.figure(figsize=(11,8))
sns.heatmap(corr, annot=True, fmt='.2f', cmap='coolwarm')
plt.show()
# print(corr)

# **Histograma - valor por atributo**

In [None]:
df.hist(figsize=(10,8))
plt.tight_layout()
plt.show()

Categorias por coluna

In [None]:
colunas_numericas = df.select_dtypes(include=np.number).columns.to_list()
colunas_categoricas = df.select_dtypes(exclude=np.number).columns.to_list()

In [None]:
print('Colunas Numericas:',colunas_numericas)
print('Colunas Categóricas:',colunas_categoricas)

Transformando as colunas categóricas (cut, color e clarity) por numéricas

In [None]:
from sklearn import preprocessing 
label_encoder = preprocessing.LabelEncoder() 

df['cut'] = label_encoder.fit_transform(df['cut'])
df['color'] = label_encoder.fit_transform(df['color'])
df['clarity'] = label_encoder.fit_transform(df['clarity'])
df.head()

**Histograma - Valor por atributo - inclusos os atributos color, clarity, cut**

In [None]:
df.hist(figsize=(10,8))
plt.tight_layout()
plt.show()

## Conjunto de Treinamento e Teste

Iremos separar os valores de `X` e `Y`, em seguida normalizar os valores de `X`, por fim, separar entre conjunto de dados de treinamento e teste.

> A normalização se faz necessária, pois alguns algoritmos se beneficiam de valores normalizados.

In [None]:
X = df.drop(['price'],1)
Y = df['price']

# **Normalização dos dados**

Normalização StandardScaler

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# normalização dos dados
min_max_scaler = StandardScaler()
X = min_max_scaler.fit_transform(X)

Conjunto dos dados

In [None]:
# treinamento, test_split
from sklearn.model_selection import train_test_split

Separando 80% para treinamento e 20% para teste

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, random_state=26)
print('Treinamento:', len(y_train))
print('Teste      :', len(y_test))

In [None]:
# métricas
from sklearn.metrics import mean_absolute_error
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

<a id="regressao"></a>

-----

# Regressão

Esta seção reúne um conjunto de experimentos. Cada subseção é um algoritmo de Aprendizado de Máquina.


[Voltar para o Topo](#top)

<a id="knn"></a>

# **k-NN** _(k-Nearest Neighbors)_

[Voltar para o Topo](#top)

In [None]:
from sklearn.neighbors import KNeighborsRegressor

experiment = {}

In [None]:
model1 = KNeighborsRegressor(n_neighbors=3,metric='euclidean')
model1.fit(X_train,y_train)

Avaliação

In [None]:
y_pred = model1.predict(X_test)

In [None]:
r2 = r2_score(y_test,y_pred)

# Mean Absolute Error (MAE)
mae = mean_absolute_error(y_test,y_pred)

# Mean Square Error (MSE)
mse = mean_squared_error(y_test,y_pred, squared=True)

# Root Mean Square Error (RMSE)
rmse = mean_squared_error(y_test,y_pred, squared=False)

In [None]:
experiment['KNN'] = {'R2':r2, 'MAE':mae, 'MSE':mse, 'RMSE':rmse}

print('R2  :',r2)
print('MAE :',mae)
print('MSE :',mse)
print('RMSE:',rmse)

k-NN obteve um R² próximo de 95%, ou seja, representou bem a função de preços.

<a id="reg_linear"></a>

# **Regressão Linear**

[Voltar para o Topo](#top)

In [None]:
# regressor
from sklearn.linear_model import LinearRegression
model2 = LinearRegression()
model2.fit(X_train, y_train)

Avaliação

In [None]:
y_pred = model2.predict(X_test)

In [None]:
r2 = r2_score(y_test,y_pred)
mae = mean_absolute_error(y_test,y_pred)
mse = mean_squared_error(y_test,y_pred, squared=True)
rmse = mean_squared_error(y_test,y_pred, squared=False)

experiment['Linear Regression'] = {'R2':r2, 'MAE':mae, 'MSE':mse, 'RMSE':rmse}

print('R2  :',r2)
print('MAE :',mae)
print('MSE :',mse)
print('RMSE:',rmse)

Regressão Linear obteve um resultado inferior ao k-NN, com R² de 87%.

<a id="svm"></a>

# **Support Vector Machines (SVM)**

[Voltar para o Topo](#top)

In [None]:
from sklearn.svm import SVR
model3 = SVR()
model3.fit(X_train, y_train)

Avaliação

In [None]:
y_pred = model3.predict(X_test)

In [None]:
r2 = r2_score(y_test,y_pred)
mae = mean_absolute_error(y_test,y_pred)
mse = mean_squared_error(y_test,y_pred, squared=True)
rmse = mean_squared_error(y_test,y_pred, squared=False)

experiment['SVM'] = {'R2':r2, 'MAE':mae, 'MSE':mse, 'RMSE':rmse}

print('R2  :',r2)
print('MAE :',mae)
print('MSE :',mse)
print('RMSE:',rmse)

SVM foi inferior ao KNN e Regressão linear o R² foi de 47%

<a id="arv_decisao"></a>

# **Árvore de Decisão**

[Voltar para o Topo](#top)

In [None]:
from sklearn.tree import DecisionTreeRegressor

In [None]:
model4 = DecisionTreeRegressor(random_state=26)
model4.fit(X_train, y_train)

Avaliação

In [None]:
y_pred = model4.predict(X_test)

In [None]:
r2 = r2_score(y_test,y_pred)
mae = mean_absolute_error(y_test,y_pred)
mse = mean_squared_error(y_test,y_pred, squared=True)
rmse = mean_squared_error(y_test,y_pred, squared=False)

experiment['Decision Tree'] = {'R2':r2, 'MAE':mae, 'MSE':mse, 'RMSE':rmse}

print('R2  :',r2)
print('MAE :',mae)
print('MSE :',mse)
print('RMSE:',rmse)

Árvore de Decisão obteve um resultado similar à KNN, com R² de 96%.

<a id="forest"></a>

# **Random Forest**


[Voltar para o Topo](#top)

In [None]:
# regressor
from sklearn.ensemble import RandomForestRegressor

In [None]:
model5 = RandomForestRegressor(n_estimators=100, random_state=26)
model5.fit(X_train, y_train)

Avaliação

In [None]:
y_pred = model5.predict(X_test)

In [None]:
r2 = r2_score(y_test,y_pred)
mae = mean_absolute_error(y_test,y_pred)
mse = mean_squared_error(y_test,y_pred, squared=True)
rmse = mean_squared_error(y_test,y_pred, squared=False)

experiment['Random Forest'] = {'R2':r2, 'MAE':mae, 'MSE':mse, 'RMSE':rmse}

print('R2  :',r2)
print('MAE :',mae)
print('MSE :',mse)
print('RMSE:',rmse)

Random Forest obteve o melhor resultado até o momento, R² de 98%.

<a id="tabela"></a>

-----


# **Conclusão**

O melhor algoritmo apresentando foi a Random Forest com R² de 98%.
Com exceção do SVM cujo o R² foi de 47% os outros algoritmos teve bons resultados.

[Voltar para o Topo](#top)

In [None]:
pd.DataFrame(experiment).T