<a href="https://colab.research.google.com/github/onecio/Projeto_T3_KNN/blob/main/ProjetoT3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Projeto T3 - KNN**

In [55]:
# Importação das bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [56]:
# importação dos dados
data = pd.read_csv('insta.csv')

In [None]:
# Visualização das primeiras linhas
print(data.head())

# Informações resumidas sobre os dados
print(data.describe())

# Verificação dos tipos de dados
print(data.dtypes)

# Análise de correlação
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True)
plt.show()

# Visualização da distribuição das variáveis numéricas
numeric_columns = data.select_dtypes(include=['number'])
sns.pairplot(numeric_columns)
plt.show()

In [None]:
# Tratamento de valores ausentes
data.dropna(inplace=True)

# Transformação da coluna 'country' em faixas numéricas
data['country'] = data['country'].replace({'América do Sul': 1, 'América do Norte': 2, 'Europa': 3,
                                          'Ásia': 4, 'Oceania': 5, 'África': 6})

# Normalização dos dados
scaler = StandardScaler()
numeric_cols = ['followers', 'avg_likes', 'total_likes']
data[numeric_cols] = scaler.fit_transform(data[numeric_cols])

# Definição das variáveis independentes (X) e dependente (y)
X = data.drop(['rank', 'influence_score'], axis=1)
y = data['influence_score']

In [60]:
# Divisão dos Dados em Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Criação do modelo kNN
knn = KNeighborsRegressor()

# Definição dos parâmetros a serem otimizados
param_grid = {'n_neighbors': np.arange(1, 21), 'metric': ['euclidean', 'manhattan']}

# Utilização de GridSearchCV para encontrar os melhores parâmetros
grid = GridSearchCV(knn, param_grid, cv=5)
grid.fit(X_train, y_train)

# Melhor modelo
print(grid.best_params_)

In [None]:
# Previsões com o melhor modelo
y_pred = grid.best_estimator_.predict(X_test)

# Métricas de avaliação
print('MAE:', mean_absolute_error(y_test, y_pred))
print('MSE:', mean_squared_error(y_test, y_pred))
print('RMSE:',
np.sqrt(mean_squared_error(y_test, y_pred)))

In [None]:
# Gráfico de dispersão de followers vs avg_likes
sns.scatterplot(x='followers', y='avg_likes', data=data)
plt.show()

# Gráfico de barras comparando rank com influence_score
sns.barplot(x='rank', y='influence_score', data=data)
plt.show()