# Projeto: Análise e Previsão do Preço de Notebooks
***

# Parte 1: Importação e Limpeza dos Dados
***

#### 1. Importação das bibliotecas necessárias
- Importe todas as bibliotecas relevantes para o projeto, como `pandas`, `numpy`, `matplotlib`, `sklearn` e outras que forem pertinentes.
***

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_squared_error


#### 2. Carregamento dos dados
- Os dados a serem analisados serão obtidos a partir da base de dados `preco_notebooks.csv`, que contém informações diversas sobre notebooks, bem como o respectivo preço.
***

In [2]:
df = pd.read_csv('preco_notebooks.csv')


# Parte 2: Análise Exploratória de Dados (EDA)
***

#### 3. Análise descritiva
- Realize uma análise descritiva inicial dos dados, gerando estatísticas resumidas (média, mediana, moda, etc.), valores núlos...
***

In [3]:
df.head()

Unnamed: 0,marca,ano,qtd_nucleos,qtd_threads,ram,gpu_dedicada,ram_gpu,entradas_usb,duracao_bateria,resolucao_tela,tipo_tela,tela_touch,armazenamento_hdd,armazenamento_ssd,segmento,valor
0,xiaomi,2010.0,12,17,16,não,0,3,580.0,QUADHD,OLED,não,250,250,premium,24557
1,asus,,6,9,4,não,0,3,275.0,FULLHD,IPS,sim,0,2000,2em1,10644
2,huawei,2019.0,12,24,8,não,0,3,491.0,4K,OLED,,0,250,premium,19990
3,xiaomi,2015.0,4,5,8,não,0,2,516.0,QUADHD,OLED,não,0,2000,premium,15632
4,acer,2021.0,12,20,16,não,0,2,585.0,FULLHD,TN,não,0,250,ultraportatil,19781


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 16 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   marca              49650 non-null  object 
 1   ano                45253 non-null  float64
 2   qtd_nucleos        50000 non-null  int64  
 3   qtd_threads        50000 non-null  int64  
 4   ram                50000 non-null  int64  
 5   gpu_dedicada       50000 non-null  object 
 6   ram_gpu            50000 non-null  int64  
 7   entradas_usb       50000 non-null  int64  
 8   duracao_bateria    46613 non-null  float64
 9   resolucao_tela     50000 non-null  object 
 10  tipo_tela          50000 non-null  object 
 11  tela_touch         22572 non-null  object 
 12  armazenamento_hdd  50000 non-null  int64  
 13  armazenamento_ssd  50000 non-null  int64  
 14  segmento           50000 non-null  object 
 15  valor              50000 non-null  int64  
dtypes: float64(2), int64(8

In [5]:
df.describe()

Unnamed: 0,ano,qtd_nucleos,qtd_threads,ram,ram_gpu,entradas_usb,duracao_bateria,armazenamento_hdd,armazenamento_ssd,valor
count,45253.0,50000.0,50000.0,50000.0,50000.0,50000.0,46613.0,50000.0,50000.0,50000.0
mean,2016.517535,7.31024,10.97994,13.7638,1.21812,2.61608,344.437625,332.89,611.9625,15206.7803
std,4.024151,2.927621,5.069905,10.651768,2.331397,0.88615,191.848591,575.020313,646.814273,6110.432603
min,2010.0,2.0,2.0,2.0,0.0,1.0,30.0,0.0,0.0,2567.0
25%,2013.0,4.0,7.0,8.0,0.0,2.0,149.0,0.0,250.0,9766.75
50%,2017.0,8.0,10.0,12.0,0.0,3.0,418.0,0.0,250.0,15941.0
75%,2020.0,10.0,15.0,16.0,0.0,3.0,521.0,500.0,1000.0,20146.0
max,2023.0,12.0,24.0,64.0,12.0,4.0,600.0,2000.0,2000.0,28279.0


In [6]:
df.describe(include='O')

Unnamed: 0,marca,gpu_dedicada,resolucao_tela,tipo_tela,tela_touch,segmento
count,49650,50000,50000,50000,22572,50000
unique,11,2,4,5,2,8
top,lenovo,não,FULLHD,OLED,não,premium
freq,4582,37865,20602,15190,20705,19065


In [7]:
df.isnull().sum()


marca                  350
ano                   4747
qtd_nucleos              0
qtd_threads              0
ram                      0
gpu_dedicada             0
ram_gpu                  0
entradas_usb             0
duracao_bateria       3387
resolucao_tela           0
tipo_tela                0
tela_touch           27428
armazenamento_hdd        0
armazenamento_ssd        0
segmento                 0
valor                    0
dtype: int64

#### 4. Análise dos atributos dos notebooks
- Quais marcas tendem a ser mais caras?
***

# Parte 3: Pré-processamento de Dados
***

#### 5. Tratamento de dados núlos
- Verifique a presença de valores nulos nos dados e trate-os de maneira adequada.
***

In [8]:
for col in df.columns:
    if df[col].dtype == 'object':
        df[col].fillna(df[col].mode()[0], inplace=True)
    else:
        df[col].fillna(round(df[col].mean()), inplace=True)


In [9]:
df.isnull().sum()


marca                0
ano                  0
qtd_nucleos          0
qtd_threads          0
ram                  0
gpu_dedicada         0
ram_gpu              0
entradas_usb         0
duracao_bateria      0
resolucao_tela       0
tipo_tela            0
tela_touch           0
armazenamento_hdd    0
armazenamento_ssd    0
segmento             0
valor                0
dtype: int64

In [10]:
le = LabelEncoder()
categorical_features = df.select_dtypes(include=['object']).columns
for col in categorical_features:
    df[col] = le.fit_transform(df[col])


#### 6. Manipulação de variáveis categóricas
- Trate as variáveis categóricas presentes no dataset (colunas do tipo object), como a `marca` e `segmento`. Utilize a função `.loc` do pandas ou o `LabelEncoder` do sklearn.
***

In [11]:
scaler = MinMaxScaler()
numerical_features = df.select_dtypes(include=['int64', 'float64']).columns
df[numerical_features] = scaler.fit_transform(df[numerical_features])

#### 7. Normalização dos dados
- Separe os dados em recursos (X) e alvo (y), sendo o preço do notebook o alvo.
- Normalizar o X utilizando a função `MinMaxScaler` do sklearn.
- Normalizar o y utilizando a função `MinMaxScaler` do sklearn.
***

In [12]:
X = df.drop('valor', axis=1)
y = df[['valor']]

scaler_features = MinMaxScaler()
X = scaler_features.fit_transform(X)

scaler_target = MinMaxScaler()
y = scaler_target.fit_transform(y)

#### 8. Separação dos dados
- Divida o conjunto de dados em uma parte para treinamento e outra para teste (30%).

***

In [13]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Parte 4: Modelagem e Avaliação
***

#### 9. Treinamento de um algoritmo (modelo) de machine learning
- Desenvolva e treine um algoritmo simples.
***

In [14]:
model = MLPRegressor(hidden_layer_sizes=(10,10), max_iter=1000, random_state=42)
model.fit(X_train, y_train)

  y = column_or_1d(y, warn=True)


#### 10. Avaliação do modelo
- Após o treinamento, avalie o desempenho do seu modelo. Utilize o conjunto de teste para isso e calcule métricas de avaliação apropriadas.
***

In [15]:
y_pred = model.predict(X_test)
y_pred = y_pred.reshape(-1, 1)


y_test = scaler_target.inverse_transform(y_test)
y_pred = scaler_target.inverse_transform(y_pred)

mse = mean_squared_error(y_test, y_pred)

print('MSE: ', mse)

MSE:  0.009431129010921557
