# PSI3471 - Entrega 01 
### Fernando Zolubas Preto - NUSP: 10694192
### Vinícius Melo de Souza - NUSP: 10772272
# Regressão Linear 

In [8]:
import pandas as pd
import numpy as np
import itertools

Neste exercício queremos prever o preço de carros do _"Used Cars Dataset"_ do site `Craiglist.org`.

No caso, os dados já foram limpos e filtrados para facilitar o entendimento e o andamento do exercício, para conseguirmos dar foco na utilização da técnica dos mínimos quadrados. Os dados limpos estão em um arquivo CSV que podemos puxar do site da disciplina. Este arquivo será importado através da biblioteca "Panda" do python que foi instalada no computador previamente.

Com esses dados, queremos criar um _"DataFrame"_ que estaremos chamando de __cars_data__, que irá conter esses dados do arquivo CSV. Neste _DataFrame_ estaremos gerando os arrays NumPy para calcular os parâmetros do modelo de regressão linear.

Temos essas 9 colunas que se referem à:

- __Price__: O preço do carro. É o dado que desejamos obter com o modelo.
- __Year__: Ano do carro.
- __Condition__: Variável categórica que indica a condição do carro. Pode ter os valores _good_, _fair_, _excellent_, _like new_, _salvage_, ou _new_.
- __Cylinders__: Variável categórica que indica o número de cilindros do motor. Pode ter os valores _4 cylinders_ ou _6 cylinders_.
- __Fuel__: Variável categórica que indica o combustível do carro. Pode ter os valores _gas_ ou _diesel_.
- __Odometer__: Valor registrado no odômetro, em milhas.
- __Transmission__: Variável categórica que indica o tipo de transmissão. Pode ter os valores _automatic_ ou _manual_.
- __Size__: Variável categórica que indica o tamanho do carro. Pode ter os valores _compact_, _mid-size_, _sub-compact_ ou _full-size_.
- __Type__:	Variável categórica que indica o tipo do carro. Pode ter os valores _sedan_, _coupe_, _wagon_, ou _hatchback_.


Para usar os dados categóricos de forma numérica iremos estar utilizando variáveis _dummy_.

E por fim, para obter o vetor "wo" vamos seguir os seguintes passos.

1. Selecionar o conjunto de variáveis originais que vocễ vai utilizar no modelo.
2. Substituir cada variável categórica de sua seleção por um conjunto de variáveis dummy, conforme descrito anteriormente.
3. Transformar as variáveis originais de sua seleção e / ou incluir combinações, caso julgue necessário;
4. A partir de sua seleção de dados, obter a matriz X e o vetor d, que podem ser representados como arrays do NumPy.
5. Usando a matriz X e o vetor d, calcular o vetor wo e o erro quadrático médio conforme mostrado na aula.

# Nossa solução

1. Função de regressão linear

In [9]:
def RL(d, d_teste, combination, combination_teste):

    # Calculo dos parametros para uma combinação
    # N representa o número de dados para o cálculo da RL
    N = d.shape[0]
    # X é a matriz dos dados
    X = np.hstack([np.ones((N, 1)), combination])
    # R é o produto das matrizes X.T e X
    R = X.T @ X
    # o vetor p é dado pelo produto entre a matriz X.T e o vetor d
    p = X.T @ d
    # Calcule a solução wo e o erro e
    wo = np.linalg.solve(R, p)
    e = d - X @ wo

    # Calculo da "previsão" utilizando o modelo
    # N representa o número de dados para o cálculo da RL
    N_teste = d_teste.shape[0]
    # X é a matriz dos dados
    X_teste = np.hstack([np.ones((N_teste, 1)), combination_teste])
    # previsoes e erros
    previsto = []
    erro = []
    accuracy = []
    # para cada linha do conjunto de teste
    for i in range(N):
        # extrai as features da linha i
        xTeste_i = X_teste[i, :]
        # calcula o valor predito pelo modelo
        y_pred_i = xTeste_i @ wo
        # calcula o erro em relação ao valor real
        e_i = d[i] - y_pred_i
        # salva nos vetores
        previsto.append(y_pred_i)
        erro.append(e_i)
        # imprime o valor predito, o valor real e o erro
        # print(f"Valor predito: {y_pred_i}, Valor real: {dTeste[i]}, Erro: {e_i}")
    # erro da combinacao
    mse = np.sqrt(np.mean(np.array(erro)**2))
    return mse

In [10]:
erro = [1,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3]

mse1 = np.sqrt(np.mean(np.array(erro)**2))
print(mse1)

erroVetor = np.array(erro)
mse2 = np.sqrt((erroVetor.T @ erroVetor)/len(erro))
print(mse2)

2.9554515522253144
2.9554515522253144


Com a função feita, podemos começar a trabalhar em cima dos DataFrames. Precisamos:

1. Importar os dataframes de treino e de teste (arquivos csv)
2. Substituir cada variável categórica de sua seleção por um conjunto de variáveis dummy, conforme descrito anteriormente.
3. Transformar as variáveis originais de sua seleção e / ou incluir combinações, caso julgue necessário;
4. A partir de sua seleção de dados, obter a matriz X e o vetor d, que podem ser representados como arrays do NumPy.

In [11]:
# CSV's de treino e de teste
cars_data = pd.read_csv("vehicles_cleaned_train.csv")
cars_data_teste = pd.read_csv("vehicles_cleaned_test.csv")

# Pegando variaveis categóricas e transformando em 'Dummy' para o DataFrame de treino e de teste
categorical_columns = ['condition', 'cylinders', 'fuel', 'transmission', 'size', 'type']

# Treino
X_train = pd.get_dummies(cars_data[categorical_columns])
X_train['fabrication'] = cars_data['year']
X_train['odometer'] = cars_data['odometer']

d_train = cars_data['price']

# Teste
X_test = pd.get_dummies(cars_data_teste[categorical_columns])
X_test['fabrication'] = cars_data_teste['year']
X_test['odometer'] = cars_data_teste['odometer']

d_test = cars_data_teste['price']


# Criando nossas variáveis para o DataFrame de treino e de teste
current_year = 2023
X_train['age'] = current_year - X_train['fabrication'] # Variável de 'idade' do carro
X_train['mileage_per_year'] = X_train['odometer'] / X_train['age'] # Variável de 'milhagem/idade' do carro

X_test['age'] = current_year - X_test['fabrication'] # Variável de 'idade' do carro
X_test['mileage_per_year'] = X_test['odometer'] / X_test['age'] # Variável de 'milhagem/idade' do carro

Pegando apenas N-1 variáveis Dummy. (N = Quantidade de categorias)

A função "pd.get_dummies" retorna todas as possíveis variáveis dummy. Contudo, precisamos de apenas N-1 variáveis dummy para cada variável categórica, já que consequentemente uma das categorias pode ser inferida como combinação linear das outras e, portanto, caso incluida no código, pode aumentar o tempo de execução de forma desnecessária:

In [12]:
# Reduzindo a quantidade de variaveis dummy em 1 conforme enunciado.
# Configurando o "indice" das colunas do dataframe
condition = [0,1,2,3,4] 
cylinders = [6]
fuel = [8]
transmission = [10]
size = [12,13,14]
carType = [16,17,18]
fabrication = [20]
odometer = [21]
age = [22] #Criamos
mileage_per_year = [23] #Criamos

# Vetor com todas as colunas possiveis no DataFrame organizadas por tipo
avaliabelVariablesIndexes = [condition,cylinders,fuel,transmission,size,carType,fabrication,odometer,age,mileage_per_year]

Para encontrar-mos o melhor modelo de regressão linear possível, queremos tentar todas as combinações possíveis entre as variáveis que possuimos, avaliar cada modelo pelo erro quadrático e então em tese encontraremos o melhor modelo possível com nossas variáveis escolhidas.

Para isso vamos primeiro criar todas as permutações possíveis:

In [13]:
# Criando todas as permutações possíveis entre as colunas do DataFrame
combinations = [] # É uma lista cujo i-ésimo elemento guarda os indices das colunas referentes a uma possível permutação
for i in range(2, len(avaliabelVariablesIndexes) + 1):
    for subset in itertools.combinations(avaliabelVariablesIndexes, i):
        combinations.append(list(itertools.chain.from_iterable(subset)))

Criado o vetor de combinações, podemos agora fazer a regressão linear para cada uma delas e encontrar o menor erro entre todos os modelos

In [14]:
# Chamando a regressão linear para cada uma das combinações possíveis
# Salvamos apenas quando uma regressão possui uma resposta 'melhor' que uma anterior
min_mse = np.inf
for i in range(len(combinations)-1):
    try:
        mse = RL(d_train, d_test, X_train.iloc[:, combinations[i]], X_test.iloc[:, combinations[i]])
        if mse < min_mse:
            print("Erro:", mse, "Feature Combo:", combinations[i])
            min_mse = mse
            combo_number = i
            best_features = list(combinations[i])
    except np.linalg.LinAlgError:
        continue

# Print do melhor resultado
print("Best feature combination: ", best_features)
print("Best feature number:", combo_number)
print("Minimum MSE: ", min_mse)

Erro: 6502.034286225783 Feature Combo: [0, 1, 2, 3, 4, 6]
Erro: 6494.847296015529 Feature Combo: [0, 1, 2, 3, 4, 12, 13, 14]
Erro: 6473.072876652844 Feature Combo: [0, 1, 2, 3, 4, 16, 17, 18]
Erro: 5674.534736076396 Feature Combo: [0, 1, 2, 3, 4, 20]
Erro: 5561.5156425879295 Feature Combo: [6, 20]
Erro: 5497.300199091951 Feature Combo: [0, 1, 2, 3, 4, 6, 20]
Erro: 5482.640855779111 Feature Combo: [6, 16, 17, 18, 20]
Erro: 5411.998593478732 Feature Combo: [6, 20, 21]
Erro: 5352.501867697852 Feature Combo: [0, 1, 2, 3, 4, 6, 20, 21]
Erro: 5340.326535734462 Feature Combo: [6, 16, 17, 18, 20, 21]
Erro: 5324.970943703699 Feature Combo: [0, 1, 2, 3, 4, 6, 10, 20, 21]
Erro: 5282.573249490226 Feature Combo: [0, 1, 2, 3, 4, 6, 16, 17, 18, 20, 21]
Erro: 5282.573249490223 Feature Combo: [0, 1, 2, 3, 4, 6, 16, 17, 18, 21, 22]
Erro: 5281.678581746517 Feature Combo: [0, 1, 2, 3, 4, 6, 8, 16, 17, 18, 20, 21]
Erro: 5281.678581746516 Feature Combo: [0, 1, 2, 3, 4, 6, 8, 16, 17, 18, 21, 22]
Erro: 5265.8