Este projeto refere-se a um exemplo de Regressão Linear Múltipla

**Definindo o Problema de Negócio**

O projeto a seguir tem como objetivo construir um modelo de Machine Learning que seja capaz de realizar previsões sobre o nível de pressão sonora (decibéis), em aerofólios bi e tridimensinos em um túnel de vento.

**Definindo o Dataset**

Para realizar tais previsões, utilizou-se uma base de dados da NASA, que foi obtida a partir de uma série de tesets aerondinâmicos e acústicos de seções da lâmina de aerofólio bidimensionais e tridimensionais realizadas em um túnel de vento anecóico.

A base de consiste em diferentes tamanhos de perfis aerodinâmicos NACA 0012 para uma variedade de velocidade e ângulos de ataque, é válido salientar que a extensão do aerofólio e a posição do observador foram mantidas constantes em todas as experiências.

A base estão disponível em:https://archive.ics.uci.edu/ml/datasets/airfoil+self-noise#

<br>
Características da Base de Dados:
<br>
<img src="Caracteristicas_Airfoil.jpg">

Informações dos Atributos:

*Inputs*
1. Frequency, in Hertzs
2. Angle of attack, in degrees
3. Chord length, in meters
4. Free-stream velocity, in meters per second
5. Suction side displacement thickness, in meters

*Output*

6. Scaled sound pressure level, in decibels

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import warnings
warnings.filterwarnings("ignore")

In [2]:
#Carregando dataset
arquivo = open('airfoil_self_noise.dat', 'r')
for linha in arquivo:
    print(linha)

arquivo.close()

800	0	0.3048	71.3	0.00266337	126.201

1000	0	0.3048	71.3	0.00266337	125.201

1250	0	0.3048	71.3	0.00266337	125.951

1600	0	0.3048	71.3	0.00266337	127.591

2000	0	0.3048	71.3	0.00266337	127.461

2500	0	0.3048	71.3	0.00266337	125.571

3150	0	0.3048	71.3	0.00266337	125.201

4000	0	0.3048	71.3	0.00266337	123.061

5000	0	0.3048	71.3	0.00266337	121.301

6300	0	0.3048	71.3	0.00266337	119.541

8000	0	0.3048	71.3	0.00266337	117.151

10000	0	0.3048	71.3	0.00266337	115.391

12500	0	0.3048	71.3	0.00266337	112.241

16000	0	0.3048	71.3	0.00266337	108.721

500	0	0.3048	55.5	0.00283081	126.416

630	0	0.3048	55.5	0.00283081	127.696

800	0	0.3048	55.5	0.00283081	128.086

1000	0	0.3048	55.5	0.00283081	126.966

1250	0	0.3048	55.5	0.00283081	126.086

1600	0	0.3048	55.5	0.00283081	126.986

2000	0	0.3048	55.5	0.00283081	126.616

2500	0	0.3048	55.5	0.00283081	124.106

3150	0	0.3048	55.5	0.00283081	123.236

4000	0	0.3048	55.5	0.00283081	121.106

5000	0	0.3048	55.5	0.00283081	119.606

6300	0	0.3048	55.5	0.00283

In [3]:
#Organizando os dados em um DataFrame e nomeando os colunas de acordo com a definição da base de dados
dados = pd.DataFrame( 
    [[float(token) for token in line.split()]  
        for line in open('airfoil_self_noise.dat') if line.strip()],
     columns = ['Frequency', 'Angle', 'Chord length', 'Free-stream velocity', 'Suction side displacement thickness', 'Scaled sound pressure level']
)

In [4]:
#Cabeçalho da base de dados
dados.head()

Unnamed: 0,Frequency,Angle,Chord length,Free-stream velocity,Suction side displacement thickness,Scaled sound pressure level
0,800.0,0.0,0.3048,71.3,0.002663,126.201
1,1000.0,0.0,0.3048,71.3,0.002663,125.201
2,1250.0,0.0,0.3048,71.3,0.002663,125.951
3,1600.0,0.0,0.3048,71.3,0.002663,127.591
4,2000.0,0.0,0.3048,71.3,0.002663,127.461


In [5]:
#Apresentado o tamanho da base de dados
print(dados.shape)

(1503, 6)


In [6]:
#Separando os valores de x e y, para trabalhar com regressão
x = dados.iloc[:,:-1]
y = dados['Scaled sound pressure level'].values

In [7]:
#Variáveis explanatórias, todas as variáveis serão utilizadas
x.head()

Unnamed: 0,Frequency,Angle,Chord length,Free-stream velocity,Suction side displacement thickness
0,800.0,0.0,0.3048,71.3,0.002663
1,1000.0,0.0,0.3048,71.3,0.002663
2,1250.0,0.0,0.3048,71.3,0.002663
3,1600.0,0.0,0.3048,71.3,0.002663
4,2000.0,0.0,0.3048,71.3,0.002663


In [8]:
x.shape

(1503, 5)

In [9]:
#Variável target
y

array([126.201, 125.201, 125.951, ..., 106.604, 106.224, 104.204])

In [10]:
#Divisão em dados de treino e de teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.2, random_state = 111)

In [11]:
print(x_treino.shape)
print(x_teste.shape)
print(y_treino.shape)
print(y_teste.shape)

(1202, 5)
(301, 5)
(1202,)
(301,)


In [12]:
#Criando o modelo de Regressão
modelo = LinearRegression(normalize=False, fit_intercept=True)

In [13]:
#Ajuste do modelo
model_fit = modelo.fit(x_treino, y_treino)

In [14]:
#Realiza a previsão do modelo com os dados de testes
previsao = model_fit.predict(x_teste)

In [15]:
#Apresenta os coeficientes do modelo
print("Coeficientes: \n", modelo.coef_)

Coeficientes: 
 [-1.29743024e-03 -4.46061038e-01 -3.65674836e+01  9.71095832e-02
 -1.40273274e+02]


In [16]:
#Calcula o erro médio quadrático
erro_medio_quad = mean_squared_error(y_teste, previsao)
print("Erro médio quadrático: ", erro_medio_quad)

Erro médio quadrático:  27.48723486697837


In [17]:
#Calculando a métrica R2 (coeficiente de determinação) do nosso modelo
coef_determ = r2_score(y_teste, previsao)
print(coef_determ)

0.47653161957482904


O coeficiente de determinação é uma medida útil para verificar a qualidade do ajuste por regressão, se próximo de 1, a regressão é considerada útil. Neste caso, o coeficiente de determinação não está próximo de 1. Sendo assim, a regressão não se apresenta útil para o problema, isso pode estar relacionado ao uso de todas as variáveis explonatórias.

**Referências Bibliográficas**

[1] Brooks,Thomas, Pope,D. & Marcolini,Michael. (2014). Airfoil Self-Noise. UCI Machine Learning Repository.

[2] ALPAYDIN, E. Introduction to machine learing. EUA: Massachusetts Institute of Technology, 2010.

[3] https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html