<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Linear-Regression" data-toc-modified-id="Linear-Regression-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Linear Regression</a></span><ul class="toc-item"><li><span><a href="#Simulando-dados" data-toc-modified-id="Simulando-dados-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Simulando dados</a></span><ul class="toc-item"><li><span><a href="#Construindo-modelo" data-toc-modified-id="Construindo-modelo-1.1.1"><span class="toc-item-num">1.1.1&nbsp;&nbsp;</span>Construindo modelo</a></span><ul class="toc-item"><li><span><a href="#Com-statsmodels" data-toc-modified-id="Com-statsmodels-1.1.1.1"><span class="toc-item-num">1.1.1.1&nbsp;&nbsp;</span>Com statsmodels</a></span></li><li><span><a href="#Com-SKLEARN" data-toc-modified-id="Com-SKLEARN-1.1.1.2"><span class="toc-item-num">1.1.1.2&nbsp;&nbsp;</span>Com SKLEARN</a></span></li></ul></li></ul></li><li><span><a href="#Com-dados-reais" data-toc-modified-id="Com-dados-reais-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Com dados reais</a></span><ul class="toc-item"><li><span><a href="#Atrasos-na-OLIST" data-toc-modified-id="Atrasos-na-OLIST-1.2.1"><span class="toc-item-num">1.2.1&nbsp;&nbsp;</span>Atrasos na OLIST</a></span></li><li><span><a href="#Elasticidade-da-importação-de-livros" data-toc-modified-id="Elasticidade-da-importação-de-livros-1.2.2"><span class="toc-item-num">1.2.2&nbsp;&nbsp;</span>Elasticidade da importação de livros</a></span></li></ul></li></ul></li><li><span><a href="#Multiple-Linear-Regression" data-toc-modified-id="Multiple-Linear-Regression-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Multiple Linear Regression</a></span><ul class="toc-item"><li><span><a href="#Simulando-Dados" data-toc-modified-id="Simulando-Dados-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Simulando Dados</a></span></li></ul></li></ul></div>

In [None]:
import psycopg2, random
import numpy as np
import seaborn as sns
import pandas as pd
from matplotlib import pyplot as plt
from sqlalchemy import create_engine


engine = create_engine('postgresql+psycopg2://ironhack:123456@localhost:5432/ironhack')

# Linear Regression

In [None]:
from sklearn.linear_model import LinearRegression
import statsmodels.formula.api as smf

## Simulando dados

In [None]:
def simular_dado(media_X, desvpad_X, 
                 desvpad_E, A, B, 
                 samples):
    x = np.random.normal(loc = media_X, scale = desvpad_X, size = samples)
    E = np.random.normal(loc = 0, scale = desvpad_E, size = samples)
    y = A * x + E
    return pd.DataFrame({'x' : x, 'y' : y})

In [None]:
teste = simular_dado(media_X = 0, desvpad_X = 1, 
                     desvpad_E = 1, A = 1, B = 0, 
                     samples = 100)

In [None]:
sns.pairplot(data = teste, diag_kind = 'kde', kind = 'reg',
            height = 4)

### Construindo modelo

#### Com statsmodels

In [None]:
import statsmodels.api as sm

In [None]:
X = sm.add_constant(teste['x'])

In [None]:
Y = teste['y']

In [None]:
modelo = sm.OLS(Y, X)

In [None]:
lm_fit = modelo.fit()

In [None]:
lm_fit.summary()

In [None]:
def estimar_lm(data):
    X = sm.add_constant(data['x'])
    Y = data['y']
    modelo = sm.OLS(Y, X)
    lm_fit = modelo.fit()
    return lm_fit

In [None]:
teste_1 = simular_dado(media_X=0,
                       desvpad_X=1,
                       desvpad_E=1,
                       A=1,
                       B=0,
                       samples=100)

teste1_fit = estimar_lm(teste_1)
sns.pairplot(data = teste_1, diag_kind = 'kde', kind = 'reg',
            height = 4)
print(teste1_fit.summary())

In [None]:
teste_1['pred'] = teste1_fit.predict()

In [None]:
sns.scatterplot(data=teste_1, x = 'x', y = 'y')
sns.lineplot(data=teste_1, x = 'x', y = 'pred', color = 'red')

#### Com SKLEARN

In [None]:
from sklearn.linear_model import LinearRegression

```python
teste_1 = simular_dado(media_X=0,
                       desvpad_X=1,
                       desvpad_E=1,
                       A=1,
                       B=0,
                       samples=100)
```

In [None]:
modelo = LinearRegression()

In [None]:
X = teste_1[['x']]
Y = teste_1['y']

In [None]:
modelo.fit(X, Y)

In [None]:
modelo.coef_

In [None]:
modelo.intercept_

In [None]:
teste_1['pred'] = modelo.predict(X)

In [None]:
teste_1

In [None]:
sns.scatterplot(data=teste_1, x = 'x', y = 'y')
sns.lineplot(data=teste_1, x = 'x', y = 'pred', color = 'red')

## Com dados reais

### Atrasos na OLIST

In [None]:
query_atraso_itens = '''
SELECT
	date(c1.order_purchase_timestamp) AS data_pedido,
	c1.status_atraso,
	CASE WHEN c1.seller_state = c1.customer_state THEN 'MESMO_ESTADO'
		 ELSE 'OUTRO_ESTADO' END AS tipo_entrega,
	count(*) AS num_itens
FROM
	ironhack.olist_db.case_1 c1
WHERE
	c1.order_purchase_timestamp > '2017-01-01'
GROUP BY
	data_pedido,
	status_atraso,
	tipo_entrega
ORDER BY
	status_atraso,
	data_pedido,
	tipo_entrega;
'''
tb_itens_atraso = pd.read_sql_query(query_atraso_itens, engine)
tb_itens_atraso_pt = tb_itens_atraso.pivot_table(
    values='num_itens',
    index=['data_pedido', 'tipo_entrega'],
    columns='status_atraso',
    fill_value=0).reset_index()
tb_itens_atraso_pt_f = tb_itens_atraso_pt[tb_itens_atraso_pt['ONTIME'] < 350]
tb_itens_atraso_pt_f = tb_itens_atraso_pt_f[tb_itens_atraso_pt_f['ONTIME'] > 50]
tb_itens_atraso_pt_f = tb_itens_atraso_pt_f[tb_itens_atraso_pt_f['ATRASADO'] > 0]
sns.scatterplot(data=tb_itens_atraso_pt_f, x='ONTIME', y='ATRASADO', hue = 'tipo_entrega', alpha = 0.3)

In [None]:
tb_oe = tb_itens_atraso_pt_f[tb_itens_atraso_pt_f['tipo_entrega'] == 'OUTRO_ESTADO']

In [None]:
X = sm.add_constant(tb_oe['ONTIME'])
Y = tb_oe['ATRASADO']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

In [None]:
tb_me = tb_itens_atraso_pt_f[tb_itens_atraso_pt_f['tipo_entrega'] == 'MESMO_ESTADO']
X = sm.add_constant(tb_me['ONTIME'])
Y = tb_me['ATRASADO']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

In [None]:
RMSE = np.sqrt(np.mean([residual**2 for residual in lm_fit.resid]))

In [None]:
RMSE

###  Elasticidade da importação de livros

In [None]:
query_livros = '''
SELECT
    tbsh2.*
FROM
    ironhack.comex_db.tb_sh2_impexp tbsh2
WHERE
    tbsh2.co_sh2 = '49'
'''
tb_livros = pd.read_sql_query(query_livros, engine)

In [None]:
tb_livros.head()

In [None]:
sns.scatterplot(data = tb_livros, x = 'cambio', y = 'vl_fob_imp')

In [None]:
tb_livros['log_vl_imp'] = np.log(tb_livros['vl_fob_imp'])
tb_livros['log_cambio'] = np.log(tb_livros['cambio'])

In [None]:
sns.pairplot(tb_livros[['cambio', 'log_cambio', 'log_vl_imp', 'vl_fob_imp']])

In [None]:
X = sm.add_constant(tb_livros['log_cambio'])
Y = tb_livros['log_vl_imp']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

In [None]:
pred_df = pd.DataFrame({'cambio' : np.linspace(0.5, 10, 100)})

In [None]:
pred_df['log_cambio'] = np.log(pred_df['cambio'])

In [None]:
modelo = LinearRegression()
X = tb_livros[['log_cambio']]
Y = tb_livros['log_vl_imp']
modelo.fit(X, Y)

In [None]:
pred_df['pred_log_vl_imp'] = modelo.predict(pred_df[['log_cambio']])

In [None]:
pred_df

In [None]:
pred_df['pred_vl_imp'] = np.exp(pred_df['pred_log_vl_imp'])

In [None]:
pred_df

In [None]:
sns.scatterplot(data = pred_df, x = 'cambio', y = 'pred_vl_imp');

# Multiple Linear Regression

## Simulando Dados

In [None]:
def simular_dado_mv(parametros_x1, parametros_x2, desvpad_E, samples):
    x1 = np.random.normal(loc=parametros_x1[0],
                          scale=parametros_x1[1],
                          size=samples)
    x2 = np.random.normal(loc=parametros_x2[0],
                          scale=parametros_x2[1],
                          size=samples)
    E = np.random.normal(loc=0, scale=desvpad_E, size=samples)
    y = parametros_x1[2] * x1 + parametros_x2[2] * x2 + E
    return pd.DataFrame({'x1': x1, 'x2': x2, 'y': y})

In [None]:
simular_dado_mv((2, 5, 10), (10, 8, 5), 12, 100)

In [None]:
teste_mv = simular_dado_mv((0, 1, 10), (0, 1, 5), 2, 100)
sns.pairplot(teste_mv)

In [None]:
X = sm.add_constant(teste_mv[['x1', 'x2']])
Y = teste_mv['y']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

In [None]:
modelo = LinearRegression()
X = teste_mv[['x1', 'x2']]
Y = teste_mv['y']
modelo.fit(X, Y)
print(modelo.coef_)
print(modelo.intercept_)

In [None]:
teste_mv['pred'] = modelo.predict(teste_mv[['x1', 'x2']])

In [None]:
sns.pairplot(teste_mv)

In [None]:
import plotly.express as px
px.scatter_3d(teste_mv, x='x1', y='x2', z='y')

In [None]:
import plotly.graph_objects as go
fig = go.Figure(data=[go.Mesh3d(x=teste_mv['x1'], y=teste_mv['x2'], z=teste_mv['pred'], color='lightpink', opacity=0.50)])
fig.show()

In [None]:
def simular_dado_mv_cat(parametros_x1, categorias_dict, desvpad_E, samples):
    x1 = np.random.normal(loc=parametros_x1[0],
                          scale=parametros_x1[1],
                          size=samples)
    cat = random.choices(list(categorias_dict.keys()), k = samples)
    eff_cat = list(map(lambda x: categorias_dict[x], cat))
    E = np.random.normal(loc=0, scale=desvpad_E, size=samples)
    y = parametros_x1[2] * x1 + eff_cat + E
    return pd.DataFrame({'x1': x1, 'categoria': cat, 'y': y})

In [None]:
teste_mv_cat = simular_dado_mv_cat((0, 1, 5), {'A' : 1, 'B' : 5, 'C' : 10}, 1, 100)

In [None]:
sns.boxplot(data = teste_mv_cat, x = 'categoria', y = 'y');

In [None]:
sns.scatterplot(data = teste_mv_cat, x = 'x1', y = 'y', hue = 'categoria');

In [None]:
pd.get_dummies(teste_mv_cat['categoria'])

In [None]:
teste_mv_cat.join(pd.get_dummies(teste_mv_cat['categoria']))

In [None]:
teste_mv_cat = teste_mv_cat.join(pd.get_dummies(teste_mv_cat['categoria']))

In [None]:
X = sm.add_constant(teste_mv_cat[['x1', 'A' , 'B', 'C']])
Y = teste_mv_cat['y']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

In [None]:
X = sm.add_constant(teste_mv_cat[['x1', 'B', 'C']])
Y = teste_mv_cat['y']
modelo = sm.OLS(Y, X)
lm_fit = modelo.fit()
lm_fit.summary()

In [None]:
teste_mv_cat['pred'] = lm_fit.predict()