Vamos, a partir de um arquivo csv criado com numpy e pandas, responder 6 perguntas sobre loja online.

O arquivo tem a sequinte estrutura:

1450 linhas e 7 colunas: 
<ul style="list_style_type:none">
<li>ClientAge</li>
<li>WebVisits</li>
<li>BrowsingTime</li>
<li>ItemsPurchased</li>
<li>TotalSpent</li>
<li>StoreRating</li>
<li>DeliveryTime (dias)</li> 
</ul>


1. Previsão de Vendas Futuras:
Como as vendas da loja online se correlacionam com a idade dos clientes, o número de visitas ao site, o tempo de navegação, etc.? 

É possível usar a regressão para prever as vendas futuras com base nessas variáveis.

Primeiro, vamos criar um arquivo csv com dados fictícios usando numpy e pandas.

In [1]:
import pandas as pd
import numpy as np

In [2]:
# Definindo o número de linhas e colunas
num_linhas = 1500

# Criando dados aleatórios para cada coluna
np.random.seed(42)

ClientAge = np.random.randint(18, 80, num_linhas)
WebVisits = ClientAge + np.random.randint(-5, 5, num_linhas)
BrowsingTime = 300 - WebVisits * 2 + np.random.randint(-10, 10, num_linhas)
ItemsPurchased = WebVisits // 5 + np.random.randint(-3, 3, num_linhas)
TotalSpent = WebVisits * 15 + np.random.randint(-50, 50, num_linhas)
StoreRating = np.random.randint(1, 5, num_linhas)
DeliveryTime = 10 - StoreRating + np.random.randint(-2, 2, num_linhas)


data = {
    'ClientAge': ClientAge,
    'WebVisits': WebVisits,
    'BrowsingTime': BrowsingTime,
    'ItemsPurchased': ItemsPurchased,
    'TotalSpent': TotalSpent,
    'StoreRating': StoreRating,
    'DeliveryTime': DeliveryTime
}

# Criando o DataFrame
df = pd.DataFrame(data)

# Salvando o DataFrame em um arquivo csv
df.to_csv('dados_vendas.csv', index=False)

In [3]:
# Carregando os dados
df = pd.read_csv('dados_vendas.csv')
df.head()

Unnamed: 0,ClientAge,WebVisits,BrowsingTime,ItemsPurchased,TotalSpent,StoreRating,DeliveryTime
0,56,52,201,7,755,1,7
1,69,66,162,11,962,2,8
2,46,43,223,8,637,1,9
3,32,30,239,7,476,4,4
4,60,58,191,9,847,3,7


In [4]:
df.shape

(1500, 7)

In [5]:
df.isna().sum()

ClientAge         0
WebVisits         0
BrowsingTime      0
ItemsPurchased    0
TotalSpent        0
StoreRating       0
DeliveryTime      0
dtype: int64

In [6]:
df.dtypes

ClientAge         int64
WebVisits         int64
BrowsingTime      int64
ItemsPurchased    int64
TotalSpent        int64
StoreRating       int64
DeliveryTime      int64
dtype: object

In [7]:
# Resumo estatístico
df.describe()

Unnamed: 0,ClientAge,WebVisits,BrowsingTime,ItemsPurchased,TotalSpent,StoreRating,DeliveryTime
count,1500.0,1500.0,1500.0,1500.0,1500.0,1500.0,1500.0
mean,49.135333,48.596,202.268,8.914,728.078,2.456667,7.060667
std,18.140794,18.273608,36.87657,4.041472,276.814359,1.109178,1.569701
min,18.0,13.0,126.0,0.0,176.0,1.0,4.0
25%,34.0,33.0,173.0,6.0,498.75,1.0,6.0
50%,49.5,49.0,202.0,9.0,728.5,2.0,7.0
75%,65.0,64.0,233.0,12.0,961.25,3.0,8.0
max,79.0,83.0,280.0,18.0,1277.0,4.0,10.0


PERGUNTA:

Como as vendas da loja online se correlacionam com a idade dos clientes, o número de visitas ao site, o tempo de navegação, etc.? 

Vamos usar a regressão linear múltipla para fazer previsões de vendas

In [8]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score, mean_squared_error

REGRESSÃO LINEAR MÚLTIPLA

 -> Definir as variáveis independentes (X) e a dependente(y)

In [9]:
X = df[['ClientAge', 'WebVisits', 'BrowsingTime']]
y = df['TotalSpent']

-> Separação entre treino (80%) e teste(20%)

In [10]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

-> Criar e treinar o modelo

In [11]:
linear_model = LinearRegression()
linear_model.fit(X_train, y_train)

LinearRegression()

-> Previsões com o conjunto de teste

In [12]:
linear_model_pred = linear_model.predict(X_test)

-> Avaliação do modelo

In [13]:
mse = mean_squared_error(y_test, linear_model_pred)
r2 = r2_score(y_test, linear_model_pred)

print(f'Erro Médio Quadrático: {mse:.2f}')
print(f'R²: {r2:.2f}')

Erro Médio Quadrático: 806.10
R²: 0.99


RANDOM FOREST

In [14]:
from sklearn.ensemble import RandomForestRegressor

In [15]:
rnd_forest = RandomForestRegressor(n_estimators=150, random_state=5)
rnd_forest.fit(X_train, y_train)

RandomForestRegressor(n_estimators=150, random_state=5)

In [16]:
previsoes = rnd_forest.predict(X_test)

In [17]:
erro_medio_quadratico = mean_squared_error(y_test, previsoes)
r2 = r2_score(y_test, previsoes)

print('Erro Médio Quadrático:', erro_medio_quadratico)
print('R^2:', r2)

Erro Médio Quadrático: 997.9656181779966
R^2: 0.9870310744019939


Previsão com dados novos


In [32]:
# Crie um DataFrame com novos dados para previsão
novos_dados = pd.DataFrame({
    'ClientAge': [45, 50, 35, 60],
    'WebVisits': [30, 40, 25, 45],
    'BrowsingTime': [150, 120, 180, 100],
    'ItemsPurchased': [10, 15, 8, 20],
    'StoreRating': [4, 5, 3, 4],
    'DeliveryTime': [5, 6, 4, 5],
    'TotalSpent': [0, 0, 0,0]
})

# Preencha as previsões de TotalSpent usando o modelo de Regressão Linear
previsoes_reg_linear = linear_model.predict(novos_dados[['ClientAge', 'WebVisits', 'BrowsingTime'
]])

# Preencha as previsões de TotalSpent usando o modelo de Random Forest
previsoes_random_forest = rnd_forest.predict(novos_dados[['ClientAge', 'WebVisits', 'BrowsingTime'
]])

# Adicione as previsões ao DataFrame novos_dados
novos_dados['TotalSpent_RegLinear'] = previsoes_reg_linear
novos_dados['TotalSpent_RandomForest'] = previsoes_random_forest

# Exiba o DataFrame com as previsões
print(novos_dados)


   ClientAge  WebVisits  BrowsingTime  ItemsPurchased  StoreRating  \
0         45         30           150              10            4   
1         50         40           120              15            5   
2         35         25           180               8            3   
3         60         45           100              20            4   

   DeliveryTime  TotalSpent  TotalSpent_RegLinear  TotalSpent_RandomForest  
0             5           0            446.238852               470.000000  
1             6           0            599.606580               585.366667  
2             4           0            372.514019               350.926667  
3             5           0            672.782540               669.345333  


CONCLUSÃO

Com base nos resultados obtidos com os modelos de regressão linear e Random Forest, podemos concluir que há uma forte correlação entre as vendas da loja online e as variáveis como idade dos clientes, número de visitas ao site, tempo de navegação, etc. Ambos os modelos apresentam um ajuste muito bom aos dados, com valores elevados de 
R², indicando que a maioria da variabilidade nas vendas pode ser explicada por essas variáveis.

A idade dos clientes, número de visitas ao site, tempo de navegação e outras variáveis incluídas no modelo mostram uma relação linear forte e positiva com as vendas da loja online. Isso significa que à medida que essas variáveis aumentam, as vendas da loja também tendem a aumentar de maneira consistente, de acordo com os padrões presentes nos dados simulados.

Em resumo, os resultados dos modelos sugerem que as vendas da loja online estão positivamente correlacionadas com a idade dos clientes, número de visitas ao site, tempo de navegação e outras variáveis incluídas no conjunto de dados.