## Cria as Funções para a N possibilidades da Regressão Linear


In [7]:
import pandas as pd
import seaborn as sns
import itertools
import statsmodels.api as sm

In [12]:
import pandas as pd
import numpy as np

# Definindo o número de clientes
num_clientes = 10000

# Criando os dados aleatórios
clientes = ['cliente ' + str(i) for i in range(1, num_clientes + 1)]
valores = np.random.randint(10, 5001, size=num_clientes)  # Valores aleatórios de 50 a 10000

# Criando o DataFrame
df = pd.DataFrame({'cliente': clientes, 'valor': valores})

# Adicionando uma nova coluna com letras aleatórias de A até Z
df['letra'] = np.random.choice(list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'), size=num_clientes)

# Adicionando a coluna 'Gasto' com valores de 3% a 8% da coluna 'Valor'
df['gasto'] = df['valor'] * np.random.uniform(0.03, 0.15, size=num_clientes)

# Adicionando o ITC
df['itc'] = df['valor'] * np.random.uniform(0.4, 0.8, size=num_clientes)

# Adicionando o MDR 
df['mdr'] = df['valor'] * np.random.uniform(0.005, 0.06, size=num_clientes)

# Mostrando as primeiras linhas do DataFrame
print(df.head())


     cliente  valor letra       gasto          itc         mdr
0  cliente 1   1586     Z  183.980885   984.518951   68.611215
1  cliente 2   4944     Q  261.453902  2525.505616  135.356355
2  cliente 3   2149     D  226.846698  1367.436672  112.707719
3  cliente 4   3563     A  296.044422  2648.610592   44.648588
4  cliente 5   2433     U  221.547445  1191.942710  122.589603


In [13]:
# Retirando a coluna cliente...
df = df.drop('cliente', axis=1)

In [14]:
df

Unnamed: 0,valor,letra,gasto,itc,mdr
0,1586,Z,183.980885,984.518951,68.611215
1,4944,Q,261.453902,2525.505616,135.356355
2,2149,D,226.846698,1367.436672,112.707719
3,3563,A,296.044422,2648.610592,44.648588
4,2433,U,221.547445,1191.942710,122.589603
...,...,...,...,...,...
9995,958,N,134.485043,548.321087,20.389549
9996,2260,A,95.740517,1154.068747,128.130852
9997,2983,I,140.140311,1999.487474,49.208949
9998,4100,C,572.351868,2317.367377,108.305497


In [15]:
# Remover linhas com valores ausentes para simplificar
df = df.dropna()

# Identificar as variáveis categóricas
categorical_cols = df.select_dtypes(include=['category', 'object']).columns.tolist()

# Variável dependente e independentes para regressão
y_col = 'mdr'  # Variável dependente (exemplo)
x_cols = ['valor', 'gasto', 'itc']  # Variáveis independentes (exemplo)

# DataFrame para armazenar os coeficientes
results_df = pd.DataFrame()

# Gerar todas as combinações de variáveis categóricas
for r in range(1, len(categorical_cols) + 1):
    for comb in itertools.combinations(categorical_cols, r):
        # Filtrar DataFrame por combinação de categorias
        grouped = df.groupby(list(comb))

        for group_name, group_data in grouped:
            # Adicionar constante para o modelo de regressão
            X = sm.add_constant(group_data[x_cols])
            y = group_data[y_col]

            # Ajustar o modelo de regressão linear
            model = sm.OLS(y, X).fit()

            # Extrair coeficientes e adicionar ao DataFrame de resultados
            coef_df = model.params.reset_index()
            coef_df.columns = ['variable', 'coefficient']
            coef_df['combination'] = ', '.join(comb)
            coef_df['group'] = str(group_name)

            results_df = pd.concat([results_df, coef_df], ignore_index=True)

# Exibir os primeiros resultados
print(results_df.head())


  variable  coefficient combination   group
0    const     4.167970       letra  ('A',)
1    valor     0.029725       letra  ('A',)
2    gasto     0.005031       letra  ('A',)
3      itc    -0.000294       letra  ('A',)
4    const     0.016638       letra  ('B',)


In [16]:
results_df.to_excel('modelos preço.xlsx')

In [None]:
import os

# Verifica o diretório de trabalho atual
print(os.getcwd())


In [6]:
# Altera o diretório de trabalho para um caminho desejado
os.chdir(f'C:\Python')
