# Com UF, sem Contribuição

In [7]:
import pandas as pd
import statsmodels.api as sm
import numpy as np

# Carregar os dados
tcc_data = pd.read_csv("dadosTCC_final.csv")

# Preparar variáveis dependentes e independentes
dependent_var = tcc_data['Valor Desembolsado em Reais']
df_dummy = tcc_data.drop(columns=['Contribuição do UF ao PIB Nacional (%)', 'Proporção do Valor Setorial ao PIB do UF','Natureza', 'Ano', 'Cliente', 'Valor Desembolsado em Reais', 'Subsetor CNAE Agrupado', 'Instituição Financeira Credenciada', 'Valor da Operação em R$'])

# Criar variáveis dummy para dados categóricos
df_dummy = pd.get_dummies(df_dummy)

# Remover qualquer linha com NaN e converter para tipo numérico
df_dummy = df_dummy.dropna().astype(float)

# Aplicar a transformação exponencial nas variáveis independentes
df_dummy = np.exp(df_dummy)  # Eleva e à potência dos valores em df_dummy

# Adicionar coluna constante para intercepto
df_dummy = sm.add_constant(df_dummy)  # Adiciona uma coluna constante para o intercepto

# Garantir que dependent_var está alinhada com df_dummy
tcc_data = tcc_data.loc[df_dummy.index]
dependent_var = tcc_data['Valor Desembolsado em Reais']

# Aplicar a transformação logarítmica na variável dependente, garantindo que não há valores zero ou negativos
dependent_var = np.log(dependent_var + 1)  # Usando log(x + 1) para lidar com valores zero

# Resetar índices para garantir alinhamento
dependent_var = dependent_var.reset_index(drop=True)
df_dummy = df_dummy.reset_index(drop=True)

# Criar o modelo de regressão OLS
model = sm.OLS(dependent_var, df_dummy)

# Ajustar o modelo
results = model.fit()

# Salvando os resultados em um csv
tables = results.summary().tables
dataframes = [pd.DataFrame(table[1:], columns=table[0]) for table in tables]

csv_path = 'log_regTCC_sem_Contribuicao_com_UF.csv'

with open(csv_path, 'w') as f:
    for i, df in enumerate(dataframes):
        f.write(f"\nTable {i + 1}: {results.summary().extra_txt[i].strip()}\n")
        df.to_csv(f, index=False)
        f.write('\n')

# Exibir resumo do modelo
results.summary()


0,1,2,3
Dep. Variable:,Valor Desembolsado em Reais,R-squared:,0.279
Model:,OLS,Adj. R-squared:,0.276
Method:,Least Squares,F-statistic:,94.27
Date:,"Wed, 29 May 2024",Prob (F-statistic):,0.0
Time:,14:25:14,Log-Likelihood:,-11809.0
No. Observations:,7080,AIC:,23680.0
Df Residuals:,7050,BIC:,23880.0
Df Model:,29,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,3.641e+11,6.55e+11,0.556,0.578,-9.19e+11,1.65e+12
UF_Acre,-0.7665,1.058,-0.725,0.469,-2.840,1.307
UF_Alagoas,-0.6573,0.819,-0.802,0.423,-2.264,0.949
UF_Amazonas,-0.0452,0.758,-0.060,0.953,-1.532,1.442
UF_Bahia,-0.4448,0.751,-0.592,0.554,-1.918,1.028
UF_Ceará,-0.7075,0.750,-0.943,0.346,-2.178,0.763
UF_Espírito Santo,-0.5676,0.752,-0.755,0.450,-2.041,0.906
UF_Goiás,-0.9259,0.773,-1.198,0.231,-2.441,0.589
UF_Mato Grosso,-0.9871,0.765,-1.290,0.197,-2.487,0.512

0,1,2,3
Omnibus:,0.3,Durbin-Watson:,1.468
Prob(Omnibus):,0.861,Jarque-Bera (JB):,0.274
Skew:,0.013,Prob(JB):,0.872
Kurtosis:,3.017,Cond. No.,4750000000000000.0


# Sem UF, com contribuição

In [9]:
import pandas as pd
import statsmodels.api as sm
import numpy as np

# Carregar os dados
tcc_data = pd.read_csv("dadosTCC_final.csv")

# Preparar variáveis dependentes e independentes
dependent_var = tcc_data['Valor Desembolsado em Reais']
df_dummy = tcc_data.drop(columns=['UF', 'Ano', 'Cliente', 'Natureza', 'Valor Desembolsado em Reais', 'Subsetor CNAE Agrupado', 'Instituição Financeira Credenciada', 'Valor da Operação em R$'])

# Criar variáveis dummy para dados categóricos
df_dummy = pd.get_dummies(df_dummy)

# Remover qualquer linha com NaN e converter para tipo numérico
df_dummy = df_dummy.dropna().astype(float)  # Assegura que todos os dados são float

# Aplicar a transformação exponencial nas variáveis independentes
df_dummy = np.exp(df_dummy)  # Eleva e à potência dos valores em df_dummy

# Adicionar coluna constante para intercepto
df_dummy = sm.add_constant(df_dummy)  # Adiciona uma coluna constante para o intercepto

# Garantir que dependent_var está alinhada com df_dummy
tcc_data = tcc_data.loc[df_dummy.index]  # Alinha tcc_data com df_dummy
dependent_var = tcc_data['Valor Desembolsado em Reais']

# Aplicar a transformação logarítmica na variável dependente, garantindo que não há valores zero ou negativos
dependent_var = np.log(dependent_var + 1)  # Usando log(x + 1) para lidar com valores zero

# Resetar índices para garantir alinhamento
dependent_var = dependent_var.reset_index(drop=True)
df_dummy = df_dummy.reset_index(drop=True)

# Criar o modelo de regressão OLS
model = sm.OLS(dependent_var, df_dummy)

# Ajustar o modelo
results = model.fit()

# Calcular a mudança percentual para cada coeficiente
coefficients = pd.DataFrame({
    'coef': results.params,
    'std err': results.bse,
    't': results.tvalues,
    'P>|t|': results.pvalues,
    'conf_int_low': results.conf_int()[0],
    'conf_int_high': results.conf_int()[1]
})
coefficients['percent_change'] = (np.exp(coefficients['coef']) - 1) * 100

# Salvando os resultados em um CSV
# csv_path = 'log_regTCC_com_Contribuicao_sem_UF.csv'
csv_path = 'test.csv'
coefficients.to_csv(csv_path, index_label='variable')

# Exibir resumo do modelo
results.summary()

0,1,2,3
Dep. Variable:,Valor Desembolsado em Reais,R-squared:,0.26
Model:,OLS,Adj. R-squared:,0.259
Method:,Least Squares,F-statistic:,310.6
Date:,"Wed, 29 May 2024",Prob (F-statistic):,0.0
Time:,14:28:44,Log-Likelihood:,-11901.0
No. Observations:,7079,AIC:,23820.0
Df Residuals:,7070,BIC:,23880.0
Df Model:,8,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,0.7349,0.009,83.880,0.000,0.718,0.752
Contribuição do UF ao PIB Nacional (%),0.9542,0.092,10.336,0.000,0.773,1.135
Proporção do Valor Setorial ao PIB do UF,-6.83e-06,5.59e-05,-0.122,0.903,-0.000,0.000
Setor CNAE_AGROPECUÁRIA E PESCA,1.0518,0.065,16.257,0.000,0.925,1.179
Setor CNAE_COMERCIO E SERVICOS,0.9147,0.062,14.796,0.000,0.794,1.036
Setor CNAE_INDUSTRIA DE TRANSFORMAÇÃO,1.2499,0.052,24.108,0.000,1.148,1.352
Setor CNAE_INDUSTRIA EXTRATIVA,0.9861,0.173,5.715,0.000,0.648,1.324
Porte do cliente_GRANDE,2.0158,0.034,59.490,0.000,1.949,2.082
Porte do cliente_MICRO,0.5795,0.088,6.574,0.000,0.407,0.752

0,1,2,3
Omnibus:,0.826,Durbin-Watson:,1.437
Prob(Omnibus):,0.662,Jarque-Bera (JB):,0.853
Skew:,0.024,Prob(JB):,0.653
Kurtosis:,2.977,Cond. No.,6.52e+17
