## Cria as Funções para a N possibilidades da Regressão Linear


Variável dependente e independentes para regressão\
y_col = 'body_mass_g'  # Variável dependente (exemplo)\
x_cols = ['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm']  # Variáveis independentes (exemplo)

In [1]:
import pandas as pd
import seaborn as sns
import itertools
import statsmodels.api as sm

In [7]:
# Carregar o conjunto de dados 'penguins' do Seaborn
df = sns.load_dataset('penguins')

# Renomear as colunas
df=df.rename(columns={'bill_length_mm': 'compr bico'
                  ,'bill_depth_mm': 'prof bico'
                  ,'flipper_length_mm': 'nadadeira'
                  , 'body_mass_g': 'massa'})

# Remover linhas com valores ausentes para simplificar
#df = df.dropna()
# Preenche com a mediana
# Calcular a mediana apenas para colunas numéricas específicas
median_values = df.select_dtypes(include=[float, int]).median()
# Preencher valores nulos com as medianas calculadas
df.fillna(median_values, inplace=True)

In [8]:
# Identificar as variáveis categóricas
categorical_cols = df.select_dtypes(include=['category', 'object']).columns.tolist()

# Variável dependente e independentes para regressão
y_col = 'massa'  # Variável dependente (exemplo)
x_cols = ['compr bico', 'prof bico', 'nadadeira']  # Variáveis independentes (exemplo)

# DataFrame para armazenar os coeficientes
results_df = pd.DataFrame()

# Gerar todas as combinações de variáveis categóricas
for r in range(1, len(categorical_cols) + 1):
    for comb in itertools.combinations(categorical_cols, r):
        # Filtrar DataFrame por combinação de categorias
        grouped = df.groupby(list(comb))

        for group_name, group_data in grouped:
            # Adicionar constante para o modelo de regressão
            X = sm.add_constant(group_data[x_cols])
            y = group_data[y_col]

            # Ajustar o modelo de regressão linear
            model = sm.OLS(y, X).fit()

            # Extrair coeficientes e adicionar ao DataFrame de resultados
            coef_df = model.params.reset_index()
            coef_df.columns = ['variable', 'coefficient']
            coef_df['combination'] = ', '.join(comb)
            coef_df['group'] = str(group_name)

            results_df = pd.concat([results_df, coef_df], ignore_index=True)

# Exibir os primeiros resultados
print(results_df.head())


     variable  coefficient combination           group
0       const -4352.961325     species     ('Adelie',)
1  compr bico    55.752674     species     ('Adelie',)
2   prof bico   140.211778     species     ('Adelie',)
3   nadadeira    17.472170     species     ('Adelie',)
4       const -3157.530055     species  ('Chinstrap',)


In [9]:
results_df.to_excel('modelos penguins.xlsx')

In [5]:
import os

# Verifica o diretório de trabalho atual
print(os.getcwd())


c:\Python


In [6]:
# Altera o diretório de trabalho para um caminho desejado
os.chdir(f'C:\Python')


In [10]:
df.describe()

Unnamed: 0,compr bico,prof bico,nadadeira,massa
count,344.0,344.0,344.0,344.0
mean,43.925,17.152035,200.892442,4200.872093
std,5.443792,1.96906,14.023826,799.696532
min,32.1,13.1,172.0,2700.0
25%,39.275,15.6,190.0,3550.0
50%,44.45,17.3,197.0,4050.0
75%,48.5,18.7,213.0,4750.0
max,59.6,21.5,231.0,6300.0


In [15]:
categorical_columns = df.select_dtypes(include=['object', 'category','string'])

In [17]:
categorical_columns

Unnamed: 0,species,island,sex
0,Adelie,Torgersen,Male
1,Adelie,Torgersen,Female
2,Adelie,Torgersen,Female
3,Adelie,Torgersen,
4,Adelie,Torgersen,Female
...,...,...,...
339,Gentoo,Biscoe,
340,Gentoo,Biscoe,Female
341,Gentoo,Biscoe,Male
342,Gentoo,Biscoe,Female


In [16]:
# Usando describe apenas nas colunas categóricas
categorical_columns.describe()

Unnamed: 0,species,island,sex
count,344,344,333
unique,3,3,2
top,Adelie,Biscoe,Male
freq,152,168,168


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 344 entries, 0 to 343
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   species     344 non-null    object 
 1   island      344 non-null    object 
 2   compr bico  344 non-null    float64
 3   prof bico   344 non-null    float64
 4   nadadeira   344 non-null    float64
 5   massa       344 non-null    float64
 6   sex         333 non-null    object 
dtypes: float64(4), object(3)
memory usage: 18.9+ KB
