In [1]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
%matplotlib inline

#ignorando Warning inuteis
import warnings 
from pandas.errors import SettingWithCopyWarning
warnings.simplefilter(action="ignore", category=SettingWithCopyWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

pd.set_option('display.max_info_columns', 500)
pd.set_option('display.max_info_rows', 500)

In [2]:
#CRIANDO DADOS FICTICIOS
np.random.seed(1)

Tamanho_da_amostra = 500
n = Tamanho_da_amostra/2 ; n = int(n)
df = pd.DataFrame()

df['desfecho'] = ['não'] * n + ['sim'] * n
filtro_1 = df['desfecho'] == 'não'
filtro_0 = df['desfecho'] == 'sim'

lista_col = ['idade','sexo','tabagismo','avc_previo','hipo','has',
             'dm','doenca_cardiaca','var_num1','var_num2']
for coluna in lista_col: df[coluna] = np.nan

df['sexo'][filtro_0] = np.random.choice(['F', 'M'], size=n, p=[0.4, 0.6])
df['sexo'][filtro_1] = np.random.choice(['F', 'M'], size=n, p=[0.7, 0.3])

df['idade'][filtro_0] = np.random.normal(loc=30, scale=5, size=n).round().astype(int)
df['idade'][filtro_1] = np.random.normal(loc=23, scale=4, size=n).round().astype(int)

df['tabagismo'][filtro_0] = np.random.choice(['não', 'sim'], size=n, p=[0.3, 0.7])
df['tabagismo'][filtro_1] = np.random.choice(['não', 'sim'], size=n, p=[0.4, 0.6])

df['avc_previo'][filtro_0] = np.random.choice(['não', 'sim'], size=n, p=[0.3, 0.7])
df['avc_previo'][filtro_1] = np.random.choice(['não', 'sim'], size=n, p=[0.5, 0.5])

df['hipo'][filtro_0] = np.random.choice(['não', 'sim'], size=n, p=[0.2, 0.8])
df['hipo'][filtro_1] = np.random.choice(['não', 'sim'], size=n, p=[0.3, 0.7])

df['has'][filtro_0] = np.random.choice(['não', 'sim'], size=n, p=[0.5, 0.5])
df['has'][filtro_1] = np.random.choice(['não', 'sim'], size=n, p=[0.2, 0.8])

df['dm'][filtro_0] = np.random.choice(['não', 'sim'], size=n, p=[0.8, 0.2])
df['dm'][filtro_1] = np.random.choice(['não', 'sim'], size=n, p=[0.3, 0.7])

df['doenca_cardiaca'][filtro_0] = np.random.choice(['não', 'sim'], size=n, p=[0.2, 0.8])
df['doenca_cardiaca'][filtro_1] = np.random.choice(['não', 'sim'], size=n, p=[0.6, 0.4])

df['var_num1'][filtro_0] = np.random.poisson(12,n)
df['var_num1'][filtro_1] = np.random.poisson(20,n)

df['var_num2'][filtro_0] = np.random.uniform(0,100,n)
df['var_num2'][filtro_1] = np.random.uniform(0,100,n)

df.head()

Unnamed: 0,desfecho,idade,sexo,tabagismo,avc_previo,hipo,has,dm,doenca_cardiaca,var_num1,var_num2
0,não,21.0,F,não,não,sim,sim,não,sim,22.0,78.568726
1,não,25.0,M,não,sim,sim,sim,sim,sim,28.0,21.299272
2,não,19.0,F,sim,não,sim,sim,sim,não,23.0,66.262434
3,não,21.0,M,sim,sim,sim,sim,sim,não,23.0,52.33671
4,não,27.0,F,sim,sim,não,sim,não,não,17.0,17.829723


In [61]:
def summary_numerico_parametrico(dataframe, col_num):
    # Filtrar NA e calcular média e desvio padrão
    valid_data = dataframe[col_num].dropna()
    mean = round(valid_data.mean(), 2)
    std = round(valid_data.std(), 2)
    
    # Criar DataFrame de resultado
    tabela = pd.DataFrame({
        "Variable": [col_num],
        "Mean": [mean],
        "Std": [f"± {std}"]
    })
    return tabela
    
###################################################################################################

from scipy.stats import ttest_ind, f_oneway
from statsmodels.stats.power import TTestIndPower

def summary_numerico_por_grupo_parametrico(df, col_num, col_cat):
    # Filtrar NA
    df_filtered = df.dropna(subset=[col_num, col_cat])
    
    # Sumário por grupo e geral
    group_summary = df_filtered.groupby(col_cat)[col_num].agg(['mean', 'std']).reset_index()
    group_summary['resumo'] = group_summary.apply(lambda x: f"{x['mean']:.2f} ± {x['std']:.2f}", axis=1)
    
    overall_mean = round(df_filtered[col_num].mean(), 2)
    overall_std = round(df_filtered[col_num].std(), 2)
    overall_summary = pd.DataFrame({
        col_cat: ['Total'],
        'resumo': [f"{overall_mean:.2f} ± {overall_std:.2f}"]
    })
    
    # Combinar os sumários
    final_summary = pd.concat([overall_summary, group_summary[[col_cat, 'resumo']]], ignore_index=True)
    
    # Teste estatístico
    unique_categories = df_filtered[col_cat].unique()
    if len(unique_categories) <= 2:
        # T-test para 2 grupos
        group1 = df_filtered[df_filtered[col_cat] == unique_categories[0]][col_num]
        group2 = df_filtered[df_filtered[col_cat] == unique_categories[1]][col_num]
        t_stat, p_value = ttest_ind(group1, group2)
        test_used = "T Test"
    else:
        # ANOVA para mais de 2 grupos
        groups = [df_filtered[df_filtered[col_cat] == category][col_num] for category in unique_categories]
        f_stat, p_value = f_oneway(*groups)
        test_used = "ANOVA"
    
    final_summary['P-value'] = np.nan
    final_summary['P-value'].iloc[0] = retorne_p(p_value)
    final_summary['Test_Used'] = np.nan
    final_summary['Test_Used'].iloc[0] = test_used
    
    return final_summary


In [63]:
summary_numerico_por_grupo_n_parametrico(df, 'idade', 'sexo')

Unnamed: 0,sexo,Resumo,P-value,Test_Used
0,Total,26.0 [22.0 - 30.0],< 0.001,Mann-Whitney
1,F,25.0 [22.0 - 29.0],,
2,M,28.0 [23.0 - 33.0],,


In [62]:
summary_numerico_por_grupo_parametrico(df, 'idade', 'sexo')

Unnamed: 0,sexo,resumo,P-value,Test_Used
0,Total,26.68 ± 5.82,< 0.001,T Test
1,F,25.57 ± 5.62,,
2,M,27.96 ± 5.81,,


In [5]:
variavel

'oi'