<a href="https://colab.research.google.com/github/thomaskarsten90/estudos_estat/blob/main/estat_fundamentos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
import pandas as pd
import numpy as np

np.random.seed(42)

# Simulação de dataset de crédito
n = 1000
df = pd.DataFrame({
    "renda": np.random.normal(4000, 1000, n).round(2),
    "valor_fatura": np.random.normal(1200, 500, n).round(2),
    "dias_atraso": np.random.poisson(2, n),
    "status_pagamento": np.random.binomial(1, 0.85, n)  # 1=pago, 0=atraso
})

print(df.head())
print(df.describe())


     renda  valor_fatura  dias_atraso  status_pagamento
0  4496.71       1899.68            1                 1
1  3861.74       1662.32            1                 1
2  4647.69       1229.82            2                 1
3  5523.03        876.53            3                 1
4  3765.85       1549.11            3                 0
             renda  valor_fatura  dias_atraso  status_pagamento
count  1000.000000   1000.000000  1000.000000       1000.000000
mean   4019.331930   1235.418230     1.990000          0.849000
std     979.215747    498.727267     1.362996          0.358228
min     758.730000   -270.190000     0.000000          0.000000
25%    3352.412500    896.877500     1.000000          1.000000
50%    4025.300000   1231.540000     2.000000          1.000000
75%    4647.945000   1564.437500     3.000000          1.000000
max    7852.730000   2796.550000     7.000000          1.000000


In [4]:
# Estatísticas descritivas
stats_summary = {}
for col in ["renda", "valor_fatura", "dias_atraso"]:
    stats_summary[col] = {
        "Média": df[col].mean(),
        "Mediana": df[col].median(),
        "Moda": df[col].mode().iloc[0],
        "Amplitude": df[col].max() - df[col].min(),
        "Variância": df[col].var(),
        "Desvio-Padrão": df[col].std(),
        "IQR": df[col].quantile(0.75) - df[col].quantile(0.25)
    }

resumo_df = pd.DataFrame(stats_summary).T
print("Resumo Estatístico:\n")
print(resumo_df)

# Identificação das variáveis
variaveis = {
    "renda": "Contínua",
    "valor_fatura": "Contínua",
    "dias_atraso": "Discreta",
    "status_pagamento": "Nominal (binária: pago/atraso)"
}

print("\nClassificação das Variáveis:\n")
for k, v in variaveis.items():
    print(f"{k}: {v}")

Resumo Estatístico:

                   Média  Mediana     Moda  Amplitude      Variância  \
renda         4019.33193  4025.30  2918.94    7094.00  958863.478245   
valor_fatura  1235.41823  1231.54  1086.76    3066.74  248728.886392   
dias_atraso      1.99000     2.00     2.00       7.00       1.857758   

              Desvio-Padrão        IQR  
renda            979.215747  1295.5325  
valor_fatura     498.727267   667.5600  
dias_atraso        1.362996     2.0000  

Classificação das Variáveis:

renda: Contínua
valor_fatura: Contínua
dias_atraso: Discreta
status_pagamento: Nominal (binária: pago/atraso)
