In [19]:
import pandas as pd
import numpy as np
from scipy import stats

In [21]:
df = pd.read_csv('milse.csv', delimiter=';')


In [23]:
print(df.head())

   Funcio estadocivil    Instrucao  numerodefilhos salario  idade    regiao
0       1    solteiro  fundamental             NaN       4     26  interior
1       2      casado  fundamental             1.0    4,56     32   capital
2       3      casado  fundamental             2.0    5,25     36   capital
3       4    solteiro        medio             NaN    5,73     20     outro
4       5    solteiro  fundamental             NaN    6,26     40     outro


In [25]:
# Função para classificar variáveis
def classificar_variaveis(df):
    qualitativas_nominal = []
    qualitativas_ordinal = []
    quantitativas_discreta = []
    quantitativas_continua = []

    for coluna in df.columns:
        if df[coluna].dtype == 'object':
            qualitativas_nominal.append(coluna)
        elif df[coluna].dtype in ['int64', 'int32']:
            quantitativas_discreta.append(coluna)
        elif df[coluna].dtype in ['float64', 'float32']:
            quantitativas_continua.append(coluna)
        # Adicione mais lógica aqui se necessário para identificar variáveis ordinais

    return qualitativas_nominal, qualitativas_ordinal, quantitativas_discreta, quantitativas_continua

# Classificando as variáveis
qualitativas_nominal, qualitativas_ordinal, quantitativas_discreta, quantitativas_continua = classificar_variaveis(df)

print("Variáveis Qualitativas Nominal:", qualitativas_nominal)
print("Variáveis Qualitativas Ordinal:", qualitativas_ordinal)
print("Variáveis Quantitativas Discreta:", quantitativas_discreta)
print("Variáveis Quantitativas Contínua:", quantitativas_continua)

Variáveis Qualitativas Nominal: ['estadocivil', 'Instrucao', 'salario', 'regiao']
Variáveis Qualitativas Ordinal: []
Variáveis Quantitativas Discreta: ['Funcio', 'idade']
Variáveis Quantitativas Contínua: ['numerodefilhos']


In [27]:
# Agrupando por estado civil
grupo_estado_civil = df.groupby('estadocivil').size().reset_index(name='count')
print("Agrupamento por Estado Civil:")
print(grupo_estado_civil)

# Agrupando por grau de instrução
grupo_grau_instrucao = df.groupby('Instrucao').size().reset_index(name='count')
print("\nAgrupamento por Grau de Instrução:")
print(grupo_grau_instrucao)

# Agrupando por região
grupo_regiao = df.groupby('regiao').size().reset_index(name='count')
print("\nAgrupamento por Região:")
print(grupo_regiao)


Agrupamento por Estado Civil:
  estadocivil  count
0      casado     20
1    solteiro     16

Agrupamento por Grau de Instrução:
     Instrucao  count
0  fundamental     12
1        medio     18
2     superior      6

Agrupamento por Região:
     regiao  count
0   capital     11
1  interior     12
2     outro     13


In [29]:
# Agrupando por estado civil e grau de instrução
grupo_estado_civil_instrucao = df.groupby(['estadocivil', 'Instrucao']).size().reset_index(name='count')
print("Agrupamento por Estado Civil e Grau de Instrução:")
print(grupo_estado_civil_instrucao)

Agrupamento por Estado Civil e Grau de Instrução:
  estadocivil    Instrucao  count
0      casado  fundamental      5
1      casado        medio     12
2      casado     superior      3
3    solteiro  fundamental      7
4    solteiro        medio      6
5    solteiro     superior      3


In [31]:
# Agrupando por estado civil e região
grupo_estado_civil_regiao = df.groupby(['estadocivil', 'regiao']).size().reset_index(name='count')
print("\nAgrupamento por Estado Civil e Região:")
print(grupo_estado_civil_regiao)


Agrupamento por Estado Civil e Região:
  estadocivil    regiao  count
0      casado   capital      7
1      casado  interior      8
2      casado     outro      5
3    solteiro   capital      4
4    solteiro  interior      4
5    solteiro     outro      8


In [35]:
# Remover vírgulas e converter para numérico
df['salario'] = df['salario'].str.replace(',', '').astype(float)

In [39]:
# Média
media_salario = round(df['salario'].mean(), 2)
media_idade = round(df['idade'].mean(), 2)

# Mediana
mediana_salario = round(df['salario'].median(), 2)
mediana_idade = round(df['idade'].median(), 2)

# Moda
moda_salario = round(df['salario'].mode()[0], 2)
moda_idade = round(df['idade'].mode()[0], 2)

print(f"Média Salário: {media_salario}, Média Idade: {media_idade}")
print(f"Mediana Salário: {mediana_salario}, Mediana Idade: {mediana_idade}")
print(f"Moda Salário: {moda_salario}, Moda Idade: {moda_idade}")

# Quartis
quartis_salario = df['salario'].quantile([0.25, 0.5, 0.75]).round(2)
quartis_idade = df['idade'].quantile([0.25, 0.5, 0.75]).round(2)

print(f"Quartis Salário: {quartis_salario}")
print(f"Quartis Idade: {quartis_idade}")

# Variância
variancia_salario = round(df['salario'].var(), 2)
variancia_idade = round(df['idade'].var(), 2)

# Desvio Padrão
desvio_padrao_salario = round(df['salario'].std(), 2)
desvio_padrao_idade = round(df['idade'].std(), 2)

# Amplitude
amplitude_salario = round(df['salario'].max() - df['salario'].min(), 2)
amplitude_idade = round(df['idade'].max() - df['idade'].min(), 2)

print(f"Variância Salário: {variancia_salario}, Variância Idade: {variancia_idade}")
print(f"Desvio Padrão Salário: {desvio_padrao_salario}, Desvio Padrão Idade: {desvio_padrao_idade}")
print(f"Amplitude Salário: {amplitude_salario}, Amplitude Idade: {amplitude_idade}")

# Assimetria
assimetria_salario = round(df['salario'].skew(), 2)
assimetria_idade = round(df['idade'].skew(), 2)

# Curtose
curtose_salario = round(df['salario'].kurt(), 2)
curtose_idade = round(df['idade'].kurt(), 2)

print(f"Assimetria Salário: {assimetria_salario}, Assimetria Idade: {assimetria_idade}")
print(f"Curtose Salário: {curtose_salario}, Curtose Idade: {curtose_idade}")



Média Salário: 902.97, Média Idade: 34.58
Mediana Salário: 884.5, Mediana Idade: 34.5
Moda Salário: 4.0, Moda Idade: 26
Quartis Salário: 0.25     612.75
0.50     884.50
0.75    1290.00
Name: salario, dtype: float64
Quartis Idade: 0.25    30.0
0.50    34.5
0.75    40.0
Name: idade, dtype: float64
Variância Salário: 258966.08, Variância Idade: 45.39
Desvio Padrão Salário: 508.89, Desvio Padrão Idade: 6.74
Amplitude Salário: 1871.0, Amplitude Idade: 28
Assimetria Salário: -0.01, Assimetria Idade: -0.07
Curtose Salário: -0.7, Curtose Idade: -0.54


In [43]:
# Estado Civil
freq_estado_civil = df['estadocivil'].value_counts().reset_index()
freq_estado_civil.columns = ['Estado Civil', 'Frequência']
print("Frequência - Estado Civil:")
print(freq_estado_civil)

# Grau de Instrução
freq_grau_instrucao = df['Instrucao'].value_counts().reset_index()
freq_grau_instrucao.columns = ['Grau de Instrução', 'Frequência']
print("\nFrequência - Grau de Instrução:")
print(freq_grau_instrucao)

# Região
freq_regiao = df['regiao'].value_counts().reset_index()
freq_regiao.columns = ['Região', 'Frequência']
print("\nFrequência - Região:")
print(freq_regiao)


Frequência - Estado Civil:
  Estado Civil  Frequência
0       casado          20
1     solteiro          16

Frequência - Grau de Instrução:
  Grau de Instrução  Frequência
0             medio          18
1       fundamental          12
2          superior           6

Frequência - Região:
     Região  Frequência
0     outro          13
1  interior          12
2   capital          11
