## Voltando à tabela de salários

A partir dos tópicos estudados de estatística descritiva, analise as variáveis do arquivo TabelaSalarial.csv.

1) Calcule as medidas de centralidade e dispersão das variáveis;

2) Plote histogramas de todas as variáveis;

3) Faça o boxplot de todas as variáveis.

4) Escreva uma análise de todas as variáveis, no formato texto corrido, com as informações que vocês geraram nos itens anteriores (Procurem escrever um texto como se estivessem apresentando as informações para uma pessoa leiga)

O prazo final para entrega desta atividade é dia 21 de agosto, quarta-feira, às 23h59

In [None]:
%pip install numpy
%pip install matplotlib
%pip install pandas
%pip install seaborn

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import numpy as np

In [None]:
df = pd.read_csv('TabelaSalarial.csv')
df = df.select_dtypes(include=np.number) # seleciona apenas os dados numericos
df = df.drop('N', axis=1) # Remove os ids da tabela

In [None]:
dados = []

for coluna in df.columns:
  media = df[coluna].mean()
  mediana = df[coluna].median()
  # Para moda, como pode ter mais de um valor, pegamos o primeiro se existir
  moda_series = df[coluna].mode()
  moda = moda_series.iloc[0] if not moda_series.empty else None
  desvio_padrao = df[coluna].std()
  variancia = df[coluna].var()
  minimo = df[coluna].min()
  maximo = df[coluna].max()
  
  dados.append({
    'Variável': coluna,
    'Média': media,
    'Mediana': mediana,
    'Moda': moda,
    'Desvio Padrão': desvio_padrao,
    'Variância': variancia,
    'Mínimo': minimo,
    'Máximo': maximo
  })

result = pd.DataFrame(dados)

print(result)

In [None]:
numVars = len(df.columns)

fig, axes = plt.subplots(1, numVars, figsize=(5 * numVars, 4))

for ax, col in zip(axes, df.columns):
  ax.hist(df[col], bins=20, color='skyblue', edgecolor='black')
  ax.set_xlabel(col)
  ax.set_ylabel('Frequência')

plt.show()

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=len(df.columns), figsize=(5 * len(df.columns), 5))

for ax, col in zip(axes, df.columns):
  sns.histplot(x=df[col], ax=ax, bins=20, kde=True)
  
plt.show()

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=len(df.columns), figsize=(5 * len(df.columns), 5))

for ax, col in zip(axes, df.columns):
  sns.boxplot(x=df[col], ax=ax)
  ax.set_title(col)

plt.tight_layout()
plt.show()

## Analise dos Gráficos:

**Números de filhos:**  
A maioria das famílias tem em torno de 2 filhos. Isso fica evidente porque a média é de 1,65 filho, a mediana é 2 e o valor mais frequente (moda) também é 2. Embora exista variação (algumas famílias não têm filhos e outras têm até 5), o ponto central da distribuição mostra que a tendência é ter 2 filhos.

**Salários:**  
Quando os salários são expressos em múltiplos do salário mínimo, o valor central é de aproximadamente 10 a 11 vezes esse salário. A média é 11,12 e a mediana é 10,17, o que sugere que há alguns salários muito altos que puxam a média para cima. No entanto, o valor mais comum é 4 vezes o salário mínimo, indicando que a maior parte dos trabalhadores recebe essa quantia. Apesar disso, a grande variação (de 4 até 23,3 salários mínimos) demonstra que há diferenças significativas entre os salários dos trabalhadores.

**Idade:**  
A população analisada é composta majoritariamente por adultos jovens e de meia-idade. A idade média é de 34,6 anos e a mediana é praticamente igual (34,5 anos), o que indica uma distribuição bastante equilibrada. Ainda que a idade mais frequente seja 26 anos, a variação é pequena e os dados abrangem um intervalo entre 20 e 48 anos, reforçando a ideia de uma população concentrada nessa faixa etária.

Portanto, podemos afirmar com clareza que, apesar de haver variações em todos os aspectos, a tendência é que as famílias tenham cerca de 2 filhos, a renda dos trabalhadores se concentre em torno de 10 a 11 salários mínimos (com muitos recebendo 4 salários mínimos) e a população seja composta principalmente por adultos com idade entre 20 e 48 anos, com uma média de aproximadamente 35 anos. Essa análise facilita a compreensão das tendências e das diferenças existentes nesses dados, mesmo para aqueles que não possuem conhecimentos avançados em estatística.