<a href="https://colab.research.google.com/github/JosenildoJunior/StatPyDataScience/blob/main/Dados_Absolutos_e_Relativos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Estatística com Python: Um Guia para Estudos e Solução de Problemas


**Dados Relativos:**
- São expressos como uma porcentagem ou proporção em relação a um total. Calculados dividindo a parte pelo todo e multiplicando por 100.

**Fórmula Dados Relativos:**
$ \text{Dados Relativos (%)} = \left( \frac{\text{Parte}}{\text{Total}} \right) \times 100 $



**Dados Absolutos:**
- São valores concretos que não dependem de uma base de comparação. São os números brutos sem relação com um total.

**Fórmula Dados Absolutos:**
$ \text{Dados Absolutos} = \text{Valor Bruto} $


Resumindo, dados relativos expressam uma parte em relação ao todo, enquanto dados absolutos são os valores brutos independentes de uma base comparativa.


# **Carregando os dados**

Para exemplificação, de como funciona os dados relativos e absolutos, vou utilizar dados ficticios.

In [None]:
# Manipulação de arquivos
import pandas as pd

Gerando os dados, essas informações se referem ao salário de determinado cargo em suas respectivas localidades.

In [None]:
# Armazenando os dados fictícios em um dicionário
dados = {'cargo': ['Analista de Dados', 'Engenheiro de Software', 'Desenvolvedor Web'],
         'sao_paulo': [95000, 88000, 78000],
         'rio_de_janeiro': [92000, 85000, 72000]}

Os dados estão armazenados em um dicionário e ainda não foram transformados em um dataset propriamente dito. Sendo assim, será necessário utilizar o pandas para realizar a sua conversão.

In [None]:
# Realizando a conversão
df = pd.DataFrame(dados)

In [None]:
# Observando os primeiros registros
df.head()

Unnamed: 0,cargo,sao_paulo,rio_de_janeiro
0,Analista de Dados,95000,92000
1,Engenheiro de Software,88000,85000
2,Desenvolvedor Web,78000,72000


Agora, vamos calcular os dados relativos.

Armazenaremos o resultado dos cálculos dos dados relativos em uma nova coluna chamada '%sao_paulo' para os dados respectivos de sua localidade.

In [None]:
# Criando uma nova coluna e realizando o calculo que consiste em uma parte / pelo todo * 100
df['%sao_paulo'] = (df['sao_paulo'] / df['sao_paulo'].sum()) * 100

In [None]:
# Observando os registros
df.head()

Unnamed: 0,cargo,sao_paulo,rio_de_janeiro,%sao_paulo
0,Analista de Dados,95000,92000,36.398467
1,Engenheiro de Software,88000,85000,33.716475
2,Desenvolvedor Web,78000,72000,29.885057


Agora que já temos os dados relativos de 'são_paulo', vamos realizar o mesmo procedimento para o 'rio_de_janeiro'.

In [None]:
# Criando uma nova coluna e realizando o calculo que consiste em uma parte / pelo todo * 100
df['%rio_de_janeiro'] = (df['rio_de_janeiro'] / df['rio_de_janeiro'].sum()) * 100

In [None]:
# Observando os registros
df.head()

Unnamed: 0,cargo,sao_paulo,rio_de_janeiro,%sao_paulo,%rio_de_janeiro
0,Analista de Dados,95000,92000,36.398467,36.947791
1,Engenheiro de Software,88000,85000,33.716475,34.136546
2,Desenvolvedor Web,78000,72000,29.885057,28.915663


**Conclusão**

- Engenheiro de Software e Desenvolvedor Web têm porcentagens semelhantes em relação a São Paulo e ao Rio de Janeiro. Mesmo em São Paulo, tendo um número de vagas maior, quando observamos a proporção, é possível obter uma % bem semelhante.

- Um evento parecido ocorre ao observarmos o desenvolvedor web, mesmo existindo uma diferença de 6 mil vagas, a % relativa é bem baixa.

\

# **Desafio**

O objetivo desta tarefa é encontrar algum tipo de relação entre o atributo education e o atributo income da base de dados do censo

- Carregue o arquivo census.csv

- Crie um novo dataframe com o pandas utilizando somente esses dois campos

- Você pode utilizar o comando groupby do pandas para agrupar os dados, ou seja, a quantidade de registros baseado nesses dois atributos.

- Identifique o nível de educação que possuem as maiores e menores rendas. Lembre-se que nesta base de dados a renda assume somente os valores >50 e <=50

## **Carregando os dados**

In [1]:
# Acesso ao drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


*Realizando as importações pertinentes*

In [2]:
# Manipulação de arquivos
import pandas as pd

# Biblioteca para funções randomicas
import random

# Funções matemáticas
import numpy as np

# Biblioteca para visualização de dados
import seaborn as sns

Armazenando a base de dados

In [4]:
# Importando o dataset
df = pd.read_csv("/content/drive/MyDrive/Estatística para ciência de dados/census.csv")

In [5]:
# Observando os primeiros registros
df.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


Porém, para a resolução desse desafio, só serão utilizadas duas colunas desse DataFrame; o restante pode ser excluído.

In [7]:
# Criando um novo DataFrame apenas com as variavéis que é interessante para a resolução desse caso
novo_df = df[['education', 'income']]

In [9]:
# Observando as dimensões
novo_df.shape

(32561, 2)

In [14]:
# Observando os  registros
novo_df

Unnamed: 0,education,income
0,Bachelors,<=50K
1,Bachelors,<=50K
2,HS-grad,<=50K
3,11th,<=50K
4,Bachelors,<=50K
...,...,...
32556,Assoc-acdm,<=50K
32557,HS-grad,>50K
32558,HS-grad,<=50K
32559,HS-grad,<=50K


Para sabermos quantos registros têm de 'income' para cada 'education', será necessário realizar um agrupamento nos dados.

In [20]:
# Agrupando a 'education' e a 'income' e contando os registros de acordo com o 'income'
resultado = novo_df.groupby(['education', 'income'])['income'].count()

In [23]:
# Observando os registros
resultado

education      income
 10th           <=50K     871
                >50K       62
 11th           <=50K    1115
                >50K       60
 12th           <=50K     400
                >50K       33
 1st-4th        <=50K     162
                >50K        6
 5th-6th        <=50K     317
                >50K       16
 7th-8th        <=50K     606
                >50K       40
 9th            <=50K     487
                >50K       27
 Assoc-acdm     <=50K     802
                >50K      265
 Assoc-voc      <=50K    1021
                >50K      361
 Bachelors      <=50K    3134
                >50K     2221
 Doctorate      <=50K     107
                >50K      306
 HS-grad        <=50K    8826
                >50K     1675
 Masters        <=50K     764
                >50K      959
 Preschool      <=50K      51
 Prof-school    <=50K     153
                >50K      423
 Some-college   <=50K    5904
                >50K     1387
Name: income, dtype: int64

A educação escolhida para a realização da análise foi 'Bachelors' por conter o maior número de pessoas com renda acima de 50k.

In [34]:
resultado[' Bachelors', ' <=50K'], resultado[' Bachelors', ' >50K']

(3134, 2221)

In [39]:
# Calculando o todo
3134 + 2221

5355

Agora que já temos os números de quantos registros temos, podemos seguir para o cálculo de dados relativos.

In [37]:
# % <=50
# Realizando a divisão da parte pelo todo
( 3134 / 5355) * 100

58.52474323062559

Podemos observar que pessoas que tenham concluído o bacharelado têm, em média, 58% de chances de ter um salário menor ou igual a 50 mil.

In [38]:
# % > 50K
# Realizando a divisão da parte pelo todo
( 2221 / 5355) * 100

41.47525676937442

Enquanto 41% das pessoas que terminaram o bacharelado recebem mais que 50 mil.





