### Dados absolutos e relativos

- Absolutos

Dados absolutos referem-se a valores numéricos brutos sem qualquer modificação, ajuste ou transformação. Eles representam quantidades exatas e são usados para descrever a magnitude total de algo. Por exemplo, se uma loja vendeu 100 unidades de um produto em janeiro, esse número (100 unidades) é um dado absoluto. Outros exemplos incluem a população de um país, o número total de carros em uma cidade, ou a quantidade total de chuva que caiu em um dia específico.

A principal vantagem dos dados absolutos é que eles fornecem medidas exatas e concretas, tornando-os essenciais para entender o tamanho real de um fenômeno. No entanto, sem um contexto adicional, os dados absolutos podem às vezes ser enganosos ou difíceis de interpretar, especialmente ao comparar diferentes conjuntos de dados ou ao analisar mudanças ao longo do tempo.

- Relativos:

Dados relativos, por outro lado, são uma forma de representar informações que mostram a relação entre diferentes dados absolutos, normalmente expressos em termos de percentagens, taxas, razões ou proporções. Eles são úteis para fazer comparações, entender proporções ou avaliar a importância relativa de diferentes valores dentro de um conjunto de dados.

Por exemplo, se uma loja vendeu 100 unidades de um produto em janeiro e 120 unidades em fevereiro, pode-se dizer que as vendas aumentaram 20% de janeiro para fevereiro. Esse aumento de 20% é um dado relativo, pois oferece uma comparação percentual entre as vendas dos dois meses. Outros exemplos incluem a taxa de desemprego (uma proporção da força de trabalho que está desempregada) e a densidade populacional (população relativa à área).

Dados relativos são particularmente úteis para comparar conjuntos de dados de diferentes tamanhos ou para entender as mudanças em um contexto ao longo do tempo. Eles ajudam a contextualizar os dados absolutos, fornecendo insights sobre as tendências, padrões e relações entre os dados.

In [1]:
import pandas as pd

#### Percentuais

In [2]:
dados = {'emprego': ['Adminstrador_banco_dados', 'Programador', 'Arquiteto_redes'],
         'nova_jersey': [97350, 82080, 112840],
         'florida': [77140, 71540, 62310]}

In [3]:
type(dados)

dict

In [4]:
dados

{'emprego': ['Adminstrador_banco_dados', 'Programador', 'Arquiteto_redes'],
 'nova_jersey': [97350, 82080, 112840],
 'florida': [77140, 71540, 62310]}

In [5]:
dataset = pd.DataFrame(dados)

In [6]:
dataset

Unnamed: 0,emprego,nova_jersey,florida
0,Adminstrador_banco_dados,97350,77140
1,Programador,82080,71540
2,Arquiteto_redes,112840,62310


In [7]:
dataset['nova_jersey'].sum()

292270

In [8]:
dataset['florida'].sum()

210990

In [9]:
dataset['%_nova_jersey'] = (dataset['nova_jersey'] / dataset['nova_jersey'].sum()) * 100

In [10]:
dataset

Unnamed: 0,emprego,nova_jersey,florida,%_nova_jersey
0,Adminstrador_banco_dados,97350,77140,33.308242
1,Programador,82080,71540,28.083621
2,Arquiteto_redes,112840,62310,38.608136


In [11]:
dataset['%_florida'] = (dataset['florida'] / dataset['florida'].sum()) * 100

In [12]:
dataset

Unnamed: 0,emprego,nova_jersey,florida,%_nova_jersey,%_florida
0,Adminstrador_banco_dados,97350,77140,33.308242,36.560974
1,Programador,82080,71540,28.083621,33.90682
2,Arquiteto_redes,112840,62310,38.608136,29.532205


#### Exercício percentuais

In [13]:
dataset = pd.read_csv('census.csv')

In [14]:
dataset.head()

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [15]:
dataset2 = dataset[['income', 'education']]
dataset2

Unnamed: 0,income,education
0,<=50K,Bachelors
1,<=50K,Bachelors
2,<=50K,HS-grad
3,<=50K,11th
4,<=50K,Bachelors
...,...,...
32556,<=50K,Assoc-acdm
32557,>50K,HS-grad
32558,<=50K,HS-grad
32559,<=50K,HS-grad


In [16]:
dataset3 = dataset2.groupby(['education', 'income'])['education'].count()

In [17]:
dataset3

education      income
 10th           <=50K     871
                >50K       62
 11th           <=50K    1115
                >50K       60
 12th           <=50K     400
                >50K       33
 1st-4th        <=50K     162
                >50K        6
 5th-6th        <=50K     317
                >50K       16
 7th-8th        <=50K     606
                >50K       40
 9th            <=50K     487
                >50K       27
 Assoc-acdm     <=50K     802
                >50K      265
 Assoc-voc      <=50K    1021
                >50K      361
 Bachelors      <=50K    3134
                >50K     2221
 Doctorate      <=50K     107
                >50K      306
 HS-grad        <=50K    8826
                >50K     1675
 Masters        <=50K     764
                >50K      959
 Preschool      <=50K      51
 Prof-school    <=50K     153
                >50K      423
 Some-college   <=50K    5904
                >50K     1387
Name: education, dtype: int64

In [18]:
dataset3.index

MultiIndex([(        ' 10th', ' <=50K'),
            (        ' 10th',  ' >50K'),
            (        ' 11th', ' <=50K'),
            (        ' 11th',  ' >50K'),
            (        ' 12th', ' <=50K'),
            (        ' 12th',  ' >50K'),
            (     ' 1st-4th', ' <=50K'),
            (     ' 1st-4th',  ' >50K'),
            (     ' 5th-6th', ' <=50K'),
            (     ' 5th-6th',  ' >50K'),
            (     ' 7th-8th', ' <=50K'),
            (     ' 7th-8th',  ' >50K'),
            (         ' 9th', ' <=50K'),
            (         ' 9th',  ' >50K'),
            (  ' Assoc-acdm', ' <=50K'),
            (  ' Assoc-acdm',  ' >50K'),
            (   ' Assoc-voc', ' <=50K'),
            (   ' Assoc-voc',  ' >50K'),
            (   ' Bachelors', ' <=50K'),
            (   ' Bachelors',  ' >50K'),
            (   ' Doctorate', ' <=50K'),
            (   ' Doctorate',  ' >50K'),
            (     ' HS-grad', ' <=50K'),
            (     ' HS-grad',  ' >50K'),
            (   

In [19]:
dataset3[' Bachelors', ' <=50K'], dataset3[' Bachelors', ' >50K']

(3134, 2221)

In [20]:
3134 + 2221

5355

In [21]:
# % >50K
(2221 / 5355) * 100

41.47525676937442

In [22]:
# % <=50K
(3134 / 5355) * 100

58.52474323062559

#### Exercício coeficientes e taxas

In [23]:
dados = {'ano': ['1', '2', '3', '4', 'total'],
        'matriculas_marco': [70, 50, 47, 23, 190],
        'matriculas_novembro': [65, 48, 40, 22, 175]}

In [24]:
dados

{'ano': ['1', '2', '3', '4', 'total'],
 'matriculas_marco': [70, 50, 47, 23, 190],
 'matriculas_novembro': [65, 48, 40, 22, 175]}

In [25]:
dataset = pd.DataFrame(dados)
dataset

Unnamed: 0,ano,matriculas_marco,matriculas_novembro
0,1,70,65
1,2,50,48
2,3,47,40
3,4,23,22
4,total,190,175


In [26]:
dataset['taxa_evasao'] = ((dataset['matriculas_marco'] - dataset['matriculas_novembro']) / dataset['matriculas_marco']) * 100

In [27]:
dataset

Unnamed: 0,ano,matriculas_marco,matriculas_novembro,taxa_evasao
0,1,70,65,7.142857
1,2,50,48,4.0
2,3,47,40,14.893617
3,4,23,22,4.347826
4,total,190,175,7.894737
