# Importando a base de dados

In [131]:
import pandas as pd
import seaborn as sns

In [132]:
dt = pd.read_csv("dados.csv", sep=",")
dt

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.739790
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631
...,...,...,...,...,...,...,...
76835,53,1,46,2,11,812,1.687030
76836,53,0,30,4,7,1500,1.792934
76837,53,0,32,8,12,1300,1.830587
76838,53,0,57,8,4,1500,1.726344


# Pré análise dos dados

In [133]:
type(dt)

pandas.core.frame.DataFrame

### Dados estatísticos

In [134]:
dt.describe()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
count,76840.0,76840.0,76840.0,76840.0,76840.0,76840.0,76840.0
mean,31.912962,0.307002,44.071421,5.032613,9.469664,2000.383199,1.699512
std,11.14783,0.461253,12.480583,2.857118,4.539929,3323.38773,0.079717
min,11.0,0.0,13.0,0.0,1.0,0.0,1.339245
25%,25.0,0.0,34.0,2.0,6.0,788.0,1.645785
50%,31.0,0.0,43.0,4.0,11.0,1200.0,1.699325
75%,41.0,1.0,53.0,8.0,12.0,2000.0,1.753062
max,53.0,1.0,99.0,8.0,17.0,200000.0,2.028497


### Informações do dt

In [135]:
dt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 76840 entries, 0 to 76839
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   UF              76840 non-null  int64  
 1   Sexo            76840 non-null  int64  
 2   Idade           76840 non-null  int64  
 3   Cor             76840 non-null  int64  
 4   Anos de Estudo  76840 non-null  int64  
 5   Renda           76840 non-null  int64  
 6   Altura          76840 non-null  float64
dtypes: float64(1), int64(6)
memory usage: 4.1 MB


# 1) - TIPOS DE VARIÁVEIS

<img src="variaveisquantitativas_qualitativas.png" width="600" height="600" />

## VARIÁVEIS QUALITATIVAS

São aquelas cujos valores podem ser separados em diferentes categorias que se distinguem por alguma característica não numérica. Ex.: Masculino e feminino, cor do cabelo, cor da pele

## Variáveis qualitativas ordinais

São variáveis que podem ser ordenadas/hierarquizadas. Grau de instrução, faixa de idades, patentes e etc.

In [136]:
dt.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


In [137]:
sorted(dt['Anos de Estudo'].unique())

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17]

As variáveis(features) "Anos de Estudo", "Renda" e "Altura" podem ser classificadas como variáveis qualitativas ordinais.

## Variáveis qualitativas nominais

Quando uma ordem não pode ser estabelecida nos seus valores ou quando essa ordem não importa no resultado final.

In [138]:
dt.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


As variáveis UF, Sexo e Cor são classificadas como variáveis nominais.

In [139]:
dt.UF.unique()

array([11, 12, 13, 14, 15, 16, 17, 21, 22, 23, 24, 25, 26, 27, 28, 29, 31,
       32, 33, 35, 41, 42, 43, 50, 51, 52, 53], dtype=int64)

In [140]:
dt.Sexo.unique()

array([0, 1], dtype=int64)

In [141]:
dt.Cor.unique()

array([8, 2, 4, 6, 0], dtype=int64)

# Variáveis quantitativas

São aquelas variáveis expressas por meio de números

## Variáveis quantitativas discretas

Quando resultam num conjunto finito(enumerável) de valores possíveis (números inteiros). Qnt de livros de uma biblioteca, qnt de carros em um estatcionamento são exemplos de variáveis quantitativas discretas


In [142]:
dt.Idade.unique()

array([23, 35, 46, 47, 34, 57, 60, 50, 26, 49, 52, 38, 45, 43, 53, 62, 69,
       41, 25, 33, 44, 65, 32, 30, 64, 31, 63, 40, 28, 37, 39, 36, 73, 56,
       27, 42, 51, 29, 24, 55, 67, 66, 61, 54, 48, 80, 79, 71, 59, 19, 22,
       77, 58, 17, 72, 70, 18, 21, 20, 68, 74, 76, 75, 84, 85, 78, 15, 82,
       95, 13, 83, 81, 87, 88, 16, 91, 92, 97, 89, 90, 86, 94, 14, 99],
      dtype=int64)

In [143]:
dt.Renda.unique()

array([  800,  1150,   880, ..., 36000,  1329,  5260], dtype=int64)

In [144]:
print("Menor idade: ", dt.Idade.min())
print("Maior idade: ", dt.Idade.max())

Menor idade:  13
Maior idade:  99


In [145]:
print("Menor renda: ", dt.Renda.min())
print("Maior renda: ", dt.Renda.max())

Menor renda:  0
Maior renda:  200000


## Variável quantitativa contínua

Quando resulta de um número infinito de valores possíveis, resultando de uma escala contínua, de modo que não haja lacunas ou interrupções entre os valores. Altura, peso, largura, comprimento, temperatura, horas e idade são exemplos de variáveis contínuas

In [146]:
dt.head()

Unnamed: 0,UF,Sexo,Idade,Cor,Anos de Estudo,Renda,Altura
0,11,0,23,8,12,800,1.603808
1,11,1,23,2,12,1150,1.73979
2,11,1,35,8,15,880,1.760444
3,11,0,46,2,6,3500,1.783158
4,11,1,47,8,9,150,1.690631


In [147]:
dt.Altura.unique()

array([1.60380762, 1.73978983, 1.76044382, ..., 1.83058738, 1.72634426,
       1.65830485])

In [148]:
print("Menor altura: ", dt.Altura.min(), ", Maior Altura: ", dt.Altura.max())

Menor altura:  1.339244614 , Maior Altura:  2.028496765


# 2) - DISTRIBUIÇÃO DE FREQUÊNCIAS

## Analisando uma variável qualitativa

In [149]:
frequencia = dt.Sexo.value_counts()
frequencia

0    53250
1    23590
Name: Sexo, dtype: int64

0 - Masculino; 1 - Feminino

In [150]:
#O método normalize vai retornar a porcetagem que cada variável possui dentro da população
#normalize = % de representatividade dos dados
percentual = dt.Sexo.value_counts(normalize = True) #* 100
percentual

0    0.692998
1    0.307002
Name: Sexo, dtype: float64

### Criando um dataframe com a estatística dos dados

In [151]:
dist_freq_sexo = pd.DataFrame({'Frequencia': frequencia, 'Percentual': percentual})
dist_freq_sexo

Unnamed: 0,Frequencia,Percentual
0,53250,0.692998
1,23590,0.307002


### Tratando o dataframe

In [152]:
dist_freq_sexo.rename(index = {0: 'MASCULINO', 1: 'FEMININO'}, inplace = True)
dist_freq_sexo

Unnamed: 0,Frequencia,Percentual
MASCULINO,53250,0.692998
FEMININO,23590,0.307002


In [153]:
dist_freq_sexo.rename_axis('Sexo', axis = 'columns', inplace = True)
dist_freq_sexo

Sexo,Frequencia,Percentual
MASCULINO,53250,0.692998
FEMININO,23590,0.307002


# 2.2) - DISTRIBUIÇÃO DE FREQUÊNCIAS QUANTITATIVAS

Vamos primeiro categorizar a variável quantitativa (Renda) para então ordena-las

A base de dados é de 2015, quando o salário mínimo (SM) era de R$788,00

In [154]:
print("Menor renda: ", dt.Renda.min())
print("Maior renda: ", dt.Renda.max())
print("Média: ", dt.Renda.mean().round(2))
print("Mediana: ", dt.Renda.median())

Menor renda:  0
Maior renda:  200000
Média:  2000.38
Mediana:  1200.0


Separar os valores por classe

In [155]:
classes_quantitativa = [0, 1576, 3152, 7880, 15760, 20000]

Separar as classes(de renda) em A, B, C, D e E

In [156]:
classes_qualitativas = ['E', 'D', 'C', 'B', 'A']

Utilizaremos o método .cut() do Pandas para realizar as segmentações, sem precisar fazer na "marra". Retorna pandas.Series

In [157]:
dt_classes = pd.cut(x = dt.Renda, 
                    bins = classes_quantitativa,
                    labels = classes_qualitativas, 
                    include_lowest = True)

dt_classes

0        E
1        E
2        E
3        C
4        E
        ..
76835    E
76836    E
76837    E
76838    E
76839    E
Name: Renda, Length: 76840, dtype: category
Categories (5, object): ['E' < 'D' < 'C' < 'B' < 'A']

Agrupando as variáveis categóricas em grupos

In [158]:
dt_classes_freq = pd.value_counts(pd.cut(x = dt.Renda, 
                    bins = classes_quantitativa,
                    labels = classes_qualitativas, 
                    include_lowest = True))

dt_classes_freq

E    49755
D    16700
C     7599
B     2178
A      349
Name: Renda, dtype: int64

In [159]:
dt_classes_percent = pd.value_counts(pd.cut(x = dt.Renda,
                                            bins = classes_quantitativa,
                                            labels = classes_qualitativas,
                                            include_lowest = True), normalize = True)

dt_classes_percent

E    0.649704
D    0.218070
C    0.099228
B    0.028440
A    0.004557
Name: Renda, dtype: float64

## Alocando os resultados num dataframe

In [160]:
dist_freq_quantitativa_renda = pd.DataFrame({'Frequencia': dt_classes_freq, 'Percentual': dt_classes_percent})
dist_freq_quantitativa_renda

Unnamed: 0,Frequencia,Percentual
E,49755,0.649704
D,16700,0.21807
C,7599,0.099228
B,2178,0.02844
A,349,0.004557


In [161]:
dist_freq_quantitativa_renda.sort_index(ascending = False)

Unnamed: 0,Frequencia,Percentual
A,349,0.004557
B,2178,0.02844
C,7599,0.099228
D,16700,0.21807
E,49755,0.649704


In [163]:
classes = [dt.Altura.min(), 1.65, 1.75, dt.Altura.max()]
labels = ['1 - Baixa', '2 - Média', '3 - Alta']

frequencia = pd.value_counts(
    pd.cut(
        x = dt.Altura,
        bins = classes,
        labels = labels,
        include_lowest = True
    )
)

percentual = pd.value_counts(
    pd.cut(
        x = dt.Altura,
        bins = classes,
        labels = labels,
        include_lowest = True
    ), normalize = True
) * 100

dist_freq_altura = pd.DataFrame(
    {'Frequência': frequencia, 'Porcentagem (%)': percentual}
)

dist_freq_altura.rename_axis('Estaturas', axis= 'columns', inplace = True)

dist_freq_altura.sort_index(ascending = True, inplace = True)

dist_freq_altura

Estaturas,Frequência,Porcentagem (%)
1 - Baixa,20529,26.716554
2 - Média,36162,47.061426
3 - Alta,20149,26.22202
