Extendendo o conteúdo da primeira parte, agora iremos nos preocupar em como analisar o comportamento de duas ou mais variáveis, que é o que ocorre na prática. 

Os dados estão geralmente dispostos em formas de matriz, com $n$ indíviduos na primeira coluna e as subsequentes $p$ colunas: $x_1,x_2,...,x_p$ com as variáveis do estudo.

Podemos ter três situações distintas ao trabalhar com mais de uma variável:

- Todas são qualitativas;
- Todas são quantitativas;
- Associação entre quantitativas e qualitativas.

Em cada caso as técnicas utilizadas são diferentes, porém o objetivo é sempre o mesmo: Encontrar se existe uma associação entre as variáveis.
Considere o seguinte exemplo: Imagine uma população $A$, composta de homens e mulheres. Sabemos que geralmente existe uma associação entre sexo e altura - pessoas do sexo masculino tendem a serem mais altas. Dessa forma, qual seria a chance de encontrar uma pessoa nessa população A com mais de 1,70 do grupo dos homens? E do grupo de mulheres? Se a chance for diferente para os dois grupos, podemos dizer que existe uma associação entre sexo e altura. (mais para frente discutiremos associações espúrias)

# Análise variáveis qualitativas

- Tabelas de dupla entrada

    Vamos trabalhar com a tabela 2.1, nela iremos analisar o comportamento das váriaveis Y(grau de escolaridade) e V(região de procedência).

In [12]:
# Importar bibiliotecas
import numpy as np
import pandas as pd
import os

# Ler tabela
t21 = pd.read_csv("tabela_2_1.csv")

In [75]:
# Tabela de região x escolaridade
tab_regiao = pd.crosstab(index=t21["V"], 
                           columns=t21["Y"],
                          margins=True)
tab_regiao.index = ["Capital","Interior","Outra","col_total"]
tab_regiao.columns = ["Fundamental","Médio","Superior","row_total"]

tab_regiao


Unnamed: 0,Fundamental,Médio,Superior,row_total
Capital,4,5,2,11
Interior,3,7,2,12
Outra,5,6,2,13
col_total,12,18,6,36


A tabela "tab_regiao" é uma tabela de dupla entrada usualmente utilizada para análises de duas variáveis qualitativas. Cada elemento nos dá a frequência observada de uma variável dada a outra, assim observamos que temos 4 pessoas com fundamental na capital, 3 com fundamental no interior e etc.

Além das frequências absolutas, podemos trabalhar com frequências relativas, as nossas opções são:

- Relação ao total geral;
- Relação ao total de cada linha;
- Relação ao total de cada coluna.

Para cada estudo, uma ou outra será mais eficiente. Vamos analisar:

In [76]:
# Tabela em relação ao total geral
round(tab_regiao/tab_regiao.loc["col_total","row_total"]*100)

Unnamed: 0,Fundamental,Médio,Superior,row_total
Capital,11.0,14.0,6.0,31.0
Interior,8.0,19.0,6.0,33.0
Outra,14.0,17.0,6.0,36.0
col_total,33.0,50.0,17.0,100.0


Neste caso dividimos cada elemento pelo total geral da tabela (36 observações), isso nos dá a frequência relativa de toda a amostra: Sabemos que 31% da amostra é da capital, e que desses elementos capital: 11% tem fundamental, 14% médio e 6% superior.

In [77]:
# Tabela em relação ao total de cada coluna
round(tab_regiao/tab_regiao.loc["col_total"]*100)

Unnamed: 0,Fundamental,Médio,Superior,row_total
Capital,33.0,28.0,33.0,31.0
Interior,25.0,39.0,33.0,33.0
Outra,42.0,33.0,33.0,36.0
col_total,100.0,100.0,100.0,100.0


Aqui nos temos as proporções em relação a cada coluna, dessa forma podemos observar que do grupo da coluna 1 (fundamental), 33% são da capital, 25% do interior e 42% de outra categoria.

In [82]:
# Tabela em relação ao total de cada linha
round(tab_regiao.div(tab_regiao["row_total"],axis = 0)*100)

Unnamed: 0,Fundamental,Médio,Superior,row_total
Capital,36.0,45.0,18.0,100.0
Interior,25.0,58.0,17.0,100.0
Outra,38.0,46.0,15.0,100.0
col_total,33.0,50.0,17.0,100.0


Agora analisamos as linhas: Para a primeira linha (capital) temos 36% dos individuos com fundamental, 45% com médio e 18% com superior.