Extendendo o conteúdo da primeira parte, agora iremos nos preocupar em como analisar o comportamento de duas ou mais variáveis, que é o que ocorre na prática. 

Os dados estão geralmente dispostos em formas de matriz, com $n$ indíviduos na primeira coluna e as subsequentes $p$ colunas: $x_1,x_2,...,x_p$ com as variáveis do estudo.

Podemos ter três situações distintas ao trabalhar com mais de uma variável:

- Todas são qualitativas;
- Todas são quantitativas;
- Associação entre quantitativas e qualitativas.

Em cada caso as técnicas utilizadas são diferentes, porém o objetivo é sempre o mesmo: Encontrar se existe uma associação entre as variáveis.
Considere o seguinte exemplo: Imagine uma população $A$, composta de homens e mulheres. Sabemos que geralmente existe uma associação entre sexo e altura - pessoas do sexo masculino tendem a serem mais altas. Dessa forma, qual seria a chance de encontrar uma pessoa nessa população A com mais de 1,70 do grupo dos homens? E do grupo de mulheres? Se a chance for diferente para os dois grupos, podemos dizer que existe uma associação entre sexo e altura. (mais para frente discutiremos associações espúrias)

# Análise de variáveis qualitativas

- Tabelas de dupla entrada

    Vamos trabalhar com a tabela 2.1, nela iremos analisar o comportamento das váriaveis Y(grau de escolaridade) e V(região de procedência).

In [1]:
# Importar bibiliotecas
import numpy as np
import pandas as pd
import os

# Ler tabela
t21 = pd.read_csv("tabela_2_1.csv")

In [75]:
# Tabela de região x escolaridade
tab_regiao = pd.crosstab(index=t21["V"], 
                           columns=t21["Y"],
                          margins=True)
tab_regiao.index = ["Capital","Interior","Outra","col_total"]
tab_regiao.columns = ["Fundamental","Médio","Superior","row_total"]

tab_regiao


Unnamed: 0,Fundamental,Médio,Superior,row_total
Capital,4,5,2,11
Interior,3,7,2,12
Outra,5,6,2,13
col_total,12,18,6,36


A tabela "tab_regiao" é uma tabela de dupla entrada usualmente utilizada para análises de duas variáveis qualitativas. Cada elemento nos dá a frequência observada de uma variável dada a outra, assim observamos que temos 4 pessoas com fundamental na capital, 3 com fundamental no interior e etc.

Além das frequências absolutas, podemos trabalhar com frequências relativas, as nossas opções são:

- Relação ao total geral;
- Relação ao total de cada linha;
- Relação ao total de cada coluna.

Para cada estudo, uma ou outra será mais eficiente. Vamos analisar:

In [76]:
# Tabela em relação ao total geral
round(tab_regiao/tab_regiao.loc["col_total","row_total"]*100)

Unnamed: 0,Fundamental,Médio,Superior,row_total
Capital,11.0,14.0,6.0,31.0
Interior,8.0,19.0,6.0,33.0
Outra,14.0,17.0,6.0,36.0
col_total,33.0,50.0,17.0,100.0


Neste caso dividimos cada elemento pelo total geral da tabela (36 observações), isso nos dá a frequência relativa de toda a amostra: Sabemos que 31% da amostra é da capital, e que desses elementos capital: 11% tem fundamental, 14% médio e 6% superior.

In [77]:
# Tabela em relação ao total de cada coluna
round(tab_regiao/tab_regiao.loc["col_total"]*100)

Unnamed: 0,Fundamental,Médio,Superior,row_total
Capital,33.0,28.0,33.0,31.0
Interior,25.0,39.0,33.0,33.0
Outra,42.0,33.0,33.0,36.0
col_total,100.0,100.0,100.0,100.0


Aqui nos temos as proporções em relação a cada coluna, dessa forma podemos observar que do grupo da coluna 1 (fundamental), 33% são da capital, 25% do interior e 42% de outra categoria.

In [82]:
# Tabela em relação ao total de cada linha
round(tab_regiao.div(tab_regiao["row_total"],axis = 0)*100)

Unnamed: 0,Fundamental,Médio,Superior,row_total
Capital,36.0,45.0,18.0,100.0
Interior,25.0,58.0,17.0,100.0
Outra,38.0,46.0,15.0,100.0
col_total,33.0,50.0,17.0,100.0


Agora analisamos as linhas: Para a primeira linha (capital) temos 36% dos individuos com fundamental, 45% com médio e 18% com superior.

# Associação de variáveis qualitativas

Um grande objetivo de estudar a distribuição conjunta de duas variáveis é o de conhecer se existe um grau de dependência entre elas (como vimos no exemplo da altura).

Por exemplo: Se queremos estimar a renda média de uma família de São Paulo, a informação sobre a classe social dessa família vai nos ajudar a fazer uma estimação melhor, pois sabemos que existe um grau de dependência entre renda e classe social.

Vamos estudar com um exemplo:

In [28]:
# Criando nova base de dados
tabela_2_2 = pd.DataFrame ({'y': ['Economia']*120 + ['Adm']*80,
                            'x': ['Masculino']*85 + ['Feminino']*35 + ['Masculino']*55 + ['Feminino']*25})

print(tabela_2_2)
# Tabela de distribuição conjunta
tab_2_2 = pd.crosstab (index = tabela_2_2['y'],
                      columns = tabela_2_2['x'],
                      margins = True)
tab_2_2.index = ["Adm","Economia","col_total"]
tab_2_2.columns = ["Fem","Masc","row_total"]
tab_2_2

# Tabela em relação as colunas
round(tab_2_2/tab_2_2.loc["col_total"]*100)

# Exportando para criar arquivo
#tabela_2_2.to_csv('tabela_2_2.csv',index = False)

            y          x
0    Economia  Masculino
1    Economia  Masculino
2    Economia  Masculino
3    Economia  Masculino
4    Economia  Masculino
..        ...        ...
195       Adm   Feminino
196       Adm   Feminino
197       Adm   Feminino
198       Adm   Feminino
199       Adm   Feminino

[200 rows x 2 columns]


Observamos pela tabela de frequencias relativas em relação as colunas que 61% dos integrantes do curso de economia são homens e 58% mulheres, esses valores são muito próximas da proporção marginal (60% para economia)
Da mesma forma, 42% são mulheres e 39% são homens para administração, que é próximo da marginal (40%).
Então podemos inferir que por essa amostra, não parece haver associação entre curso e sexo.

De forma análoga, se tivessemos algo como: 81% homens e 19% mulheres em economia, e 60% marginal, teriamos indicação que é mais provável homens cursarem economia, e então teriamos uma associação entre sexo e curso para a amostra.

Espero que agora eu tenha despertado em você a seguinte pergunta: E como eu meço essa associação? Como posso saber se uma variável está mais ou menos associada a outra? Para responder isso temos:

# Medidas de associação entre variáveis qualitativas

A forma mais comum são os coeficientes de correlação. Essas medidas variam de -1 a 1, com o extremo (-1) medindo associação negativa, o extremo (1) medindo associação positiva e 0 se não existe relação. Quanto mais próximo desses valores mais (ou menos) associação entre as variáveis.

Aqui iremos apresentar o coeficiente de contingência e uma modificação do mesmo.

In [30]:
# Criando nova base de dados
tabela_2_3 = pd.DataFrame ({'y': ['São Paulo']*648 + ['Paraná']*301 + ['Rio G. do Sul']*602,
                            'x': ['Consumidor']*214 + ['Produtor']*237 + ['Escola']*78 + ['Outras']*119 +
                            ['Consumidor']*51 + ['Produtor']*102 + ['Escola']*126 + ['Outras']*22 +
                            ['Consumidor']*111 + ['Produtor']*304 + ['Escola']*139 + ['Outras']*48})
# Exportando para criar arquivo
#tabela_2_3.to_csv('tabela_2_3.csv',index = False)

Vamos usar a tabela de frequência relativa as linhas para analisar:

In [46]:
# Criando tabela de frequência em relação as linhas

tab_2_3 = pd.crosstab (index = tabela_2_3['y'],
                      columns = tabela_2_3['x'],
                      margins = True)
tab_2_3.index = ["Paraná",'Rio G. do Sul','São Paulo',"col_total"]
tab_2_3.columns = ["Consumidor","Escola","Outras","Produtor","row_total"]

print(round(tab_2_3.div(tab_2_3['row_total'],axis = 0)*100))

               Consumidor  Escola  Outras  Produtor  row_total
Paraná               17.0    42.0     7.0      34.0      100.0
Rio G. do Sul        18.0    23.0     8.0      50.0      100.0
São Paulo            33.0    12.0    18.0      37.0      100.0
col_total            24.0    22.0    12.0      41.0      100.0


Observamos que nossa amostra tem 24% de consumidores, 22% de escolas, 12% outras e 41% de produtores. Então seria razoável assumir que se não existe associação entre variáveis, cada estado deveria ter esses valores de cada tipo. Por exemplo, se todo estado tiver 24% de consumidores, o total geral de consumidores se iguala a 24%, mas esse não parece ser o caso.

Aqui vou apresentar a primeira tabela com os números reais observados, e em sequência a tabela com os valores esperado se não houvesse associação (de acordo com as porcentagens definidas a cima):

In [49]:
print(tab_2_3)
tabela_2_3_1 = pd.DataFrame ({'y': ['São Paulo']*648 + ['Paraná']*301 + ['Rio G. do Sul']*602,
                            'x': ['Consumidor']*156 + ['Produtor']*272 + ['Escola']*142 + ['Outras']*78 +
                            ['Consumidor']*72 + ['Produtor']*127 + ['Escola']*66 + ['Outras']*36 +
                            ['Consumidor']*144 + ['Produtor']*254 + ['Escola']*132 + ['Outras']*72})
tab_2_3_1 = pd.crosstab (index = tabela_2_3_1['y'],
                      columns = tabela_2_3_1['x'],
                      margins = True)
tab_2_3_1.index = ["Paraná",'Rio G. do Sul','São Paulo',"col_total"]
tab_2_3_1.columns = ["Consumidor","Escola","Outras","Produtor","row_total"]

print(tab_2_3_1)

               Consumidor  Escola  Outras  Produtor  row_total
Paraná                 51     126      22       102        301
Rio G. do Sul         111     139      48       304        602
São Paulo             214      78     119       237        648
col_total             376     343     189       643       1551
               Consumidor  Escola  Outras  Produtor  row_total
Paraná                 72      66      36       127        301
Rio G. do Sul         144     132      72       254        602
São Paulo             156     142      78       272        648
col_total             372     340     186       653       1551


Observe as frequências destas tabelas para entender o exemplo com as porcentagens:

In [50]:
print(round(tab_2_3.div(tab_2_3['row_total'],axis = 0)*100))
print(round(tab_2_3_1.div(tab_2_3_1['row_total'],axis = 0)*100))

               Consumidor  Escola  Outras  Produtor  row_total
Paraná               17.0    42.0     7.0      34.0      100.0
Rio G. do Sul        18.0    23.0     8.0      50.0      100.0
São Paulo            33.0    12.0    18.0      37.0      100.0
col_total            24.0    22.0    12.0      41.0      100.0
               Consumidor  Escola  Outras  Produtor  row_total
Paraná               24.0    22.0    12.0      42.0      100.0
Rio G. do Sul        24.0    22.0    12.0      42.0      100.0
São Paulo            24.0    22.0    12.0      42.0      100.0
col_total            24.0    22.0    12.0      42.0      100.0


Claramente existe alguma associação entre as variáveis, mas como podemos medi-lá?

Repare nos desvios de cada categoria:
(os desvios são os valores observados - valores esperados):

In [53]:
print(tab_2_3 - tab_2_3_1)

               Consumidor  Escola  Outras  Produtor  row_total
Paraná                -21      60     -14       -25          0
Rio G. do Sul         -33       7     -24        50          0
São Paulo              58     -64      41       -35          0
col_total               4       3       3       -10          0


A categoria são paulo/escola tem o maior desvio (-64) mas os desvios não levam em conta a proporção do valor esperado para a categoria, então para de fato entendermos qual categoria tem o maior desvio precisamos de uma medida de desvio relativo, dado pela expressão:

$\frac{(o_1-e_i)^2}{e_i}$, onde $o_i$ é o valor observado e $e_i$ o valor esperado

Por essa expressão vemos que os desvios relativos de são paulo/escola e paraná/escola são:

In [61]:
print((-64)**2/142)

print(60**2/66)

28.845070422535212
54.54545454545455


Vemos que o desvio do paraná/escola é bem maior que o de são paulo/escola.

Agora vamos analisar o formato da disposição de dados para calcular o $\chi^2$ de Pearson.

Note a disposição de dados na tabela de entrada dupla:

$\begin{bmatrix}   X/Y & B_1 & B_2 & ... & B_s & Total 
                \\ A_1 & n_{11} & n_{12} & ... & n_{1s} & n_{1.}
                \\ A_2 & n_{21} & n_{22} & ... & n_{2s} & n_{2.}
                \\ . & . & . & . & . & . &
                \\ A_r & n_{r1} & n_{r2} & ... & n_{rs} & n_{r.}
                \\ Total & n_{.1} & n_{.2} & ... & n_{r.} & n_{..}
\end{bmatrix}$

Onde temos duas variáveis qualitativas (X e Y):

A variável X tem suas categorias classificadas como A e variam de A1 até Ar 

A variável Y tem suas categorias classifiacadas como B e variam de B1 até Bs

Se assumirmos a hipótese que as variáveis X e Y são independentes:

$n^*_{ij} = \frac{n_{i.}n_{j.}}{n}$ (note que $n^*_{ij}$ vai ser igual ao verdadeiro $n_{ij}$ se a independência for verdadeira.)

Dessa forma calculamos o $\chi^2$ de Pearson como:

$\chi^2 = \sum_{i=1}^r\sum_{j=1}^s \frac{n_{ij}-n^*_{ij}}{n^*_{ij}}$

Note como caso a hipótese de que as variáveis são independentes teremos que  $n^*_{ij} =  n_{ij}$ (ou aproxidamente iguais), quanto mais próximo de 0 $\chi^2$ estiver, mais a hipótese de independência se aproxima de ser verdadeira, e quanto maiores os valores de $\chi^2$ maiores a chances dos valores não serem independentes.

Dessa forma a medida de contingência de Pearson é dada por:

$C = \sqrt{\frac{\chi^2}{\chi^2+n}}$

E uma adaptação nesta medida para que ela varie entre 0 e 1 (para facilitar a interpretação) é dada por:

$T = \sqrt{\frac{\frac{\chi^2}{n}}{(r-1)(s-1)}}$