![Insper](https://github.com/danielscarvalho/Insper-DS-Dicas/blob/master/Insper-Logo.png?raw=true)

# Insper Pós-Graduação
## Programa Avançado em Data Science e Decisão [»](https://www.insper.edu.br/pos-graduacao/programas-avancados/data-science-e-decisao/)

# Aula 05 - Arquivos .SAV, gráficos com **altair**

Arquivo .SAV gerado com o "IBM SPSS STATISTICS"

## Pesquisa TIC Domicílios 2019

Realizada anualmente desde 2005, a pesquisa TIC Domicílios tem o objetivo de mapear o acesso às TIC nos domicílios urbanos e rurais do país e as suas formas de uso por indivíduos de 10 anos de idade ou mais.

A pesquisa TIC Domicílios conta com módulos fixos (coleta anual) e módulos rotativos (outras periodicidades). Os indicadores gerados pela pesquisa oferecem um cenário do acesso e do uso de TIC do Brasil, abordando diversos temas, tais como:

Acesso às TIC;
Uso do computador;
Uso da Internet;
Habilidades na Internet;
Uso do celular;
Governo eletrônico;
Comércio eletrônico;
Atividades culturais na Internet.

A última pesquisa disponível é a do ano de 2019, e todos os dados encontram-se disponíveis em https://cetic.br/pt/pesquisa/domicilios/microdados/

In [35]:
#Talvez seja necessário no seu sistema...
#!conda install altair -y

In [36]:
#Talvez seja necessário no seu sistema...
#!conda install pyreadstat -y
#!conda install -c conda-forge pyreadstat -y


In [37]:
import pandas as pd
import numpy as np
import pyreadstat
import altair as alt

O arquivo que vamos trabalhar possui a extensão .SAV, formato este proveniente do software SPSS (*Statistical Package for the Social Science*). Como o próprio nome sugere, é um software com pacote estatístico para construção, controle, inserção, obtenção de resultados e tomada de decisões baseadas em estatísticas. Entre muitos outros softwares, o SPSS caracteriza-se pela fácil utilização do usuário final, ou seja, como tudo que se deseja no programa pode ser feito através do sistema point and click (apontar e clicar), não é necessário que o usuário final seja programador, como acontece com muitos outros programas estatísticos. O arquivo .sav armazena todas as informações do banco de dados, como definição de variáveis e dados inseridos. 

Observe bem, ele armazena DADOS e DEFINIÇÃO DE VARIÁVEIS. E isso é ótimo para nós. Vamos ler este arquivo por meio da biblioteca pyreadstat.  Observe que nosso arquivo apresenta um encoding diferente ('latin1'). Você sabe explicar o que isso significa?


In [38]:
#Linux, Mac, Unix
!head Bases/ticdom_2019_individuos_base_de_microdados_v1.0.SAV

head: cannot open 'Bases/ticdom_2019_individuos_base_de_microdados_v1.0.SAV' for reading: No such file or directory


Character Set

- ASCII
- ISO-8859-1, Lating1
- UTF-8 (Unicode)

In [39]:
df, meta = pyreadstat.read_sav('ticdom_2019_individuos_base_de_microdados_v1.0.SAV', encoding='latin1')

In [40]:
type(df)

pandas.core.frame.DataFrame

In [41]:
type(meta)

pyreadstat._readstat_parser.metadata_container

In [42]:
df.head(5)

Unnamed: 0,QUEST,ID_DOMICILIO,ID_MORADOR,SEXO,IDADE,FAIXA_ETARIA,GRAU_INSTRUCAO,PEA,RENDA_PESSOAL,RELIGIAO,...,C5_COB_AGREG,C5_COB_NENHUM,C3J3,J3_AGREG,COD_REGIAO_2,GRAU_INSTRUCAO_2,RENDA_FAMILIAR_2,PEA_2,ESTRATO,UPA
0,115431313.0,1.0,1.0,1.0,37.0,3.0,10.0,1.0,2.0,1.0,...,0.0,1.0,1.0,1.0,4.0,3.0,3.0,1.0,49.0,295.0
1,115431314.0,2.0,1.0,2.0,27.0,2.0,10.0,1.0,2.0,3.0,...,0.0,1.0,1.0,1.0,4.0,3.0,2.0,1.0,49.0,295.0
2,115431315.0,3.0,2.0,2.0,19.0,1.0,10.0,1.0,1.0,3.0,...,0.0,1.0,1.0,1.0,4.0,3.0,2.0,1.0,49.0,295.0
3,115431316.0,4.0,1.0,2.0,23.0,1.0,12.0,1.0,2.0,3.0,...,0.0,1.0,1.0,1.0,4.0,4.0,2.0,1.0,49.0,295.0
4,116724798.0,5.0,1.0,1.0,60.0,5.0,3.0,5.0,2.0,1.0,...,0.0,1.0,1.0,1.0,4.0,1.0,2.0,2.0,49.0,295.0


In [43]:
df.shape

(20536, 249)

Observe que a leitura do arquivo .sav retorna dois objetos: um dataframe e um dicionário de metadados. É com esse dicionários que vamos escrever uma função denominada *convert_to_label* que irá retornar os valores categóricos para cada resposta previamente codificada. 

In [44]:
meta.value_labels[
    meta.variable_to_label['RELIGIAO']][1.0]

'Católica'

In [45]:
def calc(val):
    try:
        return 1/val
    except:
        return 0

In [46]:
calc(0)

0

In [47]:
#1/"a"

In [48]:
def convert_to_label(column, value, meta):
    try:
        return meta.value_labels[meta.variable_to_label[column]][value]
    except:
        return value

Vamos fazer uma cópia do dataframe.

In [49]:
df_labels = df.copy()

In [50]:
df_labels

Unnamed: 0,QUEST,ID_DOMICILIO,ID_MORADOR,SEXO,IDADE,FAIXA_ETARIA,GRAU_INSTRUCAO,PEA,RENDA_PESSOAL,RELIGIAO,...,C5_COB_AGREG,C5_COB_NENHUM,C3J3,J3_AGREG,COD_REGIAO_2,GRAU_INSTRUCAO_2,RENDA_FAMILIAR_2,PEA_2,ESTRATO,UPA
0,115431313.0,1.0,1.0,1.0,37.0,3.0,10.0,1.0,2.0,1.0,...,0.0,1.0,1.0,1.0,4.0,3.0,3.0,1.0,49.0,295.0
1,115431314.0,2.0,1.0,2.0,27.0,2.0,10.0,1.0,2.0,3.0,...,0.0,1.0,1.0,1.0,4.0,3.0,2.0,1.0,49.0,295.0
2,115431315.0,3.0,2.0,2.0,19.0,1.0,10.0,1.0,1.0,3.0,...,0.0,1.0,1.0,1.0,4.0,3.0,2.0,1.0,49.0,295.0
3,115431316.0,4.0,1.0,2.0,23.0,1.0,12.0,1.0,2.0,3.0,...,0.0,1.0,1.0,1.0,4.0,4.0,2.0,1.0,49.0,295.0
4,116724798.0,5.0,1.0,1.0,60.0,5.0,3.0,5.0,2.0,1.0,...,0.0,1.0,1.0,1.0,4.0,1.0,2.0,2.0,49.0,295.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20531,122594348.0,33205.0,2.0,1.0,16.0,1.0,7.0,1.0,1.0,12.0,...,0.0,1.0,1.0,1.0,5.0,2.0,7.0,1.0,104.0,967.0
20532,122580380.0,33206.0,2.0,2.0,50.0,4.0,9.0,5.0,1.0,2.0,...,0.0,1.0,1.0,1.0,5.0,3.0,2.0,2.0,104.0,967.0
20533,122585268.0,33208.0,1.0,2.0,58.0,4.0,6.0,2.0,1.0,1.0,...,0.0,1.0,1.0,1.0,5.0,2.0,3.0,1.0,104.0,967.0
20534,122837082.0,33209.0,3.0,2.0,20.0,1.0,8.0,4.0,1.0,12.0,...,0.0,1.0,1.0,1.0,5.0,2.0,97.0,1.0,104.0,967.0


In [51]:
for c in list(df):
    df_labels[c] = df_labels[c].apply(lambda x: convert_to_label(c, x, meta))

In [52]:
df_labels.head()

Unnamed: 0,QUEST,ID_DOMICILIO,ID_MORADOR,SEXO,IDADE,FAIXA_ETARIA,GRAU_INSTRUCAO,PEA,RENDA_PESSOAL,RELIGIAO,...,C5_COB_AGREG,C5_COB_NENHUM,C3J3,J3_AGREG,COD_REGIAO_2,GRAU_INSTRUCAO_2,RENDA_FAMILIAR_2,PEA_2,ESTRATO,UPA
0,115431313.0,1.0,Morador 1,Masculino,37.0,De 35 a 44 anos,3a série/ vestibular,Trabalha em atividade remunerada (PEA),"De R$ 954,01 até R$ 1.908,00",Católica,...,Não,Nenhum,Sim,Sim,Norte,Médio,Mais de 2 SM até 3 SM,PEA,49.0,295.0
1,115431314.0,2.0,Morador 1,Feminino,27.0,De 25 a 34 anos,3a série/ vestibular,Trabalha em atividade remunerada (PEA),"De R$ 954,01 até R$ 1.908,00",Outras Igrejas Evangélicas,...,Não,Nenhum,Sim,Sim,Norte,Médio,Mais de 1 SM até 2 SM,PEA,49.0,295.0
2,115431315.0,3.0,Morador 2,Feminino,19.0,De 16 a 24 anos,3a série/ vestibular,Trabalha em atividade remunerada (PEA),"Até R$ 954,00",Outras Igrejas Evangélicas,...,Não,Nenhum,Sim,Sim,Norte,Médio,Mais de 1 SM até 2 SM,PEA,49.0,295.0
3,115431316.0,4.0,Morador 1,Feminino,23.0,De 16 a 24 anos,Superior completo,Trabalha em atividade remunerada (PEA),"De R$ 954,01 até R$ 1.908,00",Outras Igrejas Evangélicas,...,Não,Nenhum,Sim,Sim,Norte,Superior,Mais de 1 SM até 2 SM,PEA,49.0,295.0
4,116724798.0,5.0,Morador 1,Masculino,60.0,60 anos ou mais,Até pré-escola incompleto,Não trabalha e não procurou trabalho nos últim...,"De R$ 954,01 até R$ 1.908,00",Católica,...,Não,Nenhum,Sim,Sim,Norte,Analfabeto / Educação infantil,Mais de 1 SM até 2 SM,Não PEA,49.0,295.0


In [53]:
pd.set_option('display.max_rows',1000) #define o numero maximo de linhas a serem exibidas no pandas

In [54]:
df_labels.loc[0]

QUEST                                                      115431313.0
ID_DOMICILIO                                                       1.0
ID_MORADOR                                                   Morador 1
SEXO                                                         Masculino
IDADE                                                             37.0
FAIXA_ETARIA                                           De 35 a 44 anos
GRAU_INSTRUCAO                                    3a série/ vestibular
PEA                             Trabalha em atividade remunerada (PEA)
RENDA_PESSOAL                             De R$ 954,01 até R$ 1.908,00
RELIGIAO                                                      Católica
RACA                                                             Parda
C1                                                                 Sim
C2_A                                                     Não se aplica
C2_B                                                     Não se aplica
C2_C  

Python

- for
- lambda
- try
- list
- .apply
- def

## Medida de frequência ponderada

In [55]:
# X é a variável que iremos contar frequencia de seus valores
# Y é a variável que possui o peso amostral

def weighted_frequency(x, y):
    a = pd.Series(df[[x,y]].groupby(x).sum()[y])/df[y].sum()
    b = a.index.map(meta.variable_value_labels[x])
    c = a.values
    df_temp = pd.DataFrame({'Labels': b, 'Frequency': c})
    return df_temp

In [56]:
weighted_frequency('B1', 'PESO')

Unnamed: 0,Labels,Frequency
0,Não,0.417891
1,Sim,0.580622
2,Não sabe,6.8e-05
3,Não respondeu,0.001419


Vamos fazer uso da função *crosstab* da biblioteca Pandas para verificar a quantidade de respostas para o indicador B1 (já usou computador?), em função da Raça.

In [57]:
df_labels['RACA']

0         Parda
1        Branca
2         Parda
3        Branca
4        Branca
          ...  
20531    Branca
20532     Parda
20533    Branca
20534     Parda
20535     Parda
Name: RACA, Length: 20536, dtype: object

In [58]:
df_labels['B1']

0        Sim
1        Sim
2        Sim
3        Não
4        Sim
        ... 
20531    Sim
20532    Sim
20533    Sim
20534    Sim
20535    Sim
Name: B1, Length: 20536, dtype: object

In [59]:
pd.crosstab(df_labels['RACA'], df_labels['B1'])

B1,Não,Não respondeu,Não sabe,Sim
RACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Amarela,263,0,1,265
Branca,3511,6,1,3681
Indígena,212,1,1,144
Não respondeu,577,1,0,130
Parda,4084,12,0,4560
Preta,1628,3,1,1454


O que temos é a quantidade. E se nosso objetivo fosse obter a soma do peso amostral? E para cada possível valor da Raça, nós tivéssemos quanto isso representa em percentual?

In [60]:
df_labels['RACA']

0         Parda
1        Branca
2         Parda
3        Branca
4        Branca
          ...  
20531    Branca
20532     Parda
20533    Branca
20534     Parda
20535     Parda
Name: RACA, Length: 20536, dtype: object

In [61]:
df_labels['PESO']

0         2150.129210
1          549.999603
2         1371.676211
3          714.006789
4         6645.045514
             ...     
20531     8260.657571
20532    14999.232178
20533     4729.809722
20534     9225.024686
20535    10124.651781
Name: PESO, Length: 20536, dtype: float64

In [62]:
pd.crosstab(df_labels['RACA'], df_labels['B1'],
            df_labels['PESO'], aggfunc='sum', normalize='index')

B1,Não,Não respondeu,Não sabe,Sim
RACA,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Amarela,0.429996,0.0,0.000925,0.569079
Branca,0.373124,0.000486,5.9e-05,0.626331
Indígena,0.507732,0.014052,0.000273,0.477944
Não respondeu,0.661876,0.001373,0.0,0.336751
Parda,0.427888,0.001571,0.0,0.570541
Preta,0.45104,0.002388,0.000165,0.546408


In [63]:
def gera_tabela_freq(df, dimensao, indice, peso):
    return pd.crosstab(df[dimensao], df[indice], df[peso], aggfunc='sum', normalize='index')

In [64]:
df_labels['RELIGIAO']

0                                           Católica
1                         Outras Igrejas Evangélicas
2                         Outras Igrejas Evangélicas
3                         Outras Igrejas Evangélicas
4                                           Católica
                            ...                     
20531                                   Sem religião
20532    Luterana/ Presbiteriana/ Metodista/ Batista
20533                                       Católica
20534                                   Sem religião
20535                     Outras Igrejas Evangélicas
Name: RELIGIAO, Length: 20536, dtype: object

In [65]:
df_labels['B1']

0        Sim
1        Sim
2        Sim
3        Não
4        Sim
        ... 
20531    Sim
20532    Sim
20533    Sim
20534    Sim
20535    Sim
Name: B1, Length: 20536, dtype: object

In [66]:
df_labels['PESO']

0         2150.129210
1          549.999603
2         1371.676211
3          714.006789
4         6645.045514
             ...     
20531     8260.657571
20532    14999.232178
20533     4729.809722
20534     9225.024686
20535    10124.651781
Name: PESO, Length: 20536, dtype: float64

In [67]:
gera_tabela_freq(df_labels, 'RELIGIAO', 'B1',  'PESO')

B1,Não,Não respondeu,Não sabe,Sim
RELIGIAO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Agnóstico,0.159559,0.0,0.0,0.840441
Ateu,0.291267,0.012468,0.0,0.696265
Budismo,0.23581,0.0,0.0,0.76419
Candomblé,0.12278,0.0,0.0,0.87722
Católica,0.482996,0.000319,3.8e-05,0.516647
Espírita,0.216066,0.0,0.0,0.783934
Hinduismo,1.0,0.0,0.0,0.0
Islamismo/ Muçulmano,1.0,0.0,0.0,0.0
Judaismo,0.984656,0.0,0.0,0.015344
Luterana/ Presbiteriana/ Metodista/ Batista,0.261432,0.000635,0.0,0.737932


In [68]:
gera_tabela_freq(df_labels, 'PEA_2', 'B1',  'PESO')

B1,Não,Não respondeu,Não sabe,Sim
PEA_2,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Não PEA,0.538646,0.002065,0.000105,0.459184
PEA,0.335495,0.000979,4.2e-05,0.663484


In [69]:
[[a+b for a in range(10)] for b in range(10) if b%2 == 0]

[[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
 [2, 3, 4, 5, 6, 7, 8, 9, 10, 11],
 [4, 5, 6, 7, 8, 9, 10, 11, 12, 13],
 [6, 7, 8, 9, 10, 11, 12, 13, 14, 15],
 [8, 9, 10, 11, 12, 13, 14, 15, 16, 17]]

In [70]:
dimensoes = ['AREA', 'SEXO', 'COD_REGIAO_2', 'RACA', 'GRAU_INSTRUCAO',
             'FAIXA_ETARIA', 'RENDA_FAMILIAR',  'CLASSE_CB2015',  'RELIGIAO', 'PEA_2']

indicadores = [c for c in df_labels.columns if c not in dimensoes + ['QUEST', 'ID_DOMICILIO', 'ID_MORADOR',
                                                                     'IDADE', 'RENDA_PESSOAL', 'GRAU_INSTRUCAO_2', 'RENDA_FAMILIAR_2', 'PEA', 'ESTRATO', 'UPA',  'PEA',  'PESO', 'CLASSE_CB2008', ]]

In [71]:
dimensao = 'SEXO'
indicador = 'B1'

In [72]:
weighted_frequency(indicador, 'PESO')

Unnamed: 0,Labels,Frequency
0,Não,0.417891
1,Sim,0.580622
2,Não sabe,6.8e-05
3,Não respondeu,0.001419


In [73]:
alt.Chart(weighted_frequency(indicador, 'PESO')).mark_bar().encode(
        x=alt.X('Labels', axis=alt.Axis(labelAngle=45, title='Respostas')),
        y=alt.Y('Frequency', axis=alt.Axis(title='Frequencia')),
        tooltip=['Labels', 'Frequency']
).interactive()

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


In [74]:
gera_tabela_freq(df_labels, dimensao,  indicador, 'PESO').reset_index()

B1,SEXO,Não,Não respondeu,Não sabe,Sim
0,Feminino,0.450328,0.001004,4.9e-05,0.548619
1,Masculino,0.382605,0.001871,8.9e-05,0.615436


In [75]:
dimensao = 'AREA'
tiny_data = pd.melt(gera_tabela_freq(df_labels, dimensao,  indicador, 'PESO').reset_index(), 
                    id_vars=dimensao, 
                    var_name='Respostas', 
                    value_name='Frequencia')

In [76]:
tiny_data

Unnamed: 0,AREA,Respostas,Frequencia
0,RURAL,Não,0.677597
1,URBANA,Não,0.375142
2,RURAL,Não respondeu,0.003215
3,URBANA,Não respondeu,0.001124
4,RURAL,Não sabe,0.000153
5,URBANA,Não sabe,5.4e-05
6,RURAL,Sim,0.319035
7,URBANA,Sim,0.623681


In [77]:
alt.Chart(tiny_data).mark_bar().encode(
        x=alt.X('Frequencia',  axis=alt.Axis(labelAngle=45, title='Frequencia')),
        column=dimensao,
        color='Respostas',
        y=alt.Y('Respostas', axis=alt.Axis(title='Respostas')),
).interactive()

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


In [78]:
alt.Chart(tiny_data).mark_bar().encode(
        x=alt.X('Respostas',  axis=alt.Axis(labelAngle=45, title='Respostas')),
        column=dimensao,
        color='AREA',
        y=alt.Y('Frequencia', axis=alt.Axis(title='Frequencia')),
).interactive()

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


In [79]:
def calc2(a=10, b=2):
    """Calc 2 faz calculo maluco!"""
    return a/2

In [80]:
calc2()

5.0

In [81]:
calc2(a=30)

15.0

In [82]:
calc2(b=3)

5.0

In [83]:
help(calc2)

Help on function calc2 in module __main__:

calc2(a=10, b=2)
    Calc 2 faz calculo maluco!



In [84]:
calc2(1,20)

0.5

In [85]:
calc2(b=10,a=44)

22.0

### Referências

- https://github.com/Roche/pyreadstat
- https://altair-viz.github.io/