#Dados PNAD - Importar e discretizar coluna V8005 - IDADES

Este arquivo mostra como:
1. Importar dados de um arquivo txt. Os dados estão separados por espaços e compactados em formato _gzip_ (extensão _gz_)
2. Discretizar uma coluna contínua em diversas faixas usando a função _cut()_.


###Leitura do formato de arquivo

In [203]:
import pandas as pd

Esteja atento para que o arquivo pes2013A.txt.gz esteja no diretório de trabalho

A extensão txt.gz indica que o arquivo txt foi compactado com formato gz. 

Esta compactação tem pouco impacto sobre o tempo de leitura do arquivo, mas reduz seu tamanho em cerca de 80%.

Observe o argumento *compression="gzip"* passado à função read_table. 


In [204]:
import os
print("Diretorio de trabalho: ", os.getcwd())

Diretorio de trabalho:  /Users/mirwox/Dropbox/Insper/2015/Courses/DataScience/github/data_science/aula2


In [205]:
dados = pd.read_table("pes2013A.txt.gz", sep=" ", compression="gzip")

In [206]:
dados

Unnamed: 0,V0101,UF,V0102,V0103,V0301,V0302,V8005,V0404,V4011,V0412,...,V4706,V4707,V4809,V4810,V4711,V4718,V4720,V4742,V4750,V4729
1,2013,11,15,3,1,4,42,2,5,2,...,,,,,,,350,350,350,244
2,2013,11,15,4,1,4,64,8,7,2,...,,,,,,,678,339,339,243
3,2013,11,15,4,2,4,13,4,0,2,...,,,,,,,0,339,339,243
4,2013,11,15,5,1,2,23,8,0,2,...,1,3,5,5,1,800,800,266,266,243
5,2013,11,15,5,2,4,19,8,0,2,...,,,,,,,0,266,266,243
6,2013,11,15,5,3,4,17,8,0,2,...,,,,,,,0,266,266,243
7,2013,11,15,6,1,2,59,4,,2,...,9,3,4,8,2,800,800,400,400,244
8,2013,11,15,6,2,4,56,2,,2,...,,,,,,,0,400,400,244
9,2013,11,15,7,1,2,25,8,1,2,...,1,3,5,6,1,1100,1100,411,411,244
10,2013,11,15,7,2,4,23,2,1,2,...,,,,,,,134,411,411,243


### Explorando a coluna V8005 - IDADE

A coluna V8005, conforme o dicionário de dados, trata-se da idade. Vamos descobrir a idade máxima e a idade mínima

In [207]:
max(dados.V8005)

109

In [208]:
min(dados.V8005)

0

In [209]:
dados.V8005

1     42
2     64
3     13
4     23
5     19
6     17
7     59
8     56
9     25
10    23
11     5
12    37
13    25
14     4
15    50
...
362541    21
362542    22
362543    35
362544    49
362545    13
362546    54
362547    48
362548     5
362549    17
362550    30
362551    33
362552    11
362553     2
362554    32
362555     6
Name: V8005, Length: 362555, dtype: int64

A função _rename()_ aceita um dicionário com os nomes novos e antigos das células a renomear.

In [210]:
dados.rename(columns={"V8005":"IDADE"}, inplace=True)

In [211]:
dados.IDADE.describe()

count    362555.000000
mean         33.049813
std          20.870874
min           0.000000
25%          16.000000
50%          31.000000
75%          48.000000
max         109.000000
Name: IDADE, dtype: float64

Lista todos aqueles que têm idades entre 18 e 20 anos

In [212]:
dados[(dados.IDADE >=18) & (dados.IDADE < 20)].IDADE

5      19
86     19
101    19
118    18
130    18
143    19
179    19
195    18
216    18
227    18
235    19
247    19
253    19
254    18
275    19
...
362139    19
362209    18
362261    19
362290    19
362325    19
362337    19
362354    19
362372    18
362402    18
362424    18
362426    19
362440    18
362474    19
362534    18
362537    18
Name: IDADE, Length: 12612, dtype: int64

### Transformando uma coluna quantitativa em qualitativa ordinal - idades

Ou seja: vamos separar as idades por categorias

Vamos criar categorias para agrupar as idades, de 9 em 9 anos

In [213]:
bins = list(range(0,120,12))

A variável _bins_ contém as categorias

In [214]:
bins

[0, 12, 24, 36, 48, 60, 72, 84, 96, 108]

A função _cut()_ faz o agrupamento de cada variável em sua faixa de idades

In [215]:
coluna_idades = pd.cut(dados.IDADE, bins, include_lowest=True)

Observe o resultado da operação _cut()_, e que a coluna é do tipo _category()_.

In [216]:
coluna_idades

1     (36, 48]
2     (60, 72]
3     (12, 24]
4     (12, 24]
5     (12, 24]
6     (12, 24]
7     (48, 60]
8     (48, 60]
9     (24, 36]
10    (12, 24]
11     [0, 12]
12    (36, 48]
13    (24, 36]
14     [0, 12]
15    (48, 60]
...
362541    (12, 24]
362542    (12, 24]
362543    (24, 36]
362544    (48, 60]
362545    (12, 24]
362546    (48, 60]
362547    (36, 48]
362548     [0, 12]
362549    (12, 24]
362550    (24, 36]
362551    (24, 36]
362552     [0, 12]
362553     [0, 12]
362554    (24, 36]
362555     [0, 12]
Name: IDADE, Length: 362555, dtype: category
Categories (9, object): [[0, 12] < (12, 24] < (24, 36] < (36, 48] ... (60, 72] < (72, 84] < (84, 96] < (96, 108]]

In [217]:
dados.shape

(362555, 72)

A coluna _coluna_idades_ ainda não pertencia à tabela. Vamos inclui-la como _"FAIXA_IDADES"

In [218]:
dados["FAIXA_IDADES"] = coluna_idades

Observe que a dimensão da tabela se alterou. Apareceu uma coluna  amais

In [219]:
dados.shape

(362555, 73)

Vejamos a coluna _IDADE_ juntamente com a coluna _FAIXA_IDADES_

In [220]:
dados.loc[:,("IDADE", "FAIXA_IDADES")]

Unnamed: 0,IDADE,FAIXA_IDADES
1,42,"(36, 48]"
2,64,"(60, 72]"
3,13,"(12, 24]"
4,23,"(12, 24]"
5,19,"(12, 24]"
6,17,"(12, 24]"
7,59,"(48, 60]"
8,56,"(48, 60]"
9,25,"(24, 36]"
10,23,"(12, 24]"


Vamos ordenar os dados pela faixa de idades e guardar num novo dataframe

In [221]:
dados_ordenados = dados.sort(["FAIXA_IDADES", "IDADE"])

Vejamos este novo _dataframe_ ordenado

In [222]:
dados_ordenados.loc[:, ("FAIXA_IDADES", "IDADE")]

Unnamed: 0,FAIXA_IDADES,IDADE
169,"[0, 12]",0
259,"[0, 12]",0
283,"[0, 12]",0
290,"[0, 12]",0
324,"[0, 12]",0
401,"[0, 12]",0
455,"[0, 12]",0
592,"[0, 12]",0
645,"[0, 12]",0
682,"[0, 12]",0


In [224]:
dados_ordenados.FAIXA_IDADES

169     [0, 12]
259     [0, 12]
283     [0, 12]
290     [0, 12]
324     [0, 12]
401     [0, 12]
455     [0, 12]
592     [0, 12]
645     [0, 12]
682     [0, 12]
769     [0, 12]
792     [0, 12]
807     [0, 12]
938     [0, 12]
1044    [0, 12]
...
100699    (96, 108]
118326    (96, 108]
135408    (96, 108]
145433    (96, 108]
271364    (96, 108]
36262     (96, 108]
176221    (96, 108]
313316    (96, 108]
22150     (96, 108]
77657     (96, 108]
147514    (96, 108]
228646    (96, 108]
109643    (96, 108]
234354    (96, 108]
30914           NaN
Name: FAIXA_IDADES, Length: 362555, dtype: category
Categories (9, object): [[0, 12] < (12, 24] < (24, 36] < (36, 48] ... (60, 72] < (72, 84] < (84, 96] < (96, 108]]

Vejamos um resumo dos dados oferecidos pelo _value_counts()_.

In [227]:
dados_ordenados.FAIXA_IDADES.value_counts()

(12, 24]     74248
(24, 36]     69905
[0, 12]      69256
(36, 48]     59893
(48, 60]     47400
(60, 72]     26998
(72, 84]     12192
(84, 96]      2521
(96, 108]      141
dtype: int64

Pronto! Agora a coluna FAIXA_IDADES é adequada para usarmos em tabelas cruzadas (crosstabs) e podermos explorer melhor os dados
