#Tratamento dos Dados da Pesquisa De Orçamento Familiar (POF) de 2017/2018, do Instituto Brasileiro de Estatística e Geografia (IBGE)

Olá, neste notebook iremos realizar o processo de transformação e tratamento dos micro dados da POF de 2018 afim de, futuramente, carregá-los num banco de dados PostgreSQL.


Estes dados serão utilizados em análises que servirão para produção de matérias jornalísticas para o projeto de jornalismo de dados da faculdade IESB.

Os dados estão em formato TXT e 100% codificados, isto é, cada linha equivale a uma sequência de números. Todas as linhas tem exatamente a mesma quantidade de números.  

As colunas são delimitadas por sequencias menores de numeros dentro das linhas. (Exemplo: na tabela "Domicílios" os dois primeiros números representam o codigo da UF)  

É possível descobrir os valores dos campos das colunas utilizando o dicionário de dados, disponibilizado aqui, juntamente com os microdados da pesquisa.

Nosso trabalho será de adicionar os delimitadores em todas as tabelas, seguindo as informações do dicionário de dados, convertê-las de .TXT para CSV e adicionar o nome das respectivas colunas, exatamente de acordo com o dicionário.   

#Bibliotecas

In [None]:
from google.colab import drive
drive.mount('/content/drive')
import pandas as pd

Mounted at /content/drive


# Tratamento do arquivo "DOMICÍLIOS"

##Abrindo e Analisando o Arquivo

In [None]:
domicilio = '/content/drive/MyDrive/POF (2017 2018)/DOMICILIO.txt'

with open(domicilio, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 1111110311112222 3  2112112121 11  272.80666931  372.984515701
1111031110005400 21111 5212112222 1  2112112123111  272.80666931  372.984515701
1111031110005400 41411 5211112222 1  2112112221 11  272.80666931  372.984515701
1111031110005400 51411 7112112222 2  2112112221 21  272.80666931  372.984515701
1111031110005400 61111 6211112222 2  2112112221 11  272.80666931  372.984515701


In [None]:
with open(domicilio, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  57920
Total de caracteres da primeira linha:  80
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(domicilio, 'r') as arquivo_orig:
    with open('novo_domicilio.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:20] + ';' + # variável 7
                linha[20:21] + ';' + # variável 8
                linha[21:22] + ';' + # variável 9
                linha[22:24] + ';' + # variável 10
                linha[24:25] + ';' + # variável 11
                linha[25:26] + ';' + # variável 12
                linha[26:27] + ';' + # variável 13
                linha[27:28] + ';' + # variável 14
                linha[28:29] + ';' + # variável 15
                linha[29:30] + ';' + # variável 16
                linha[30:31] + ';' + # variável 17
                linha[31:32] + ';' + # variável 18
                linha[32:33] + ';' + # variável 19
                linha[33:35] + ';' + # variável 20
                linha[35:36] + ';' + # variável 21
                linha[36:37] + ';' + # variável 22
                linha[37:38] + ';' + # variável 23
                linha[38:39] + ';' + # variável 24
                linha[39:40] + ';' + # variável 25
                linha[40:41] + ';' + # variável 26
                linha[41:42] + ';' + # variável 27
                linha[42:43] + ';' + # variável 28
                linha[43:44] + ';' + # variável 29
                linha[44:45] + ';' + # variável 30
                linha[45:46] + ';' + # variável 31
                linha[46:47] + ';' + # variável 32
                linha[47:48] + ';' + # variável 33
                linha[48:49] + ';' + # variável 34
                linha[49:50] + ';' + # variável 35
                linha[50:64] + ';' + # variável 36
                linha[64:78] + ';' + # variável 37
                linha[78:]  # variável 38
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_domicilio = "/content/novo_domicilio.csv"

with open(novo_domicilio, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;1;1;1;10;3;1;1;1;1;2;2;2;2;3;;;2;1;1;2;1;1;2;1;2;1;;1;1;272.80666931;372.98451570;1


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_domicilio, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  57920
Total de caracteres da primeira linha:  108
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
nome_var = ['UF','ESTRATO_POF','TIPO_SITUACAO_REG','COD_UPA','NUM_DOM','V0201','V0202','V0203',
    'V0204','V0205','V0206','V0207','V0208','V0209','V02101','V02102','V02103','V02104',
    'V02105','V02111','V02112','V02113','V0212','V0213','V02141','V02142','V0215','V02161','V02162',
    'V02163','V02164','V0217','V0219','V0220','V0221','PESO','PESO_FINAL','V6199']

In [None]:
df = pd.read_csv('/content/novo_domicilio.csv', sep=';', names = nome_var, dtype='object')

In [None]:
df.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,V0201,V0202,V0203,V0204,V0205,...,V02162,V02163,V02164,V0217,V0219,V0220,V0221,PESO,PESO_FINAL,V6199
0,11,1103,1,110005400,1,1,1,1,1,10,...,2,1,2,1,,1,1,272.80666931,372.9845157,1
1,11,1103,1,110005400,2,1,1,1,1,5,...,2,1,2,3,1.0,1,1,272.80666931,372.9845157,1
2,11,1103,1,110005400,4,1,4,1,1,5,...,2,2,2,1,,1,1,272.80666931,372.9845157,1
3,11,1103,1,110005400,5,1,4,1,1,7,...,2,2,2,1,,2,1,272.80666931,372.9845157,1
4,11,1103,1,110005400,6,1,1,1,1,6,...,2,2,2,1,,1,1,272.80666931,372.9845157,1


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57920 entries, 0 to 57919
Data columns (total 38 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   UF                 57920 non-null  object
 1   ESTRATO_POF        57920 non-null  object
 2   TIPO_SITUACAO_REG  57920 non-null  object
 3   COD_UPA            57920 non-null  object
 4   NUM_DOM            57920 non-null  object
 5   V0201              57920 non-null  object
 6   V0202              57920 non-null  object
 7   V0203              57920 non-null  object
 8   V0204              57920 non-null  object
 9   V0205              57920 non-null  object
 10  V0206              57920 non-null  object
 11  V0207              57920 non-null  object
 12  V0208              44187 non-null  object
 13  V0209              57920 non-null  object
 14  V02101             54854 non-null  object
 15  V02102             54854 non-null  object
 16  V02103             54854 non-null  objec

##Conferir Unicidade da Chave Identificadora

In [None]:
df_id = df.drop_duplicates(subset=['COD_UPA','NUM_DOM'], keep='first')

In [None]:
df_id.shape[0]

57920

## Baixar Arquivo como CSV

In [None]:
df.to_csv('DOMICILIO.csv', index=False)

# Tratamento do arquivo "MORADOR"

## Abrir e Analisar Arquivo

In [None]:
morador = '/content/drive/MyDrive/POF (2017 2018)/MORADOR.txt'


In [None]:
with open(morador, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')

5 primeiras Linhas: 

1111011110000016 21 1 1115 71953 6414211 01 0 012                 1 5  1 42 5  449.91150552  690.88373818   3855.342     1237.1830555556     1285.1141666667        0.0000000000       47.9311111111
1111011110000016 21 2 21 1121956 6124211 11 0 012                 1 5  1 52 6  449.91150552  690.88373818   3855.342     1237.1830555556     1285.1141666667        0.0000000000       47.9311111111
1111011110000016 21 3 6116121976 4114211 11 0 012                 110  1 3112  449.91150552  690.88373818   3855.345     1237.1830555556     1285.1141666667        0.0000000000       47.9311111111
1111011110000016 31 1 11 4 71980 3724211 01 0 112                 110  1 3112  449.91150552  690.88373818   4242.485     1265.6441666667      826.7800000000      446.3404166667        7.4762500000
1111011110000016 31 2 21 7121977 4014211 00   112                 1 8  1 52 6  449.91150552  690.88373818   4242.482     1265.6441666667      826.7800000000      446.3404166667        7.4762

In [None]:
with open(morador, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  178431
Total de caracteres da primeira linha:  197
Todas as Linhas tem o mesmo comprimento da primeira?  True


## Adicionar Separador

In [None]:
with open(morador, 'r') as arquivo_orig:
    with open('novo_morador.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:24] + ';' + # variável 9
                linha[24:26] + ';' + # variável 10
                linha[26:28] + ';' + # variável 11
                linha[28:32] + ';' + # variável 12
                linha[32:35] + ';' + # variável 13
                linha[35:36] + ';' + # variável 14
                linha[36:37] + ';' + # variável 15
                linha[37:38] + ';' + # variável 16
                linha[38:39] + ';' + # variável 17
                linha[39:40] + ';' + # variável 18
                linha[40:42] + ';' + # variável 19
                linha[42:43] + ';' + # variável 20
                linha[43:45] + ';' + # variável 21
                linha[45:46] + ';' + # variável 22
                linha[46:47] + ';' + # variável 23
                linha[47:48] + ';' + # variável 24
                linha[48:49] + ';' + # variável 25
                linha[49:50] + ';' + # variável 26
                linha[50:51] + ';' + # variável 27
                linha[51:52] + ';' + # variável 28
                linha[52:53] + ';' + # variável 29
                linha[53:54] + ';' + # variável 30
                linha[54:55] + ';' + # variável 31
                linha[55:56] + ';' + # variável 32
                linha[56:57] + ';' + # variável 33
                linha[57:58] + ';' + # variável 34
                linha[58:59] + ';' + # variável 35
                linha[59:61] + ';' + # variável 36
                linha[61:62] + ';' + # variável 37
                linha[62:63] + ';' +  # variável 38
                linha[63:65] + ';' +  # variável 39
                linha[65:66] + ';' +  # variável 40
                linha[66:67] + ';' +  # variável 41
                linha[67:69] + ';' +  # variável 42
                linha[69:70] + ';' +  # variável 43
                linha[70:71] + ';' +  # variável 44
                linha[71:72] + ';' +  # variável 45
                linha[72:74] + ';' +  # variável 46
                linha[74:75] + ';' +  # variável 47
                linha[75:77] + ';' +  # variável 48
                linha[77:91] + ';' +  # variável 49
                linha[91:105] + ';' +  # variável 50
                linha[105:115] + ';' +  # variável 51
                linha[115:116] + ';' +  # variável 52
                linha[116:136] + ';' +  # variável 53
                linha[136:156] + ';' +  # variável 54
                linha[156:176] + ';' +  # variável 55
                linha[176:] # variável 56
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)

Conferir Processo

In [None]:
novo_morador = "/content/novo_morador.csv"

with open(novo_morador, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1101;1;110000016;2;1;1;1;1;15;7;1953;64;1;4;2;1;1;0;1;0;;0;1;2;;;;;;;;;;;;;;;;1;5;;;1;4;2;5;449.91150552;690.88373818;3855.34;2;1237.1830555556;1285.1141666667;0.0000000000;47.9311111111


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_morador, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  178431
Total de caracteres da primeira linha:  190
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir como Dataframe, para melhor análise

In [None]:
colunas_morador = nomes = [
    'UF', 'ESTRATO_POF', 'TIPO_SITUACAO_REG', 'COD_UPA', 'NUM_DOM', 'NUM_UC',
    'COD_INFORMANTE', 'V0306', 'V0401', 'V04021', 'V04022', 'V04023', 'V0403',
    'V0404', 'V0405', 'V0406', 'V0407', 'V0408', 'V0409', 'V0410', 'V0411',
    'V0412', 'V0413', 'V0414', 'V0415', 'V0416', 'V041711', 'V041712',
    'V041721', 'V041722', 'V041731', 'V041732', 'V041741', 'V041742', 'V0418',
    'V0419', 'V0420', 'V0421', 'V0422', 'V0423', 'V0424', 'V0425', 'V0426',
    'V0427', 'V0428', 'V0429', 'V0430', 'ANOS_ESTUDO', 'PESO', 'PESO_FINAL',
    'RENDA_TOTAL', 'NIVEL_INSTRUCAO', 'RENDA_DISP_PC', 'RENDA_MONET_PC',
    'RENDA_NAO_MONET_PC', 'DEDUCAO_PC'
]


In [None]:
df_novo_morador = pd.read_csv('/content/novo_morador.csv', sep=';', names = colunas_morador, dtype='object')

In [None]:
df_novo_morador.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178431 entries, 0 to 178430
Data columns (total 56 columns):
 #   Column              Non-Null Count   Dtype 
---  ------              --------------   ----- 
 0   UF                  178431 non-null  object
 1   ESTRATO_POF         178431 non-null  object
 2   TIPO_SITUACAO_REG   178431 non-null  object
 3   COD_UPA             178431 non-null  object
 4   NUM_DOM             178431 non-null  object
 5   NUM_UC              178431 non-null  object
 6   COD_INFORMANTE      178431 non-null  object
 7   V0306               178431 non-null  object
 8   V0401               178431 non-null  object
 9   V04021              178431 non-null  object
 10  V04022              178431 non-null  object
 11  V04023              178431 non-null  object
 12  V0403               178431 non-null  object
 13  V0404               178431 non-null  object
 14  V0405               178431 non-null  object
 15  V0406               178431 non-null  object
 16  V0

In [None]:
df_novo_morador.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,COD_INFORMANTE,V0306,V0401,V04021,...,V0430,ANOS_ESTUDO,PESO,PESO_FINAL,RENDA_TOTAL,NIVEL_INSTRUCAO,RENDA_DISP_PC,RENDA_MONET_PC,RENDA_NAO_MONET_PC,DEDUCAO_PC
0,11,1101,1,110000016,2,1,1,1,1,15,...,2,5,449.91150552,690.88373818,3855.34,2,1237.1830555556,1285.1141666667,0.0,47.9311111111
1,11,1101,1,110000016,2,1,2,2,1,1,...,2,6,449.91150552,690.88373818,3855.34,2,1237.1830555556,1285.1141666667,0.0,47.9311111111
2,11,1101,1,110000016,2,1,3,6,1,16,...,1,12,449.91150552,690.88373818,3855.34,5,1237.1830555556,1285.1141666667,0.0,47.9311111111
3,11,1101,1,110000016,3,1,1,1,1,4,...,1,12,449.91150552,690.88373818,4242.48,5,1265.6441666667,826.78,446.3404166667,7.47625
4,11,1101,1,110000016,3,1,2,2,1,7,...,2,6,449.91150552,690.88373818,4242.48,2,1265.6441666667,826.78,446.3404166667,7.47625


## Conferir Unicidade da Chave Primária

In [None]:
df_novo_morador_pk = df_novo_morador.drop_duplicates(subset=['COD_UPA','NUM_DOM','COD_INFORMANTE'], keep='first')

In [None]:
df_novo_morador_pk.shape[0]

178431

## Aplicar Regras Normais

In [None]:
df_novo_morador = df_novo_morador.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_novo_morador.to_csv('MORADOR.csv', index=False)

# Tratamento do arquivo "MORADOR_QUALI_VIDA"

## Abrir e Analisar o Arquivo

In [None]:
morador_quali_vida = '/content/drive/MyDrive/POF (2017 2018)/MORADOR_QUALI_VIDA.txt'

with open(morador_quali_vida, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 11 1        0.1777777778        0.11322929150000000000000010010011000100000100000000000000001001212753 9     2488.9843750000     2383.9364583333  272.80666931  372.98451570
1111031110005400 11 2        0.1777777778        0.11322929150000000000000010010011000100000100000000000000001001212753 9     2488.9843750000     2383.9364583333  272.80666931  372.98451570
1111031110005400 11 3        0.1777777778        0.11322929150000000000000010010011000100000100000000000000001001212753 9     2488.9843750000     2383.9364583333  272.80666931  372.98451570
1111031110005400 11 4        0.1777777778        0.11322929150000000000000010010011000100000100000000000000001001212753 9     2488.9843750000     2383.9364583333  272.80666931  372.98451570
1111031110005400 21 1        0.3000000000        0.2036096767000001001000001011000100010000010011010000000000111121254410     3474.6255555556     3373.9022222222  272.80666931  372.98451570


In [None]:
with open(morador_quali_vida, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  178369
Total de caracteres da primeira linha:  190
Todas as Linhas tem o mesmo comprimento da primeira?  True


## Adicionar Separador

In [None]:
with open(morador_quali_vida, 'r') as arquivo_orig:
    with open('novo_morador_quali.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:41] + ';' + # variável 8
                linha[41:61] + ';' + # variável 9
                linha[61:62] + ';' + # variável 10
                linha[62:63] + ';' + # variável 11
                linha[63:64] + ';' + # variável 12
                linha[64:65] + ';' + # variável 13
                linha[65:66] + ';' + # variável 14
                linha[66:67] + ';' + # variável 15
                linha[67:68] + ';' + # variável 16
                linha[68:69] + ';' + # variável 17
                linha[69:70] + ';' + # variável 18
                linha[70:71] + ';' + # variável 19
                linha[71:72] + ';' + # variável 20
                linha[72:73] + ';' + # variável 21
                linha[73:74] + ';' + # variável 22
                linha[74:75] + ';' + # variável 23
                linha[75:76] + ';' + # variável 24
                linha[76:77] + ';' + # variável 25
                linha[77:78] + ';' + # variável 26
                linha[78:79] + ';' + # variável 27
                linha[79:80] + ';' + # variável 28
                linha[80:81] + ';' + # variável 29
                linha[81:82] + ';' + # variável 30
                linha[82:83] + ';' + # variável 31
                linha[83:84] + ';' + # variável 32
                linha[84:85] + ';' + # variável 33
                linha[85:86] + ';' + # variável 34
                linha[86:87] + ';' + # variável 35
                linha[87:88] + ';' + # variável 36
                linha[88:89] + ';' + # variável 37
                linha[89:90] + ';' + # variável 38
                linha[90:91] + ';' + # variável 39
                linha[91:92] + ';' + # variável 40
                linha[92:93] + ';' + # variável 41
                linha[93:94] + ';' + # variável 42
                linha[94:95] + ';' + # variável 43
                linha[95:96] + ';' + # variável 44
                linha[96:97] + ';' + # variável 45
                linha[97:98] + ';' + # variável 46
                linha[98:99] + ';' + # variável 47
                linha[99:100] + ';' + # variável 48
                linha[100:101] + ';' + # variável 49
                linha[101:102] + ';' + # variável 50
                linha[102:103] + ';' + # variável 51
                linha[103:104] + ';' + # variável 52
                linha[104:105] + ';' + # variável 53
                linha[105:106] + ';' + # variável 54
                linha[106:107] + ';' + # variável 55
                linha[107:108] + ';' + # variável 56
                linha[108:109] + ';' + # variável 57
                linha[109:110] + ';' + # variável 58
                linha[110:111] + ';' + # variável 59
                linha[111:112] + ';' + # variável 60
                linha[112:113] + ';' + # variável 61
                linha[113:114] + ';' + # variável 62
                linha[114:115] + ';' + # variável 63
                linha[115:116] + ';' + # variável 64
                linha[116:117] + ';' + # variável 65
                linha[117:118] + ';' + # variável 66
                linha[118:119] + ';' + # variável 67
                linha[119:121] + ';' + # variável 68
                linha[121:141] + ';' + # variável 69
                linha[141:161] + ';' + # variável 70
                linha[161:175] + ';' + # variável 71
                linha[175:] # variável 72
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)

Conferir Processo

In [None]:
novo_morador_quali = "/content/novo_morador_quali.csv"

with open(novo_morador_quali, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;1;0.1777777778;0.1132292915;0;0;0;0;0;0;0;0;0;0;0;0;0;0;1;0;0;1;0;0;1;1;0;0;0;1;0;0;0;0;0;1;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;1;0;0;1;2;1;2;7;5;3;9;2488.9843750000;2383.9364583333;272.80666931;372.98451570


In [None]:
with open(novo_morador_quali, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  178369
Total de caracteres da primeira linha:  228
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir como Dataframe, para melhor Análise

In [None]:
colunas_morador_quali = [
    "UF", "ESTRATO_POF", "TIPO_SITUACAO_REG", "COD_UPA", "NUM_DOM", "NUM_UC",
    "COD_INFORMANTE", "CONTAGEM_PONDERADA", "FUNCAO_PERDA", "V201", "V202",
    "V204", "V205", "V206", "V207", "V208", "V209", "V210", "V211", "V212",
    "V214", "V215", "V216", "V217", "V301", "V302", "V303", "V304", "V305",
    "V306", "V307", "V308", "V401", "V402", "V403", "V501", "V502", "V503",
    "V504", "V505", "V506", "V601", "V602", "V603", "V604", "V605", "V606",
    "V607", "V608", "V609", "V610", "V611", "V701", "V702", "V703", "V704",
    "V801", "V802", "V901", "V902", "GRANDE_REGIAO", "V201_C1", "V201_C2",
    "V201_C3", "V201_C4", "V201_C5", "V201_C6", "V201_C7", "RENDA_DISP_PC",
    "RENDA_DISP_PC_SS", "PESO", "PESO_FINAL"
]


In [None]:
df_mor_quali = pd.read_csv('/content/novo_morador_quali.csv', sep=';', names = colunas_morador_quali, dtype='object')

In [None]:
df_mor_quali.shape[0]

178369

In [None]:
df_mor_quali.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 178369 entries, 0 to 178368
Data columns (total 72 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   UF                  178369 non-null  int64  
 1   ESTRATO_POF         178369 non-null  int64  
 2   TIPO_SITUACAO_REG   178369 non-null  int64  
 3   COD_UPA             178369 non-null  int64  
 4   NUM_DOM             178369 non-null  int64  
 5   NUM_UC              178369 non-null  int64  
 6   COD_INFORMANTE      178369 non-null  int64  
 7   CONTAGEM_PONDERADA  178369 non-null  float64
 8   FUNCAO_PERDA        178369 non-null  float64
 9   V201                178369 non-null  int64  
 10  V202                178369 non-null  int64  
 11  V204                178369 non-null  int64  
 12  V205                178369 non-null  int64  
 13  V206                178369 non-null  int64  
 14  V207                178369 non-null  int64  
 15  V208                178369 non-nul

In [None]:
df_mor_quali.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,COD_INFORMANTE,CONTAGEM_PONDERADA,FUNCAO_PERDA,V201,...,V201_C2,V201_C3,V201_C4,V201_C5,V201_C6,V201_C7,RENDA_DISP_PC,RENDA_DISP_PC_SS,PESO,PESO_FINAL
0,11,1103,1,110005400,1,1,1,0.177778,0.113229,0,...,1,2,7,5,3,9,2488.984375,2383.936458,272.806669,372.984516
1,11,1103,1,110005400,1,1,2,0.177778,0.113229,0,...,1,2,7,5,3,9,2488.984375,2383.936458,272.806669,372.984516
2,11,1103,1,110005400,1,1,3,0.177778,0.113229,0,...,1,2,7,5,3,9,2488.984375,2383.936458,272.806669,372.984516
3,11,1103,1,110005400,1,1,4,0.177778,0.113229,0,...,1,2,7,5,3,9,2488.984375,2383.936458,272.806669,372.984516
4,11,1103,1,110005400,2,1,1,0.3,0.20361,0,...,1,2,5,4,4,10,3474.625556,3373.902222,272.806669,372.984516


## Conferir Unicidade da chave Primária

In [None]:
df_mor_quali_id = df_mor_quali.drop_duplicates(subset=['NUM_DOM','COD_UPA','COD_INFORMANTE'], keep='first')
df_mor_quali_id.shape[0]

178369

## Aplicar Regras Normais

In [None]:
df_mor_quali = df_mor_quali.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','NUM_UC','RENDA_DISP_PC'], axis=1)

## Baixar arquivo CSV

In [None]:
df_mor_quali.to_csv('MORADOR_QUALI_VIDA.csv', index=False)

# Tratamento do arquivo "ALUGUEL ESTIMADO"

###Abrindo e Analisando o Arquivo

In [None]:
aluguel_estimado = '/content/drive/MyDrive/POF (2017 2018)/ALUGUEL_ESTIMADO.txt'

In [None]:
with open(aluguel_estimado, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 1100000010111   2000.00 9121.0008526398   2001.710 1  272.80666931  372.98451570  11254.75
1111031110005400 4100000010111    500.0010120.9994171352    499.710 1  272.80666931  372.98451570   4769.13
1111031110005400 5100000010111    300.0010120.9994171352    299.830 1  272.80666931  372.98451570   2313.61
1111031110005400 6100000010111    400.0010120.9994171352    399.770 1  272.80666931  372.98451570   6596.90
1111031110005400 7100000010111    200.0010120.9992091279    199.840 1  272.80666931  372.98451570    366.43


In [None]:
with open(aluguel_estimado, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  48935
Total de caracteres da primeira linha:  108
Todas as Linhas tem o mesmo comprimento da primeira?  True


## Adicionar Separadores

In [None]:
with open(aluguel_estimado, 'r') as arquivo_orig:
    with open('novo_aluguel_estimado.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:28] + ';' + # variável 8
                linha[28:30] + ';' + # variável 9
                linha[30:40] + ';' + # variável 10
                linha[40:42] + ';' + # variável 11
                linha[42:44] + ';' + # variável 12
                linha[44:56] + ';' + # variável 13
                linha[56:66] + ';' + # variável 14
                linha[66:67] + ';' + # variável 15
                linha[67:69] + ';' + # variável 16
                linha[69:83] + ';' + # variável 17
                linha[83:97] + ';' + # variável 18
                linha[97:] # variável 19
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)

Conferir Processo

In [None]:
novo_aluguel_estimado = "/content/novo_aluguel_estimado.csv"

with open(novo_aluguel_estimado, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;00;0000101;11;2000.00;9;12;1.0008526398;2001.71;0;1;272.80666931;372.98451570;11254.75


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_aluguel_estimado, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  48935
Total de caracteres da primeira linha:  111
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_aluguel_estimado = [
    "UF", "ESTRATO_POF", "TIPO_SITUACAO_REG", "COD_UPA", "NUM_DOM", "NUM_UC",
    "QUADRO", "V9001", "V9002", "V8000", "V9010", "V9011", "DEFLATOR",
    "V8000_DEFLA", "COD_IMPUT_VALOR", "FATOR_ANUALIZACAO", "PESO", "PESO_FINAL",
    "RENDA_TOTAL"
]


In [None]:
df_aluguel_estimado = pd.read_csv('/content/novo_aluguel_estimado.csv', sep=';', names=colunas_aluguel_estimado, dtype='object')

In [None]:
df_aluguel_estimado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 48935 entries, 0 to 48934
Data columns (total 19 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   UF                 48935 non-null  object
 1   ESTRATO_POF        48935 non-null  object
 2   TIPO_SITUACAO_REG  48935 non-null  object
 3   COD_UPA            48935 non-null  object
 4   NUM_DOM            48935 non-null  object
 5   NUM_UC             48935 non-null  object
 6   QUADRO             48935 non-null  object
 7   V9001              48935 non-null  object
 8   V9002              48935 non-null  object
 9   V8000              48935 non-null  object
 10  V9010              48935 non-null  object
 11  V9011              48935 non-null  object
 12  DEFLATOR           48935 non-null  object
 13  V8000_DEFLA        48935 non-null  object
 14  COD_IMPUT_VALOR    48935 non-null  object
 15  FATOR_ANUALIZACAO  48935 non-null  object
 16  PESO               48935 non-null  objec

In [None]:
df_aluguel_estimado.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,QUADRO,V9001,V9002,V8000,V9010,V9011,DEFLATOR,V8000_DEFLA,COD_IMPUT_VALOR,FATOR_ANUALIZACAO,PESO,PESO_FINAL,RENDA_TOTAL
0,11,1103,1,110005400,1,1,0,101,11,2000.0,9,12,1.000853,2001.71,0,1,272.806669,372.984516,11254.75
1,11,1103,1,110005400,4,1,0,101,11,500.0,10,12,0.999417,499.71,0,1,272.806669,372.984516,4769.13
2,11,1103,1,110005400,5,1,0,101,11,300.0,10,12,0.999417,299.83,0,1,272.806669,372.984516,2313.61
3,11,1103,1,110005400,6,1,0,101,11,400.0,10,12,0.999417,399.77,0,1,272.806669,372.984516,6596.9
4,11,1103,1,110005400,7,1,0,101,11,200.0,10,12,0.999209,199.84,0,1,272.806669,372.984516,366.43


In [None]:
df_aluguel_estimado['V9001'].unique()

array(['0000101'], dtype=object)

## Conferir Unicidade da Chave Identificadora

In [None]:
df_aluguel_estimado_id = df_aluguel_estimado.drop_duplicates(subset=['COD_UPA','NUM_DOM'], keep='first')
df_aluguel_estimado_id.shape[0]

48935

## Aplicar Regras Normais

In [None]:
df_aluguel_estimado = df_aluguel_estimado.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','NUM_UC','RENDA_TOTAL'], axis=1)

## Baixar Arquivo em CSV

In [None]:
df_aluguel_estimado.to_csv('ALUGUEL_ESTIMADO.csv', index=False)

# Tratamento do arquivo "DESPESA COLETIVA"

##Abrindo e Analisando o Arquivo

In [None]:
despesa_coletiva = '/content/drive/MyDrive/POF (2017 2018)/DESPESA_COLETIVA.txt'

with open(despesa_coletiva, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 11 6 0 600101 1 407    278.00                0.8928566066    248.21          0112  272.80666931  372.98451570  11254.75     
1111031110005400 11 6 1 600201 1         45.00                1.0843039773     48.79          0 12  272.80666931  372.98451570  11254.75     
1111031110005400 11 6 3 600401 1        118.00                0.9811759729    115.78          0 12  272.80666931  372.98451570  11254.75     
1111031110005400 11 6 4 600501 1         80.00                1.0000000000     80.00          0 12  272.80666931  372.98451570  11254.75     
1111031110005400 11 6 5 600601 1        100.00                1.0000000000    100.00          0 12  272.80666931  372.98451570  11254.75     


In [None]:
with open(despesa_coletiva, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  478572
Total de caracteres da primeira linha:  142
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(despesa_coletiva, 'r') as arquivo_orig:
    with open('nova_despesa_coletiva.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:30] + ';' + # variável 9
                linha[30:32] + ';' + # variável 10
                linha[32:36] + ';' + # variável 11
                linha[36:46] + ';' + # variável 12
                linha[46:48] + ';' + # variável 13
                linha[48:50] + ';' + # variável 14
                linha[50:51] + ';' + # variável 15
                linha[51:61] + ';' + # variável 16
                linha[61:62] + ';' + # variável 17
                linha[62:74] + ';' + # variável 18
                linha[74:84] + ';' + # variável 19
                linha[84:94] + ';' + # variável 20
                linha[94:95] + ';' + # variável 21
                linha[95:96] + ';' + # variável 22
                linha[96:98] + ';' + # variável 23
                linha[98:112] + ';' + # variável 24
                linha[112:126] + ';' + # variável 25
                linha[126:136] + ';' + # variável 26
                linha[136:] # variável 27
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
nova_despesa_coletiva = "/content/nova_despesa_coletiva.csv"

with open(nova_despesa_coletiva, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;6;0;600101;1;407;278.00;;;;;;0.8928566066;248.21;;0;1;12;272.80666931;372.98451570;11254.75;


Conferir Estado do Novo Arquivo

In [None]:
with open(nova_despesa_coletiva, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  478572
Total de caracteres da primeira linha:  117
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_despesas_coletivas = [
    "UF", "ESTRATO_POF", "TIPO_SITUACAO_REG", "COD_UPA", "NUM_DOM", "NUM_UC",
    "QUADRO", "SEQ", "V9001", "V9002", "V9005", "V8000", "V9010", "V9011",
    "V9012", "V1904", "V1905", "DEFLATOR", "V8000_DEFLA", "V1904_DEFLA",
    "COD_IMPUT_VALOR", "COD_IMPUT_QUANTIDADE", "FATOR_ANUALIZACAO", "PESO",
    "PESO_FINAL", "RENDA_TOTAL", "V9004"
]


In [None]:
df_despesa_coletiva = pd.read_csv('/content/nova_despesa_coletiva.csv', sep=';', names = colunas_despesas_coletivas, dtype='object')

In [None]:
df_despesa_coletiva.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 478572 entries, 0 to 478571
Data columns (total 27 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   UF                    478572 non-null  int64  
 1   ESTRATO_POF           478572 non-null  int64  
 2   TIPO_SITUACAO_REG     478572 non-null  int64  
 3   COD_UPA               478572 non-null  int64  
 4   NUM_DOM               478572 non-null  int64  
 5   NUM_UC                478572 non-null  int64  
 6   QUADRO                478572 non-null  int64  
 7   SEQ                   478572 non-null  int64  
 8   V9001                 478572 non-null  int64  
 9   V9002                 478572 non-null  int64  
 10  V9005                 478572 non-null  object 
 11  V8000                 478572 non-null  float64
 12  V9010                 478572 non-null  object 
 13  V9011                 478572 non-null  object 
 14  V9012                 478572 non-null  object 
 15  

In [None]:
df_despesa_coletiva.head(1).T

Unnamed: 0,0
COD_UPA,110005400.0
NUM_DOM,1.0
NUM_UC,1.0
QUADRO,6.0
SEQ,0.0
V9001,600101.0
V9002,1.0
V9005,407.0
V8000,278.0
V9010,


In [None]:
df_despesa_coletiva['V9004'] = df_despesa_coletiva['V9004'].str.zfill(5)

##Conferir Unicidade da Chave Identificadora

In [None]:
df_despesa_coletiva_id = df_despesa_coletiva.drop_duplicates(subset=['COD_UPA','NUM_DOM','V9004','V9001','SEQ','NUM_UC'], keep='first')

In [None]:
df_despesa_coletiva_id.shape[0]

478572

## Aplicar Regras Normais

In [None]:
df_despesa_coletiva = df_despesa_coletiva.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_despesa_coletiva.to_csv('DESPESA_COLETIVA.csv', index=False)

# Tratamento do arquivo "Serviços Não Monetários - POF 2"

##Abrindo e Analisando o Arquivo

In [None]:
serv_nao_mon_pof_2 = '/content/drive/MyDrive/POF (2017 2018)/SERVICO_NAO_MONETARIO_POF2.txt'

with open(serv_nao_mon_pof_2, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111051110000620 41 823 802401 7    300.00               0.9967280592    299.02          0 4  707.69230769  967.56532132    852.91 7502
1111051110000620 4110 01000101 7    200.00 412           0.9938702537    198.77          0 1  707.69230769  967.56532132    852.91     
1111051110000620 4113 11300201 79999999.99               1.0088271199    100.21          1 1  707.69230769  967.56532132    852.91     
1111051110000620 7112 31200401 79999999.99               1.0254186857     65.36          1 1  707.69230769  967.56532132   2721.33     
1111051110000620101 6 0 600101 7   1180.00               0.8895591089    161.57          112  707.69230769  967.56532132    515.55     


In [None]:
with open(serv_nao_mon_pof_2, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  14711
Total de caracteres da primeira linha:  136
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(serv_nao_mon_pof_2, 'r') as arquivo_orig:
    with open('novo_servicos_nao_monetario_2.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:30] + ';' + # variável 9
                linha[30:32] + ';' + # variável 10
                linha[32:42] + ';' + # variável 11
                linha[42:44] + ';' + # variável 12
                linha[44:46] + ';' + # variável 13
                linha[46:56] + ';' + # variável 14
                linha[56:57] + ';' + # variável 15
                linha[57:69] + ';' + # variável 16
                linha[69:79] + ';' + # variável 17
                linha[79:89] + ';' + # variável 18
                linha[89:90] + ';' + # variável 19
                linha[90:92] + ';' + # variável 20
                linha[92:106] + ';' + # variável 21
                linha[106:120] + ';' + # variável 22
                linha[120:130] + ';' + # variável 23
                linha[130:] # variável 24
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_servicos_nao_monetario_2 = "/content/novo_servicos_nao_monetario_2.csv"

with open(novo_servicos_nao_monetario_2, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1105;1;110000620;4;1;8;23;802401;7;300.00;;;;;0.9967280592;299.02;;0;4;707.69230769;967.56532132;852.91;7502


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_servicos_nao_monetario_2, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  14711
Total de caracteres da primeira linha:  112
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_novo_servicos_nao_monetario_2 = [
    "UF", "ESTRATO_POF", "TIPO_SITUACAO_REG", "COD_UPA", "NUM_DOM", "NUM_UC",
    "QUADRO", "SEQ", "V9001", "V9002", "V8000", "V9010", "V9011", "V1904",
    "V1905", "DEFLATOR", "V8000_DEFLA", "V1904_DEFLA", "COD_IMPUT_VALOR",
    "FATOR_ANUALIZACAO", "PESO", "PESO_FINAL", "RENDA_TOTAL", "V9004"
]


In [None]:
df_colunas_novo_servicos_nao_monetario_2 = pd.read_csv(novo_servicos_nao_monetario_2, sep=';', names = colunas_novo_servicos_nao_monetario_2, dtype='object')

In [None]:
df_colunas_novo_servicos_nao_monetario_2.head(1).T

Unnamed: 0,0
UF,11.0
ESTRATO_POF,1105.0
TIPO_SITUACAO_REG,1.0
COD_UPA,110000620.0
NUM_DOM,4.0
NUM_UC,1.0
QUADRO,8.0
SEQ,23.0
V9001,802401.0
V9002,7.0


In [None]:
df_colunas_novo_servicos_nao_monetario_2['V9001'] = df_colunas_novo_servicos_nao_monetario_2['V9001'].str.zfill(6)

In [None]:
df_colunas_novo_servicos_nao_monetario_2['V9004'] = df_colunas_novo_servicos_nao_monetario_2['V9004'].str.zfill(5)

In [None]:
df_colunas_novo_servicos_nao_monetario_2.head(1).T

Unnamed: 0,0
UF,11.0
ESTRATO_POF,1105.0
TIPO_SITUACAO_REG,1.0
COD_UPA,110000620.0
NUM_DOM,4.0
NUM_UC,1.0
QUADRO,8.0
SEQ,23.0
V9001,802401.0
V9002,7.0


In [None]:
df_colunas_novo_servicos_nao_monetario_2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14711 entries, 0 to 14710
Data columns (total 24 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   UF                 14711 non-null  object
 1   ESTRATO_POF        14711 non-null  object
 2   TIPO_SITUACAO_REG  14711 non-null  object
 3   COD_UPA            14711 non-null  object
 4   NUM_DOM            14711 non-null  object
 5   NUM_UC             14711 non-null  object
 6   QUADRO             14711 non-null  object
 7   SEQ                14711 non-null  object
 8   V9001              14711 non-null  object
 9   V9002              14711 non-null  object
 10  V8000              14711 non-null  object
 11  V9010              2512 non-null   object
 12  V9011              2512 non-null   object
 13  V1904              68 non-null     object
 14  V1905              325 non-null    object
 15  DEFLATOR           14500 non-null  object
 16  V8000_DEFLA        14711 non-null  objec

##Conferir Unicidade da Chave Identificadora

In [None]:
df_colunas_novo_servicos_nao_monetario_2_id = df_colunas_novo_servicos_nao_monetario_2.drop_duplicates(subset=['COD_UPA','NUM_DOM','V9004','V9001','SEQ','NUM_UC'], keep='first')

In [None]:
df_colunas_novo_servicos_nao_monetario_2_id.shape[0]

14711

## Aplicar Regras Normais

In [None]:
df_colunas_novo_servicos_nao_monetario_2 = df_colunas_novo_servicos_nao_monetario_2.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_colunas_novo_servicos_nao_monetario_2.to_csv('SERVICO_NAO_MONETARIO_POF2.csv', index=False)

# Tratamento do arquivo "INVENTÁRIO DE BENS DURÁVEIS"

##Abrindo e Analisando o Arquivo

In [None]:
inventario = '/content/drive/MyDrive/POF (2017 2018)/INVENTARIO.txt'

with open(inventario, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 1114 01400101 1 120121  272.80666931  372.98451570  11254.75
1111031110005400 1114 31400401 1 320091  272.80666931  372.98451570  11254.75
1111031110005400 1114 41400501 2 120051  272.80666931  372.98451570  11254.75
1111031110005400 1114 51400601 1 120101  272.80666931  372.98451570  11254.75
1111031110005400 1114 81400901 1 120111  272.80666931  372.98451570  11254.75


In [None]:
with open(inventario, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  870354
Total de caracteres da primeira linha:  78
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(inventario, 'r') as arquivo_orig:
    with open('novo_inventario_bens_duraveis.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:30] + ';' + # variável 9
                linha[30:32] + ';' + # variável 10
                linha[32:34] + ';' + # variável 11
                linha[34:38] + ';' + # variável 12
                linha[38:39] + ';' + # variável 13
                linha[39:53] + ';' + # variável 14
                linha[53:67] + ';' + # variável 15
                linha[67:] # variável 16
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_inventario_bens_duraveis = "/content/novo_inventario_bens_duraveis.csv"

with open(novo_inventario_bens_duraveis, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400; 1;1;14; 0;1400101; 1; 1;2012;1;  272.80666931;  372.98451570;  11254.75


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_inventario_bens_duraveis, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  870354
Total de caracteres da primeira linha:  93
Todas as Linhas tem o mesmo comprimento da primeira?  True


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_novo_inventario = [
    "UF", "ESTRATO_POF", "TIPO_SITUACAO_REG", "COD_UPA", "NUM_DOM", "NUM_UC",
    "QUADRO", "SEQ", "V9001", "V9005", "V9002", "V1404", "V9012", "PESO",
    "PESO_FINAL", "RENDA_TOTAL"
]



In [None]:
df_novo_inventario_bens_duraveis = pd.read_csv(novo_inventario_bens_duraveis, sep=';', names = colunas_novo_inventario, dtype='object')

In [None]:
df_novo_inventario_bens_duraveis.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,QUADRO,SEQ,V9001,V9005,V9002,V1404,V9012,PESO,PESO_FINAL,RENDA_TOTAL
0,11,1103,1,110005400,1,1,14,0,1400101,1,1,2012,1,272.806669,372.984516,11254.75
1,11,1103,1,110005400,1,1,14,3,1400401,1,3,2009,1,272.806669,372.984516,11254.75
2,11,1103,1,110005400,1,1,14,4,1400501,2,1,2005,1,272.806669,372.984516,11254.75
3,11,1103,1,110005400,1,1,14,5,1400601,1,1,2010,1,272.806669,372.984516,11254.75
4,11,1103,1,110005400,1,1,14,8,1400901,1,1,2011,1,272.806669,372.984516,11254.75


In [None]:
df_novo_inventario_bens_duraveis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 870354 entries, 0 to 870353
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   UF                 870354 non-null  int64  
 1   ESTRATO_POF        870354 non-null  int64  
 2   TIPO_SITUACAO_REG  870354 non-null  int64  
 3   COD_UPA            870354 non-null  int64  
 4   NUM_DOM            870354 non-null  int64  
 5   NUM_UC             870354 non-null  int64  
 6   QUADRO             870354 non-null  int64  
 7   SEQ                870354 non-null  int64  
 8   V9001              870354 non-null  int64  
 9   V9005              870354 non-null  int64  
 10  V9002              870354 non-null  int64  
 11  V1404              870354 non-null  int64  
 12  V9012              870354 non-null  int64  
 13  PESO               870354 non-null  float64
 14  PESO_FINAL         870354 non-null  float64
 15  RENDA_TOTAL        870354 non-null  float64
dtypes:

##Conferir Unicidade da Chave Identificadora

In [None]:
df_novo_inventario_bens_duraveis_id = df_novo_inventario_bens_duraveis.drop_duplicates(subset=['COD_UPA','NUM_DOM','V9001','SEQ','NUM_UC'], keep='first')

In [None]:
df_novo_inventario_bens_duraveis.shape[0]

870354

## Aplicar Regras Normais

In [None]:
df_novo_inventario_bens_duraveis = df_novo_inventario_bens_duraveis.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_novo_inventario_bens_duraveis.to_csv('INVENTARIO.csv', index=False)

# Tratamento do arquivo "CADERNETA COLETIVA"

##Abrindo e Analisando o Arquivo

In [None]:
caderneta_col = '/content/drive/MyDrive/POF (2017 2018)/CADERNETA_COLETIVA.txt'

with open(caderneta_col, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 1167  16300112 3     10.890.9679675815     10.54052  272.80666931  372.98451570  11254.75    1.0001301  802    5.000  101
1111031110005400 1167  27100201 3     92.001.0525584653     96.84052  272.80666931  372.98451570  11254.75    4.0004806         4.000  101
1111031110005400 1167  38300101 3     60.000.9956647330     59.74052  272.80666931  372.98451570  11254.75    2.000 201         8.828  101
1111031110005400 1167  46400601 3      5.001.1753841091      5.88052  272.80666931  372.98451570  11254.75    2.0004806         2.000  101
1111031110005400 1167  56900901 3      7.800.9891122765      7.72052  272.80666931  372.98451570  11254.75    1.000 201         0.270  101


In [None]:
with open(caderneta_col, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  789995
Total de caracteres da primeira linha:  139
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(caderneta_col, 'r') as arquivo_orig:
    with open('nova_caderneta_coletiva.txt', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:24] + ';' + # variável 8
                linha[24:31] + ';' + # variável 9
                linha[31:33] + ';' + # variável 10
                linha[33:43] + ';' + # variável 11
                linha[43:55] + ';' + # variável 12
                linha[55:65] + ';' + # variável 13
                linha[65:66] + ';' + # variável 14
                linha[66:68] + ';' + # variável 15
                linha[68:82] + ';' + # variável 16
                linha[82:96] + ';' + # variável 17
                linha[96:106] + ';' + # variável 18
                linha[106:115] + ';' + # variável 19
                linha[115:119] + ';' + # variável 20
                linha[119:124] + ';' + # variável 21
                linha[124:133] + ';' + # variável 22
                linha[133:] # variável 23
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
nova_caderneta_coletiva = "/content/nova_caderneta_coletiva.txt"

with open(nova_caderneta_coletiva, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;67;1;6300112;3;10.89;0.9679675815;10.54;0;52;272.80666931;372.98451570;11254.75;1.000;1301;802;5.000;101


Conferir Estado do Novo Arquivo

In [None]:
with open(nova_caderneta_coletiva, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  789995
Total de caracteres da primeira linha:  129
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_caderneta = ["UF","ESTRATO_POF","TIPO_SITUACAO_REG","COD_UPA","NUM_DOM",
         "NUM_UC","QUADRO","SEQ","V9001","V9002","V8000","DEFLATOR",
    "V8000_DEFLA","COD_IMPUT_VALOR","FATOR_ANUALIZACAO","PESO",
    "PESO_FINAL","RENDA_TOTAL","V9005","V9007","V9009","QTD_FINAL","V9004"
]

In [None]:
df_nova_caderneta_coletiva = pd.read_csv(nova_caderneta_coletiva, sep=';', names = colunas_caderneta, dtype=tipos_colunas_caderneta, dtype='object')

In [None]:
df_nova_caderneta_coletiva.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 789995 entries, 0 to 789994
Data columns (total 23 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   UF                 789995 non-null  int64  
 1   ESTRATO_POF        789995 non-null  int64  
 2   TIPO_SITUACAO_REG  789995 non-null  int64  
 3   COD_UPA            789995 non-null  int64  
 4   NUM_DOM            789995 non-null  int64  
 5   NUM_UC             789995 non-null  int64  
 6   QUADRO             789995 non-null  int64  
 7   SEQ                789995 non-null  int64  
 8   V9001              789995 non-null  object 
 9   V9002              789995 non-null  int64  
 10  V8000              789995 non-null  float64
 11  DEFLATOR           735853 non-null  float64
 12  V8000_DEFLA        789995 non-null  float64
 13  COD_IMPUT_VALOR    789995 non-null  int64  
 14  FATOR_ANUALIZACAO  789995 non-null  int64  
 15  PESO               789995 non-null  float64
 16  PE

In [None]:
df_nova_caderneta_coletiva.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,QUADRO,SEQ,V9001,V9002,...,COD_IMPUT_VALOR,FATOR_ANUALIZACAO,PESO,PESO_FINAL,RENDA_TOTAL,V9005,V9007,V9009,QTD_FINAL,V9004
0,11,1103,1,110005400,1,1,67,1,6300112,3,...,0,52,272.806669,372.984516,11254.75,1.0,1301,802.0,5.0,101
1,11,1103,1,110005400,1,1,67,2,7100201,3,...,0,52,272.806669,372.984516,11254.75,4.0,4806,,4.0,101
2,11,1103,1,110005400,1,1,67,3,8300101,3,...,0,52,272.806669,372.984516,11254.75,2.0,201,,8.828,101
3,11,1103,1,110005400,1,1,67,4,6400601,3,...,0,52,272.806669,372.984516,11254.75,2.0,4806,,2.0,101
4,11,1103,1,110005400,1,1,67,5,6900901,3,...,0,52,272.806669,372.984516,11254.75,1.0,201,,0.27,101


In [None]:
df_nova_caderneta_coletiva['V9004'] = df_nova_caderneta_coletiva['V9004'].str.zfill(5)

In [None]:
df_nova_caderneta_coletiva['V9009'] = df_nova_caderneta_coletiva['V9009'].str.zfill(5)

In [None]:
df_nova_caderneta_coletiva.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,QUADRO,SEQ,V9001,V9002,...,COD_IMPUT_VALOR,FATOR_ANUALIZACAO,PESO,PESO_FINAL,RENDA_TOTAL,V9005,V9007,V9009,QTD_FINAL,V9004
0,11,1103,1,110005400,1,1,67,1,6300112,3,...,0,52,272.806669,372.984516,11254.75,1.0,1301,802.0,5.0,101
1,11,1103,1,110005400,1,1,67,2,7100201,3,...,0,52,272.806669,372.984516,11254.75,4.0,4806,,4.0,101
2,11,1103,1,110005400,1,1,67,3,8300101,3,...,0,52,272.806669,372.984516,11254.75,2.0,201,,8.828,101
3,11,1103,1,110005400,1,1,67,4,6400601,3,...,0,52,272.806669,372.984516,11254.75,2.0,4806,,2.0,101
4,11,1103,1,110005400,1,1,67,5,6900901,3,...,0,52,272.806669,372.984516,11254.75,1.0,201,,0.27,101


## Remover Espaços Vazios em Variáveis Qualitativas


In [None]:
for coluna in df_nova_caderneta_coletiva.columns:
  if df_nova_caderneta_coletiva[coluna].dtype == 'object':
    df_nova_caderneta_coletiva[coluna] = df_nova_caderneta_coletiva[coluna].replace(' ', '')

##Conferir Unicidade da Chave Identificadora

In [None]:
df_nova_caderneta_coletiva_id = df_nova_caderneta_coletiva.drop_duplicates(subset=['COD_UPA','QUADRO','NUM_DOM','SEQ','NUM_UC'], keep='first')

In [None]:
df_nova_caderneta_coletiva_id.shape[0]

789995

## Aplicar Regras Normais

In [None]:
df_nova_caderneta_coletiva = df_nova_caderneta_coletiva.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_nova_caderneta_coletiva.to_csv('CADERNETA_COLETIVA.csv', index=False, na_rep='')

# Tratamento do arquivo "DESPESA INDIVIDUAL"

##Abrindo e Analisando o Arquivo

In [None]:
despesa_individual = '/content/drive/MyDrive/POF (2017 2018)/DESPESA_INDIVIDUAL.txt'

with open(despesa_individual, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 11 222 02200101 1      7.00       1.0000000000      7.00052  272.80666931  372.98451570  11254.75     
1111031110005400 11 123132301401 1    100.00       1.0506463643    105.06052  272.80666931  372.98451570  11254.75     
1111031110005400 11 124 02400101 1     25.00       1.0131761162     25.33052  272.80666931  372.98451570  11254.75 4901
1111031110005400 11 224 02400101 1     25.00       1.0131761162     25.33052  272.80666931  372.98451570  11254.75 4901
1111031110005400 11 124182401901 1      6.00       1.0215045386      6.13052  272.80666931  372.98451570  11254.75 4901


In [None]:
with open(despesa_individual, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  1836032
Total de caracteres da primeira linha:  120
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(despesa_individual, 'r') as arquivo_orig:
    with open('nova_despesa_individual.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:25] + ';' + # variável 9
                linha[25:32] + ';' + # variável 10
                linha[32:34] + ';' + # variável 11
                linha[34:44] + ';' + # variável 12
                linha[44:46] + ';' + # variável 13
                linha[46:48] + ';' + # variável 14
                linha[48:49] + ';' + # variável 15
                linha[49:50] + ';' + # variável 16
                linha[50:51] + ';' + # variável 17
                linha[51:63] + ';' + # variável 18
                linha[63:73] + ';' + # variável 19
                linha[73:74] + ';' + # variável 20
                linha[74:76] + ';' + # variável 21
                linha[76:90] + ';' + # variável 22
                linha[90:104] + ';' + # variável 23
                linha[104:114] + ';' + # variável 24
                linha[114:]  # variável 25
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
nova_despesa_individual = "/content/nova_despesa_individual.csv"

with open(nova_despesa_individual, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;2;22;0;2200101;1;7.00;;;;;;1.0000000000;7.00;0;52;272.80666931;372.98451570;11254.75;


Conferir Estado do Novo Arquivo

In [None]:
with open(nova_despesa_individual, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  1836032
Total de caracteres da primeira linha:  110
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_despesas_ind = [
    "UF",
    "ESTRATO_POF",
    "TIPO_SITUACAO_REG",
    "COD_UPA",
    "NUM_DOM",
    "NUM_UC",
    "COD_INFORMANTE",
    "QUADRO",
    "SEQ",
    "V9001",
    "V9002",
    "V8000",
    "V9010",
    "V9011",
    "V9012",
    "V4104",
    "V4105",
    "DEFLATOR",
    "V8000_DEFLA",
    "COD_IMPUT_VALOR",
    "FATOR_ANUALIZACAO",
    "PESO",
    "PESO_FINAL",
    "RENDA_TOTAL",
    "V9004"
]


In [None]:
df_nova_despesa_individual = pd.read_csv(nova_despesa_individual, sep=';', names = colunas_despesas_ind, dtype='object')

In [None]:
df_nova_despesa_individual.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1836032 entries, 0 to 1836031
Data columns (total 25 columns):
 #   Column             Dtype 
---  ------             ----- 
 0   UF                 object
 1   ESTRATO_POF        object
 2   TIPO_SITUACAO_REG  object
 3   COD_UPA            object
 4   NUM_DOM            object
 5   NUM_UC             object
 6   COD_INFORMANTE     object
 7   QUADRO             object
 8   SEQ                object
 9   V9001              object
 10  V9002              object
 11  V8000              object
 12  V9010              object
 13  V9011              object
 14  V9012              object
 15  V4104              object
 16  V4105              object
 17  DEFLATOR           object
 18  V8000_DEFLA        object
 19  COD_IMPUT_VALOR    object
 20  FATOR_ANUALIZACAO  object
 21  PESO               object
 22  PESO_FINAL         object
 23  RENDA_TOTAL        object
 24  V9004              object
dtypes: object(25)
memory usage: 350.2+ MB


In [None]:
df_nova_despesa_individual.isnull().sum()

UF                         0
ESTRATO_POF                0
TIPO_SITUACAO_REG          0
COD_UPA                    0
NUM_DOM                    0
NUM_UC                     0
COD_INFORMANTE             0
QUADRO                     0
SEQ                        0
V9001                      0
V9002                      0
V8000                      0
V9010                1549582
V9011                1549582
V9012                1821652
V4104                1787776
V4105                1787776
DEFLATOR              191540
V8000_DEFLA                0
COD_IMPUT_VALOR            0
FATOR_ANUALIZACAO          0
PESO                       0
PESO_FINAL                 0
RENDA_TOTAL                0
V9004                 457242
dtype: int64

In [None]:
df_nova_despesa_individual.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,COD_INFORMANTE,QUADRO,SEQ,V9001,...,V4104,V4105,DEFLATOR,V8000_DEFLA,COD_IMPUT_VALOR,FATOR_ANUALIZACAO,PESO,PESO_FINAL,RENDA_TOTAL,V9004
0,11,1103,1,110005400,1,1,2,22,0,2200101,...,,,1.0,7.0,0,52,272.806669,372.984516,11254.75,
1,11,1103,1,110005400,1,1,1,23,13,2301401,...,,,1.0506463643,105.06,0,52,272.806669,372.984516,11254.75,
2,11,1103,1,110005400,1,1,1,24,0,2400101,...,,,1.0131761162,25.33,0,52,272.806669,372.984516,11254.75,4901.0
3,11,1103,1,110005400,1,1,2,24,0,2400101,...,,,1.0131761162,25.33,0,52,272.806669,372.984516,11254.75,4901.0
4,11,1103,1,110005400,1,1,1,24,18,2401901,...,,,1.0215045386,6.13,0,52,272.806669,372.984516,11254.75,4901.0


In [None]:
df_nova_despesa_individual['V9004'] = df_nova_despesa_individual['V9004'].str.zfill(5)

In [None]:
df_nova_despesa_individual['V9001'].unique()

array(['2200101', '2301401', '2400101', ..., '3804301', '5101301',
       '3401305'], dtype=object)

##Conferir Unicidade da Chave Identificadora

In [None]:
df_nova_despesa_individual_id = df_nova_despesa_individual.drop_duplicates(subset=['COD_UPA','QUADRO','NUM_DOM','SEQ','NUM_UC','COD_INFORMANTE'], keep='first')

In [None]:
df_nova_despesa_individual_id.shape[0]

1836032

## Aplicar Regras Normais

In [None]:
 df_nova_despesa_individual =  df_nova_despesa_individual.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
 df_nova_despesa_individual.to_csv('DESPESA_INDIVIDUAL.csv', index=False)

# Tratamento do arquivo "Serviços Não Monetários - POF 4"

##Abrindo e Analisando o Arquivo

In [None]:
serv_nao_mon_pof_4 = '/content/drive/MyDrive/POF (2017 2018)/SERVICO_NAO_MONETARIO_POF4.txt'

with open(serv_nao_mon_pof_4, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 11 149 44900501 7    500.00 910  1.0084649620    504.230 1  272.80666931  372.98451570  11254.75 6202
1111031110005400 21 149 14900201 79999999.99 912  1.0084649620    302.171 1  272.80666931  372.98451570  10828.07 6202
1111031110005400 41 242 44200501 79999999.99      0.9937338157    204.891 4  272.80666931  372.98451570   4769.13 3912
1111031110005400 41 149 34900401 79999999.991012  1.0070588235    607.521 1  272.80666931  372.98451570   4769.13 6202
1111031110005400 51 142 44200501 79999999.99      0.9937338157    200.001 4  272.80666931  372.98451570   2313.61 3910


In [None]:
with open(serv_nao_mon_pof_4, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  126409
Total de caracteres da primeira linha:  119
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(serv_nao_mon_pof_4, 'r') as arquivo_orig:
    with open('novo_servicos_nao_monetario_4.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:25] + ';' + # variável 9
                linha[25:32] + ';' + # variável 10
                linha[32:34] + ';' + # variável 11
                linha[34:44] + ';' + # variável 12
                linha[44:46] + ';' + # variável 13
                linha[46:48] + ';' + # variável 14
                linha[48:49] + ';' + # variável 15
                linha[49:50] + ';' + # variável 16
                linha[50:62] + ';' + # variável 17
                linha[62:72] + ';' + # variável 18
                linha[72:73] + ';' + # variável 19
                linha[73:75] + ';' + # variável 20
                linha[75:89] + ';' + # variável 21
                linha[89:103] + ';' + # variável 22
                linha[103:113] + ';' + # variável 23
                linha[113:] # variável 24
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_servicos_nao_monetario_4 = "/content/novo_servicos_nao_monetario_4.csv"

with open(novo_servicos_nao_monetario_4, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;1;49;4;4900501;7;500.00;9;10;;;1.0084649620;504.23;0;1;272.80666931;372.98451570;11254.75;6202


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_servicos_nao_monetario_4, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  126409
Total de caracteres da primeira linha:  119
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_novo_servicos_nao_monetario_4 = [
    "UF",
    "ESTRATO_POF",
    "TIPO_SITUACAO_REG",
    "COD_UPA",
    "NUM_DOM",
    "NUM_UC",
    "COD_INFORMANTE",
    "QUADRO",
    "SEQ",
    "V9001",
    "V9002",
    "V8000",
    "V9010",
    "V9011",
    "V4104",
    "V4105",
    "DEFLATOR",
    "V8000_DEFLA",
    "COD_IMPUT_VALOR",
    "FATOR_ANUALIZACAO",
    "PESO",
    "PESO_FINAL",
    "RENDA_TOTAL",
    "V9004"
]


In [None]:
df_colunas_novo_servicos_nao_monetario_4 = pd.read_csv(novo_servicos_nao_monetario_4, sep=';', names = colunas_novo_servicos_nao_monetario_4, dtype='object')

In [None]:
df_colunas_novo_servicos_nao_monetario_4.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,COD_INFORMANTE,QUADRO,SEQ,V9001,...,V4104,V4105,DEFLATOR,V8000_DEFLA,COD_IMPUT_VALOR,FATOR_ANUALIZACAO,PESO,PESO_FINAL,RENDA_TOTAL,V9004
0,11,1103,1,110005400,1,1,1,49,4,4900501,...,,,1.008464962,504.23,0,1,272.806669,372.984516,11254.75,6202
1,11,1103,1,110005400,2,1,1,49,1,4900201,...,,,1.008464962,302.17,1,1,272.806669,372.984516,10828.07,6202
2,11,1103,1,110005400,4,1,2,42,4,4200501,...,,,0.9937338157,204.89,1,4,272.806669,372.984516,4769.13,3912
3,11,1103,1,110005400,4,1,1,49,3,4900401,...,,,1.0070588235,607.52,1,1,272.806669,372.984516,4769.13,6202
4,11,1103,1,110005400,5,1,1,42,4,4200501,...,,,0.9937338157,200.0,1,4,272.806669,372.984516,2313.61,3910


In [None]:
df_colunas_novo_servicos_nao_monetario_4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 126409 entries, 0 to 126408
Data columns (total 24 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   UF                 126409 non-null  int64  
 1   ESTRATO_POF        126409 non-null  int64  
 2   TIPO_SITUACAO_REG  126409 non-null  int64  
 3   COD_UPA            126409 non-null  int64  
 4   NUM_DOM            126409 non-null  int64  
 5   NUM_UC             126409 non-null  int64  
 6   COD_INFORMANTE     126409 non-null  int64  
 7   QUADRO             126409 non-null  int64  
 8   SEQ                126409 non-null  int64  
 9   V9001              126409 non-null  int64  
 10  V9002              126409 non-null  int64  
 11  V8000              126409 non-null  float64
 12  V9010              126409 non-null  object 
 13  V9011              126409 non-null  object 
 14  V4104              126409 non-null  object 
 15  V4105              126409 non-null  object 
 16  DE

In [None]:
df_colunas_novo_servicos_nao_monetario_4['V9004'] = df_colunas_novo_servicos_nao_monetario_4['V9004'].str.zfill(5)

In [None]:
df_colunas_novo_servicos_nao_monetario_4['V9004'].unique()

array(['06202', '03912', '03910', '03911', '08303', nan, '15501', '03906',
       '03902', '03905', '03901', '03904', '06201', '06206', '00509',
       '04201', '06507', '06511', '08302', '06204', '08304', '06501',
       '07502', '08301', '14301', '01604', '08003', '06224', '03909',
       '06207', '03907', '06214', '06215', '03903', '06222', '06223',
       '07501', '06503', '16301', '09801', '06509', '06502', '01306',
       '09502', '08305', '09505', '99901', '03401', '07305', '01501',
       '14201', '08202', '08307', '01615', '05301', '06229', '06226',
       '03406', '06203', '01114', '04901', '02404', '07709', '16601',
       '06301', '06212', '06101', '09111', '01605', '06504', '00601',
       '09706', '06205', '05602', '06505', '09104', '09504', '05102',
       '02405', '04801', '06211', '00515', '11701', '07912', '06401',
       '06228', '06230', '02905', '16101', '09704', '00508', '16302',
       '07510', '07304', '08402', '09701', '08006', '03418', '09707',
       '06216',

##Conferir Unicidade da Chave Identificadora

In [None]:
df_colunas_novo_servicos_nao_monetario_4_id = df_colunas_novo_servicos_nao_monetario_4.drop_duplicates(subset=['COD_UPA','NUM_DOM','NUM_UC','SEQ','COD_INFORMANTE','QUADRO'], keep='first')

In [None]:
df_colunas_novo_servicos_nao_monetario_4_id.shape[0]

126409

## Aplicar Regras Normais

In [None]:
df_colunas_novo_servicos_nao_monetario_4 =  df_colunas_novo_servicos_nao_monetario_4.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_colunas_novo_servicos_nao_monetario_4.to_csv('SERVICO_NAO_MONETARIO_POF4.csv', index=False)

# Tratamento do arquivo "Restrição - Saúde"

##Abrindo e Analisando o Arquivo

In [None]:
restricao = '/content/drive/MyDrive/POF (2017 2018)/RESTRICAO_PRODUTOS_SERVICOS_SAUDE.txt'

with open(restricao, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400121 1291129012011  272.80666931  372.98451570   2399.89
1111031110005400131 142 742008011  272.80666931  372.98451570   3795.54
1111031110005400131 142 942010011  272.80666931  372.98451570   3795.54
1111031110005400131 1421142012011  272.80666931  372.98451570   3795.54
1111031110005400131 229 329004011  272.80666931  372.98451570   3795.54


In [None]:
with open(restricao, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  40863
Total de caracteres da primeira linha:  72
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(restricao, 'r') as arquivo_orig:
    with open('novo_restricao.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:25] + ';' + # variável 9
                linha[25:32] + ';' + # variável 10
                linha[32:33] + ';' + # variável 11
                linha[33:47] + ';' + # variável 12
                linha[47:61] + ';' + # variável 13
                linha[61:]  # variável 14

            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_restricao = "/content/novo_restricao.csv"

with open(novo_restricao, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;12;1;1;29;11;2901201;1;272.80666931;372.98451570;2399.89


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_restricao, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  40863
Total de caracteres da primeira linha:  77
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_restricao = [
    "UF",
    "ESTRATO_POF",
    "TIPO_SITUACAO_REG",
    "COD_UPA",
    "NUM_DOM",
    "NUM_UC",
    "COD_INFORMANTE",
    "QUADRO",
    "SEQ",
    "V9001",
    "V9013",
    "PESO",
    "PESO_FINAL",
    "RENDA_TOTAL"
]

In [None]:
df_restricao = pd.read_csv(novo_restricao, sep=';', names = colunas_restricao, dtype='object')

In [None]:
df_restricao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 40863 entries, 0 to 40862
Data columns (total 14 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   UF                 40863 non-null  object
 1   ESTRATO_POF        40863 non-null  object
 2   TIPO_SITUACAO_REG  40863 non-null  object
 3   COD_UPA            40863 non-null  object
 4   NUM_DOM            40863 non-null  object
 5   NUM_UC             40863 non-null  object
 6   COD_INFORMANTE     40863 non-null  object
 7   QUADRO             40863 non-null  object
 8   SEQ                40863 non-null  object
 9   V9001              40863 non-null  object
 10  V9013              40863 non-null  object
 11  PESO               40863 non-null  object
 12  PESO_FINAL         40863 non-null  object
 13  RENDA_TOTAL        40863 non-null  object
dtypes: object(14)
memory usage: 4.4+ MB


In [None]:
df_restricao.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,COD_INFORMANTE,QUADRO,SEQ,V9001,V9013,PESO,PESO_FINAL,RENDA_TOTAL
0,11,1103,1,110005400,12,1,1,29,11,2901201,1,272.806669,372.984516,2399.89
1,11,1103,1,110005400,13,1,1,42,7,4200801,1,272.806669,372.984516,3795.54
2,11,1103,1,110005400,13,1,1,42,9,4201001,1,272.806669,372.984516,3795.54
3,11,1103,1,110005400,13,1,1,42,11,4201201,1,272.806669,372.984516,3795.54
4,11,1103,1,110005400,13,1,2,29,3,2900401,1,272.806669,372.984516,3795.54


##Conferir Unicidade da Chave Identificadora

In [None]:
df_restricao_id = df_restricao.drop_duplicates(subset=['COD_UPA','NUM_DOM','NUM_UC','SEQ','COD_INFORMANTE','QUADRO'], keep='first')

In [None]:
df_restricao_id.shape[0]

40863

## Aplicar Regras Normais

In [None]:
df_restricao =  df_restricao.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_restricao.to_csv('RESTRICAO_SAUDE.csv', index=False)

# Tratamento do arquivo "Rendimento do Trabalho"

##Abrindo e Analisando o Arquivo

In [None]:
rendimento_trab = '/content/drive/MyDrive/POF (2017 2018)/RENDIMENTO_TRABALHO.txt'

with open(rendimento_trab, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 11 1531153005015   11  10000    800               912 4011.0025988491  10025.99    802.08                    01  272.80666931  372.98451570  11254.75142048042
1111031110005400 21 1531153006016   11  10000     50               912 8411.0025988491  10025.99    621.04                    01  272.80666931  372.98451570  10828.07142056011
1111031110005400 21 2531153003013  221    800                      912 4211.0025988491    802.08                              01  272.80666931  372.98451570  10828.07932956011
1111031110005400 41 1531153005015   11   3000                     1012 4410.9995373369   2998.61                              01  272.80666931  372.98451570   4769.13132449040
1111031110005400 41 2531153003013  1 1   1200                     1012 4410.9995373369   1199.44                              01  272.80666931  372.98451570   4769.13522348042


In [None]:
with open(rendimento_trab, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  97075
Total de caracteres da primeira linha:  176
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(rendimento_trab, 'r') as arquivo_orig:
    with open('novo_rendimento_trab.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:24] + ';' + # variável 9
                linha[24:25] + ';' + # variável 10
                linha[25:32] + ';' + # variável 11
                linha[32:33] + ';' + # variável 12
                linha[33:34] + ';' + # variável 13
                linha[34:35] + ';' + # variável 14
                linha[35:36] + ';' + # variável 15
                linha[36:37] + ';' + # variável 16
                linha[37:38] + ';' + # variável 17
                linha[38:45] + ';' + # variável 18
                linha[45:52] + ';' + # variável 19
                linha[52:59] + ';' + # variável 20
                linha[59:66] + ';' + # variável 21
                linha[66:68] + ';' + # variável 22
                linha[68:70] + ';' + # variável 23
                linha[70:73] + ';' + # variável 24
                linha[73:74] + ';' + # variável 25
                linha[74:86] + ';' + # variável 26
                linha[86:96] + ';' + # variável 27
                linha[96:106] + ';' + # variável 28
                linha[106:116] + ';' + # variável 29
                linha[116:126] + ';' + # variável 30
                linha[126:127] + ';' + # variável 31
                linha[127:128] + ';' + # variável 32
                linha[128:142] + ';' + # variável 33
                linha[142:156] + ';' + # variável 34
                linha[156:166] + ';' + # variável 35
                linha[166:170] + ';' + # variável 36
                linha[170:]  # variável 37
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_rendimento_trab = "/content/novo_rendimento_trab.csv"

with open(novo_rendimento_trab, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;1;53;1;1;5300501;5;;;;1;1;10000;800;;;9;12;40;1;1.0025988491;10025.99;802.08;;;0;1;272.80666931;372.98451570;11254.75;1420;48042


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_rendimento_trab, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  97075
Total de caracteres da primeira linha:  153
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
import pandas as pd

In [None]:
colunas_rend_trab = [
    "UF",
    "ESTRATO_POF",
    "TIPO_SITUACAO_REG",
    "COD_UPA",
    "NUM_DOM",
    "NUM_UC",
    "COD_INFORMANTE",
    "QUADRO",
    "SUB_QUADRO",
    "SEQ",
    "V9001",
    "V5302",
    "V53021",
    "V5303",
    "V5304",
    "V5305",
    "V5307",
    "V8500",
    "V531112",
    "V531122",
    "V531132",
    "V9010",
    "V9011",
    "V5314",
    "V5315",
    "DEFLATOR",
    "V8500_DEFLA",
    "V531112_DEFLA",
    "V531122_DEFLA",
    "V531132_DEFLA",
    "COD_IMPUT_VALOR",
    "FATOR_ANUALIZACAO",
    "PESO",
    "PESO_FINAL",
    "RENDA_TOTAL",
    "V53011",
    "V53061"
]

In [None]:
df_rendimento_trab = pd.read_csv(novo_rendimento_trab, sep=';', names = colunas_rend_trab, dtype='object')

In [None]:
df_rendimento_trab.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 97075 entries, 0 to 97074
Data columns (total 37 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   UF                 97075 non-null  object
 1   ESTRATO_POF        97075 non-null  object
 2   TIPO_SITUACAO_REG  97075 non-null  object
 3   COD_UPA            97075 non-null  object
 4   NUM_DOM            97075 non-null  object
 5   NUM_UC             97075 non-null  object
 6   COD_INFORMANTE     97075 non-null  object
 7   QUADRO             97075 non-null  object
 8   SUB_QUADRO         97075 non-null  object
 9   SEQ                97075 non-null  object
 10  V9001              97075 non-null  object
 11  V5302              97075 non-null  object
 12  V53021             3928 non-null   object
 13  V5303              10927 non-null  object
 14  V5304              51570 non-null  object
 15  V5305              57083 non-null  object
 16  V5307              93147 non-null  objec

In [None]:
df_rendimento_trab.head(1).T

Unnamed: 0,0
UF,11.0
ESTRATO_POF,1103.0
TIPO_SITUACAO_REG,1.0
COD_UPA,110005400.0
NUM_DOM,1.0
NUM_UC,1.0
COD_INFORMANTE,1.0
QUADRO,53.0
SUB_QUADRO,1.0
SEQ,1.0


In [None]:
df_rendimento_trab['V53061'] = df_rendimento_trab['V53061'].str.zfill(5)

In [None]:
df_rendimento_trab[df_rendimento_trab['V53061'] == '99999'].index

Int64Index([  974,  4418,  8779, 13676, 13813, 49250, 49646, 49647, 52254,
            54791, 55788, 56266, 56675, 56678, 56702, 56704, 56705, 57929,
            58377, 59466, 59527, 59982, 60314, 60315, 60335, 60341, 60486,
            60612, 60675, 60677, 61010, 61018, 61078, 61505, 61807, 62350,
            62551, 62570, 62595, 62625, 62885, 63351, 64167, 66807, 67239,
            67660, 69155, 71591, 71820, 73237, 73274, 76747, 80701, 80951,
            82064, 87902, 88380, 88525, 89225, 89452, 90020, 90021, 90355,
            90373, 91944],
           dtype='int64')

In [None]:
df_rendimento_trab[df_rendimento_trab['V53011'] == '9999'].index

Int64Index([ 4418, 13813, 26976, 38822, 49250, 54803, 55788, 56678, 56704,
            56705, 59527, 60314, 60315, 60612, 60748, 61010, 61018, 62551,
            62570, 66807, 71591, 73237],
           dtype='int64')

##Conferir Unicidade da Chave Identificadora

In [None]:
df_rendimento_trab_id = df_rendimento_trab.drop_duplicates(subset=['COD_UPA','NUM_DOM','SEQ','COD_INFORMANTE','QUADRO','SUB_QUADRO'], keep='first')

In [None]:
df_rendimento_trab_id.shape[0]

97075

## Aplicar Regras Normais

In [None]:
df_rendimento_trab =  df_rendimento_trab.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL','NUM_UC'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_rendimento_trab.to_csv('RENDIMENTO_TRABALHO.csv', index=False)

# Tratamento do arquivo "Outros Rendimentos"

##Abrindo e Analisando o Arquivo

In [None]:
outro_rendimento = '/content/drive/MyDrive/POF (2017 2018)/OUTROS_RENDIMENTOS.txt'

with open(outro_rendimento, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 41 255 15500201   1200.009999999.00    1.0025058005   1203.01          01  272.80666931  372.98451570   4769.13
1111031110005400 41 255 25500101    398.67              1.0025058005    399.67          01  272.80666931  372.98451570   4769.13
1111031110005400 51 154 35400401   1200.009999999.00 9121.0025988491   1203.12          01  272.80666931  372.98451570   2313.61
1111031110005400 51 154 45400501    900.009999999.00 9121.0025988491    902.34          01  272.80666931  372.98451570   2313.61
1111031110005400 51 155 25500301   1200.009999999.00    1.0025058005   1203.01          01  272.80666931  372.98451570   2313.61


In [None]:
with open(outro_rendimento, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  206108
Total de caracteres da primeira linha:  129
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(outro_rendimento, 'r') as arquivo_orig:
    with open('novo_outro_rendimento.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:25] + ';' + # variável 9
                linha[25:32] + ';' + # variável 10
                linha[32:42] + ';' + # variável 11
                linha[42:52] + ';' + # variável 12
                linha[52:54] + ';' + # variável 13
                linha[54:56] + ';' + # variável 14
                linha[56:68] + ';' + # variável 15
                linha[68:78] + ';' + # variável 16
                linha[78:88] + ';' + # variável 17
                linha[88:89] + ';' + # variável 18
                linha[89:90] + ';' + # variável 19
                linha[90:104] + ';' + # variável 20
                linha[104:118] + ';' + # variável 21
                linha[118:] # variável 22
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_outro_rendimento = "/content/novo_outro_rendimento.csv"

with open(novo_outro_rendimento, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;4;1;2;55;1;5500201;1200.00;9999999.00;;;1.0025058005;1203.01;;0;1;272.80666931;372.98451570;4769.13


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_outro_rendimento, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  206108
Total de caracteres da primeira linha:  120
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
import pandas as pd

In [None]:
colunas_outro_rend = [
    "UF",
    "ESTRATO_POF",
    "TIPO_SITUACAO_REG",
    "COD_UPA",
    "NUM_DOM",
    "NUM_UC",
    "COD_INFORMANTE",
    "QUADRO",
    "SEQ",
    "V9001",
    "V8500",
    "V8501",
    "V9010",
    "V9011",
    "DEFLATOR",
    "V8500_DEFLA",
    "V8501_DEFLA",
    "COD_IMPUT_VALOR",
    "FATOR_ANUALIZACAO",
    "PESO",
    "PESO_FINAL",
    "RENDA_TOTAL"
]



In [None]:
df_outro_rendimento = pd.read_csv(novo_outro_rendimento, sep=';', names = colunas_outro_rend, dtype='object')

In [None]:
df_outro_rendimento.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206108 entries, 0 to 206107
Data columns (total 22 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   UF                 206108 non-null  int64  
 1   ESTRATO_POF        206108 non-null  int64  
 2   TIPO_SITUACAO_REG  206108 non-null  int64  
 3   COD_UPA            206108 non-null  int64  
 4   NUM_DOM            206108 non-null  int64  
 5   NUM_UC             206108 non-null  int64  
 6   COD_INFORMANTE     206108 non-null  int64  
 7   QUADRO             206108 non-null  int64  
 8   SEQ                206108 non-null  int64  
 9   V9001              206108 non-null  int64  
 10  V8500              206108 non-null  float64
 11  V8501              206108 non-null  object 
 12  V9010              206108 non-null  object 
 13  V9011              206108 non-null  object 
 14  DEFLATOR           206108 non-null  object 
 15  V8500_DEFLA        206108 non-null  float64
 16  V8

In [None]:
df_outro_rendimento.head(1).T

Unnamed: 0,0
UF,11.0
ESTRATO_POF,1103.0
TIPO_SITUACAO_REG,1.0
COD_UPA,110005400.0
NUM_DOM,4.0
NUM_UC,1.0
COD_INFORMANTE,2.0
QUADRO,55.0
SEQ,1.0
V9001,5500201.0


##Conferir Unicidade da Chave Identificadora

Remover Duplicatas

In [None]:
df_outro_rendimento_dp_ = df_outro_rendimento.drop_duplicates(keep='first')
df_outro_rendimento_dp_.shape[0]

206102

In [None]:
indices_duplicatas_removidas = df_outro_rendimento.index.difference(df_outro_rendimento_dp_.index)
indices_duplicatas_removidas

Int64Index([11260, 11262, 70936, 70938, 164908, 164910], dtype='int64')

Conferir Chave Primária

In [None]:
df_outro_rendimento_id = df_outro_rendimento.drop_duplicates(subset=['COD_UPA','NUM_DOM','COD_INFORMANTE','QUADRO','SEQ','V8500_DEFLA','V8501_DEFLA'],keep='first')
df_outro_rendimento_id.shape[0]

206102

## Aplicar Regras Normais

In [None]:
df_outro_rendimento =  df_outro_rendimento.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL','NUM_UC'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_outro_rendimento.to_csv('OUTRO_RENDIMENTO.csv', index=False)

# Tratamento do arquivo "Condições de Vida"

##Abrindo e Analisando o Arquivo

In [None]:
condicoes_vida = '/content/drive/MyDrive/POF (2017 2018)/CONDICOES_VIDA.txt'

with open(condicoes_vida, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 11 15  4000 150011133213323244222222222222222222            272.80666931  372.98451570  11254.75
1111031110005400 21 13  3500 100022233322322244121222222221222222            272.80666931  372.98451570  10828.07
1111031110005400 41 15  5000 120011133223223344222222222223222222            272.80666931  372.98451570   4769.13
1111031110005400 51 13  1800  80012233322323344222221222222222222            272.80666931  372.98451570   2313.61
1111031110005400 61 15  6000 150011133223213344222222222223222222            272.80666931  372.98451570   6596.90


In [None]:
with open(condicoes_vida, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  58039
Total de caracteres da primeira linha:  114
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(condicoes_vida, 'r') as arquivo_orig:
    with open('novo_condicoes_vida.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:22] + ';' + # variável 8
                linha[22:28] + ';' + # variável 9
                linha[28:33] + ';' + # variável 10
                linha[33:34] + ';' + # variável 11
                linha[34:35] + ';' + # variável 12
                linha[35:36] + ';' + # variável 13
                linha[36:37] + ';' + # variável 14
                linha[37:38] + ';' + # variável 15
                linha[38:39] + ';' + # variável 16
                linha[39:40] + ';' + # variável 17
                linha[40:41] + ';' + # variável 18
                linha[41:42] + ';' + # variável 19
                linha[42:43] + ';' + # variável 20
                linha[43:44] + ';' + # variável 21
                linha[44:45] + ';' + # variável 22
                linha[45:46] + ';' + # variável 23
                linha[46:47] + ';' + # variável 24
                linha[47:48] + ';' + # variável 25
                linha[48:49] + ';' + # variável 26
                linha[49:50] + ';' + # variável 27
                linha[50:51] + ';' + # variável 28
                linha[51:52] + ';' + # variável 29
                linha[52:53] + ';' + # variável 30
                linha[53:54] + ';' + # variável 31
                linha[54:55] + ';' + # variável 32
                linha[55:56] + ';' + # variável 33
                linha[56:57] + ';' + # variável 34
                linha[57:58] + ';' + # variável 35
                linha[58:59] + ';' + # variável 36
                linha[59:60] + ';' + # variável 37
                linha[60:61] + ';' + # variável 38
                linha[61:62] + ';' + # variável 39
                linha[62:63] + ';' + # variável 40
                linha[63:64] + ';' + # variável 41
                linha[64:65] + ';' + # variável 42
                linha[65:66] + ';' + # variável 43
                linha[66:67] + ';' + # variável 44
                linha[67:68] + ';' + # variável 45
                linha[68:69] + ';' + # variável 46
                linha[69:70] + ';' + # variável 47
                linha[70:71] + ';' + # variável 48
                linha[71:72] + ';' + # variável 49
                linha[72:73] + ';' + # variável 50
                linha[73:74] + ';' + # variável 51
                linha[74:75] + ';' + # variável 52
                linha[75:89] + ';' + # variável 53
                linha[89:103] + ';' + # variável 54
                linha[103:] # variável 55
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_condicoes_vida = "/content/novo_condicoes_vida.csv"

with open(novo_condicoes_vida, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;1;1;1;5;4000;1500;1;1;1;3;3;2;1;3;3;2;3;2;4;4;2;2;2;2;2;2;2;2;2;2;2;2;2;2;2;2;2;2;;;;;;;;;;;272.80666931;372.98451570;11254.75


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_condicoes_vida, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  58039
Total de caracteres da primeira linha:  147
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
import pandas as pd

In [None]:
colunas_condicoes_vida = [
    "UF",
    "ESTRATO_POF",
    "TIPO_SITUACAO_REG",
    "COD_UPA",
    "NUM_DOM",
    "NUM_UC",
    "COD_INFORMANTE",
    "V6101",
    "V6102",
    "V6103",
    "V61041",
    "V61042",
    "V61043",
    "V61044",
    "V61045",
    "V61046",
    "V61051",
    "V61052",
    "V61053",
    "V61054",
    "V61055",
    "V61056",
    "V61057",
    "V61058",
    "V61061",
    "V61062",
    "V61063",
    "V61064",
    "V61065",
    "V61066",
    "V61067",
    "V61068",
    "V61069",
    "V610610",
    "V610611",
    "V61071",
    "V61072",
    "V61073",
    "V6108",
    "V6109",
    "V6110",
    "V6111",
    "V6112",
    "V6113",
    "V6114",
    "V6115",
    "V6116",
    "V6117",
    "V6118",
    "V6119",
    "V6120",
    "V6121",
    "PESO",
    "PESO_FINAL",
    "RENDA_TOTAL"
]

In [None]:
df_novo_condicoes_vida = pd.read_csv(novo_condicoes_vida, sep=';', names = colunas_condicoes_vida, dtype='object')

In [None]:
df_novo_condicoes_vida.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 58039 entries, 0 to 58038
Data columns (total 55 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   UF                 58039 non-null  object
 1   ESTRATO_POF        58039 non-null  object
 2   TIPO_SITUACAO_REG  58039 non-null  object
 3   COD_UPA            58039 non-null  object
 4   NUM_DOM            58039 non-null  object
 5   NUM_UC             58039 non-null  object
 6   COD_INFORMANTE     58039 non-null  object
 7   V6101              58039 non-null  object
 8   V6102              58039 non-null  object
 9   V6103              58039 non-null  object
 10  V61041             58039 non-null  object
 11  V61042             58039 non-null  object
 12  V61043             58039 non-null  object
 13  V61044             58039 non-null  object
 14  V61045             58039 non-null  object
 15  V61046             58039 non-null  object
 16  V61051             58039 non-null  objec

In [None]:
df_novo_condicoes_vida.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,COD_INFORMANTE,V6101,V6102,V6103,...,V6115,V6116,V6117,V6118,V6119,V6120,V6121,PESO,PESO_FINAL,RENDA_TOTAL
0,11,1103,1,110005400,1,1,1,5,4000,1500,...,,,,,,,,272.806669,372.984516,11254.75
1,11,1103,1,110005400,2,1,1,3,3500,1000,...,,,,,,,,272.806669,372.984516,10828.07
2,11,1103,1,110005400,4,1,1,5,5000,1200,...,,,,,,,,272.806669,372.984516,4769.13
3,11,1103,1,110005400,5,1,1,3,1800,800,...,,,,,,,,272.806669,372.984516,2313.61
4,11,1103,1,110005400,6,1,1,5,6000,1500,...,,,,,,,,272.806669,372.984516,6596.9


##Conferir Unicidade da Chave Identificadora

In [None]:
df_novo_condicoes_vida_id = df_novo_condicoes_vida.drop_duplicates(subset=['COD_UPA','NUM_DOM','COD_INFORMANTE','NUM_UC'],keep='first')

In [None]:
df_novo_condicoes_vida_id.shape[0]

58039

## Aplicar Regras Normais

In [None]:
df_novo_condicoes_vida =  df_novo_condicoes_vida.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_novo_condicoes_vida.to_csv('CONDICOES_VIDA.csv', index=False)

# Tratamento do arquivo "Características da Dieta"

##Abrindo e Analisando o Arquivo

In [None]:
caract_dieta = '/content/drive/MyDrive/POF (2017 2018)/CARACTERISTICAS_DIETA.txt'

with open(caract_dieta, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111031110005400 21 112222222222      22 54165  709.29734021  1069.51380170  10828.07
1111031110005400 21 212222222222         72178  709.29734021  1069.51380170  10828.07
1111031110005400 51 112222222222         70178  709.29734021   933.79176232   2313.61
1111031110005400 81 112222222222      22 54158  709.29734021  1160.12790023   2299.82
1111031110005400 91 112222222222         74168  709.29734021  1036.09034434   2114.34


In [None]:
with open(caract_dieta, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  46164
Total de caracteres da primeira linha:  86
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(caract_dieta, 'r') as arquivo_orig:
    with open('novo_caract_dieta.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:22] + ';' + # variável 8
                linha[22:23] + ';' + # variável 9
                linha[23:24] + ';' + # variável 10
                linha[24:25] + ';' + # variável 11
                linha[25:26] + ';' + # variável 12
                linha[26:27] + ';' + # variável 13
                linha[27:28] + ';' + # variável 14
                linha[28:29] + ';' + # variável 15
                linha[29:30] + ';' + # variável 16
                linha[30:31] + ';' + # variável 17
                linha[31:32] + ';' + # variável 18
                linha[32:33] + ';' + # variável 19
                linha[33:34] + ';' + # variável 20
                linha[34:35] + ';' + # variável 21
                linha[35:36] + ';' + # variável 22
                linha[36:37] + ';' + # variável 23
                linha[37:38] + ';' + # variável 24
                linha[38:39] + ';' + # variável 25
                linha[39:40] + ';' + # variável 26
                linha[40:43] + ';' + # variável 27
                linha[43:46] + ';' + # variável 28
                linha[46:60] + ';' + # variável 29
                linha[60:75] + ';' + # variável 30
                linha[75:] # variável 31
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_caract_dieta = "/content/novo_caract_dieta.csv"

with open(novo_caract_dieta, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1103;1;110005400;2;1;1;1;2;2;2;2;2;2;2;2;2;2;;;;;;;2;2;54;165;709.29734021;1069.51380170;10828.07


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_caract_dieta, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  46164
Total de caracteres da primeira linha:  101
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
import pandas as pd

In [None]:
colunas_caract_dieta = [
    "UF",
    "ESTRATO_POF",
    "TIPO_SITUACAO_REG",
    "COD_UPA",
    "NUM_DOM",
    "NUM_UC",
    "COD_INFORMANTE",
    "V7101",
    "V7102",
    "V71031",
    "V71032",
    "V71033",
    "V71034",
    "V71035",
    "V71036",
    "V71037",
    "V71038",
    "V7104",
    "V71051",
    "V71052",
    "V71053",
    "V71054",
    "V71055",
    "V71056",
    "V71A01",
    "V71A02",
    "V72C01",
    "V72C02",
    "PESO",
    "PESO_FINAL",
    "RENDA_TOTAL"
]


In [None]:
df_caract_dieta = pd.read_csv(novo_caract_dieta, sep=';', names = colunas_caract_dieta, dtype='object')

In [None]:
df_caract_dieta.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46164 entries, 0 to 46163
Data columns (total 31 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   UF                 46164 non-null  object
 1   ESTRATO_POF        46164 non-null  object
 2   TIPO_SITUACAO_REG  46164 non-null  object
 3   COD_UPA            46164 non-null  object
 4   NUM_DOM            46164 non-null  object
 5   NUM_UC             46164 non-null  object
 6   COD_INFORMANTE     46164 non-null  object
 7   V7101              46164 non-null  object
 8   V7102              46164 non-null  object
 9   V71031             46164 non-null  object
 10  V71032             46164 non-null  object
 11  V71033             46164 non-null  object
 12  V71034             46164 non-null  object
 13  V71035             46164 non-null  object
 14  V71036             46164 non-null  object
 15  V71037             46164 non-null  object
 16  V71038             46164 non-null  objec

In [None]:
df_caract_dieta.head()

Unnamed: 0,UF,ESTRATO_POF,TIPO_SITUACAO_REG,COD_UPA,NUM_DOM,NUM_UC,COD_INFORMANTE,V7101,V7102,V71031,...,V71054,V71055,V71056,V71A01,V71A02,V72C01,V72C02,PESO,PESO_FINAL,RENDA_TOTAL
0,11,1103,1,110005400,2,1,1,1,2,2,...,,,,2.0,2.0,54,165,709.29734,1069.513802,10828.07
1,11,1103,1,110005400,2,1,2,1,2,2,...,,,,,,72,178,709.29734,1069.513802,10828.07
2,11,1103,1,110005400,5,1,1,1,2,2,...,,,,,,70,178,709.29734,933.791762,2313.61
3,11,1103,1,110005400,8,1,1,1,2,2,...,,,,2.0,2.0,54,158,709.29734,1160.1279,2299.82
4,11,1103,1,110005400,9,1,1,1,2,2,...,,,,,,74,168,709.29734,1036.090344,2114.34


##Conferir Unicidade da Chave Identificadora

In [None]:
df_caract_dieta_id = df_caract_dieta.drop_duplicates(subset=['COD_UPA','NUM_DOM','COD_INFORMANTE'],keep='first')

In [None]:
df_caract_dieta_id.shape[0]

46164

## Aplicar Regras Normais

In [None]:
df_caract_dieta =  df_caract_dieta.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL','NUM_UC'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_caract_dieta.to_csv('CARACTERISTICA_DIETA.csv', index=False)

# Tratamento do arquivo "Consumo Alimentar"

##Abrindo e Analisando o Arquivo

In [None]:
consumo_alimentar = '/content/drive/MyDrive/POF (2017 2018)/CONSUMO_ALIMENTAR.txt'

with open(consumo_alimentar, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Imprimir 5 primeiras Linhas
print("5 primeiras Linhas: \n")
for conteudo in conteudo[:5]:
    print(conteudo, end='')


5 primeiras Linhas: 

1111011110000016 21 172 1 1.06180001018H   110100000000006199  70.00   70.000C0002A  210.00000000  889.00000000    6.88100000   43.14800000    1.82700000    1.48400000    0.00000000    0.47600000    0.43400000    0.33600000    0.17500000    9.92600000    3.03100000  477.33000000   17.41600000   69.82500000  104.79000000    0.09800000    0.57400000    1.42800000    0.28700000    0.49000000    1.72200000    0.44100000    0.00000000    0.00000000    0.12600000    0.00000000  104.68500000 1316.60944623  2390.48652303   3855.34Quarta-Feira   2
1111011110000016 21 172 1      79016028H   11                          14.000C0008D   89.60000000  368.48000000    0.00000000    0.00000000    0.00000000    9.95960000    0.00000000    2.69220000    2.22180000    3.52380000    0.49700000    0.61740000    0.00980000  113.84520000    0.14140000    0.84420000    1.49240000    0.00000000    0.00000000    0.00000000    0.00000000    0.00000000    0.00000000    0.00000000    0.00000000

In [None]:
with open(consumo_alimentar, 'r') as arquivo:
    conteudo = arquivo.readlines()

# descobrir quantas Linhas tem o arquivo
cont = 0
for linha in conteudo:
    cont += 1

# descobrir quantos caracteres tem a primeira Linha
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# descobrir se o restante das linhas tem a mesma qtd de caracteres da primeira linha
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  1175390
Total de caracteres da primeira linha:  545
Todas as Linhas tem o mesmo comprimento da primeira?  True


##Adicionar o Separador

In [None]:
with open(consumo_alimentar, 'r') as arquivo_orig:
    with open('novo_consumo_alimentar.csv', 'w') as arquivo_novo:
        for linha in arquivo_orig:
            nova_linha = (
                linha[:2] + ';' + # variável 1
                linha[2:6] + ';' + # variável 2
                linha[6:7] + ';' + # variável 3
                linha[7:16] + ';' + # variável 4
                linha[16:18] + ';' + # variável 5
                linha[18:19] + ';' + # variável 6
                linha[19:21] + ';' + # variável 7
                linha[21:23] + ';' + # variável 8
                linha[23:25] + ';' + # variável 9
                linha[25:29] + ';' + # variável 10
                linha[29:31] + ';' + # variável 11
                linha[31:38] + ';' + # variável 12
                linha[38:41] + ';' + # variável 13
                linha[41:43] + ';' + # variável 14
                linha[43:44] + ';' + # variável 15
                linha[44:45] + ';' + # variável 16
                linha[45:46] + ';' + # variável 17
                linha[46:47] + ';' + # variável 18
                linha[47:48] + ';' + # variável 19
                linha[48:49] + ';' + # variável 20
                linha[49:50] + ';' + # variável 21
                linha[50:51] + ';' + # variável 22
                linha[51:52] + ';' + # variável 23
                linha[52:53] + ';' + # variável 24
                linha[53:54] + ';' + # variável 25
                linha[54:55] + ';' + # variável 26
                linha[55:56] + ';' + # variável 27
                linha[56:57] + ';' + # variável 28
                linha[57:59] + ';' + # variável 29
                linha[59:61] + ';' + # variável 30
                linha[61:68] + ';' + # variável 31
                linha[68:77] + ';' + # variável 32
                linha[77:83] + ';' + # variável 33
                linha[83:97] + ';' + # variável 34
                linha[97:111] + ';' + # variável 35
                linha[111:125] + ';' + # variável 36
                linha[125:139] + ';' + # variável 37
                linha[139:153] + ';' + # variável 38
                linha[153:167] + ';' + # variável 39
                linha[167:181] + ';' + # variável 40
                linha[181:195] + ';' + # variável 41
                linha[195:209] + ';' + # variável 42
                linha[209:223] + ';' + # variável 43
                linha[223:237] + ';' + # variável 44
                linha[237:251] + ';' + # variável 45
                linha[251:265] + ';' + # variável 46
                linha[265:279] + ';' + # variável 47
                linha[279:293] + ';' + # variável 48
                linha[293:307] + ';' + # variável 49
                linha[307:321] + ';' + # variável 50
                linha[321:335] + ';' + # variável 51
                linha[335:349] + ';' + # variável 52
                linha[349:363] + ';' + # variável 53
                linha[363:377] + ';' + # variável 54
                linha[377:391] + ';' + # variável 55
                linha[391:405] + ';' + # variável 56
                linha[405:419] + ';' + # variável 57
                linha[419:433] + ';' + # variável 58
                linha[433:447] + ';' + # variável 59
                linha[448:461] + ';' + # variável 60
                linha[461:475] + ';' + # variável 61
                linha[475:489] + ';' + # variável 62
                linha[489:503] + ';' + # variável 63
                linha[503:518] + ';' + # variável 64
                linha[518:528] + ';' + # variável 65
                linha[528:543] + ';' + # variável 66
                linha[543:] # variável 67
            )
            nova_linha = nova_linha.replace(' ', '')
            arquivo_novo.write(nova_linha)




Conferir Processo

In [None]:
novo_consumo_alimentar = "/content/novo_consumo_alimentar.csv"

with open(novo_consumo_alimentar, 'r') as arquivo_novo:
  novo_dom = arquivo_novo.readlines()

# imprimir primeira linha
for lin in novo_dom[:1]:
  print(lin, end="")

11;1101;1;110000016;2;1;1;72;1;1.0;61;8000101;8H;;1;1;0;1;0;0;0;0;0;0;0;0;0;0;61;99;70.00;70.000;C0002A;210.00000000;889.00000000;6.88100000;43.14800000;1.82700000;1.48400000;0.00000000;0.47600000;0.43400000;0.33600000;0.17500000;9.92600000;3.03100000;477.33000000;17.41600000;69.82500000;104.79000000;0.09800000;0.57400000;1.42800000;0.28700000;0.49000000;1.72200000;0.44100000;0.00000000;0.00000000;0.12600000;0.00000000;104.68500000;1316.60944623;2390.48652303;3855.34;Quarta-Feira;2


Conferir Estado do Novo Arquivo

In [None]:
with open(novo_consumo_alimentar, 'r') as arquivo:
    conteudo = arquivo.readlines()

# Conferir Numero de Linhas
cont = 0
for linha in conteudo:
    cont += 1

# Conferir Total de Caracteres
cont_char = 0
for i, linha in enumerate(conteudo[:1], start=1):
    num_caracteres = len(linha)

# Conferir se as Linhas Ainda tem o Mesmo Numero de Caracteres
primeira_linha = conteudo[0]
todas_as_linhas_iguais = all(len(linha) == len(primeira_linha) for linha in conteudo)

print("Total de linhas: ", cont)
print("Total de caracteres da primeira linha: ", num_caracteres)
print("Todas as Linhas tem o mesmo comprimento da primeira? ", todas_as_linhas_iguais)

Total de linhas:  1175390
Total de caracteres da primeira linha:  487
Todas as Linhas tem o mesmo comprimento da primeira?  False


## Abrir arquivo como DataFrame, para melhor análise

In [None]:
colunas_consumo_alimentar = [
    "UF", "ESTRATO_POF", "TIPO_SITUACAO_REG", "COD_UPA", "NUM_DOM", "NUM_UC", "COD_INFORMANTE",
    "QUADRO", "SEQ", "V9005", "V9007", "V9001", "V9015", "V9016", "V9017", "V9018", "V9019",
    "V9020", "V9021", "V9022", "V9023", "V9024", "V9025", "V9026", "V9027", "V9028", "V9029",
    "V9030", "COD_UNIDADE_MEDIDA_FINAL", "COD_PREPARACAO_FINAL", "GRAMATURA1", "QTD", "COD_TBCA",
    "ENERGIA_KCAL", "ENERGIA_KJ", "PTN", "CHOTOT", "FIBRA", "LIP", "COLEST", "AGSAT", "AGMONO",
    "AGPOLI", "AGTRANS", "CALCIO", "FERRO", "SODIO", "MAGNESIO", "FOSFORO", "POTASSIO", "COBRE",
    "ZINCO", "VITA_RAE", "TIAMINA", "RIBOFLAVINA", "NIACINA", "PIRIDOXAMINA", "COBALAMINA",
    "VITD", "VITE", "VITC", "FOLATO", "PESO", "PESO_FINAL", "RENDA_TOTAL", "DIA_SEMANA", "DIA_ATIPICO"
]


In [None]:
df_consumo_alimentar = pd.read_csv(novo_consumo_alimentar, sep=';', names = colunas_consumo_alimentar, dtype='object')

In [None]:
df_consumo_alimentar.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1175390 entries, 0 to 1175389
Data columns (total 67 columns):
 #   Column                    Non-Null Count    Dtype 
---  ------                    --------------    ----- 
 0   UF                        1175390 non-null  object
 1   ESTRATO_POF               1175390 non-null  object
 2   TIPO_SITUACAO_REG         1175390 non-null  object
 3   COD_UPA                   1175390 non-null  object
 4   NUM_DOM                   1175390 non-null  object
 5   NUM_UC                    1175390 non-null  object
 6   COD_INFORMANTE            1175390 non-null  object
 7   QUADRO                    1175390 non-null  object
 8   SEQ                       1175390 non-null  object
 9   V9005                     1007126 non-null  object
 10  V9007                     1007126 non-null  object
 11  V9001                     1175390 non-null  object
 12  V9015                     1175390 non-null  object
 13  V9016                     176499 non-null 

In [None]:
df_consumo_alimentar.head().T

Unnamed: 0,0,1,2,3,4
COD_UPA,110000016,110000016,110000016,110000016,110000016
NUM_DOM,2,2,2,2,2
COD_INFORMANTE,1,1,1,1,1
QUADRO,72,72,72,72,72
SEQ,1,1,2,2,3
V9005,1.0,,1.0,,2.0
V9007,61,,13,,7
V9001,8000101,7901602,8501303,6906602,6300101
V9015,8H,8H,8H,8H,12H
V9016,,,,,


In [None]:
df_consumo_alimentar['V9007'] = df_consumo_alimentar['V9007'].str.zfill(5)

In [None]:
df_consumo_alimentar['COD_UNIDADE_MEDIDA_FINAL'] = df_consumo_alimentar['COD_UNIDADE_MEDIDA_FINAL'].str.zfill(5)

In [None]:
df_consumo_alimentar['COD_UNIDADE_MEDIDA_FINAL'].unique()

array(['00061', nan, '00013', '00007', '00046', '00017', '00016', '00012',
       '00063', '00011', '00050', '00026', '00019', '00014', '00018',
       '00054', '00040', '00047', '00034', '00035', '00060', '00053',
       '00064', '00051', '00001', '00062', '00044', '00038', '00055',
       '00032', '00027', '00028', '00049', '00006', '00015', '00021',
       '00023', '00043', '00025', '00033', '00048', '00024', '00045',
       '00052', '00004', '00010', '00022', '00009', '00030', '00042',
       '00020', '00031', '00058', '00059', '00057', '00003', '00037',
       '00056', '00029', '00039', '00008', '00005', '00036', '00002',
       '00041'], dtype=object)

##Conferir Unicidade da Chave Identificadora

In [None]:
df_consumo_alimentar_id = df_consumo_alimentar.drop_duplicates(subset=['COD_UPA','NUM_DOM','COD_INFORMANTE','QUADRO','SEQ','V9007','V9001'],keep='first')

In [None]:
df_consumo_alimentar_id.shape[0]

1175390

## Aplicar Regras Normais

In [None]:
df_consumo_alimentar =  df_consumo_alimentar.drop(['UF','ESTRATO_POF','TIPO_SITUACAO_REG','PESO','PESO_FINAL','RENDA_TOTAL','NUM_UC'], axis=1)

## Baixar Arquivo como CSV

In [None]:
df_consumo_alimentar.to_csv('CONSUMO_ALIMENTAR.csv', index=False)