<center> <h1> <b> A Base de Dados </b> </h1> </center>

___

Quando vamos fazer uma análise, o **problema** é a primeira coisa que temos que definir. E o que isso significa? Significa que a base - ou bases - de dados utilizada deve ter como objetivo auxiliar na resolução desse problema.

> A base de dados utilizada deve servir ao problema proposto, não o contrário.

Dito isso, a base que irei utilizar nos exemplos é aleatória, onde meu único critério de escolha foi eu considerar uma base interessante e que dê para realizar diferentes análises. Ou seja, eu não tenho um **problema inicial**, por isso a escolha da base foi arbitrária, servindo apenas como exemplo para as análises estatísticas.

<center> <h2> Radar IDHM </h2> </center>

O [Radar IDHM](http://www.atlasbrasil.org.br/2013/en/radar-idhm/) é um estudo do IBGE realizado com base na Pesquisa Nacional de Amostragem de Domicílios (PNAD) e auxilia na atualização dos dados do [Atlas do Desenvolvimento no Brasil](http://www.atlasbrasil.org.br/2013/pt/o_atlas/o_atlas_/). </br>
O Atlas é um site voltado à consulta ao Índice de Desenvolvimento Humano Municipal (IDHM), contando com:
* 5.565 municípios;
* 27 Unidades Federativas (UF);
* 21 Regiões Metropolitanas (RM);
* 3 Regiões Integradas de Desenvolvimento (RIDE);

O Atlas também traz mais de 200 indicadores com os dados retirados dos Censos de 1991, 2000 e 2010.

<center> <h2> Rápidas Considerações  </h2> </center>

Irei passar rápido pela parte de importação da base e conhecimento dos dados que serão utilizados, porém deixando as informações essenciais o mais claro possível, assim como irei sempre explicar muito bem o código utilizado. </br>
Irei utilizar a base já apresentada, porém apenas com o seguinte recorte: RM/Estado/País; e que pode ser encontrada [aqui](https://bit.ly/2GgtDIM).

A versão do Python que irei utilizar em todos os notebooks será a 3.7.5 e o sistema operacional Ubuntu 19.10.

In [63]:
!python --version
'---'
!lsb_release -a

Python 3.7.5


'---'

No LSB modules are available.
Distributor ID:	Ubuntu
Description:	Ubuntu 19.10
Release:	19.10
Codename:	eoan


Antes de começar a botar a mão na massa, no início de todos os notebooks, importarei a classe abaixo, que permite rodar mais de um comando por célula, e não apenas o último como é o padrão do *Jupyter Notebook* .

In [3]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

Para manipulação da base de dados, será utilizada a biblioteca [Pandas](https://pandas.pydata.org/pandas-docs/stable/) do Python e uma das ferramentas mais utilizadas e competentes no que diz respeito ao tratamento de dados em geral. </br>
Foi necessário realizar a instalação do pacote [`xlrd`](https://pypi.org/project/xlrd/) do Python, especificamente na minha máquina, o que pode ser feito através do PyPI: 
```python
!pip install xlrd
```

<center> <h2> Uma rápida, rápida mesmo, visão sobre o Pandas </h2> </center>

Novamente, o objetivo desse e de futuros artigos é focar no conhecimento estatístico. O Python, ou qualquer outra linguagem de programação, é o que nos permite fazer isso de forma escalonada, com grandes quantidades de dados, e, com isso, é natural sabermos o que e o por que de estarmos realizando certos passos. Por isso, vamos entender um pouco sobre `DataFrame` e `Series` de forma bastante resumida.
> *`Series`*: é uma estrutura de dados **unidimensional** rotulada e que pode conter mais de um tipo de dado (`int`, `str`, `float`, etc.);</br>
> *`DataFrame`: é uma estrutura dados de **duas dimensões**, onde os dados são organizados de forma tabular através de **linhas** e **colunas**; 

Basicamente, um *DataFrame* (linhas e colunas) nada mais é que um conjunto de *Series* (colunas). E é importante ressaltar que o primeiro valor que o Python considera, começa a contar, é o valor 0, e não 1. </br>

In [6]:
#importando o Pandas
import pandas as pd

In [2]:
# criando uma Series através de tuplas com nome A, 3 linhas e 3 valores por linha
series_tup = [(10, 20, 30),
              (10, 20, 30),
              (10, 20, 30)]

# criando uma Series através de listas com nome A, 3 linhas e 3 valores por linha
values_list = [[10, 20, 30],
               [10, 20, 30],
               [10, 20, 30]]

pd.Series(data = series_tup, name = 'A')
pd.Series(data = values_list, name = 'A')

0    [10, 20, 30]
1    [10, 20, 30]
2    [10, 20, 30]
Name: A, dtype: object

In [8]:
# criando um DataFrame com 3 linhas e 3 colunas (ou Series)
data = [[10, 20, 30],
             [10, 20, 30],
             [10, 20, 30]]

columns = ['A', 'B', 'C']

# transformando data em um dataframe
pd.DataFrame(data, columns = columns)

# selecionando apenas a cluna A do dataframe
pd.DataFrame(data, columns = columns).A

# verificando o tipo do dataframe e do "fatiamento" selecionado
type(pd.DataFrame(data, columns = columns))
type(pd.DataFrame(data, columns = columns).A)

Unnamed: 0,A,B,C
0,10,20,30
1,10,20,30
2,10,20,30


0    10
1    10
2    10
Name: A, dtype: int64

pandas.core.frame.DataFrame

pandas.core.series.Series

<center> <h2> Conhecendo a Base  </h2> </center>

> A primeira planilha/aba do arquivo, possui as definições de cada uma das siglas existentes nas outras planilhas. </br>
> Fazendo um panorama geral, temos, no mínimo, 68 variáveis diferentes disponibilizadas. Ou seja, cada linha dessa será uma variável nas outras planilhas.

In [3]:
# importando o Pandas
import pandas as pd

# passando o caminho para um objeto; isso facilita alterações futuras no caminho do arquivo
file_path = 'datasets/idhm_pnadc_2012_2108.xlsx'

# o arquivo possui mais de uma planilha (aba),
# sendo necessário indicar com qual queremos trabalhar

idhm_data = pd.read_excel(file_path, sheet_name = 0) # verificando a primeira aba
idhm_data.head() # 5 primeiras linhas da planilha
idhm_data.info() # dados gerais sobre a planilha

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 68 entries, 0 to 67
Data columns (total 4 columns):
SIGLA         68 non-null object
NOME CURTO    68 non-null object
NOME LONGO    68 non-null object
DEFINIÇÃO     68 non-null object
dtypes: object(4)
memory usage: 2.2+ KB


> Na segunda planilha, temos uma visão geral dos dados em que podemos trabalhar. </br>
> Ao todo, temos 70 variáveis (colunas) e 294 observações (linhas) por variável. Algumas variáveis contam com apenas 98 observações o que significa que os valores restantes, para igualar aos 294 valores das outras colunas, aparecerão como `NaN` (perdidos/missing). </br>
> Em relação aos tipos de dados, temos:
> * 54 variáveis como `float` (decimal);
> * 14 variáveis como `int` (inteiro);
> * 2 variáveis como `object` (string);

In [12]:
idhm_data = pd.read_excel(file_path, sheet_name = 1) # verificando a segunda aba
idhm_data.head()
idhm_data.info()

Unnamed: 0,Ano,NOME_AGREGA,SIGLA_AGREGA,AGREGA,ESPVIDA,MORT1,T_ENV,RAZDEP,ANOSEST,T_ANALF15M,...,POP25M,POP65M,POPT,POPTOT,I_ESCOLARIDADE,I_FREQ_PROP,IDHM_E,IDHM_L,IDHM_R,IDHM
0,2012,BRASIL,BRASIL,1,74.52,15.69,8.79,45.77,7.54,8.68,...,120213414,17470255,,198660169,0.595,0.736,0.686,0.825,,
1,2013,BRASIL,BRASIL,1,74.84,15.02,8.96,45.46,7.67,8.37,...,122375322,17967626,,200454809,0.604,0.749,0.697,0.831,,
2,2014,BRASIL,BRASIL,1,75.14,14.4,9.29,44.63,7.85,7.98,...,125709230,18774795,,202194916,0.618,0.767,0.714,0.836,,
3,2015,BRASIL,BRASIL,1,75.44,13.82,9.49,44.1,7.98,7.75,...,127620286,19354194,,203880479,0.629,0.775,0.723,0.841,,
4,2016,BRASIL,BRASIL,1,75.72,13.29,9.84,43.48,8.09,7.28,...,130353863,20216293,202785002.0,205511395,0.644,0.792,0.739,0.845,0.748,0.776


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 294 entries, 0 to 293
Data columns (total 70 columns):
Ano                  294 non-null int64
NOME_AGREGA          294 non-null object
SIGLA_AGREGA         294 non-null object
AGREGA               294 non-null int64
ESPVIDA              294 non-null float64
MORT1                294 non-null float64
T_ENV                294 non-null float64
RAZDEP               294 non-null float64
ANOSEST              294 non-null float64
T_ANALF15M           294 non-null float64
T_ANALF18M           294 non-null float64
T_ANALF25M           294 non-null float64
T_ATRASO_2_BASICO    294 non-null float64
T_ATRASO_2_FUND      294 non-null float64
T_FLBAS              294 non-null float64
T_FLFUND             294 non-null float64
T_FLMED              294 non-null float64
T_FLSUPER            294 non-null float64
T_FREQ5A6            294 non-null float64
T_FREQ6A14           294 non-null float64
T_FREQ15A17          294 non-null float64
T_FREQ18A24        

> De cara, podemos observar que temos mais observações por coluna e uma variável a mais: `COR`. A princípio, essa aba possui os mesmos dados que a segunda planilha, porém adicionando observações em relação à cor dos indivíduos. </br>
> Em relação aos tipos de dados, agora temos:
> * 54 variáveis como `float` (decimal);
> * 14 variáveis como `int` (inteiro);
> * 3 variáveis como `object` (string);

In [13]:
idhm_data = pd.read_excel(file_path, sheet_name = 2) # verificando a terceira aba
idhm_data.head()
idhm_data.info()

Unnamed: 0,Ano,COR,NOME_AGREGA,SIGLA_AGREGA,AGREGA,ESPVIDA,MORT1,T_ENV,RAZDEP,ANOSEST,...,POP25M,POP65M,POPT,POPTOT,I_ESCOLARIDADE,I_FREQ_PROP,IDHM_E,IDHM_L,IDHM_R,IDHM
0,2012,BRANCA,BRASIL,BRASIL,1,75.44,13.98,10.5,45.48,8.51,...,58928106,9718807,,92576510,0.659,0.803,0.752,0.841,,
1,2013,BRANCA,BRASIL,BRASIL,1,75.7,13.38,10.61,45.89,8.64,...,59217765,9822998,,92592040,0.669,0.808,0.759,0.845,,
2,2014,BRANCA,BRASIL,BRASIL,1,75.94,12.83,11.05,45.08,8.82,...,60751265,10302902,,93243404,0.682,0.826,0.775,0.849,,
3,2015,BRANCA,BRASIL,BRASIL,1,76.18,12.31,11.22,45.13,8.94,...,60541205,10408799,,92736266,0.692,0.831,0.782,0.853,,
4,2016,BRANCA,BRASIL,BRASIL,1,76.41,11.84,11.81,45.3,9.09,...,60137999,10734498,89842188.0,90918025,0.708,0.849,0.799,0.857,0.801,0.819


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 588 entries, 0 to 587
Data columns (total 71 columns):
Ano                  588 non-null int64
COR                  588 non-null object
NOME_AGREGA          588 non-null object
SIGLA_AGREGA         588 non-null object
AGREGA               588 non-null int64
ESPVIDA              588 non-null float64
MORT1                588 non-null float64
T_ENV                588 non-null float64
RAZDEP               588 non-null float64
ANOSEST              588 non-null float64
T_ANALF15M           588 non-null float64
T_ANALF18M           588 non-null float64
T_ANALF25M           588 non-null float64
T_ATRASO_2_BASICO    588 non-null float64
T_ATRASO_2_FUND      588 non-null float64
T_FLBAS              588 non-null float64
T_FLFUND             588 non-null float64
T_FLMED              588 non-null float64
T_FLSUPER            588 non-null float64
T_FREQ5A6            588 non-null float64
T_FREQ6A14           588 non-null float64
T_FREQ15A17         

> Na quarta aba, temos 3 novas colunas, sendo duas colunas **a mais** do que na aba 3. </br>
> Fazendo uma listagem rápida dos nomes das colunas das abas 3 e 4, é fácil identificar quais são as diferenças:
> * Sai a coluna `COR` e entra a coluna `SEXO`;
> * São adicionadas as colunas `IDHM_R_ajustado` e `IDHM_ajustado`;

In [67]:
idhm_data = pd.read_excel(file_path, sheet_name = 3) # verificando a quarta aba
idhm_data.head()
idhm_data.info()

Unnamed: 0,Ano,SEXO,NOME_AGREGA,SIGLA_AGREGA,AGREGA,ESPVIDA,MORT1,T_ENV,RAZDEP,ANOSEST,...,POPT,POPTOT,I_ESCOLARIDADE,I_FREQ_PROP,IDHM_E,IDHM_L,IDHM_R,IDHM,IDHM_R_ajustado,IDHM_ajustado
0,2012,HOMEM,BRASIL,BRASIL,1,70.91,15.69,7.86,46.31,7.39,...,,96251861,0.585,0.697,0.657,0.765,,,,
1,2013,HOMEM,BRASIL,BRASIL,1,71.25,15.02,8.03,46.41,7.5,...,,97187434,0.59,0.711,0.668,0.771,,,,
2,2014,HOMEM,BRASIL,BRASIL,1,71.57,14.4,8.34,45.0,7.65,...,,97861023,0.604,0.732,0.687,0.776,,,,
3,2015,HOMEM,BRASIL,BRASIL,1,71.88,13.82,8.5,44.35,7.8,...,,98805634,0.866,0.918,0.9,0.781,,,,
4,2016,HOMEM,BRASIL,BRASIL,1,72.18,13.29,8.75,43.6,7.89,...,98274414.0,99582016,0.63,0.763,0.716,0.786,0.75,0.75,0.818,0.772


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 588 entries, 0 to 587
Data columns (total 73 columns):
Ano                  588 non-null int64
SEXO                 588 non-null object
NOME_AGREGA          588 non-null object
SIGLA_AGREGA         588 non-null object
AGREGA               588 non-null int64
ESPVIDA              588 non-null float64
MORT1                588 non-null float64
T_ENV                588 non-null float64
RAZDEP               588 non-null float64
ANOSEST              588 non-null float64
T_ANALF15M           588 non-null float64
T_ANALF18M           588 non-null float64
T_ANALF25M           588 non-null float64
T_ATRASO_2_BASICO    588 non-null float64
T_ATRASO_2_FUND      588 non-null float64
T_FLBAS              588 non-null float64
T_FLFUND             588 non-null float64
T_FLMED              588 non-null float64
T_FLSUPER            588 non-null float64
T_FREQ5A6            588 non-null float64
T_FREQ6A14           588 non-null float64
T_FREQ15A17         

> Vou jogar cada planilha em um objeto para facilitar os códigos futuros.

In [14]:
summary_plan = pd.read_excel(file_path, sheet_name = 0)
general_plan = pd.read_excel(file_path, sheet_name = 1)
ethnicity_plan = pd.read_excel(file_path, sheet_name = 2)
gender_plan = pd.read_excel(file_path, sheet_name = 3)

> Listando os nomes das colunas para facilitar a comparação visual

In [77]:
ethnicity_plan.columns # listando as colunas da aba 3
gender_plan.columns # listando as colunas da aba 4

Index(['Ano', 'COR', 'NOME_AGREGA', 'SIGLA_AGREGA', 'AGREGA', 'ESPVIDA',
       'MORT1', 'T_ENV', 'RAZDEP', 'ANOSEST', 'T_ANALF15M', 'T_ANALF18M',
       'T_ANALF25M', 'T_ATRASO_2_BASICO', 'T_ATRASO_2_FUND', 'T_FLBAS',
       'T_FLFUND', 'T_FLMED', 'T_FLSUPER', 'T_FREQ5A6', 'T_FREQ6A14',
       'T_FREQ15A17', 'T_FREQ18A24', 'T_FUND11A13', 'T_FUND15A17', 'T_FUND18M',
       'T_FUND18A24', 'T_FUND25M', 'T_MED18A20', 'T_MED25M', 'T_SUPER25M',
       'R1040', 'R2040', 'RDPC', 'V_RENOCUP', 'RDPC1', 'RDPC2', 'RDPC3',
       'RDPC4', 'RDPC5', 'RDPC10', 'RDPCT', 'RIND', 'RMPOB', 'RPOB',
       'PRENTRAB', 'PIND', 'PMPOB', 'PPOB', 'GINI', 'THEIL', 'POP', 'POP5A6',
       'POP6A14', 'POP6A17', 'POP11A13', 'POP15A17', 'POP15M', 'POP18M',
       'POP18A20', 'POP18A24', 'POP25M', 'POP65M', 'POPT', 'POPTOT',
       'I_ESCOLARIDADE', 'I_FREQ_PROP', 'IDHM_E', 'IDHM_L', 'IDHM_R', 'IDHM'],
      dtype='object')

Index(['Ano', 'SEXO', 'NOME_AGREGA', 'SIGLA_AGREGA', 'AGREGA', 'ESPVIDA',
       'MORT1', 'T_ENV', 'RAZDEP', 'ANOSEST', 'T_ANALF15M', 'T_ANALF18M',
       'T_ANALF25M', 'T_ATRASO_2_BASICO', 'T_ATRASO_2_FUND', 'T_FLBAS',
       'T_FLFUND', 'T_FLMED', 'T_FLSUPER', 'T_FREQ5A6', 'T_FREQ6A14',
       'T_FREQ15A17', 'T_FREQ18A24', 'T_FUND11A13', 'T_FUND15A17', 'T_FUND18M',
       'T_FUND18A24', 'T_FUND25M', 'T_MED18A20', 'T_MED25M', 'T_SUPER25M',
       'R1040', 'R2040', 'RDPC', 'V_RENOCUP', 'RDPC1', 'RDPC2', 'RDPC3',
       'RDPC4', 'RDPC5', 'RDPC10', 'RDPCT', 'RIND', 'RMPOB', 'RPOB',
       'PRENTRAB', 'PIND', 'PMPOB', 'PPOB', 'GINI', 'THEIL', 'POP', 'POP5A6',
       'POP6A14', 'POP6A17', 'POP11A13', 'POP15A17', 'POP15M', 'POP18M',
       'POP18A20', 'POP18A24', 'POP25M', 'POP65M', 'POPT', 'POPTOT',
       'I_ESCOLARIDADE', 'I_FREQ_PROP', 'IDHM_E', 'IDHM_L', 'IDHM_R', 'IDHM',
       'IDHM_R_ajustado', 'IDHM_ajustado'],
      dtype='object')

> Como já sabemos, o número de observaçõs por coluna das duas abas é igual (588), mudando apenas o número de colunas. Isso significa que os valores serão os mesmos? Não. </br>
> Isso acontece, pois o **contexto** de cada aba é diferente, onde uma está olhando para um panorama relativo à `COR` e a outra aba um contexto relativo ao  `SEXO`.
> > OBS: toda vez que retornamos uma dimensionalidade, seja de um DataFrame ou de uma Array/Matriz (trataremos posteriormente), é retornada uma [tupla](https://excript.com/python/tuplas-python.html) com dois números, sendo o primeiro o número de linhas e o segundo o número de colunas.

In [78]:
ethnicity_plan.shape # dimensionalidade da aba 1
gender_plan.shape # dimensionalidade da aba 2

(588, 71)

(588, 73)

> Analisando com mais calma os índices, decidi tirar algumas variáveis para tornar a base mais enxuta. Um dos critérios que usei, foi retirar todas as variávies que são taxas, percentuais ou cálculos relativos às outras variáveis, algo que podemos fazer na mão posteriormente.

In [15]:
pd.set_option('display.max_rows', 70)
summary_plan

Unnamed: 0,SIGLA,NOME CURTO,NOME LONGO,DEFINIÇÃO
0,ANO,ANO,ANO,ANO
1,AGREGA,Codigo interno identificador,Codigo interno identificador,Codigo interno identificador
2,ESPVIDA,Esperança de vida ao nascer,Esperança de vida ao nascer,Número médio de anos que as pessoas deverão vi...
3,MORT1,Mortalidade infantil,Mortalidade até um ano de idade,Número de crianças que não deverão sobreviver ...
4,T_ENV,Taxa de envelhecimento,Taxa de envelhecimento,Razão entre a população de 65 anos ou mais de ...
5,RAZDEP,Razão de dependência,Percentual da população de menos de 15 anos e ...,Razão de dependência é medida pela razão entre...
6,ANOSEST,Média de anos de estudo,Média de anos de estudo das pessoas de 25 anos...,Razão entre o somatório do número de anos de e...
7,T_ANALF15M,Taxa de analfabetismo - 15 anos ou mais,Taxa de analfabetismo da população de 15 anos ...,Razão entre a população de 15 anos ou mais de ...
8,T_ANALF18M,Taxa de analfabetismo - 18 anos ou mais,Taxa de analfabetismo da população de 18 anos ...,Razão entre a população de 18 anos ou mais de ...
9,T_ANALF25M,Taxa de analfabetismo - 25 anos ou mais,Taxa de analfabetismo da população de 25 anos ...,Razão entre a população de 25 anos ou mais de ...


<center> <h2> Preparando a Base  </h2> </center>

> Abaixo, irei separar as variáveis para fazer o *split* do que vou usar. </br>
> Como temos duas variáveis a mais na `ethnicity_plan` (`'IDHM_R_ajustado'`, `'IDHM_ajustado'`), é mais fácil eu selecionar as variáveis que não quero utilizar `ethnicity_plan` e `gender_plan` e fazer um *drop* (remover).

In [16]:
vars = summary_plan

# visualizando os rótulos das colunas como lista
# podemos separar as variáveis a serem utilizadas 
# ou retiradas apenas mandando-as para um objeto

# criando uma lista com os rótutos (variáveis)
# e "mandando-os" para o objeto final_vars
vars_out = [
       'T_ENV', 'RAZDEP', 'ANOSEST','T_ANALF15M', 'T_ANALF18M', 'T_ANALF25M', 
       'T_ATRASO_2_BASICO', 'T_ATRASO_2_FUND', 'T_FLBAS', 'T_FLFUND', 'T_FLMED',
       'T_FLSUPER', 'T_FREQ5A6', 'T_FREQ6A14', 'T_FREQ15A17', 'T_FREQ18A24',
       'T_FUND11A13', 'T_FUND15A17', 'T_FUND18M', 'T_FUND18A24', 'T_FUND25M',
       'T_MED18A20', 'T_MED25M', 'T_SUPER25M', 'R1040', 'R2040', 'RDPC1', 
       'RDPC2', 'RDPC3', 'RDPC4', 'RDPC5', 'RDPC10', 'RDPCT', 'RIND', 'RMPOB', 
       'RPOB', 'PRENTRAB', 'PIND', 'PMPOB', 'PPOB', 'GINI', 'THEIL',
       'I_ESCOLARIDADE', 'I_FREQ_PROP', 'IDHM_E', 'IDHM_L', 'IDHM_R','IDHM',
       ]

> Escolhidas as variáveis que irei deixar na base final, basta retirar essas colunas de cada uma das planilhas. Porém, temos um problema. O que fazer com as planilhas de cor e sexo? Escolher apenas uma das duas? Fazer uma junção de ambas? </br>
> Poderíamos fazer alguma média ponderada, um *stack* (empilhamento) adaptado, entre outras técnias de *merge*, mas, para facilitar as coisas, vou dropar as colunas e criar duas bases, uma no contexto da análise de `COR` e a outra no contexto da análise de `SEXO`.

In [18]:
# removendo as colunas de ethnicity_plan
vars_ethnicity_plan = ethnicity_plan.drop(vars_out, axis = 1)

# removendo as colunas de gender_plan
vars_gender_plan = gender_plan.drop(vars_out, axis = 1)
# removendo as colunas que sobraram de gender_plan
vars_gender_plan = vars_gender_plan.drop(['IDHM_R_ajustado', 'IDHM_ajustado'], axis = 1)

In [19]:
# verificando o formato dos dataframes
vars_ethnicity_plan.shape
vars_gender_plan.shape

(588, 23)

(588, 23)

In [20]:
# verificando, de forma visual, se todas as colunas batem
vars_ethnicity_plan.columns
vars_gender_plan.columns

Index(['Ano', 'COR', 'NOME_AGREGA', 'SIGLA_AGREGA', 'AGREGA', 'ESPVIDA',
       'MORT1', 'RDPC', 'V_RENOCUP', 'POP', 'POP5A6', 'POP6A14', 'POP6A17',
       'POP11A13', 'POP15A17', 'POP15M', 'POP18M', 'POP18A20', 'POP18A24',
       'POP25M', 'POP65M', 'POPT', 'POPTOT'],
      dtype='object')

Index(['Ano', 'SEXO', 'NOME_AGREGA', 'SIGLA_AGREGA', 'AGREGA', 'ESPVIDA',
       'MORT1', 'RDPC', 'V_RENOCUP', 'POP', 'POP5A6', 'POP6A14', 'POP6A17',
       'POP11A13', 'POP15A17', 'POP15M', 'POP18M', 'POP18A20', 'POP18A24',
       'POP25M', 'POP65M', 'POPT', 'POPTOT'],
      dtype='object')

> Para não termos que fazer todo esse processo sempre que começarmos um novo Notebook para análises ou ter que salvar apenas os dados separados em um novo arquivo csv, o que pode dificultar possíveis verificações mais tarde, automatizei o processo de preprocessamento dessa base em específico. </br>
> A função encontra-se abaixo e também a transformarei em um módulo, o qual irei importar futuramente.

In [2]:
class PreprocessingData:
    
    def preprocessing_base(file):
        summary_plan = pd.read_excel(file_path, sheet_name = 0)
        ethnicity_plan = pd.read_excel(file, sheet_name = 2)
        gender_plan = pd.read_excel(file, sheet_name = 3)
        
        vars_out = [
            'T_ENV', 'RAZDEP', 'ANOSEST','T_ANALF15M', 'T_ANALF18M', 'T_ANALF25M', 
           'T_ATRASO_2_BASICO', 'T_ATRASO_2_FUND', 'T_FLBAS', 'T_FLFUND', 'T_FLMED',
           'T_FLSUPER', 'T_FREQ5A6', 'T_FREQ6A14', 'T_FREQ15A17', 'T_FREQ18A24',
           'T_FUND11A13', 'T_FUND15A17', 'T_FUND18M', 'T_FUND18A24', 'T_FUND25M',
           'T_MED18A20', 'T_MED25M', 'T_SUPER25M', 'R1040', 'R2040', 'RDPC1', 
           'RDPC2', 'RDPC3', 'RDPC4', 'RDPC5', 'RDPC10', 'RDPCT', 'RIND', 'RMPOB', 
           'RPOB', 'PRENTRAB', 'PIND', 'PMPOB', 'PPOB', 'GINI', 'THEIL',
           'I_ESCOLARIDADE', 'I_FREQ_PROP', 'IDHM_E', 'IDHM_L', 'IDHM_R','IDHM',
           ]
        
        vars_ethnicity_plan = ethnicity_plan.drop(vars_out, axis = 1)
        vars_gender_plan = gender_plan.drop(vars_out, axis = 1)
        vars_gender_plan = vars_gender_plan.drop(['IDHM_R_ajustado', 'IDHM_ajustado'], axis = 1)
        
        return summary_plan, vars_ethnicity_plan, vars_gender_plan

In [1]:
from utils.tools import PreprocessingData

pp = PreprocessingData

file_path = 'datasets/idhm_pnadc_2012_2108.xlsx'
summary_plan, ethnicity_plan, gender_plan = pp.preprocessing_base(file_path)