# Limpeza da tabela 6

## DadosEconomicos_ES_Inteli

Importa as bibliotecas pandas e numpy para utilizamos na análise

In [1301]:
import pandas as pd
import numpy as np

Define a tabela como tabela_6  e lê ela para melhor visualização dos dados, separando ela nas abas correspondentes

In [1302]:
tabela_6 = 'DadosEconomicos_ES_Inteli.xlsx'
abas = pd.read_excel(tabela_6, sheet_name=None)

# carrega todas as abas em um dicionário onde as chaves são os nomes das abas
varejoTotal = abas['VarejoTotal']
varejoAtividade = abas['VarejoAtividade']
IPCA = abas['IPCA']
PIB = abas['PIB']


### Aba: VarejoTotal
Nós vamos analisar cada aba da tabela de forma separada, para melhor entendimento de cada tabela. Para iniciar nossa análise, começamos com a aba de Varejo Total

Na função abaixo nós conferimos se há valores nulos possíveis de ser retirados da página:

In [None]:

varejoTotal = varejoTotal.dropna()
varejoTotal

Através dessa função nós colocamos todas as informações em maiúsculo

In [None]:
varejoTotal = varejoTotal.map(lambda x: x.upper() if isinstance(x, str) else x)
varejoTotal

Através dessa função podemos separar a colouna "mês" que há os dados de ano, mês e dia em diferentes colunas

In [None]:
varejoTotal['Ano'] = pd.to_datetime(varejoTotal['Mês']).dt.year
varejoTotal['Mês'] = pd.to_datetime(varejoTotal['Mês']).dt.month
varejoTotal['Dia'] = pd.to_datetime(varejoTotal['Mês']).dt.day
varejoTotal

Aqui nós arredondamos os valores númericos para 3 casas decimais.

In [None]:
varejoTotal['PMC - Número-índice (2022=100) (Número-índice)'] = varejoTotal['PMC - Número-índice (2022=100) (Número-índice)'].round(3)
varejoTotal['PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)'] = varejoTotal['PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)'].round(3)
varejoTotal

Identificamos ainda se há valores ausentes:

In [None]:
valores_ausentes_por_coluna = varejoTotal.isnull().sum()

print(valores_ausentes_por_coluna)

Conferimos a classificação das colunas da tabela:

In [None]:
print (varejoTotal.dtypes)

Definindo as colunas objects como categóricas:

In [None]:
varejoTotal['Tipos de índice'] = varejoTotal['Tipos de índice'].astype('category')
varejoTotal['Brasil e Unidade da Federação'] = varejoTotal['Brasil e Unidade da Federação'].astype('category')
varejoTotal['PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)'] = varejoTotal['PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)'].astype('category')
print (varejoTotal.dtypes)


Definindo as colunas que são float e int32 para numéricas:

In [None]:
varejoTotal['Mês'] = pd.to_numeric(varejoTotal['Mês'])
varejoTotal['PMC - Número-índice (2022=100) (Número-índice)'] = pd.to_numeric(varejoTotal['PMC - Número-índice (2022=100) (Número-índice)'])
varejoTotal['PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)'] = pd.to_numeric(varejoTotal['PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)'])
varejoTotal['Ano'] = pd.to_numeric(varejoTotal['Ano'])
varejoTotal['Dia'] = pd.to_numeric(varejoTotal['Dia'])
print (varejoTotal.dtypes)

Conferindo a coluna categórica que era para ser numérica

In [None]:
print(varejoTotal['PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)'].unique())
varejoTotal

Passando o valor object da coluna para numérico:

In [None]:
varejoTotal['PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)'] = pd.to_numeric(varejoTotal['PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)'], errors='coerce')
print(varejoTotal.dtypes)

In [None]:
varejoTotal

Conferindo quantos valores que se tornaram nulos

In [None]:
print(varejoTotal['PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)'].isna().sum())

Removendo os valores nulos pois eles não irão ter um grande impacto no modelo:

In [1315]:
varejoTotal = varejoTotal.dropna(subset=['PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)'])

Verificando o resultado final:

In [None]:
print (varejoTotal)

Identificando quais são as colunas categóricas e quais são as numéricas:

In [None]:
colunas_categoricas_varejoTotal = varejoTotal.select_dtypes(include=['category', 'object']).columns
colunas_numericas_varejoTotal = varejoTotal.select_dtypes(include=['number']).columns

print("Colunas categóricas:", colunas_categoricas_varejoTotal)
print("Colunas numéricas:", colunas_numericas_varejoTotal)

Assim, as colunas númericas são:
* Mês
* PMC - Número-índice (2022=100) (Número-índice)
* PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)
* PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)
* Ano
* Dia

E as colunas categóricas são:
* Tipos de índice
* Brasil e Unidade da Federação

### Aba: VarejoAtividade
Assim como na limpeza acima, vamos realizar o mesmo processo para limpar a aba Varejo Atividade.

Começamos a análise, tirando os valores nulos se existentes:

In [None]:
varejoAtividade = varejoAtividade.dropna()
varejoAtividade

Logo após, para tornar todas as tabelas padrões, colocamos todos os textos em maiúsculo:

In [None]:
varejoAtividade = varejoAtividade.map(lambda x: x.upper() if isinstance(x, str) else x)
varejoAtividade

Nessa aba, também temos a coluna mês que contem além do mês, o dia e o ano, portanto vamos separar assim como na limpeza acima:

In [None]:
varejoAtividade['Ano'] = pd.to_datetime(varejoAtividade['Mês']).dt.year
varejoAtividade['Mês'] = pd.to_datetime(varejoAtividade['Mês']).dt.month
varejoAtividade['Dia'] = pd.to_datetime(varejoAtividade['Mês']).dt.day
varejoAtividade

Logo em seguida, analisamos quais são os tipos descritivos dos dados, e se necessário iremos alterar para ficar condizente com o correto.

In [None]:
print(varejoAtividade.dtypes)

Definimos as colunas objects que estão corretas como categóricas:

In [None]:
varejoAtividade['Tipos de índice'] = varejoAtividade['Tipos de índice'].astype('category')
varejoAtividade['Brasil e Unidade da Federação'] = varejoAtividade['Brasil e Unidade da Federação'].astype('category')
varejoAtividade['Atividades'] = varejoAtividade['Atividades'].astype('category')
print (varejoAtividade.dtypes)


Agora, vamos passar os valores objects que eram para ser números para valores numéricos, e os valores que não são passíveis de conversão são substituidos pelo valor zero.

In [None]:
colunas_para_converter = ['PMC - Número-índice (2022=100) (Número-índice)', 'PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)', 'PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)']

for col in colunas_para_converter:
    varejoAtividade[col] = pd.to_numeric(varejoAtividade[col], errors='coerce').fillna(0)
varejoAtividade

Conferindo novamente como ficou a classificação das colunas:

In [None]:
print (varejoAtividade.dtypes)

Agora que tudo já está correto, identificamos da forma correta quais são as colunas categóricas e quais são as numéricas:

In [None]:
colunas_categoricas_varejoAtividade = varejoAtividade.select_dtypes(include=['category', 'object']).columns
colunas_numericas_varejoAtividade = varejoAtividade.select_dtypes(include=['number']).columns

print("Colunas categóricas:", colunas_categoricas_varejoAtividade)
print("Colunas numéricas:", colunas_numericas_varejoAtividade)

Assim, as colunas númericas são:
* Mês
* PMC - Número-índice (2022=100) (Número-índice)
* PMC - Número-índice com ajuste sazonal (2022=100) (Número-índice)
* PMC - Variação mês/mês imediatamente anterior, com ajuste sazonal (M/M-1) (%)
* Ano
* Dia

E as colunas categóricas são:
* Tipos de índice
* Brasil e Unidade da Federação
* Atividades

### Aba: IPCA
Assim como na limpeza acima, vamos realizar o mesmo processo para limpar a aba de IPCA.

In [None]:
IPCA

Primeiro, vamos começar conferindo a tabela removendo as colunas os valores nulos

In [None]:
IPCA = IPCA.dropna(axis=1, how='all')
IPCA = IPCA.drop(columns=['Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9', 'Unnamed: 10', 'Unnamed: 11', 'Unnamed: 12', 'Unnamed: 13', 'Unnamed: 14', 'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17', 'Unnamed: 18'])
IPCA

Agora vamos separar as datas que estão juntas na coluna mês, nós vamos passar elas para diferente colunas de mês, ano e dia.

In [None]:
IPCA['Ano'] = pd.to_datetime(IPCA['Mês']).dt.year
IPCA['Mês'] = pd.to_datetime(IPCA['Mês']).dt.month
IPCA['Dia'] = pd.to_datetime(IPCA['Mês']).dt.day
IPCA

Agora, vamos separar a coluna "Geral, grupo e subgrupo"

In [None]:
def is_numeric(x):
    try:
        int(x.split('.')[0])
        return True
    except ValueError:
        return False

IPCA = IPCA[IPCA['Geral, grupo, subgrupo'].apply(is_numeric)].copy()

IPCA[['Geral', 'Nome']] = IPCA['Geral, grupo, subgrupo'].str.split('.', n=1, expand=True)
IPCA.loc[:, 'Geral'] = IPCA['Geral'].astype(int)
IPCA.loc[:, 'Grupo'] = IPCA.apply(lambda row: row['Nome'] if len(str(row['Geral'])) == 1 else None, axis=1)
IPCA.loc[:, 'Grupo'] = IPCA['Grupo'].ffill()
IPCA.loc[:, 'Subgrupo'] = IPCA.apply(lambda row: row['Nome'] if len(str(row['Geral'])) > 1 else None, axis=1)
IPCA = IPCA.drop(columns=['Nome', 'Geral, grupo, subgrupo'])
IPCA = IPCA[['Ano', 'Mês', 'Dia', 'Unidade territorial', 'Grupo', 'Subgrupo', 'Geral', 'IPCA - Percentual no mês (Percentual)']]

IPCA['Geral'] = IPCA['Geral'].astype(str)
IPCA['Geral'] = IPCA['Geral'].str.replace(r'^(\d{1})(\d{1})$', r'\1.\2', regex=True)

IPCA

Conferindo agora qual o tipo de cada dado

In [None]:
print(IPCA.dtypes)

Alterando os valores errados e passando o tipo objeto para categórico:

In [None]:
IPCA['Geral'] = pd.to_numeric(IPCA['Geral'])
IPCA['Unidade territorial'] = IPCA['Unidade territorial'].astype('category')
IPCA['Grupo'] = IPCA['Grupo'].astype('category')
IPCA['Subgrupo'] = IPCA['Subgrupo'].astype('category')
print (IPCA.dtypes)

Agora que finalizamos a limpeza da tabela, podemos definir o que é categórico e o que é numérico:

In [None]:
colunas_categoricas_IPCA = IPCA.select_dtypes(include=['category', 'object']).columns
colunas_numericas_IPCA = IPCA.select_dtypes(include=['number']).columns

print("Colunas numéricas:", colunas_numericas_IPCA)
print("Colunas categóricas:", colunas_categoricas_IPCA)

Assim, as colunas númericas são:
* Mês
* IPCA - Percentual no mês (Percentual)
* Ano
* Dia
* Geral

E as colunas categóricas são:
* Unidade territorial
* Grupo
* Subgrupo

### Aba: PIB
Assim como na limpeza acima, vamos realizar o mesmo processo para limpar a aba de PIB:

In [None]:
PIB

Arrumando a tabela:

In [None]:
PIB = PIB.drop(0)
PIB = PIB.rename(columns={'Gráfico 1 - Série dessazonalizada (Base 2002=100)': 'Espírito Santo'})
PIB = PIB.rename(columns={'Unnamed: 2': 'Brasil'})
PIB = PIB.rename(columns={'Unnamed: 0': 'Ano/Período'})
PIB

Separando a coluna Ano/Período para ter uma melhor visualização:

In [None]:
PIB[['Ano', 'Período do ano']] = PIB['Ano/Período'].str.split('.', expand=True)
PIB = PIB.drop(columns=['Ano/Período'])
PIB = PIB[['Ano', 'Período do ano', 'Brasil', 'Espírito Santo']]
PIB

Agora, vamos alterar o tipo do período do ano, porque está em letras e queremos que fique em número para melhor visualizar os dados

In [None]:
letra_para_numeros = {
    'I': 1,
    'II': 2,
    'III': 3,
    'IV': 4,
}

PIB['Período do ano'] = PIB['Período do ano'].map(letra_para_numeros)
PIB

Agora que já realizamos a limpeza dos dados, vamos classificar e arrumar o tipo de cada um:

In [None]:
print(PIB.dtypes)

In [None]:
PIB['Ano'] = pd.to_numeric(PIB['Ano'])
print(PIB.dtypes)

Agora, dividindo os tipos:

In [None]:
colunas_categoricas_PIB = PIB.select_dtypes(include=['category', 'object']).columns
colunas_numericas_PIB = PIB.select_dtypes(include=['number']).columns

print("Colunas numéricas:", colunas_numericas_PIB)
print("Colunas categóricas:", colunas_categoricas_PIB)

Assim, as colunas númericas são:
* Ano
* Período do ano

E as colunas categóricas são:
* Brasil
* Espírito Santo