# 1.1 Importando bibliotecas

In [27]:
import pandas as pd
import numpy as np

# 1.2 Lendo a planilha

In [44]:
df = pd.read_csv("../../data/raw/DH_2022_Br_Regioes_20240423.xlsx - Situacao.csv")

# 1.3 Visualizar primeiras linhas

In [45]:
print(df)

    N        Regiao Domicílio  Domicílios Rústicos  Domicílios Improvisados  \
0   1         Norte    Urbano               61.801                  151.387   
1   1         Norte     Rural               55.193                   62.882   
2   2      Nordeste    Urbano               64.634                  268.893   
3   2      Nordeste     Rural              208.346                  161.384   
4   3       Sudeste    Urbano               34.672                  228.488   
5   3       Sudeste     Rural               17.246                   56.505   
6   4           Sul    Urbano               93.577                   50.754   
7   4           Sul     Rural               32.303                   16.729   
8   5  Centro-Oeste    Urbano               27.594                   57.628   
9   5  Centro-Oeste     Rural               10.176                   22.462   
10  6        Brasil    Urbano              282.277                  757.150   
11  6        Brasil     Rural              323.264  

# 1.4.1 Renomear colunas

In [46]:
df.rename(columns={
    'Domicílio': 'domicilio',
    'Regiao' : 'regiao',
    'Domicílios Rústicos' : 'domicilios_rusticos',
    'Domicílios Improvisados' : 'domicilios_improvisados',
    'Habitação Precária' : 'habitacao_precaria',
    'Cômodos' : 'comodos',
    'Unidades conviventes déficit' : 'unidades_conviventes_deficit',
    'Coabitação' : 'coabitacao',
    'Ônus' : 'onus',
    'Déficit Habitacional (Habitação Precária + Coabitação + Ônus)' : 'deficit_original'
}, inplace=True)

print(df)

    N        regiao domicilio  domicilios_rusticos  domicilios_improvisados  \
0   1         Norte    Urbano               61.801                  151.387   
1   1         Norte     Rural               55.193                   62.882   
2   2      Nordeste    Urbano               64.634                  268.893   
3   2      Nordeste     Rural              208.346                  161.384   
4   3       Sudeste    Urbano               34.672                  228.488   
5   3       Sudeste     Rural               17.246                   56.505   
6   4           Sul    Urbano               93.577                   50.754   
7   4           Sul     Rural               32.303                   16.729   
8   5  Centro-Oeste    Urbano               27.594                   57.628   
9   5  Centro-Oeste     Rural               10.176                   22.462   
10  6        Brasil    Urbano              282.277                  757.150   
11  6        Brasil     Rural              323.264  

# 1.4.2 Removendo ponto dos números e convertendo para inteiro

In [47]:
colunas_excluir = ["regiao", "domicilio"]

colunas_converter = [col for col in df.columns if col not in colunas_excluir]

for col in colunas_converter:
    df[col] = (
        df[col]
        .astype(str).
        str.replace('.', '', regex=False)
        .str.replace(',', '.', regex=False)
    )
    df[col] = pd.to_numeric(df[col], errors='coerce')

print(df.dtypes)
df.head()

N                                 int64
regiao                           object
domicilio                        object
domicilios_rusticos               int64
domicilios_improvisados           int64
habitacao_precaria                int64
comodos                           int64
unidades_conviventes_deficit      int64
coabitacao                        int64
onus                            float64
deficit_original                  int64
dtype: object


Unnamed: 0,N,regiao,domicilio,domicilios_rusticos,domicilios_improvisados,habitacao_precaria,comodos,unidades_conviventes_deficit,coabitacao,onus,deficit_original
0,1,Norte,Urbano,61801,151387,213188,16816,187427,204243,184665.0,602095
1,1,Norte,Rural,55193,62882,118075,1060,53053,53159,,171233
2,2,Nordeste,Urbano,64634,268893,333527,17606,263546,281151,691322.0,1306000
3,2,Nordeste,Rural,208346,161384,369730,0,85302,85302,,455032
4,3,Sudeste,Urbano,34672,228488,263160,55069,406760,461829,1622398.0,2347387


# 1.5 Tratamento de valores ausentes

In [48]:
df['onus'] = df['onus'].fillna(0)
df.head()

Unnamed: 0,N,regiao,domicilio,domicilios_rusticos,domicilios_improvisados,habitacao_precaria,comodos,unidades_conviventes_deficit,coabitacao,onus,deficit_original
0,1,Norte,Urbano,61801,151387,213188,16816,187427,204243,184665.0,602095
1,1,Norte,Rural,55193,62882,118075,1060,53053,53159,0.0,171233
2,2,Nordeste,Urbano,64634,268893,333527,17606,263546,281151,691322.0,1306000
3,2,Nordeste,Rural,208346,161384,369730,0,85302,85302,0.0,455032
4,3,Sudeste,Urbano,34672,228488,263160,55069,406760,461829,1622398.0,2347387


# 1.6 Validação e correção da coluna de deficit total

In [49]:
df['deficit_total'] = df['habitacao_precaria'] + df['coabitacao'] + df['onus']
df.drop(columns=['N', 'deficit_original'], inplace=True)

print(df.head())

     regiao domicilio  domicilios_rusticos  domicilios_improvisados  \
0     Norte    Urbano                61801                   151387   
1     Norte     Rural                55193                    62882   
2  Nordeste    Urbano                64634                   268893   
3  Nordeste     Rural               208346                   161384   
4   Sudeste    Urbano                34672                   228488   

   habitacao_precaria  comodos  unidades_conviventes_deficit  coabitacao  \
0              213188    16816                        187427      204243   
1              118075     1060                         53053       53159   
2              333527    17606                        263546      281151   
3              369730        0                         85302       85302   
4              263160    55069                        406760      461829   

        onus  deficit_total  
0   184665.0       602096.0  
1        0.0       171234.0  
2   691322.0      1306000.

# 1.7 Separação dos dados: Regiões vs. Total Brasil

In [52]:
df_regioes = df[df['regiao'] != 'Brasil'].copy()
df_brasil = df[df['regiao'] == 'Brasil'].copy()

print(df_regioes.head())
print(df_brasil.head())

     regiao domicilio  domicilios_rusticos  domicilios_improvisados  \
0     Norte    Urbano                61801                   151387   
1     Norte     Rural                55193                    62882   
2  Nordeste    Urbano                64634                   268893   
3  Nordeste     Rural               208346                   161384   
4   Sudeste    Urbano                34672                   228488   

   habitacao_precaria  comodos  unidades_conviventes_deficit  coabitacao  \
0              213188    16816                        187427      204243   
1              118075     1060                         53053       53159   
2              333527    17606                        263546      281151   
3              369730        0                         85302       85302   
4              263160    55069                        406760      461829   

        onus  deficit_total  
0   184665.0       602096.0  
1        0.0       171234.0  
2   691322.0      1306000.

# 1.8.1 DataFrame de Regiões limpo e pronto para a análise:

In [53]:
df_regioes.head()

Unnamed: 0,regiao,domicilio,domicilios_rusticos,domicilios_improvisados,habitacao_precaria,comodos,unidades_conviventes_deficit,coabitacao,onus,deficit_total
0,Norte,Urbano,61801,151387,213188,16816,187427,204243,184665.0,602096.0
1,Norte,Rural,55193,62882,118075,1060,53053,53159,0.0,171234.0
2,Nordeste,Urbano,64634,268893,333527,17606,263546,281151,691322.0,1306000.0
3,Nordeste,Rural,208346,161384,369730,0,85302,85302,0.0,455032.0
4,Sudeste,Urbano,34672,228488,263160,55069,406760,461829,1622398.0,2347387.0


# 1.8.2 DataFrame do Total: 

In [54]:
df_brasil.head()

Unnamed: 0,regiao,domicilio,domicilios_rusticos,domicilios_improvisados,habitacao_precaria,comodos,unidades_conviventes_deficit,coabitacao,onus,deficit_total
10,Brasil,Urbano,282277,75715,1039427,109785,1003017,1112802,3242780.0,5395009.0
11,Brasil,Rural,323264,319962,643226,1763,175314,177077,0.0,820303.0


# 1.9 Verificando os dados após limpeza

In [55]:
df_regioes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, 0 to 9
Data columns (total 10 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   regiao                        10 non-null     object 
 1   domicilio                     10 non-null     object 
 2   domicilios_rusticos           10 non-null     int64  
 3   domicilios_improvisados       10 non-null     int64  
 4   habitacao_precaria            10 non-null     int64  
 5   comodos                       10 non-null     int64  
 6   unidades_conviventes_deficit  10 non-null     int64  
 7   coabitacao                    10 non-null     int64  
 8   onus                          10 non-null     float64
 9   deficit_total                 10 non-null     float64
dtypes: float64(2), int64(6), object(2)
memory usage: 880.0+ bytes
