# 1.1 Importando bibliotecas

In [1]:
import pandas as pd 
import numpy as np

# 1.2 Lendo a planilha

In [12]:
df = pd.read_csv('../../data/raw/DH_2022_Br_Regioes_20240423.xlsx - Cor_raça do responsável.csv')

# 1.3 Visualizar primeiras linhas

In [4]:
print(df)

      N        Regiao Cor/Raça  Domicílios Rústicos  Domicílios Improvisados  \
0   1.0         Norte   Branca               14.017                   20.568   
1   1.0         Norte    Parda               84.660                  174.608   
2   1.0         Norte    Preta               15.608                    9.845   
3   NaN         Norte   Outras                2.708                    9.248   
4   2.0      Nordeste   Branca               33.039                   60.241   
5   2.0      Nordeste    Parda              182.159                  320.610   
6   2.0      Nordeste    Preta               51.994                   39.817   
7   NaN      Nordeste   Outras                5.787                    9.609   
8   3.0       Sudeste   Branca               26.140                   83.780   
9   3.0       Sudeste    Parda               21.899                  158.461   
10  3.0       Sudeste    Preta                3.878                   36.725   
11  NaN       Sudeste   Outras          

# 1.4.1 Renomear colunas

In [13]:
df.rename(columns={
    'Regiao' : 'regiao',
    'Cor/Raça' : 'cor_raca',
    'Domicílios Rústicos' : 'domicilios_rusticos',
    'Domicílios Improvisados' : 'domicilios_improvisados',
    'Habitação Precária' : 'habitacao_precaria',
    'Cômodos' : 'comodos',
    'Unidades conviventes déficit' : 'unidades_conviventes_deficit',
    'Coabitação' : 'coabitacao',
    'Ônus' : 'onus',
    'Déficit Habitacional (Habitação Precária + Coabitação + Ônus)' : 'deficit_original'
}, inplace=True)

df.head()

Unnamed: 0,N,regiao,cor_raca,domicilios_rusticos,domicilios_improvisados,habitacao_precaria,comodos,unidades_conviventes_deficit,coabitacao,onus,deficit_original
0,1.0,Norte,Branca,14.017,20.568,34.585,1.648,34.034,35.682,32.709,102.977
1,1.0,Norte,Parda,84.66,174.608,259.268,14.035,177.282,191.317,131.972,582.557
2,1.0,Norte,Preta,15.608,9.845,25.453,1.239,23.608,24.847,15.625,65.926
3,,Norte,Outras,2.708,9.248,11.956,0.0,5.556,5.556,4.358,21.869
4,2.0,Nordeste,Branca,33.039,60.241,93.28,765.0,52.988,53.754,170.863,317.897


# 1.4.2 Removendo pontos e convertendo para inteiros

In [14]:
colunas_excluir = ["regiao", "cor_raca", 'N']

colunas_converter = [col for col in df.columns if col not in colunas_excluir]

for col in colunas_converter:
    df[col] = (
        df[col]
        .astype(str).
        str.replace('.', '', regex=False)
        .str.replace(',', '.', regex=False)
    )
    df[col] = pd.to_numeric(df[col], errors='coerce')

print(df.dtypes)
print(df)

N                               float64
regiao                           object
cor_raca                         object
domicilios_rusticos               int64
domicilios_improvisados           int64
habitacao_precaria                int64
comodos                           int64
unidades_conviventes_deficit      int64
coabitacao                        int64
onus                              int64
deficit_original                  int64
dtype: object
      N        regiao cor_raca  domicilios_rusticos  domicilios_improvisados  \
0   1.0         Norte   Branca                14017                    20568   
1   1.0         Norte    Parda                 8466                   174608   
2   1.0         Norte    Preta                15608                     9845   
3   NaN         Norte   Outras                 2708                     9248   
4   2.0      Nordeste   Branca                33039                    60241   
5   2.0      Nordeste    Parda               182159               

# 1.4.3 Tratando dados nulos na coluna N

In [15]:
if 'N' in df.columns:
    df.rename(columns={'N': 'id_regiao'}, inplace=True)

df['id_regiao'].fillna(method='ffill', inplace=True)

df['id_regiao'] = df['id_regiao'].astype(int)


print("DataFrame após o tratamento:")
print(df.head(8))

print("\nContagem de nulos na coluna 'id_regiao' após o tratamento:")
print(df['id_regiao'].isnull().sum())

DataFrame após o tratamento:
   id_regiao    regiao cor_raca  domicilios_rusticos  domicilios_improvisados  \
0          1     Norte   Branca                14017                    20568   
1          1     Norte    Parda                 8466                   174608   
2          1     Norte    Preta                15608                     9845   
3          1     Norte   Outras                 2708                     9248   
4          2  Nordeste   Branca                33039                    60241   
5          2  Nordeste    Parda               182159                    32061   
6          2  Nordeste    Preta                51994                    39817   
7          2  Nordeste   Outras                 5787                     9609   

   habitacao_precaria  comodos  unidades_conviventes_deficit  coabitacao  \
0               34585     1648                         34034       35682   
1              259268    14035                        177282      191317   
2            

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['id_regiao'].fillna(method='ffill', inplace=True)
  df['id_regiao'].fillna(method='ffill', inplace=True)


# 1.5 Validação e correção da coluna deficit total

In [17]:
df['deficit_total'] = df['habitacao_precaria'] + df['coabitacao'] + df['onus']
df.drop(columns=['id_regiao', 'deficit_original'], inplace=True)

df.head()

Unnamed: 0,regiao,cor_raca,domicilios_rusticos,domicilios_improvisados,habitacao_precaria,comodos,unidades_conviventes_deficit,coabitacao,onus,deficit_total
0,Norte,Branca,14017,20568,34585,1648,34034,35682,32709,102976
1,Norte,Parda,8466,174608,259268,14035,177282,191317,131972,582557
2,Norte,Preta,15608,9845,25453,1239,23608,24847,15625,65925
3,Norte,Outras,2708,9248,11956,0,5556,5556,4358,21870
4,Nordeste,Branca,33039,60241,93280,7650,52988,53754,170863,317897


# 1.6 Separação dos dados Regiões Vs. Brasil

In [18]:
df_regioes = df[df['regiao'] != 'Brasil'].copy()
df_brasil = df[df['regiao'] == 'Brasil'].copy()

print(df_regioes.head())
print(df_brasil.head())

     regiao cor_raca  domicilios_rusticos  domicilios_improvisados  \
0     Norte   Branca                14017                    20568   
1     Norte    Parda                 8466                   174608   
2     Norte    Preta                15608                     9845   
3     Norte   Outras                 2708                     9248   
4  Nordeste   Branca                33039                    60241   

   habitacao_precaria  comodos  unidades_conviventes_deficit  coabitacao  \
0               34585     1648                         34034       35682   
1              259268    14035                        177282      191317   
2               25453     1239                         23608       24847   
3               11956        0                          5556        5556   
4               93280     7650                         52988       53754   

     onus  deficit_total  
0   32709         102976  
1  131972         582557  
2   15625          65925  
3    4358     

# 1.7 Verificando dados após limpeza

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 10 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   regiao                        24 non-null     object
 1   cor_raca                      24 non-null     object
 2   domicilios_rusticos           24 non-null     int64 
 3   domicilios_improvisados       24 non-null     int64 
 4   habitacao_precaria            24 non-null     int64 
 5   comodos                       24 non-null     int64 
 6   unidades_conviventes_deficit  24 non-null     int64 
 7   coabitacao                    24 non-null     int64 
 8   onus                          24 non-null     int64 
 9   deficit_total                 24 non-null     int64 
dtypes: int64(8), object(2)
memory usage: 2.0+ KB
