#ETL / CLEANING OPEN_DATA datasets with Python - Sep/2025

### ***Brazilian GDP by Municipality | (port) Produto Interno Bruto (PIB) Brasileiro, por Município | (esp) Producto Interno Bruto (PIB) brasileño, por municipio***

DESCRIPTION:
1) Open Data / Public datasets usually are not ready for data science applications.
2) Hard to use column_names needs to be cleaned in order to facilitate Exploratory Data Analysis (EDA)
3) Renaming the columns in English facilitate acces to a broader group  
4) In this case we apply a very straightforward code to clean up an open data / public dataset from IBGE (BRazilian Institute of Geography and Statistics)

SOURCE:

- IBGE - Instituto Brasileiro de Geografia e Estatística  
https://www.ibge.gov.br/estatisticas/economicas/contas-nacionais/9088-produto-interno-bruto-dos-municipios.html?=&t=downloads  

- Table: GDP per municipality table:
  - Current prices in BRL, from 2010 to 2021
  - 5 Regions / 27 Federative Units (UF) / 5570 municipalities

DICTIONARY OF VARIABLES:

**year:** The reference year for the data.  

**Region_code**: 	The unique code for the large geographical region.

**Region**: The name of the large geographical region.  

**State_code**: The unique code for the federal unit (state).  

**State_sigla**:	The abbreviation or acronym for the federal unit (state).  

**State**: The name of the federal unit (state).  

**Municipality_code**: The unique code for the municipality.  

**Municipality**:	The name of the municipality.  

**GDP Agricultural**:	Gross Domestic Product contribution from the agricultural sector.

**GDP Industry**: Gross Domestic Product contribution from the industrial sector.

**GDP Services**: Gross Domestic Product contribution from the services sector.

**GDP Administration**: Gross Domestic Product contribution from public administration, defense, education, and social security.

**GDP Total**: The total Gross Domestic Product.

**GDP Taxes**: Taxes on products, net of subsidies.

**GDP Gross**: The total gross domestic product of the municipality. Calculation = GDP Total + Taxes

**GDP Per Capita**: The Gross Domestic Product per person.

In [None]:
import pandas as pd

In [21]:
# Reading the .xlsx file
datos = pd.read_excel('PIB_Municipios_base_dados_2010-2021.xlsx')

In [79]:
#datos.head(5)

Treating the header names

In [80]:
datos1 = datos.copy()

# Header in small caps
datos1.columns = datos1.columns.str.lower()

# In the header, substitute part or the object that contains'Valor adicionado bruto da' by 'Vl.Ad.Br.'
datos1.columns = datos1.columns.str.replace('valor adicionado bruto', 'vl.ad.br.')

# Other replacements:
datos1.columns = datos1.columns.str.replace('  ', ' ')
datos1.columns = datos1.columns.str.replace(', a preços correntes', ', precos correntes ')
datos1.columns = datos1.columns.str.replace('(r$ 1.000)', 'BRL mil')

In [81]:
#datos1.info()

In [82]:
import re
#import pandas as pd

# Replacing 'newline' characteres and cleaning up spaces in column_names
columns_to_clean = datos1.columns[32:40]

# For each column name, replace newlines and then remove extra whitespace.
new_column_names = {
    col: re.sub(r'\s+', ' ', col.replace('\n', ' ').strip())
    for col in columns_to_clean
}

# Apply new names to your DataFrame.
datos1 = datos1.rename(columns=new_column_names)

In [83]:
#column names
datos1.columns

Index(['ano', 'código da grande região', 'nome da grande região',
       'código da unidade da federação', 'sigla da unidade da federação',
       'nome da unidade da federação', 'código do município',
       'nome do município', 'região metropolitana', 'código da mesorregião',
       'nome da mesorregião', 'código da microrregião', 'nome da microrregião',
       'código da região geográfica imediata',
       'nome da região geográfica imediata',
       'município da região geográfica imediata',
       'código da região geográfica intermediária',
       'nome da região geográfica intermediária',
       'município da região geográfica intermediária',
       'código concentração urbana', 'nome concentração urbana',
       'tipo concentração urbana', 'código arranjo populacional',
       'nome arranjo populacional', 'hierarquia urbana',
       'hierarquia urbana (principais categorias)', 'código da região rural',
       'nome da região rural',
       'região rural (segundo classificação d

In [84]:
#Substitute ' ' by '_'
datos1.columns = datos1.columns.str.replace(' ', '_')

SELECTING COLUMNS FOR THE FINAL DATASET.

In [85]:
selected_columns=['ano', 'código_da_grande_região', 'nome_da_grande_região',
       'código_da_unidade_da_federação', 'sigla_da_unidade_da_federação',
       'nome_da_unidade_da_federação', 'código_do_município',
       'nome_do_município',
       'vl.ad.br._da_agropecuária,_a_preços_correntes_BRL_mil',
       'vl.ad.br._da_indústria,_a_preços_correntes_BRL_mil',
       'vl.ad.br._dos_serviços,_a_preços_correntes_-_exceto_administração,_defesa,_educação_e_saúde_públicas_e_seguridade_social_BRL_mil',
       'vl.ad.br._da_administração,_defesa,_educação_e_saúde_públicas_e_seguridade_social,_a_preços_correntes_BRL_mil',
       'vl.ad.br._total,_a_preços_correntes_BRL_mil',
       'impostos,_líquidos_de_subsídios,_sobre_produtos,_a_preços_correntes_BRL_mil',
       'produto_interno_bruto,_a_preços_correntes_BRL_mil',
       'produto_interno_bruto_per_capita,_a_preços_correntes_(r$_1,00)'
       ]

#Select columns in selected_columns into a datos2 dataframe
datos2 = datos1[selected_columns]

In [86]:
# Change column names {'ano':year,'código_da_grande_região':'Regiao'}
datos2.rename(columns={'ano':'year',
                       'código_da_grande_região':'Region_code',
                       'nome_da_grande_região':'Region',
                       'código_da_unidade_da_federação':'State_code',
                       'sigla_da_unidade_da_federação':'State_sigla',
                       'nome_da_unidade_da_federação':'State',
                       'código_do_município':'Municipality_code',
                       'nome_do_município':'Municipality',
                       'vl.ad.br._da_agropecuária,_a_preços_correntes_BRL_mil':'GDP Agricultural',
                       'vl.ad.br._da_indústria,_a_preços_correntes_BRL_mil':'GDP Industry',
                       'vl.ad.br._dos_serviços,_a_preços_correntes_-_exceto_administração,_defesa,_educação_e_saúde_públicas_e_seguridade_social_BRL_mil':'GDP Services',
                       'vl.ad.br._da_administração,_defesa,_educação_e_saúde_públicas_e_seguridade_social,_a_preços_correntes_BRL_mil':'GDP Administration',
                       'vl.ad.br._total,_a_preços_correntes_BRL_mil':'GDP Total',
                       'impostos,_líquidos_de_subsídios,_sobre_produtos,_a_preços_correntes_BRL_mil':'Taxes',
                       'produto_interno_bruto,_a_preços_correntes_BRL_mil':'GDP Gross',
                       'produto_interno_bruto_per_capita,_a_preços_correntes_(r$_1,00)':'GDP Per Capita'
                       }, inplace=True)
datos2.columns

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  datos2.rename(columns={'ano':'year',


Index(['year', 'Region_code', 'Region', 'State_code', 'State_sigla', 'State',
       'Municipality_code', 'Municipality', 'GDP Agricultural', 'GDP Industry',
       'GDP Services', 'GDP Administration', 'GDP Total', 'Taxes', 'GDP Gross',
       'GDP Per Capita'],
      dtype='object')

In [87]:
datos2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 66825 entries, 0 to 66824
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   year                66825 non-null  int64  
 1   Region_code         66825 non-null  int64  
 2   Region              66825 non-null  object 
 3   State_code          66825 non-null  int64  
 4   State_sigla         66825 non-null  object 
 5   State               66825 non-null  object 
 6   Municipality_code   66825 non-null  int64  
 7   Municipality        66825 non-null  object 
 8   GDP Agricultural    66825 non-null  float64
 9   GDP Industry        66825 non-null  float64
 10  GDP Services        66825 non-null  float64
 11  GDP Administration  66825 non-null  float64
 12  GDP Total           66825 non-null  float64
 13  Taxes               66825 non-null  float64
 14  GDP Gross           66825 non-null  float64
 15  GDP Per Capita      66825 non-null  float64
dtypes: f

In [88]:
# Are there NaN in datos2?
datos2.isna().any()

Unnamed: 0,0
year,False
Region_code,False
Region,False
State_code,False
State_sigla,False
State,False
Municipality_code,False
Municipality,False
GDP Agricultural,False
GDP Industry,False


In [89]:
datos2

Unnamed: 0,year,Region_code,Region,State_code,State_sigla,State,Municipality_code,Municipality,GDP Agricultural,GDP Industry,GDP Services,GDP Administration,GDP Total,Taxes,GDP Gross,GDP Per Capita
0,2010,1,Norte,11,RO,Rondônia,1100015,Alta Floresta D'Oeste,69260.391,1.611853e+04,6.249618e+04,9.324466e+04,2.411198e+05,2.095711e+04,2.620769e+05,10731.18
1,2010,1,Norte,11,RO,Rondônia,1100023,Ariquemes,73711.643,2.871386e+05,4.949463e+05,3.438677e+05,1.199664e+06,1.650296e+05,1.364694e+06,15103.86
2,2010,1,Norte,11,RO,Rondônia,1100031,Cabixi,24300.822,3.252506e+03,1.267721e+04,2.517024e+04,6.540077e+04,4.210342e+03,6.961111e+04,11033.62
3,2010,1,Norte,11,RO,Rondônia,1100049,Cacoal,95259.203,1.820515e+05,4.654473e+05,2.984543e+05,1.041212e+06,1.452817e+05,1.186494e+06,15095.15
4,2010,1,Norte,11,RO,Rondônia,1100056,Cerejeiras,28976.415,1.973448e+04,8.072499e+04,6.301827e+04,1.924542e+05,2.956703e+04,2.220212e+05,13037.06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
66820,2021,5,Centro-oeste,52,GO,Goiás,5222005,Vianópolis,415874.609,4.389325e+04,2.564195e+05,7.572432e+04,7.919116e+05,6.605620e+04,8.579678e+05,60900.61
66821,2021,5,Centro-oeste,52,GO,Goiás,5222054,Vicentinópolis,194666.867,8.766436e+04,1.133146e+05,5.262750e+04,4.482734e+05,3.189978e+04,4.801731e+05,53340.72
66822,2021,5,Centro-oeste,52,GO,Goiás,5222203,Vila Boa,58414.419,3.027519e+04,4.030499e+04,3.671192e+04,1.657065e+05,1.419232e+04,1.798988e+05,27886.97
66823,2021,5,Centro-oeste,52,GO,Goiás,5222302,Vila Propício,157949.388,5.734158e+04,4.672394e+04,3.313335e+04,2.951483e+05,1.286475e+04,3.080130e+05,51845.31


SAVING TO A .CSV FILE

In [91]:
#Save datos2 into a new .csv file
datos2.to_csv('PIB_Municipios_base_dados_2010-2021-CLEAN.csv', index=False)