## 1.0 Introduction

The main purpose of this function is to automatically fill in Brazilian regions and states from the city and postal codes (CEP).

## 1.1 Import modules

In [16]:
# From the module
from gumly.ibge import fetch
from gumly.ibge import city_to_region
from gumly.ibge import city_to_microregion
from gumly.ibge import city_to_mesoregion
from gumly.ibge import city_to_state
from gumly.ibge import state_to_region
from gumly.ibge import cep_to_state
from gumly.ibge import cep_to_region

#Others
import pandas as pd

## 1.2 Creating a dataframe

In [6]:
d = {'Customer': [1, 2, 3, 4],
     'City' : ['São Paulo', 'Sao Paulo', 'sao paulo', 'São Pauol']} # With a typo on the last entry

df = pd.DataFrame(data=d)
df

Unnamed: 0,Customer,City
0,1,São Paulo
1,2,Sao Paulo
2,3,sao paulo
3,4,São Pauol


## 1.3 Fetching data from ibge API

In [7]:
ibge_data = fetch()

## 1.4 Filling the state from the city

In [8]:
df['State'] = city_to_state(df, 'City', ibge_data)
df

Unnamed: 0,Customer,City,State
0,1,São Paulo,São Paulo
1,2,Sao Paulo,São Paulo
2,3,sao paulo,São Paulo
3,4,São Pauol,


## 1.5 Filling the region from the city

In [9]:
df['Region'] = city_to_region(df, 'City', ibge_data)
df

Unnamed: 0,Customer,City,State,Region
0,1,São Paulo,São Paulo,Sudeste
1,2,Sao Paulo,São Paulo,Sudeste
2,3,sao paulo,São Paulo,Sudeste
3,4,São Pauol,,


In [10]:
df['Microregion'] = city_to_microregion(df, 'City', ibge_data)
df

Unnamed: 0,Customer,City,State,Region
0,1,São Paulo,São Paulo,São Paulo
1,2,Sao Paulo,São Paulo,São Paulo
2,3,sao paulo,São Paulo,São Paulo
3,4,São Pauol,,


In [11]:
df['Mesoregion'] = city_to_mesoregion(df, 'City', ibge_data)
df

Unnamed: 0,Customer,City,State,Region
0,1,São Paulo,São Paulo,Metropolitana de São Paulo
1,2,Sao Paulo,São Paulo,Metropolitana de São Paulo
2,3,sao paulo,São Paulo,Metropolitana de São Paulo
3,4,São Pauol,,


## 1.6 Filling the region from the state

In [12]:
df['state_to_region'] = state_to_region(df, 'State', ibge_data)
df

Unnamed: 0,Customer,City,State,Region,state_to_region
0,1,São Paulo,São Paulo,Metropolitana de São Paulo,Sudeste
1,2,Sao Paulo,São Paulo,Metropolitana de São Paulo,Sudeste
2,3,sao paulo,São Paulo,Metropolitana de São Paulo,Sudeste
3,4,São Pauol,,,


## 1.7 Creating a dataframe with postal codes (CEPs)

In [13]:
d = {'Customer': [1, 2, 3],
     'CEP' : ['03033-070', '03033070', '03033']} 

df = pd.DataFrame(data=d)
df

Unnamed: 0,Customer,CEP
0,1,03033-070
1,2,03033070
2,3,03033


## 1.8 Filling the state from the CEP

In [14]:
df['State'] = cep_to_state(df, 'CEP', ibge_data)
df

Unnamed: 0,Customer,CEP,State
0,1,03033-070,São Paulo
1,2,03033070,São Paulo
2,3,03033,São Paulo


## 1.9 Filling the region from the CEP

In [15]:
df['Region'] = cep_to_region(df, 'CEP', ibge_data)
df

Unnamed: 0,Customer,CEP,State,Region
0,1,03033-070,São Paulo,Sudeste
1,2,03033070,São Paulo,Sudeste
2,3,03033,São Paulo,Sudeste


## 2.0 Conclusion and library advantages

This implementation is a simple approach to quickly fill brazilian states and regions in dataframes where this information is not present. It can accept complete and incomplete postal codes (CEPs) and city names without the correct accentuation or capitalization but it cannot handle typos.

## References

[ibge library](https://pypi.org/project/ibge/)

[ibge website](https://www.ibge.gov.br/)

[Everything about CEP](https://www.correios.com.br/enviar/precisa-de-ajuda/tudo-sobre-cep)
