# Practic examples of SysTool Data Module

### Importing the main module...

In [1]:
import sys
import os

sys.path.append(os.path.abspath(os.path.join('..')))

from main.systool import data
import pandas as pd

### <span style="color:blue">**open_file**</span>

Open various types of file, using only this function!

                                                         Files Suported: 

| .csv | .txt | .parquet | .xlsx | .shape | .dbf |
|------|------|----------|-------|--------|------|

In this example, we will be opening various types of file, 4 text type files and 2 geographic type files:

- The text types are related to a BHTrans (Agency of Transportation of Belo Horizonte) traffic acidents report.
- The geographic type files are related to the estate of Minas Gerais Municipalities.

<span style="color:red">**The error that appear in the next row is very usual, caused by the different encodings each file has, continue reading to see how to bypass this...**</span>

In [2]:
txt = data.open_file(r'examples_databases\open_file\si-log-2020.txt')
txt.head()

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xba in position 1: invalid start byte

You just have to add the **encoding kwarg** and the **encoding** type you want. In Brazil, most of the encodings used to preserve information is **latin1**, but in other cases, **utm-8-sig** can be very useful too!

In [3]:
txt = data.open_file(r'examples_databases\open_file\si-log-2020.txt', kwargs = {'encoding' : 'latin1'})
txt.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


In [4]:
csv = data.open_file(r'examples_databases\open_file\si-log-2020.csv', kwargs = {'encoding' : 'latin1'})
csv.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


In [5]:
parquet = data.open_file(r'examples_databases\open_file\si-log-2020.parquet', kwargs = {'encoding' : 'latin1'})
parquet.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


In [6]:
excel = data.open_file(r'examples_databases\open_file\si-log-2020.xlsx')
excel.head()

Unnamed: 0.1,Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


Like observed, all the opened files are identical, only the **open_file** function was used and in some cases, some **ecoding kwargs**...
The **open_file** function when used on files that are expected to return text converted to dataframes can be used to every suported file!

In [7]:
shp = data.open_file(r'examples_databases\open_file\Limites_municipais_MG_linha.shp')
shp.head()

Unnamed: 0,Id,wdfgsdfg,geometry
0,0,,"LINESTRING (-45.95485 -22.84948, -45.95767 -22..."
1,0,,"LINESTRING (-46.19200 -22.86405, -46.18867 -22..."
2,0,,"LINESTRING (-46.19200 -22.86405, -46.19386 -22..."
3,0,,"LINESTRING (-46.33084 -22.76196, -46.32757 -22..."
4,0,,"LINESTRING (-45.80547 -22.73705, -45.80282 -22..."


In [8]:
dbf = data.open_file(r'examples_databases\open_file\Limites_municipais_MG_linha.dbf')
dbf.head()

Unnamed: 0,Id,wdfgsdfg,geometry
0,0,,"LINESTRING (-45.95485 -22.84948, -45.95767 -22..."
1,0,,"LINESTRING (-46.19200 -22.86405, -46.18867 -22..."
2,0,,"LINESTRING (-46.19200 -22.86405, -46.19386 -22..."
3,0,,"LINESTRING (-46.33084 -22.76196, -46.32757 -22..."
4,0,,"LINESTRING (-45.80547 -22.73705, -45.80282 -22..."


Like the text files that were readed as **DataFrames**, the geographic files readed returned equal **DataFrames**, but the geographic version of it, used in **GeoPandas** and with the geometry column for each value, just having to use the **open_file** function!

<span style="color:red">**Obs: The open_file function can be used without any extra parameter and kwargs, like showed above, but for a plenty use, is recomended to read the documentation and understand the possible variations...**</span>

### <span style="color:blue">**dataframe2numeric**</span>

Convert every numeric and time-type columns into a numeric column, datetime column or timedelta column, based ou prefixes. As example we will be using the already uploaded .csv file from last example...

In [9]:
df = csv.copy()
df.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


In [10]:
df.dtypes

Nº_boletim                  object
data_boletim                object
 Nº_municipio                int64
nome_municipio              object
seq_logradouros              int64
Nº_logradouro                int64
tipo_logradouro             object
nome_logradouro             object
tipo_logradouro_anterior    object
nome_logradouro_anterior    object
Nº_bairro                    int64
nome_bairro                 object
tipo_bairro                 object
descricao_tipo_bairro       object
Nº_imovel                   object
Nº_imovel_proximo            int64
dtype: object

Like seemed above, the **DataFrame** contains a datetime column (**data_boletim**) and, and the numeric columns are already converted to numeric types (because the **open_file** function uses the dataframe2numeric function in the backwards) but to convert the time values, we need to pass a parameter like showed before, let's do this then!

In [11]:
df = df.rename(columns = {'data_boletim' : 'DT_data_boletim'})
df = data.dataframe2numeric(df, col_dt_preffix = 'DT_')

In [12]:
df.dtypes

Nº_boletim                          object
DT_data_boletim             datetime64[ns]
 Nº_municipio                        int64
nome_municipio                      object
seq_logradouros                      int64
Nº_logradouro                        int64
tipo_logradouro                     object
nome_logradouro                     object
tipo_logradouro_anterior            object
nome_logradouro_anterior            object
Nº_bairro                            int64
nome_bairro                         object
tipo_bairro                         object
descricao_tipo_bairro               object
Nº_imovel                           object
Nº_imovel_proximo                    int64
dtype: object

And like promised, the column is now a datetime column!

### <span style="color:blue">**save_file**</span>

Single function used to export a file, the defined extension is defined by the user using parameters, so with only one function you can export various types of files.

                                                         Files Suported: 

| .csv | .parquet | .xlsx | .shp |
|------|----------|-------|------|

In [13]:
data.save_file(csv, 'examples_databases\save_file', name='csv_file', ext='csv')

In [14]:
data.save_file(parquet, 'examples_databases\save_file', name='parquet_file', ext='parquet')

In [15]:
data.save_file(shp, 'examples_databases\save_file', name='shp_file', ext='shp')

In [16]:
data.save_file(excel, 'examples_databases\save_file', name='excel_file', ext='xlsx', sheet_name='Sheet1')

Done! All DataFrames were saved using only the **save_file** function! Like showed bellow...

In [17]:
os.listdir('examples_databases\save_file')

['csv_file.csv',
 'excel_file.xlsx',
 'parquet_file.parquet',
 'shp_file.col',
 'shp_file.cpg',
 'shp_file.dbf',
 'shp_file.prj',
 'shp_file.shp',
 'shp_file.shx']

### <span style="color:blue">**get_col**</span>

Function used to do an **"easy merge"** between multiple DataFrames...

In [18]:
df1 = csv.copy()
df1.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


In [19]:
df2 = data.open_file('examples_databases\get_col\si-bol-2020.csv', kwargs={'encoding' : 'latin1'})
df2.head()

Unnamed: 0,NUMERO_BOLETIM,DATA HORA_BOLETIM,DATA_INCLUSAO,TIPO_ACIDENTE,DESC_TIPO_ACIDENTE,COD_TEMPO,DESC_TEMPO,COD_PAVIMENTO,PAVIMENTO,COD_REGIONAL,...,VELOCIDADE_PERMITIDA,COORDENADA_X,COORDENADA_Y,HORA_INFORMADA,INDICADOR_FATALIDADE,VALOR_UPS,DESCRIÇÃO_UPS,DATA_ALTERACAO_SMSA,VALOR_UPS_ANTIGA,DESCRIÇÃO_UPS_ANTIGA
0,2020-011831835-001,07/03/2020 06:00,07/03/2020 06:58,H09002,COLISAO DE VEICULOS COM VITIMA ...,2,CHUVA,1,ASFALTO,25,...,0,605836.61,7798624.66,SIM,NÃO,0,NÃO INFORMADO,00/00/0000,0,NÃO INFORMADO
1,2020-011838326-001,07/03/2020 08:27,07/03/2020 08:34,H08002,CHOQUE MECANICO COM VITIMA ...,2,CHUVA,1,ASFALTO,23,...,60,610478.49,7810433.11,SIM,NÃO,0,NÃO INFORMADO,00/00/0000,0,NÃO INFORMADO
2,2020-011841962-001,07/03/2020 06:53,07/03/2020 09:19,H08002,CHOQUE MECANICO COM VITIMA ...,2,CHUVA,1,ASFALTO,0,...,0,605990.46,7806661.44,SIM,NÃO,0,NÃO INFORMADO,00/00/0000,0,NÃO INFORMADO
3,2020-011849103-001,07/03/2020 10:10,07/03/2020 10:40,H06002,ATROPELAMENTO DE PESSOA SEM VITIMA FATAL ...,0,NAO INFORMADO,0,NAO INFORMADO,25,...,0,0.0,0.0,SIM,NÃO,0,NÃO INFORMADO,00/00/0000,0,NÃO INFORMADO
4,2020-011854660-001,07/03/2020 10:48,07/03/2020 11:38,H01002,ABALROAMENTO COM VITIMA ...,1,BOM,1,ASFALTO,18,...,0,600896.61,7789929.77,SIM,NÃO,0,NÃO INFORMADO,00/00/0000,0,NÃO INFORMADO


In this example, we will use the **NUMERO_BOLETIM** from df2 and, **N°_boletim** from df1, to perform a merge using the **get_col** function and, get the **' DESC_TIPO_ACIDENTE'** column! If the column name is equal just the key parameter is enough...

In [20]:
df_get_col = data.get_col(df1, ' DESC_TIPO_ACIDENTE', df2, key=['Nº_boletim'], key2=[' NUMERO_BOLETIM'])
df_get_col.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo,DESC_TIPO_ACIDENTE
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0,ABALROAMENTO COM VITIMA ...
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0,CHOQUE MECANICO COM VITIMA ...
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0,CHOQUE MECANICO COM VITIMA ...
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0,ABALROAMENTO COM VITIMA ...
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0,ABALROAMENTO COM VITIMA ...


In [21]:
' DESC_TIPO_ACIDENTE' in df_get_col.columns

True

### <span style="color:blue">**remove_duplicate_safe**</span>

Remove the duplicates of a DataFrame and show the user the dimension erased duplicates...

In this example, we will remove all the duplicates inside the column **' nome_bairro'** from the DataFrame, it will result in a large and suspicious number of erased duplicates, so the result will be showed for user...

In [22]:
df = df_get_col.copy()
df.shape[0]

14181

In [23]:
df = data.remove_duplicate_safe(df, cols = 'nome_bairro')

Duplicates removed from [nome_bairro]13,7980.97


In [24]:
df.shape[0]

383

### <span style="color:blue">**flatten_hierarchical_col**</span>

Turn **multi-index** column names of a DataFrame, into **single-index** comumn names...

To exemplify this function, we will create a **multi-index** column names using one already opened **.csv** file!

In [25]:
df = csv.copy()
df.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


In [26]:
# Creating the multi-index column names ...

df_pivot = df.pivot_table(index='tipo_logradouro', columns=['nome_municipio', 'descricao_tipo_bairro'], values='Nº_boletim', aggfunc='count')

In [27]:
df_pivot.head()

nome_municipio,BELO HORIZONTE,BELO HORIZONTE,BELO HORIZONTE,BELO HORIZONTE,BELO HORIZONTE,BELO HORIZONTE,BELO HORIZONTE
descricao_tipo_bairro,AREA,BAIRRO,CONJUNTO HABITACIONAL,GRANJA,JARDIM,PARQUE,VILA
tipo_logradouro,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
ACS,,,,,,,1.0
ALA,,34.0,,,,,3.0
AVE,21.0,4817.0,70.0,,,5.0,270.0
BEC,,23.0,1.0,,,,5.0
EST,,8.0,,,,,


In [28]:
df_pivot.columns

MultiIndex([('BELO HORIZONTE                ', ...),
            ('BELO HORIZONTE                ', ...),
            ('BELO HORIZONTE                ', ...),
            ('BELO HORIZONTE                ', ...),
            ('BELO HORIZONTE                ', ...),
            ('BELO HORIZONTE                ', ...),
            ('BELO HORIZONTE                ', ...)],
           names=['nome_municipio', 'descricao_tipo_bairro'])

In [29]:
# Using function to transform the DataFrame column names

df_pivot.columns = df_pivot.columns.map(data.flatten_hierarchical_col)

In [30]:
df.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


In [31]:
df_pivot.columns

Index(['BELO HORIZONTE                _AREA                          ',
       'BELO HORIZONTE                _BAIRRO                        ',
       'BELO HORIZONTE                _CONJUNTO HABITACIONAL         ',
       'BELO HORIZONTE                _GRANJA                        ',
       'BELO HORIZONTE                _JARDIM                        ',
       'BELO HORIZONTE                _PARQUE                        ',
       'BELO HORIZONTE                _VILA                          '],
      dtype='object')

### <span style="color:blue">**get_mask_isin**</span>

Get a **filter mask** to be used in a DataFrame based on single ou multiple filter.

In [32]:
df = csv.copy()
df.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


To exemplify this function, we will create a double filter, based on two reference keys, the column **tipo_bairro** using B and A as filter and the column **tipo_logradouro** using RUA and AVE as filter.

**Simple Example:**

In [33]:
mask = data.get_mask_isin(df, 'seq_logradouros', [(1)])
df = df[mask]

In [34]:
df.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0
6,2020-028611830-002,15/06/2020 13:24,1,BELO HORIZONTE,1,116587,RUA,CEUTA ...,RUA,TRES ...,634,CANAA ...,B,BAIRRO,0,0


In [35]:
df['seq_logradouros'].value_counts()

1    10621
Name: seq_logradouros, dtype: int64

**Complex Example:**

In [36]:
df = csv.copy()
mask = data.get_mask_isin(df, [' Nº_municipio', 'seq_logradouros'], [(1, 1), (1, 2)])
df = df[mask]

In [37]:
df.head()

Unnamed: 0,Nº_boletim,data_boletim,Nº_municipio,nome_municipio,seq_logradouros,Nº_logradouro,tipo_logradouro,nome_logradouro,tipo_logradouro_anterior,nome_logradouro_anterior,Nº_bairro,nome_bairro,tipo_bairro,descricao_tipo_bairro,Nº_imovel,Nº_imovel_proximo
0,2020-060939318-001,19/12/2020 15:10,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,0,0
1,2020-005366112-001,31/01/2020 15:27,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,341,0
2,2020-040388513-001,21/08/2020 13:14,1,BELO HORIZONTE,2,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
3,2020-029371860-001,19/06/2020 12:04,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,645,CIDADE NOVA ...,B,BAIRRO,0,0
4,2020-054108200-001,09/11/2020 14:08,1,BELO HORIZONTE,1,117712,RUA,JOAO ARANTES ...,RUA,CINQUENTA E UM ...,808,UNIAO ...,B,BAIRRO,25,0


In [38]:
df[' Nº_municipio'].value_counts()

1    14178
Name:  Nº_municipio, dtype: int64

In [39]:
df['seq_logradouros'].value_counts()

1    10621
2     3557
Name: seq_logradouros, dtype: int64

Like showed above, the single-filter and multi-filter from the **get_mask_isin** function, worked!