# Import libs

In [1]:
import pandas as pd
from pivottablejs import pivot_ui
from tabula import read_pdf

# Reading file
### Source (external link): 
  * [BB0122_TAC_13062023_AGENTE_COMERCIAL.pdf](https://www.cesgranrio.org.br/pdf/bb0122/BB0122_TAC_13062023_AGENTE_COMERCIAL.pdf)

In [2]:
df = read_pdf("../data/BB0122_TAC_13062023_AGENTE_COMERCIAL.pdf", pages="all")

type(df)

list

# Reading first item

In [3]:
df[0].head()

Unnamed: 0,Cargo,Macro.Micro,Inscrição,Nome,D.Nasc,L.Port,L.Ingl,Mat,Atu.Merc.Finan,Total.Conhe.Basc,...,Conhec.Ban,Conhec.Inf,Ven.Neg,Tot.Conhec.Espec,Pontos,Cla.AC,Cla.PCD,Cla.PPP,Situação,Redação
0,AGENTE COMERCIAL,MACRORREGIÃO 01 - MICRORREGIÃO 001,5704444668,THIAGO SILVA DOS SANTOS,08/03/1995,135,50,60,50,295,...,120,210,195,600,895,1,,,HABILITADO NA 2a ETAPA,900
1,AGENTE COMERCIAL,MACRORREGIÃO 01 - MICRORREGIÃO 001,5710790537,GLEYH VITOR DE OLIVEIRA HOLANDA,19/06/2005,150,40,75,50,315,...,120,165,195,555,870,2,,,HABILITADO NA 2a ETAPA,800
2,AGENTE COMERCIAL,MACRORREGIÃO 01 - MICRORREGIÃO 001,5709569000,JOSE GUILHERME PINHEIRO GOMES,06/04/2005,150,50,30,50,280,...,120,195,165,540,820,3,,,HABILITADO NA 2a ETAPA,800
3,AGENTE COMERCIAL,MACRORREGIÃO 01 - MICRORREGIÃO 001,5718015128,VITOR JOSE GARCIA DE ANDRADE,25/08/1999,150,40,60,50,300,...,90,165,195,510,810,4,,,HABILITADO NA 2a ETAPA,900
4,AGENTE COMERCIAL,MACRORREGIÃO 01 - MICRORREGIÃO 001,5707563105,JEFFERSON MATEUS BARBOSA SILVA,29/03/1998,135,50,15,50,250,...,120,195,195,555,805,5,,,HABILITADO NA 2a ETAPA,800


# Get TAC columns

In [4]:
df[0].columns

Index(['Cargo', 'Macro.Micro', 'Inscrição', 'Nome', 'D.Nasc', 'L.Port',
       'L.Ingl', 'Mat', 'Atu.Merc.Finan', 'Total.Conhe.Basc', 'Mat.Finan',
       'Conhec.Ban', 'Conhec.Inf', 'Ven.Neg', 'Tot.Conhec.Espec', 'Pontos',
       'Cla.AC', 'Cla.PCD', 'Cla.PPP', 'Situação', 'Redação'],
      dtype='object')

# Merge dataframe list without unecessary columns

In [5]:
columns_to_remove = [
  'Cargo',
  'Inscrição',
  'Cla.AC', 
  'Cla.PCD', 
  'Cla.PPP', 
  'Situação'
]

df = pd.concat([df[i].drop(columns_to_remove, axis=1) for i in range(len(df))])

df

Unnamed: 0,Macro.Micro,Nome,D.Nasc,L.Port,L.Ingl,Mat,Atu.Merc.Finan,Total.Conhe.Basc,Mat.Finan,Conhec.Ban,Conhec.Inf,Ven.Neg,Tot.Conhec.Espec,Pontos,Redação
0,MACRORREGIÃO 01 - MICRORREGIÃO 001,THIAGO SILVA DOS SANTOS,08/03/1995,135,50,60,50,295,75,120,210,195,600,895,900
1,MACRORREGIÃO 01 - MICRORREGIÃO 001,GLEYH VITOR DE OLIVEIRA HOLANDA,19/06/2005,150,40,75,50,315,75,120,165,195,555,870,800
2,MACRORREGIÃO 01 - MICRORREGIÃO 001,JOSE GUILHERME PINHEIRO GOMES,06/04/2005,150,50,30,50,280,60,120,195,165,540,820,800
3,MACRORREGIÃO 01 - MICRORREGIÃO 001,VITOR JOSE GARCIA DE ANDRADE,25/08/1999,150,40,60,50,300,60,90,165,195,510,810,900
4,MACRORREGIÃO 01 - MICRORREGIÃO 001,JEFFERSON MATEUS BARBOSA SILVA,29/03/1998,135,50,15,50,250,45,120,195,195,555,805,800
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
11,MACRORREGIÃO 56 - MICRORREGIÃO 157,PEDRO HENRIQUE FERREIRA BARBALHO,27/04/2000,120,40,30,40,230,45,75,105,135,360,590,900
12,MACRORREGIÃO 56 - MICRORREGIÃO 157,JORGE VINICIUS DOS SANTOS,20/01/1987,75,50,15,30,170,15,45,165,180,405,575,800
13,MACRORREGIÃO 56 - MICRORREGIÃO 157,JOAO VITOR FONSECA MONTEL,11/09/1998,90,40,30,50,210,15,90,120,135,360,570,700
14,MACRORREGIÃO 56 - MICRORREGIÃO 157,VANESSA CANDIDO NASCIMENTO RODRIGUES,15/02/1989,90,20,30,50,190,15,60,105,180,360,550,900


# Create Macro and Micro columns

In [6]:
df.insert(
  0, 
  'Macro', 
  df['Macro.Micro'].str.split(' -').str[0]
)

df.insert(
  1, 
  'Micro', 
  df['Macro.Micro'].str.split('- ').str[1]
)

df.drop(
  'Macro.Micro', 
  axis=1, 
  inplace=True
)

df.head()

Unnamed: 0,Macro,Micro,Nome,D.Nasc,L.Port,L.Ingl,Mat,Atu.Merc.Finan,Total.Conhe.Basc,Mat.Finan,Conhec.Ban,Conhec.Inf,Ven.Neg,Tot.Conhec.Espec,Pontos,Redação
0,MACRORREGIÃO 01,MICRORREGIÃO 001,THIAGO SILVA DOS SANTOS,08/03/1995,135,50,60,50,295,75,120,210,195,600,895,900
1,MACRORREGIÃO 01,MICRORREGIÃO 001,GLEYH VITOR DE OLIVEIRA HOLANDA,19/06/2005,150,40,75,50,315,75,120,165,195,555,870,800
2,MACRORREGIÃO 01,MICRORREGIÃO 001,JOSE GUILHERME PINHEIRO GOMES,06/04/2005,150,50,30,50,280,60,120,195,165,540,820,800
3,MACRORREGIÃO 01,MICRORREGIÃO 001,VITOR JOSE GARCIA DE ANDRADE,25/08/1999,150,40,60,50,300,60,90,165,195,510,810,900
4,MACRORREGIÃO 01,MICRORREGIÃO 001,JEFFERSON MATEUS BARBOSA SILVA,29/03/1998,135,50,15,50,250,45,120,195,195,555,805,800


# Format numbers columns

In [7]:
number_columns = [
  'L.Port',
  'L.Ingl', 
  'Mat', 
  'Atu.Merc.Finan', 
  'Total.Conhe.Basc', 
  'Mat.Finan',
  'Conhec.Ban', 
  'Conhec.Inf', 
  'Ven.Neg', 
  'Tot.Conhec.Espec', 
  'Pontos'
]

df[number_columns] = df[number_columns].apply(
  lambda x: x.str.replace(',', '.').astype(float)
)

df.dtypes

Macro                object
Micro                object
Nome                 object
D.Nasc               object
L.Port              float64
L.Ingl              float64
Mat                 float64
Atu.Merc.Finan      float64
Total.Conhe.Basc    float64
Mat.Finan           float64
Conhec.Ban          float64
Conhec.Inf          float64
Ven.Neg             float64
Tot.Conhec.Espec    float64
Pontos              float64
Redação              object
dtype: object

# Format date column

In [8]:
df['D.Nasc'] = pd.to_datetime(df['D.Nasc'], format='%d/%m/%Y')

df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10510 entries, 0 to 15
Data columns (total 16 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   Macro             10510 non-null  object        
 1   Micro             10510 non-null  object        
 2   Nome              10510 non-null  object        
 3   D.Nasc            10510 non-null  datetime64[ns]
 4   L.Port            10510 non-null  float64       
 5   L.Ingl            10510 non-null  float64       
 6   Mat               10510 non-null  float64       
 7   Atu.Merc.Finan    10510 non-null  float64       
 8   Total.Conhe.Basc  10510 non-null  float64       
 9   Mat.Finan         10510 non-null  float64       
 10  Conhec.Ban        10510 non-null  float64       
 11  Conhec.Inf        10510 non-null  float64       
 12  Ven.Neg           10510 non-null  float64       
 13  Tot.Conhec.Espec  10510 non-null  float64       
 14  Pontos            10510 n

# Rename columns

In [9]:
columns_to_rename = {
  'D.Nasc': 'Data de Nascimento', 
  'L.Port': 'Língua Portuguesa',
  'L.Ingl': 'Língua Inglesa', 
  'Mat': 'Matemática', 
  'Atu.Merc.Finan': 'Atualidades do MF', 
  'Total.Conhe.Basc': 'Total de Conhecimentos Básicos', 
  'Mat.Finan': 'Matemática Financeira',
  'Conhec.Ban': 'Conhecimentos Bancários', 
  'Conhec.Inf': 'Conhecimentos de Informática', 
  'Ven.Neg': 'Vendas e Negociação', 
  'Tot.Conhec.Espec': 'Total de Conhecimentos Específicos',
  'Pontos': 'Total de Pontos'
}

df.rename(columns=columns_to_rename, inplace=True)

df.head()

Unnamed: 0,Macro,Micro,Nome,Data de Nascimento,Língua Portuguesa,Língua Inglesa,Matemática,Atualidades do MF,Total de Conhecimentos Básicos,Matemática Financeira,Conhecimentos Bancários,Conhecimentos de Informática,Vendas e Negociação,Total de Conhecimentos Específicos,Total de Pontos,Redação
0,MACRORREGIÃO 01,MICRORREGIÃO 001,THIAGO SILVA DOS SANTOS,1995-03-08,13.5,5.0,6.0,5.0,29.5,7.5,12.0,21.0,19.5,60.0,89.5,900
1,MACRORREGIÃO 01,MICRORREGIÃO 001,GLEYH VITOR DE OLIVEIRA HOLANDA,2005-06-19,15.0,4.0,7.5,5.0,31.5,7.5,12.0,16.5,19.5,55.5,87.0,800
2,MACRORREGIÃO 01,MICRORREGIÃO 001,JOSE GUILHERME PINHEIRO GOMES,2005-04-06,15.0,5.0,3.0,5.0,28.0,6.0,12.0,19.5,16.5,54.0,82.0,800
3,MACRORREGIÃO 01,MICRORREGIÃO 001,VITOR JOSE GARCIA DE ANDRADE,1999-08-25,15.0,4.0,6.0,5.0,30.0,6.0,9.0,16.5,19.5,51.0,81.0,900
4,MACRORREGIÃO 01,MICRORREGIÃO 001,JEFFERSON MATEUS BARBOSA SILVA,1998-03-29,13.5,5.0,1.5,5.0,25.0,4.5,12.0,19.5,19.5,55.5,80.5,800


# Format Macro and Micro columns

In [10]:
df['Macro'] = df['Macro'].str.replace('MACRORREGIÃO ', '').astype(int)

df['Micro'] = df['Micro'].str.replace('MICRORREGIÃO ', '').astype(int)

df[["Macro", "Micro"]].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10510 entries, 0 to 15
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   Macro   10510 non-null  int64
 1   Micro   10510 non-null  int64
dtypes: int64(2)
memory usage: 246.3 KB


# Create UF column to replace Macro column

In [11]:
uf_dict = {
  "Acre": [1],
  "Alagoas": [2],
  "Amazonas": [3, 4],
  "Amapá": [5],
  "Bahia": [6, 7, 8, 9],
  "Ceará": [10, 11],
  "Distrito Federal": [12],
  "Espírito Santo": [13, 14],
  "Goiás": [15, 16],
  "Maranhão": [17, 18],
  "Minas Gerais": [19, 20, 21, 22, 23],
  "Mato Grosso do Sul": [24],
  "Mato Grosso": [25, 26],
  "Pará": [27, 28, 29],
  "Paraíba": [30, 31],
  "Pernambuco": [32, 33],
  "Piauí": [34, 35, 36],
  "Paraná": [37, 38, 39],
  "Rio de Janeiro": [40, 41, 42],
  "Rio Grande do Norte": [43],
  "Rondônia": [44],
  "Roraima": [45],
  "Rio Grande do Sul": [46, 47],
  "Santa Catarina": [48, 49, 50],
  "Sergipe": [51],
  "São Paulo": [52, 53, 54, 55],
  "Tocantins": [56]
}

df.insert(
  0,
  'UF',
  df['Macro'].map(
    lambda uf: [key for key, value in uf_dict.items() if uf in value][0]
  )
)

df.drop(
  'Macro', 
  axis=1, 
  inplace=True
)

df.head()

Unnamed: 0,UF,Micro,Nome,Data de Nascimento,Língua Portuguesa,Língua Inglesa,Matemática,Atualidades do MF,Total de Conhecimentos Básicos,Matemática Financeira,Conhecimentos Bancários,Conhecimentos de Informática,Vendas e Negociação,Total de Conhecimentos Específicos,Total de Pontos,Redação
0,Acre,1,THIAGO SILVA DOS SANTOS,1995-03-08,13.5,5.0,6.0,5.0,29.5,7.5,12.0,21.0,19.5,60.0,89.5,900
1,Acre,1,GLEYH VITOR DE OLIVEIRA HOLANDA,2005-06-19,15.0,4.0,7.5,5.0,31.5,7.5,12.0,16.5,19.5,55.5,87.0,800
2,Acre,1,JOSE GUILHERME PINHEIRO GOMES,2005-04-06,15.0,5.0,3.0,5.0,28.0,6.0,12.0,19.5,16.5,54.0,82.0,800
3,Acre,1,VITOR JOSE GARCIA DE ANDRADE,1999-08-25,15.0,4.0,6.0,5.0,30.0,6.0,9.0,16.5,19.5,51.0,81.0,900
4,Acre,1,JEFFERSON MATEUS BARBOSA SILVA,1998-03-29,13.5,5.0,1.5,5.0,25.0,4.5,12.0,19.5,19.5,55.5,80.5,800


# Create Regiao column

In [12]:
region_dict = {
  "Norte": [
    "Acre",
    "Amapá",
    "Amazonas",
    "Pará",
    "Rondônia",
    "Roraima",
    "Tocantins"
  ],
  "Nordeste": [
    "Alagoas",
    "Bahia",
    "Ceará",
    "Maranhão",
    "Paraíba",
    "Pernambuco",
    "Piauí",
    "Rio Grande do Norte",
    "Sergipe"
  ],
  "Centro-Oeste": [
    "Distrito Federal",
    "Goiás",
    "Mato Grosso",
    "Mato Grosso do Sul"
  ],
  "Sudeste": [
    "Espírito Santo",
    "Minas Gerais",
    "Rio de Janeiro",
    "São Paulo"
  ],
  "Sul": [
    "Paraná",
    "Rio Grande do Sul",
    "Santa Catarina"
  ]
}

df.insert(
  1,
  'Regiao',
  df['UF'].map(
    lambda region: [key for key, value in region_dict.items() if region in value][0]
  )
)

df.head()

Unnamed: 0,UF,Regiao,Micro,Nome,Data de Nascimento,Língua Portuguesa,Língua Inglesa,Matemática,Atualidades do MF,Total de Conhecimentos Básicos,Matemática Financeira,Conhecimentos Bancários,Conhecimentos de Informática,Vendas e Negociação,Total de Conhecimentos Específicos,Total de Pontos,Redação
0,Acre,Norte,1,THIAGO SILVA DOS SANTOS,1995-03-08,13.5,5.0,6.0,5.0,29.5,7.5,12.0,21.0,19.5,60.0,89.5,900
1,Acre,Norte,1,GLEYH VITOR DE OLIVEIRA HOLANDA,2005-06-19,15.0,4.0,7.5,5.0,31.5,7.5,12.0,16.5,19.5,55.5,87.0,800
2,Acre,Norte,1,JOSE GUILHERME PINHEIRO GOMES,2005-04-06,15.0,5.0,3.0,5.0,28.0,6.0,12.0,19.5,16.5,54.0,82.0,800
3,Acre,Norte,1,VITOR JOSE GARCIA DE ANDRADE,1999-08-25,15.0,4.0,6.0,5.0,30.0,6.0,9.0,16.5,19.5,51.0,81.0,900
4,Acre,Norte,1,JEFFERSON MATEUS BARBOSA SILVA,1998-03-29,13.5,5.0,1.5,5.0,25.0,4.5,12.0,19.5,19.5,55.5,80.5,800


# Create csv with clean data

In [13]:
df.to_csv('../../views/bb_2023_report.csv', index=False, sep=';', mode='w')

# Generating visualization file with pivot_ui
### path: views/bb_2023_views.html

In [14]:
pivot_ui(df, outfile_path='../../views/bb_2023_views.html', overwrite=True)