# Import libs

In [1]:
import pandas as pd
import plotly.express as px

# Import data

In [2]:
df = pd.read_csv('../../views/bb_2023_report.csv', sep=';')

df.head()

Unnamed: 0,UF,Regiao,Micro,Nome,Data de Nascimento,Língua Portuguesa,Língua Inglesa,Matemática,Atualidades do MF,Total de Conhecimentos Básicos,Matemática Financeira,Conhecimentos Bancários,Conhecimentos de Informática,Vendas e Negociação,Total de Conhecimentos Específicos,Total de Pontos,Redação
0,Acre,Norte,1,THIAGO SILVA DOS SANTOS,1995-03-08,13.5,5.0,6.0,5.0,29.5,7.5,12.0,21.0,19.5,60.0,89.5,900
1,Acre,Norte,1,GLEYH VITOR DE OLIVEIRA HOLANDA,2005-06-19,15.0,4.0,7.5,5.0,31.5,7.5,12.0,16.5,19.5,55.5,87.0,800
2,Acre,Norte,1,JOSE GUILHERME PINHEIRO GOMES,2005-04-06,15.0,5.0,3.0,5.0,28.0,6.0,12.0,19.5,16.5,54.0,82.0,800
3,Acre,Norte,1,VITOR JOSE GARCIA DE ANDRADE,1999-08-25,15.0,4.0,6.0,5.0,30.0,6.0,9.0,16.5,19.5,51.0,81.0,900
4,Acre,Norte,1,JEFFERSON MATEUS BARBOSA SILVA,1998-03-29,13.5,5.0,1.5,5.0,25.0,4.5,12.0,19.5,19.5,55.5,80.5,800


# Create statistics functions

In [3]:
num_columns = [
  'Língua Portuguesa', 
  'Língua Inglesa', 
  'Matemática',
  'Atualidades do MF', 
  'Total de Conhecimentos Básicos',
  'Matemática Financeira', 
  'Conhecimentos Bancários',
  'Conhecimentos de Informática', 
  'Vendas e Negociação',
  'Total de Conhecimentos Específicos', 
  'Total de Pontos', 
  'Redação'
]

def column_stats_by_uf(column: str) -> pd.DataFrame:
  """
  Retorna os dados estatísticos para a coluna informada agrupados por UF.

  Args:
    column (str): Nome da coluna que deseja-se obter os dados estatísticos.

  Returns:
    DataFrame: Dados estatísticos para a coluna especificada agrupados por UF.
  """

  print(f"Esses são os dados estatísticos para a coluna {column}:")
  
  return df.groupby('UF')[column].describe()

    
def uf_stats(uf_name: str) -> pd.DataFrame:
  """
  Retorna os dados estatísticos para o nome do estado informado.

  Args:
    uf_name (str): Nome do estado que deseja-se obter os dados estatísticos.

  Returns:
    DataFrame: Dados estatísticos para o estado especificado.
  """

  print(f"Esses são os dados estatísticos para o estado {uf_name}:")
  
  return df[df["UF"] == uf_name][num_columns].describe().T

def region_stats(region: str) -> pd.DataFrame:
  """
  Retorna os dados estatísticos para o nome da região informado.

  Args:
    region (str): Nome da região que deseja-se obter os dados estatísticos.
  
  Returns:
    DataFrame: Dados estatísticos para a região especificada.
  """

  print(f"Esses são os dados estatísticos para o estado {region}:")
  
  return df[df["Regiao"] == region][num_columns].describe().T


# Create visualizations functions

In [4]:
questions_number = {
  'Língua Portuguesa': 10,
  'Língua Inglesa': 5,
  'Matemática': 5,
  'Atualidades do MF': 5,
  'Total de Conhecimentos Básicos': 25,
  'Matemática Financeira': 5,
  'Conhecimentos Bancários': 10,
  'Conhecimentos de Informática': 15,
  'Vendas e Negociação': 15,
  'Total de Conhecimentos Específicos': 45,
  'Total de Pontos': 70,
  'Redação': 10
}

def column_histogram(column: str, spotlight_column: str ="Regiao") -> px.histogram:
  """
  Retorna um histograma para a coluna informada.

  Args:
    column (str): Nome da coluna que deseja-se obter o histograma. Deve ser uma coluna numérica.

    spotlight_column (str): Nome da coluna que deseja-se destacar no histograma. Valor padrão: "Regiao".

  Returns:
    Histogram: Histograma para a coluna especificada.
  """
  
  graph = px.histogram(df, x=column, nbins=questions_number[column], histnorm="percent", color=spotlight_column)
  graph.update_layout(width=500, height=500, title_text=f'Distribuição de {column}')
  graph.show()

def uf_histogram(uf_name: str, column: str) -> px.histogram:
  """
  Retorna um histograma para o nome do estado e coluna informados.

  Args:
    uf_name (str): Nome do estado que deseja-se obter o histograma.

    column (str): Nome da coluna que deseja-se obter o histograma. Deve ser uma coluna numérica.

  Returns:
    Histogram: Histograma para a coluna do estado especificado.
  """

  graph = px.histogram(df[df["UF"] == uf_name], x=column, nbins=questions_number[column], histnorm="percent")
  graph.update_layout(width=500, height=500, title_text=f'Distribuição do estado {uf_name}')
  graph.show()

def region_histogram(region: str, column: str) -> px.histogram:
  """
  Retorna um histograma para o nome da região e coluna informados.

  Args:
    region (str): Nome da região que deseja-se obter o histograma.
    column (str): Nome da coluna que deseja-se obter o histograma. Deve ser uma coluna numérica.
  
  Returns:
    Histogram: Histograma para a coluna da região especificada.
  """

  graph = px.histogram(df[df["Regiao"] == region], x=column, nbins=questions_number[column], histnorm="percent")
  graph.update_layout(width=500, height=500, title_text=f'Distribuição da região {region}')
  graph.show()


# Show stats of the Total de Pontos Column

In [5]:
column_stats_by_uf('Total de Pontos')

Esses são os dados estatísticos para a coluna Total de Pontos:


Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
UF,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Acre,99.0,68.934343,7.483194,52.5,63.5,70.0,73.5,89.5
Alagoas,118.0,80.216102,7.513657,53.5,77.5,81.0,85.375,93.0
Amapá,65.0,64.830769,7.135013,51.5,58.0,66.5,69.5,85.5
Amazonas,152.0,69.565789,7.385256,54.5,64.0,70.75,74.625,85.5
Bahia,618.0,78.459547,7.235894,52.5,76.125,80.5,82.5,94.5
Ceará,230.0,77.719565,8.81039,53.5,72.0,80.0,85.0,92.5
Distrito Federal,854.0,75.26171,5.714973,59.0,72.0,76.0,78.5,92.0
Espírito Santo,139.0,73.158273,8.538921,53.5,66.5,74.5,80.0,89.5
Goiás,248.0,71.296371,8.100324,52.5,66.0,71.5,78.0,86.5
Maranhão,299.0,76.463211,6.219313,54.0,73.0,77.5,80.5,90.0


# Show histogram of the Total de Pontos Column

In [6]:
column_histogram("Total de Pontos")

# Show stats of the Bahia UF

In [7]:
uf_stats('Bahia')

Esses são os dados estatísticos para o estado Bahia:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Língua Portuguesa,618.0,13.276699,1.620715,7.5,12.0,13.5,15.0,15.0
Língua Inglesa,618.0,3.805825,1.206881,1.0,3.0,4.0,5.0,5.0
Matemática,618.0,4.446602,1.89546,1.5,3.0,4.5,6.0,7.5
Atualidades do MF,618.0,4.338188,0.720524,2.0,4.0,4.0,5.0,5.0
Total de Conhecimentos Básicos,618.0,25.867314,3.346693,16.5,23.5,26.0,28.5,32.5
Matemática Financeira,618.0,5.118932,1.553481,1.5,4.5,6.0,6.0,7.5
Conhecimentos Bancários,618.0,12.247573,2.043538,4.5,10.5,12.0,13.5,15.0
Conhecimentos de Informática,618.0,16.271845,2.318214,9.0,15.0,16.5,18.0,22.5
Vendas e Negociação,618.0,18.953883,2.183233,10.5,18.0,19.5,21.0,22.5
Total de Conhecimentos Específicos,618.0,52.592233,5.096117,34.5,51.0,54.0,55.5,64.5


# Show histogram of the Bahia UF

In [8]:
uf_histogram('Bahia', 'Total de Pontos')

# Show stats of the Nordeste Regiao

In [9]:
region_stats('Nordeste')

Esses são os dados estatísticos para o estado Nordeste:


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Língua Portuguesa,2172.0,13.276243,1.629382,6.0,12.0,13.5,15.0,15.0
Língua Inglesa,2172.0,3.762891,1.268055,1.0,3.0,4.0,5.0,5.0
Matemática,2172.0,4.517956,1.945397,1.5,3.0,4.5,6.0,7.5
Atualidades do MF,2172.0,4.294659,0.733303,1.0,4.0,4.0,5.0,5.0
Total de Conhecimentos Básicos,2172.0,25.85175,3.434306,16.5,23.5,26.0,28.5,32.5
Matemática Financeira,2172.0,5.237569,1.596348,1.5,4.5,6.0,6.0,7.5
Conhecimentos Bancários,2172.0,12.244475,2.100776,3.0,10.5,12.0,13.5,15.0
Conhecimentos de Informática,2172.0,16.379144,2.523179,7.5,15.0,16.5,18.0,22.5
Vendas e Negociação,2172.0,18.831492,2.245814,9.0,18.0,19.5,21.0,22.5
Total de Conhecimentos Específicos,2172.0,52.69268,5.496916,34.5,49.5,54.0,57.0,64.5


# Show histogram of the Nordeste Regiao

In [10]:
region_histogram('Nordeste', 'Total de Pontos')