In [62]:
import pandas as pd
import numpy as np
import plotly.express as px


In [4]:
df = pd.read_csv('./data/Analista de Dados e BI - Pedro Campos _ Case técnico - Página1.csv',sep=',')

# 1. Introdução

# 2. Informações gerais dos dados

In [16]:
df.shape

(73, 9)

In [20]:
df.describe()

Unnamed: 0,Nome do Assessor,Ano de ingresso no Congresso,Cargo,Idade que começou a trabalhar,Identidade de gênero,Partido,Cor,Estado,Orçamento disponível
count,73,73,73,73,73,73,73,73,73
unique,73,22,11,24,5,5,8,20,73
top,Assessor 1,2014,Assessor de comunicação,25,Mulher Cisgênero,Cidadania,Preta,São Paulo (SP),"R$ 123.070.338,00"
freq,1,8,8,10,38,20,24,13,1


In [21]:
df.dtypes

Nome do Assessor                 object
Ano de ingresso no Congresso     object
Cargo                            object
Idade que começou a trabalhar    object
Identidade de gênero             object
Partido                          object
Cor                              object
Estado                           object
Orçamento disponível             object
dtype: object

# 3. Preparação de dados

Verificação do tipo de informação armazenada no campo "Ano de ingresso no Congresso"

In [24]:
df['Ano de ingresso no Congresso'].unique()

array(['2015', '2013', '2009', '2014', 'Entrou em 2010', '2008', '2010',
       '2011', '2016', '2007', '2012', 'Em 2014', 'Ano de 2012', '1995',
       '2001', '2005', 'em 2007', '2006', '1997', 'entrou em 2012',
       '2003', 'Entrou em 2013'], dtype=object)

Removendo caracteres diferente de inteiros

In [26]:

df['Ano de ingresso no Congresso'] = df['Ano de ingresso no Congresso'].str.replace('[^\d]','',regex=True)

Convertendo campo de ano de ingresso em inteiro 

In [27]:
df['Ano de ingresso no Congresso'] = df['Ano de ingresso no Congresso'].astype('int')

Verificação do tipo de informação armazenada no campo "Idade que começou a trabalhar"

In [28]:
df['Idade que começou a trabalhar'].unique()

array(['27', '25', '20', '23', '21', '26', '28', '34', '24 anos', '17',
       '35', '33', '14 anos', '32', '31', '29', '39', '24', '22', '16',
       '57 anos', '15', '40 anos', '36'], dtype=object)

Removendo caracteres diferente de inteiros e converter o campo de idade que começou a trabalhar em inteiro

In [29]:
df['Idade que começou a trabalhar'] = df['Idade que começou a trabalhar'].str.replace('[^\d]','',regex=True)
df['Idade que começou a trabalhar'] = df['Idade que começou a trabalhar'].astype('int')

Verificação dos tipos únicos de cor

In [32]:
df['Cor'].unique()

array(['Branca', 'Parda', 'Preta', 'Amarela', 'Pessoa Branca',
       'Pessoa Preta', 'Pardo', 'Pessoa Amarela'], dtype=object)

Harmonizar categorias de forma a existir apenas as seguintes :
 * Branca
 * Parda
 * Preta
 * Amarela

In [43]:
df['Cor'] = np.where(df['Cor'] == 'Pessoa Branca','Branca',
    np.where(df['Cor'] == 'Pessoa Preta','Preta',
        np.where(df['Cor'] == 'Pessoa Amarela','Amarela',
            np.where(df['Cor'] == 'Pardo','Parda',df['Cor'])
        )
    )
)

Verificar tipos de identidade de gênero

In [45]:
df['Identidade de gênero'].unique()

array(['Homem Cisgênero', 'Mulher Cisgênero', 'Homem transgênero',
       'Não binário', 'Mulher transgênero'], dtype=object)

Verificar estados

In [46]:
df['Estado '].unique()

array(['São Paulo (SP)', 'Pernambuco (PE)', 'Paraíba (PB)',
       'Minas Gerais (MG)', 'Pará (PA)', 'Bahia (BA)', 'Amazonas (AM)',
       'Espírito Santo (ES)', 'Paraná (PR)', 'Goiás (GO)',
       'Rio Grande do Sul (RS)', 'Piauí (PI)', 'Distrito Federal (DF)',
       'Mato Grosso do Sul (MS)', 'Rio Grande do Norte (RN)',
       'Roraima (RR)', 'Amapá (AP)', 'Alagoas (AL)', 'Ceará (CE)',
       'Maranhão (MA)'], dtype=object)

Verificar cargos

In [47]:
df['Cargo '].unique()

array(['Assessor legislativo ', 'Assessor de comunicação',
       'Assessor de imprensa', 'Analista de dados', 'Chefe de gabinete ',
       'Analista de fiscalização', 'Assessor jurídico',
       'Assessor orçamentário', 'Coordenador de mobilização',
       'Videomaker', 'Assessor administrativo '], dtype=object)

Verificar partidos

In [48]:
df['Partido'].unique()

array(['PT', 'PSB', 'PSDB', 'Cidadania', 'PDT'], dtype=object)

Analisar o formato da coluna orçamento

In [50]:
df['Orçamento disponível '].head()

0    R$ 123.070.338,00
1    R$ 258.355.354,00
2    R$ 198.332.128,00
3    R$ 241.407.328,00
4    R$ 228.756.232,00
Name: Orçamento disponível , dtype: object

Convertendo o campo em float após a remoção de caracteres especiais 

In [55]:
df['Orçamento disponível '] = df['Orçamento disponível '].str.replace('[R\$ \.]','',regex=True).str.replace(',','.').astype('float')

In [56]:
df.dtypes

Nome do Assessor                  object
Ano de ingresso no Congresso       int32
Cargo                             object
Idade que começou a trabalhar      int32
Identidade de gênero              object
Partido                           object
Cor                               object
Estado                            object
Orçamento disponível             float64
dtype: object

# 4. Análise exploratória de dados

## 4.1 Orçamento Geral

In [97]:
%matplotlib inline
fig = px.box(df, y="Orçamento disponível ")
fig.show()

## 4.2 Análise da distribuição de cargos

### 4.2.1 Distribuição de orçamento por cargo

In [67]:
fig = px.box(df, y="Orçamento disponível ",x='Cargo ')
fig.show()

### 4.2.1 Distribuição de número de assessores por cargo

In [96]:
df_grp = df.groupby(['Cargo ']).count().rename(columns = {'Nome do Assessor' : 'Quantidade'})['Quantidade']
df_grp = df_grp.reset_index() 
df_grp=df_grp.sort_values(by='Quantidade')

fig = px.bar(df_grp, y="Quantidade",x='Cargo ')
fig.show()

Verificação de outliers

In [72]:
df[df['Orçamento disponível ']>600000000].head()

Unnamed: 0,Nome do Assessor,Ano de ingresso no Congresso,Cargo,Idade que começou a trabalhar,Identidade de gênero,Partido,Cor,Estado,Orçamento disponível
10,Assessor 11,2015,Assessor de imprensa,24,Homem transgênero,PSB,Branca,Pernambuco (PE),652177271.0
11,Assessor 12,2009,Analista de dados,17,Mulher Cisgênero,PT,Branca,Bahia (BA),760505847.0
50,Assessor 51,1997,Assessor jurídico,26,Homem Cisgênero,PT,Preta,Paraíba (PB),658672302.0


### 4.2.2 Distribuição percentual de cor por cargos

In [110]:
df_grp_intra = df.groupby(['Cargo ','Cor']).count().rename(columns={'Nome do Assessor' : 'Quantidade de assessores'})['Quantidade de assessores'].reset_index()

df_grp_intra = df_grp_intra.merge(df_grp,how='inner',on=['Cargo '])
df_grp_intra['Percentual'] = 100*df_grp_intra['Quantidade de assessores']/df_grp_intra['Quantidade']


In [113]:
fig = px.bar(df_grp_intra, x="Cargo ", y="Percentual", color="Cor", title="Distribuição percentual de cor declarada dos assessores por cargos")
fig.show()

In [114]:
fig = px.bar(df_grp_intra, x="Cargo ", y="Quantidade de assessores", color="Cor", title="Distribuição de cor declarada dos assessores por cargos")
fig.show()

### 4.2.3 Distribuição percentual de identidade de gênero por cargos

In [115]:
df_grp_intra = df.groupby(['Cargo ','Identidade de gênero']).count().rename(columns={'Nome do Assessor' : 'Quantidade de assessores'})['Quantidade de assessores'].reset_index()

df_grp_intra = df_grp_intra.merge(df_grp,how='inner',on=['Cargo '])
df_grp_intra['Percentual'] = 100*df_grp_intra['Quantidade de assessores']/df_grp_intra['Quantidade']


In [116]:
fig = px.bar(df_grp_intra, x="Cargo ", y="Percentual", color="Identidade de gênero", title="Distribuição percentual de identidade de gênero declarada dos assessores por cargos")
fig.show()

In [117]:
fig = px.bar(df_grp_intra, x="Cargo ", y="Quantidade de assessores", color="Identidade de gênero", title="Distribuição absoluta de identidade de gênero declarada dos assessores por cargos")
fig.show()

## 4.3 Análise da distribuição por estado
### 4.2.4 Análise da distribuição de cargos por estado

In [124]:
df_grp_intra = df.groupby(['Cargo ','Estado ']).count().rename(columns={'Nome do Assessor' : 'Quantidade de assessores'})['Quantidade de assessores'].reset_index()

df_grp2 = df.groupby(['Estado ']).count().rename(columns={'Nome do Assessor' : 'Quantidade'})['Quantidade'].reset_index()

df_grp_intra = df_grp_intra.merge(df_grp2,how='inner',on=['Estado '])
df_grp_intra['Percentual'] = 100*df_grp_intra['Quantidade de assessores']/df_grp_intra['Quantidade']


In [127]:
fig = px.bar(df_grp_intra, x="Estado ", y="Percentual", color="Cargo ", title="Distribuição percentual por cargos por estados", height=600)
fig.show()

## 4.4 Análise da distribuição de orçamento

### 4.4.1 Distribuição de orçamento por ano de entrada no congresso

In [69]:
fig = px.scatter(df, y="Orçamento disponível ",x='Ano de ingresso no Congresso')
fig.show()

### 4.4.2 Distribuição de orçamento por idade que o assessor iniciou a trabalhar

In [118]:
fig = px.scatter(df, y="Orçamento disponível ",x='Idade que começou a trabalhar')
fig.show()

### 4.4.3 Distribuição de orçamento por identidade de gênero

In [71]:
fig = px.box(df, y="Orçamento disponível ",x='Identidade de gênero')
fig.show()

### 4.4.5 Distribuição de orçamento por estados

In [74]:
fig = px.box(df, y="Orçamento disponível ",x='Estado ')
fig.show()

In [128]:
fig = px.box(df, y="Orçamento disponível ",x='Cor')
fig.show()

In [129]:
fig = px.box(df, y="Orçamento disponível ",x='Partido')
fig.show()

In [136]:
df_grp = df.groupby(['Cor','Estado ']).count().rename(columns={'Nome do Assessor' : 'Quantidade'})['Quantidade'].reset_index()
fig = px.bar(df_grp, x="Estado ", y="Quantidade", color="Cor", title="Distribuição absoluta de cor de assessores por estado")
fig.show()