# Análise de Dados de Negócio

## 🎯 Objetivos

O objetivo desta análise é obter as seguintes informações:

1. Evolução do salário médio ao longo dos anos
2. Quantidade de funcionários ao longo dos anos
3. Total gasto com salários ao longo dos anos

A base de dados que vamos utilizar vem de um banco de dados SQLite, a qual possui uma única tabela com os salários dos funcionários de uma empresa.

## Importações

In [1]:
# Importa a biblioteca pandas com o apelido pd
import pandas as pd

# Importa a biblioteca sqlite3
import sqlite3

## Criação do Dataframe

### Conexão com o Banco de Dados

In [2]:
# Cria uma conexão com o banco de dados
conexao = sqlite3.connect("salarios.sqlite")

### Criação do Dataframe

In [3]:
# Cria um dataframe a partir da consulta especificada
df_salarios = pd.read_sql("SELECT * FROM Salaries", conexao)

# Exibe as cinco primeiras linhas do dataframe recém-criado
df_salarios.head()

Unnamed: 0,Id,EmployeeName,JobTitle,BasePay,OvertimePay,OtherPay,Benefits,TotalPay,TotalPayBenefits,Year,Notes,Agency,Status
0,1,NATHANIEL FORD,GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY,167411.18,0.0,400184.25,,567595.43,567595.43,2011,,San Francisco,
1,2,GARY JIMENEZ,CAPTAIN III (POLICE DEPARTMENT),155966.02,245131.88,137811.38,,538909.28,538909.28,2011,,San Francisco,
2,3,ALBERT PARDINI,CAPTAIN III (POLICE DEPARTMENT),212739.13,106088.18,16452.6,,335279.91,335279.91,2011,,San Francisco,
3,4,CHRISTOPHER CHONG,WIRE ROPE CABLE MAINTENANCE MECHANIC,77916.0,56120.71,198306.9,,332343.61,332343.61,2011,,San Francisco,
4,5,PATRICK GARDNER,"DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT)",134401.6,9737.0,182234.59,,326373.19,326373.19,2011,,San Francisco,


In [4]:
# Fecha a conexão com o banco de dados
conexao.close()

## Formatação

As funções abaixo servem para formatar os valores nas células dos dataframes:

In [5]:
def formatar_moeda(valor: float) -> str:
    return "R$ {:_.2f}".format(valor).replace(".", ",").replace("_", ".")

In [6]:
def formatar_valor(valor: float) -> str:
    return "{:_.2f}".format(valor).replace(".", ",").replace("_", ".")

## Análise

In [7]:
# Cria um dataframe só com os dados relativos a San Franciso
df_salarios = df_salarios[df_salarios["Agency"] == "San Francisco"]

In [8]:
df_salarios["Agency"].value_counts()

San Francisco    148654
Name: Agency, dtype: int64

__Evolução dos salários ao longo dos anos:__

In [9]:
# Cria um dataframe com o valor de salario médio por ano
df_salarios_medios_anuais = df_salarios[["Year", "TotalPay"]].groupby("Year").mean()

# Exibe o dataframe
df_salarios_medios_anuais

Unnamed: 0_level_0,TotalPay
Year,Unnamed: 1_level_1
2011,71744.103871
2012,74113.262265
2013,77611.443142
2014,75463.91814


In [10]:
# Renomeia as colunas especificadas
df_salarios_medios_anuais.rename(columns={"Year": "Ano", "TotalPay": "Salário Médio"}, inplace=True)

# Aplica a função de formatar moedas na coluna especificada
df_salarios_medios_anuais = df_salarios_medios_anuais["Salário Médio"].apply(formatar_moeda)

# Exibe o dataframe
df_salarios_medios_anuais

Year
2011    R$ 71.744,10
2012    R$ 74.113,26
2013    R$ 77.611,44
2014    R$ 75.463,92
Name: Salário Médio, dtype: object

__Quantidade de funcionários ao longo dos anos:__

In [11]:
# Dataframe com a quantidade de funcionários agrupados por ano
df_num_funcionarios_anual = df_salarios[["Year", "Id"]].groupby("Year").count()

# Exibe o dataframe
df_num_funcionarios_anual

Unnamed: 0_level_0,Id
Year,Unnamed: 1_level_1
2011,36159
2012,36766
2013,37606
2014,38123


In [12]:
# Renomeia as colunas especificadas
df_num_funcionarios_anual.rename(columns={"Id": "Qtde Funcionários"}, inplace=True)

# Aplica a formatação de valor na coluna especificada
df_num_funcionarios_anual = df_num_funcionarios_anual["Qtde Funcionários"].apply(formatar_valor)

# Exibe o dataframe
df_num_funcionarios_anual

Year
2011    36.159,00
2012    36.766,00
2013    37.606,00
2014    38.123,00
Name: Qtde Funcionários, dtype: object

__Evolução da folha de pagamentos:__

In [13]:
# Dataframe com o total dos salários ano a ano
df_folha_pagamento_anual = df_salarios[["Year", "TotalPay"]].groupby("Year").sum()

# Exibição do dataframe
df_folha_pagamento_anual

Unnamed: 0_level_0,TotalPay
Year,Unnamed: 1_level_1
2011,2594195000.0
2012,2724848000.0
2013,2918656000.0
2014,2876911000.0


In [14]:
df_folha_pagamento_anual.rename(columns={"TotalPay": "Total Salários"}, inplace=True)
df_folha_pagamento_anual = df_folha_pagamento_anual["Total Salários"].apply(formatar_moeda)
df_folha_pagamento_anual

Year
2011    R$ 2.594.195.051,88
2012    R$ 2.724.848.200,44
2013    R$ 2.918.655.930,80
2014    R$ 2.876.910.951,26
Name: Total Salários, dtype: object