## Exercício Desafio

* O objetivo é fazer um relatório da análise de dados da unidade de San Francisco da empresa. O intuito é entender:

    
    1. Qual foi a evolução do salário médio ao longo dos anos (TotalPay e TotalBenefits)
    2. Quantos funcionários tivemos ao longo dos anos
    3. Qual foi a evolução do total gasto com salário dos anos (TotalPayBenefits)
    
    
* Base de Dados a ser usada: salarios.sqlite


### Importação da Base de Dados utilizando o pandas

* Utilizaremos dois processos de importação possível e pode-se utilizar qualquer uma das duas maneiras para realizar a importação da base de dados, fica a critério utilizar qualquer uma das duas formas pois as duas entregam o mesmo resultado e ambas funcionam  

In [1]:
# Importa as bibliotecas que utilizaremos para realizar a análise de dados e importar a base de dados
import pandas as pd
import sqlite3

# Realiza a conexão do banco de dados
conexao = sqlite3.connect('salarios.sqlite')

# Importa a todas as informações da tabela salários do banco de dados
tabela_salarios = pd.read_sql('SELECT * FROM Salaries', conexao)

# Finaliza a conexão do banco de dados
conexao.close()

# Imprime a tabela salários para analisar se as informações estão vindo da maneira correta
display(tabela_salarios)

Unnamed: 0,Id,EmployeeName,JobTitle,BasePay,OvertimePay,OtherPay,Benefits,TotalPay,TotalPayBenefits,Year,Notes,Agency,Status
0,1,NATHANIEL FORD,GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY,167411.18,0,400184.25,,567595.43,567595.43,2011,,San Francisco,
1,2,GARY JIMENEZ,CAPTAIN III (POLICE DEPARTMENT),155966.02,245131.88,137811.38,,538909.28,538909.28,2011,,San Francisco,
2,3,ALBERT PARDINI,CAPTAIN III (POLICE DEPARTMENT),212739.13,106088.18,16452.6,,335279.91,335279.91,2011,,San Francisco,
3,4,CHRISTOPHER CHONG,WIRE ROPE CABLE MAINTENANCE MECHANIC,77916,56120.71,198306.9,,332343.61,332343.61,2011,,San Francisco,
4,5,PATRICK GARDNER,"DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT)",134401.6,9737,182234.59,,326373.19,326373.19,2011,,San Francisco,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
148649,148650,Roy I Tillery,Custodian,0,0,0,0,0.00,0.00,2014,,San Francisco,PT
148650,148651,Not provided,Not provided,Not Provided,Not Provided,Not Provided,Not Provided,0.00,0.00,2014,,San Francisco,
148651,148652,Not provided,Not provided,Not Provided,Not Provided,Not Provided,Not Provided,0.00,0.00,2014,,San Francisco,
148652,148653,Not provided,Not provided,Not Provided,Not Provided,Not Provided,Not Provided,0.00,0.00,2014,,San Francisco,


## Importação da Base de Dados utilizando o pyodbc


In [2]:
# Importar as bibliotecas que utilizaremos para realizar a análise de dados e importar a base de dados
import pandas as pd
import pyodbc


# Pega os dados necessários para realizar a conexão com o banco de dados
dados_conexao = ("Driver={SQLite3 ODBC Driver};"
                "Server=localhost;"
                "Database=salarios.sqlite")

# Realiza a conexão com o banco de dados
conexao = pyodbc.connect(dados_conexao)

# Cria o cursor para realizar os comandos em SQL
cursor = conexao.cursor()

# Executa o comando em SQL que selecionará a tabela da análise
cursor.execute('SELECT * FROM Salaries')

# armazenaremos os valores e a descrição das colunas da tabela para organizá-las posteriormente em um DataFrame
valores = cursor.fetchall()
descricao = cursor.description

# Imprime os valores das 10 primeiras linhas da tabela e a descrição de cada coluna da tabela 
# para analisarmos como elas estão organizada
print(valores[:10])
print(descricao)

# Finaliza a conexão com banco de dados e com o cursor
cursor.close()
conexao.close()

[(1, 'NATHANIEL FORD', 'GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY', 167411.18, 0.0, 400184.25, None, 567595.43, 567595.43, 2011, '', 'San Francisco', ''), (2, 'GARY JIMENEZ', 'CAPTAIN III (POLICE DEPARTMENT)', 155966.02, 245131.88, 137811.38, None, 538909.28, 538909.28, 2011, '', 'San Francisco', ''), (3, 'ALBERT PARDINI', 'CAPTAIN III (POLICE DEPARTMENT)', 212739.13, 106088.18, 16452.6, None, 335279.91, 335279.91, 2011, '', 'San Francisco', ''), (4, 'CHRISTOPHER CHONG', 'WIRE ROPE CABLE MAINTENANCE MECHANIC', 77916.0, 56120.71, 198306.9, None, 332343.61, 332343.61, 2011, '', 'San Francisco', ''), (5, 'PATRICK GARDNER', 'DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT)', 134401.6, 9737.0, 182234.59, None, 326373.19, 326373.19, 2011, '', 'San Francisco', ''), (6, 'DAVID SULLIVAN', 'ASSISTANT DEPUTY CHIEF II', 118602.0, 8601.0, 189082.74, None, 316285.74, 316285.74, 2011, '', 'San Francisco', ''), (7, 'ALSON LEE', 'BATTALION CHIEF, (FIRE DEPARTMENT)', 92492.01, 89062.9, 134426.14, None,

In [3]:
# Analisando os dados da variável descrição podemos observar que o primeiro item de cada tupla é o nome da coluna da tabela
# Assim, pegaremos o item de cada tupla e armazenaremos em uma variável
colunas = [tuplas[0] for tuplas in descricao]

# pega a lista de tuplas e transforma em um DataFrame
tabela_salarios2 = pd.DataFrame.from_records(valores, columns=colunas)

# Imprime a tabela salários para analisar se as informações estão vindo da maneira correta
display(tabela_salarios2)

Unnamed: 0,Id,EmployeeName,JobTitle,BasePay,OvertimePay,OtherPay,Benefits,TotalPay,TotalPayBenefits,Year,Notes,Agency,Status
0,1,NATHANIEL FORD,GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY,167411.18,0.00,400184.25,,567595.43,567595.43,2011,,San Francisco,
1,2,GARY JIMENEZ,CAPTAIN III (POLICE DEPARTMENT),155966.02,245131.88,137811.38,,538909.28,538909.28,2011,,San Francisco,
2,3,ALBERT PARDINI,CAPTAIN III (POLICE DEPARTMENT),212739.13,106088.18,16452.60,,335279.91,335279.91,2011,,San Francisco,
3,4,CHRISTOPHER CHONG,WIRE ROPE CABLE MAINTENANCE MECHANIC,77916.00,56120.71,198306.90,,332343.61,332343.61,2011,,San Francisco,
4,5,PATRICK GARDNER,"DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT)",134401.60,9737.00,182234.59,,326373.19,326373.19,2011,,San Francisco,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
148649,148650,Roy I Tillery,Custodian,0.00,0.00,0.00,0.0,0.00,0.00,2014,,San Francisco,PT
148650,148651,Not provided,Not provided,,,,,0.00,0.00,2014,,San Francisco,
148651,148652,Not provided,Not provided,,,,,0.00,0.00,2014,,San Francisco,
148652,148653,Not provided,Not provided,,,,,0.00,0.00,2014,,San Francisco,


### Análise de Dados

In [4]:
# Filtra a tabela apenas com as informações da unidade de San Francisco como pedido no desafio
tabela_salarios =  tabela_salarios.loc[tabela_salarios["Agency"] == "San Francisco", :]

# Imprime a tabela ao Usuária
display(tabela_salarios)

Unnamed: 0,Id,EmployeeName,JobTitle,BasePay,OvertimePay,OtherPay,Benefits,TotalPay,TotalPayBenefits,Year,Notes,Agency,Status
0,1,NATHANIEL FORD,GENERAL MANAGER-METROPOLITAN TRANSIT AUTHORITY,167411.18,0,400184.25,,567595.43,567595.43,2011,,San Francisco,
1,2,GARY JIMENEZ,CAPTAIN III (POLICE DEPARTMENT),155966.02,245131.88,137811.38,,538909.28,538909.28,2011,,San Francisco,
2,3,ALBERT PARDINI,CAPTAIN III (POLICE DEPARTMENT),212739.13,106088.18,16452.6,,335279.91,335279.91,2011,,San Francisco,
3,4,CHRISTOPHER CHONG,WIRE ROPE CABLE MAINTENANCE MECHANIC,77916,56120.71,198306.9,,332343.61,332343.61,2011,,San Francisco,
4,5,PATRICK GARDNER,"DEPUTY CHIEF OF DEPARTMENT,(FIRE DEPARTMENT)",134401.6,9737,182234.59,,326373.19,326373.19,2011,,San Francisco,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
148649,148650,Roy I Tillery,Custodian,0,0,0,0,0.00,0.00,2014,,San Francisco,PT
148650,148651,Not provided,Not provided,Not Provided,Not Provided,Not Provided,Not Provided,0.00,0.00,2014,,San Francisco,
148651,148652,Not provided,Not provided,Not Provided,Not Provided,Not Provided,Not Provided,0.00,0.00,2014,,San Francisco,
148652,148653,Not provided,Not provided,Not Provided,Not Provided,Not Provided,Not Provided,0.00,0.00,2014,,San Francisco,


**1. Qual foi a evolução do salário médio ao longo dos anos**

In [5]:
# Essa função realizará a formatação dos valores para retornar eles como valor monetário
def formatar(valor):
    return f'R$ {valor:,.2f}'

# Agrupa as informações de acordo com o ano e faz a média dos valores
tabela_sm = tabela_salarios.groupby("Year").mean()

# Aplica a função formatar nas colunas TotalPay e TotalPayBenefits
tabela_sm["TotalPay"] = tabela_sm["TotalPay"].apply(formatar)
tabela_sm["TotalPayBenefits"] = tabela_sm["TotalPayBenefits"].apply(formatar)

# Remove a coluna Id da tabela para exibir apenas as colunas necessárias para a análise
tabela_sm.drop(["Id"], axis=1, inplace=True)

# Imprime ao usuário a tabela formatada apenas com as colunas da análise
display(tabela_sm)

Unnamed: 0_level_0,TotalPay,TotalPayBenefits
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
2011,"R$ 71,744.10","R$ 71,744.10"
2012,"R$ 74,113.26","R$ 100,553.23"
2013,"R$ 77,611.44","R$ 101,440.52"
2014,"R$ 75,463.92","R$ 100,250.92"


**2. Quantos funcionários tivemos ao longo dos anos**

In [6]:
# agrupa os valores de acordo com o ano, faz a contagem e cria a tabela com a quantidade dos funcionários ao longo dos anos 
tabela_qtde = tabela_salarios.groupby("Year").count()

# Utiliza a quantidade de Id que existem na tabela e em seguida renomeia para Quantidade
tabela_qtde = tabela_qtde[["Id"]]
tabela_qtde = tabela_qtde.rename(columns={"Id": "Quantidade"})

# Imprime ao usuário a tabela com a quantidade de funcionário em cada ano
display(tabela_qtde)

Unnamed: 0_level_0,Quantidade
Year,Unnamed: 1_level_1
2011,36159
2012,36766
2013,37606
2014,38123


**3. Qual foi a evolução do total gasto com salário ao longo dos anos**

In [7]:
# agrupa os valores de acordo com o ano, faz a soma e cria a tabela com a quantidade dos funcionários ao longo dos anos 
tabela_total = tabela_salarios.groupby("Year").sum()

# permanece apenas as colunas TotalPay e TotalPay Benefits na tabela criada, em seguida aplicamos a função 'formatar'
# para transformar em valores monetários
tabela_total = tabela_total[["TotalPay", "TotalPayBenefits"]]
tabela_total["TotalPay"] = tabela_total["TotalPay"].apply(formatar)
tabela_total["TotalPayBenefits"] = tabela_total["TotalPayBenefits"].apply(formatar)

# Imprime ao usuário a tabela com o total de gasto com salários durante os anos
display(tabela_total)

Unnamed: 0_level_0,TotalPay,TotalPayBenefits
Year,Unnamed: 1_level_1,Unnamed: 2_level_1
2011,"R$ 2,594,195,051.88","R$ 2,594,195,051.88"
2012,"R$ 2,724,848,200.44","R$ 3,696,940,025.96"
2013,"R$ 2,918,655,930.80","R$ 3,814,772,184.37"
2014,"R$ 2,876,910,951.26","R$ 3,821,865,780.60"
