# Análise de Risco Financeiro nas Big 4 (2020–2025)

Este projeto utiliza um conjunto de dados exclusivo que oferece uma visão aprofundada sobre **avaliação de risco financeiro**, **violações de conformidade** e **tendências de detecção de fraudes** nas quatro maiores firmas de consultoria do mundo — **Ernst & Young (EY), PwC, Deloitte e KPMG** — no período de **2020 a 2025**.

## Sobre o Dataset

O conjunto de dados contempla as seguintes métricas-chave:

- Número de auditorias realizadas  
- Casos classificados como de alto risco  
- Casos de fraude detectados  
- Violações de conformidade  
- Carga de trabalho dos auditores  
- Índices de satisfação dos clientes  
- Impacto da IA (Inteligência Artificial) nas auditorias

Além disso, permite comparações entre diferentes setores da economia, como:

- Finanças  
- Tecnologia  
- Varejo  
- Saúde  

## Por que usar este Dataset?

**Único e Relevante:** Focado exclusivamente nas Big 4, o que o torna altamente valioso para profissionais da área financeira.  
**IA nas Auditorias:** Permite explorar como a Inteligência Artificial está transformando a detecção de riscos e a conformidade regulatória.  
**Comparação Setorial:** Analise o desempenho das auditorias em diferentes indústrias.  
**Carga de Trabalho x Qualidade:** Avalie como o volume de trabalho impacta a eficácia das auditorias e a conformidade das empresas.


# Importação das Bibliotecas

In [9]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

# Carregamento do Dataset

In [10]:
df = pd.read_csv("data/big4_financial_risk_compliance.csv")

# Visualização do Dataset

In [11]:
df.head()

Unnamed: 0,Year,Firm_Name,Total_Audit_Engagements,High_Risk_Cases,Compliance_Violations,Fraud_Cases_Detected,Industry_Affected,Total_Revenue_Impact,AI_Used_for_Auditing,Employee_Workload,Audit_Effectiveness_Score,Client_Satisfaction_Score
0,2020,PwC,2829,51,123,39,Healthcare,114.24,No,57,5.8,8.4
1,2022,Deloitte,3589,185,30,60,Healthcare,156.98,Yes,58,5.3,6.7
2,2020,PwC,2438,212,124,97,Healthcare,131.83,No,76,6.1,6.2
3,2021,PwC,2646,397,55,97,Healthcare,229.11,No,60,5.1,8.6
4,2020,PwC,2680,216,99,46,Healthcare,48.0,No,51,9.1,6.7


# Dicionário dos Dados

| Nome da Coluna (Inglês)             | Tradução (Português)                       | Significado                                                                                   |
|-------------------------------------|--------------------------------------------|-----------------------------------------------------------------------------------------------|
| `Year`                              | **Ano**                                    | Ano em que os dados foram registrados (de 2020 a 2025).                                       |
| `Firm_Name`                         | **Nome da Firma**                          | Nome da empresa de auditoria (EY, PwC, Deloitte ou KPMG).                                     |
| `Total_Audit_Engagements`           | **Total de Auditorias Realizadas**         | Número total de auditorias conduzidas pela firma no ano.                                      |
| `High_Risk_Cases`                   | **Casos de Alto Risco**                    | Quantidade de auditorias que foram classificadas como de alto risco.                          |
| `Compliance_Violations`            | **Violações de Conformidade**              | Número de violações às normas ou regulamentações detectadas nas auditorias.                   |
| `Fraud_Cases_Detected`             | **Casos de Fraude Detectados**             | Quantidade de fraudes descobertas durante as auditorias.                                      |
| `Industry_Affected`                | **Setor Afetado**                          | Setor da empresa auditada (ex: Finanças, Varejo, Saúde, Tecnologia, etc.).                    |
| `Total_Revenue_Impact`             | **Impacto Total na Receita (USD)**         | Valor estimado da perda financeira causada pelas violações e fraudes (em dólares).            |
| `AI_Used_for_Auditing`            | **Uso de IA na Auditoria (Sim/Não ou Índice)** | Indica se a auditoria utilizou recursos de Inteligência Artificial, ou grau de utilização.   |
| `Employee_Workload`                | **Carga de Trabalho dos Funcionários**     | Média de horas trabalhadas por auditor no período.                                            |
| `Audit_Effectiveness_Score`        | **Índice de Efetividade da Auditoria**     | Nota atribuída à qualidade e eficácia das auditorias, baseada em critérios internos ou externos.|
| `Client_Satisfaction_Score`        | **Índice de Satisfação do Cliente**        | Avaliação média dos clientes auditados quanto à qualidade do serviço prestado.                |


# Infos dos Dados

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 12 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   Year                       100 non-null    int64  
 1   Firm_Name                  100 non-null    object 
 2   Total_Audit_Engagements    100 non-null    int64  
 3   High_Risk_Cases            100 non-null    int64  
 4   Compliance_Violations      100 non-null    int64  
 5   Fraud_Cases_Detected       100 non-null    int64  
 6   Industry_Affected          100 non-null    object 
 7   Total_Revenue_Impact       100 non-null    float64
 8   AI_Used_for_Auditing       100 non-null    object 
 9   Employee_Workload          100 non-null    int64  
 10  Audit_Effectiveness_Score  100 non-null    float64
 11  Client_Satisfaction_Score  100 non-null    float64
dtypes: float64(3), int64(6), object(3)
memory usage: 9.5+ KB


## Relatório Inicial das Informações

- O dataset possui 12 variáveis, distribuídas entre variáveis de tempo, categóricas e numéricas.
- O dataset não possui valores ausentes.
- A base possui um total de 100 registros.

# Transformação necessária dos Dados 

In [13]:
# Cópia dos dados
df2 = df.copy()

In [14]:
# Transformação da variável Year de object para datetime
df2["Year"] = pd.to_datetime(df2["Year"], format = "%Y")

# Análise Exploratória dos Dados

In [15]:
# Separando as colunas numéricas
numericas = df2.select_dtypes(include=['int64', 'float64'])
print("Estatísticas descritivas para variáveis numéricas:\n")
print(numericas.describe().transpose())


Estatísticas descritivas para variáveis numéricas:

                           count      mean          std     min        25%  \
Total_Audit_Engagements    100.0  2784.520  1281.863073  603.00  1768.2500   
High_Risk_Cases            100.0   277.730   135.735174   51.00   162.5000   
Compliance_Violations      100.0   105.480    55.370101   10.00    54.5000   
Fraud_Cases_Detected       100.0    52.700    28.311221    5.00    27.0000   
Total_Revenue_Impact       100.0   272.539   139.151401   33.46   155.2175   
Employee_Workload          100.0    60.250    11.163048   40.00    52.7500   
Audit_Effectiveness_Score  100.0     7.490     1.516209    5.00     6.1000   
Client_Satisfaction_Score  100.0     7.339     1.429127    5.00     6.1000   

                               50%       75%      max  
Total_Audit_Engagements    2650.00  4008.750  4946.00  
High_Risk_Cases             293.00   395.500   500.00  
Compliance_Violations       114.50   149.500   200.00  
Fraud_Cases_Detected 

## Relatório Descritivo das Variáveis Numéricas

Este relatório apresenta um resumo estatístico das variáveis numéricas do dataset sobre auditorias realizadas pelas Big 4 entre 2020 e 2025.

### Visão Geral

- Total de registros analisados: **100 linhas**
- Todas as variáveis abaixo são de natureza quantitativa contínua e representam métricas de auditoria, risco e desempenho.

---

### 1. `Total_Audit_Engagements` – Total de Auditorias Realizadas

- Média: **2.784 auditorias**
- Mínimo: **603**
- Máximo: **4.946**
- Desvio padrão: **1.282**
- 50% das firmas realizaram entre **1.768 e 4.008** auditorias por ano.

**Observação:** Alta variação no número de auditorias indica que algumas firmas possuem maior capacidade operacional.

---

### 2. `High_Risk_Cases` – Casos de Alto Risco

- Média: **278 casos**
- Máximo: **500**
- Desvio padrão: **135**
- 75% dos valores estão abaixo de **396**

**Observação:** Cerca de **10% das auditorias** em média são consideradas de alto risco.

---

### 3. `Compliance_Violations` – Violações de Conformidade

- Média: **105**
- Mediana: **114**
- Desvio padrão: **55**
- Intervalo interquartil (IQR): de **54** a **150**

**Observação:** A maior parte das firmas tem até 150 violações por ano, mas há casos extremos com até **200**.

---

### 4. `Fraud_Cases_Detected` – Casos de Fraude Detectados

- Média: **53**
- Mínimo: **5**
- Máximo: **100**
- 75% dos valores estão abaixo de **75**

**Observação:** Existe uma grande disparidade entre as firmas na detecção de fraudes. Pode refletir uso desigual de tecnologia (como IA) ou áreas com maior risco.

---

### 5. `Total_Revenue_Impact` – Impacto na Receita (USD milhões)

- Média: **272 milhões**
- Mediana: **264 milhões**
- Mínimo: **33 milhões**
- Máximo: **497 milhões**
- Desvio padrão: **139 milhões**

**Observação:** O impacto financeiro das falhas de conformidade ou fraudes pode ser extremamente alto em alguns setores/firmas.

---

### 6. `Employee_Workload` – Carga de Trabalho dos Funcionários (horas/semana)

- Média: **60 horas**
- Mínimo: **40h**, Máximo: **80h**
- IQR: de **53h** a **68h**

**Observação:** Os auditores estão, em média, sobrecarregados — indicando possíveis impactos na qualidade das auditorias.

---

### 7. `Audit_Effectiveness_Score` – Índice de Efetividade da Auditoria (0–10)

- Média: **7,49**
- Mediana: **7,45**
- 25% mais eficazes têm nota acima de **8,8**

**Observação:** A maior parte das auditorias está acima da média, mas poucas alcançam pontuação máxima.

---

### 8. `Client_Satisfaction_Score` – Satisfação do Cliente (0–10)

- Média: **7,34**
- Mediana: **7,35**
- 75% das notas estão abaixo de **8,5**

**Observação:** Existe correlação visual entre satisfação e efetividade. Pode ser explorada mais a fundo.

---

### Considerações Finais

- A base de dados apresenta boa distribuição e completude.
- Há forte dispersão em variáveis como auditorias realizadas, impacto financeiro e carga de trabalho.
- As métricas de desempenho (efetividade e satisfação) estão centradas em torno de **7,3 a 7,5**, com oportunidade de melhora.




In [16]:
# Separando as colunas categóricas (object ou string)
categoricas = df2.select_dtypes(include=['object', 'category'])
print("\n Estatísticas descritivas para variáveis categóricas:\n")
print(categoricas.describe().transpose())


 Estatísticas descritivas para variáveis categóricas:

                     count unique       top freq
Firm_Name              100      4  Deloitte   30
Industry_Affected      100      4      Tech   29
AI_Used_for_Auditing   100      2        No   55


## Relatório Descritivo das Variáveis Categóricas

Este relatório apresenta um resumo estatístico das variáveis categóricas do dataset de auditoria nas Big 4 entre 2020 e 2025. As colunas analisadas incluem o nome da firma, setor auditado e uso de inteligência artificial nas auditorias.

---

### 1. `Firm_Name` – Nome da Firma de Auditoria

- Total de registros: **100**
- Quantidade de firmas únicas: **4**
- Firma mais frequente: **Deloitte**
- Frequência: **30 ocorrências**

**Observação:** A presença das 4 firmas (Deloitte, EY, PwC, KPMG) está bem distribuída, mas a **Deloitte** aparece em **30% dos registros**, o que pode indicar maior volume de auditorias ou destaque no dataset.

---

### 2. `Industry_Affected` – Setor da Empresa Auditada

- Total de registros: **100**
- Setores únicos: **4**
- Setor mais frequente: **Tech (Tecnologia)**
- Frequência: **29 ocorrências**

**Observação:** O setor de **Tecnologia** lidera em número de auditorias, seguido provavelmente por Finanças, Varejo e Saúde (não listados, mas esperados). Esse foco pode refletir maior atenção regulatória ou maior número de riscos nesse setor.

---

### 3. `AI_Used_for_Auditing` – Uso de IA na Auditoria

- Total de registros: **100**
- Valores únicos: **2** (`Yes`, `No`)
- Valor mais frequente: **No**
- Frequência: **55 registros**

**Observação:** A maioria das auditorias **não utilizou Inteligência Artificial** (`55%`). Isso sugere que a adoção de IA ainda está em processo de crescimento e pode estar relacionada a fatores como tipo de firma, setor ou volume de dados.

---

### Conclusões

- A **Deloitte** e o setor **Tech** são os mais representados neste conjunto de dados.
- Ainda existe uma divisão equilibrada entre auditorias com e sem uso de **IA**, permitindo análise comparativa de desempenho.
- Todas as variáveis categóricas apresentam **boa variabilidade**, sem valores faltantes ou inválidos.



# Perguntas de Negócio