# Relatório Final - ATP de Preparação e Análise Exploratória de Dados
# Curso de Tecnologia em Big Data e Inteligência Analítica
# Pontifícia Universidade Católica do Paraná (PUCPR)

`Jesus Wildes Suathê Farias` - `farias.jesus@pucpr.edu.br`

# Introdução

Nesta atividade, vamos trabalhar com um conjunto de dados da empresa Enron. A Enron foi uma das maiores empresas de energia dos Estados Unidos. No seu auge, chegou a valer 65 bilhões de dólares e ela faliu em 24 dias.  A Enron foi fundada em 1985 por Kenneth Lay com a fusão da Houston Natural Gas e da InterNorth. Anos depois, quando Jeffrey Skilling tomou posse, ele estabeleceu um conjunto de diretores que criaram entidades fictícias, relatórios financeiros fracos e contabilidades erradas, que somadas, esconderam bilhões de dólares e projetos fracassados dos investidores. O esquema foi tão complexo que nem mesmo auditorias profissionais foram capazes de identificar estes problemas, e a empresa foi investigada pelo governo norte-americano, incluindo a sua suprema corte. 
A base de dados utilizada na investigação incluía  aproximadamente 500 mil e-mails trocados por empregados da Enron.  Estes e-mails foram obtidos pela comissão regulatória de energia dos Estados Unidos durante sua investigação. A base de dados que vamos utilizar sumariza informações não apenas destes e-mails, mas também de salário e ações da bolsa de valores dos envolvidos. Além disso, os funcionários são divididos em pessoas de interesse (Person of Interest, ou POI), que participaram da fraude; e funcionários que não participaram da fraude, ou não-POIs.

## Dicas

Nesta análise e preparação de dados, nós precisamos ir além de explorações simples. Garanta que toda exploração e análise de dados seja acompanhada de uma análise crítica.

# Importando as bibliotecas

Na célula abaixo, as principais bibliotecas para análise de dados são importadas. Sinta-se a vontade para importar mais bibliotecas de acordo com sua demanda e/ou preferência, contudo, garanta que todos os comandos de `import` sejam feitos na célula abaixo.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# carregue os módulos de sua preferência aqui
# Adicionado para exibir Markdown no Jupyter Notebook
from IPython.display import Markdown, display

# Carregamento de dados

Na célula abaixo é realizado o carregamento da base de dados.
Você **não** deve alterar o código apresentado.

In [2]:
df = pd.read_csv('enron.csv')

Verificando se os dados carregaram corretamente:

In [3]:
df.head(5)

Unnamed: 0,bonus,deferral_payments,deferred_income,director_fees,email_address,exercised_stock_options,expenses,from_messages,from_poi_to_this_person,from_this_person_to_poi,...,other,poi,restricted_stock,restricted_stock_deferred,salary,shared_receipt_with_poi,to_messages,total_payments,total_stock_value,name
0,4175000.0,2869717.0,-3081055.0,,phillip.allen@enron.com,1729541.0,13868.0,2195.0,47.0,65.0,...,152.0,False,126027.0,-126027.0,201955.0,1407.0,2902.0,4484442.0,1729541.0,ALLEN PHILLIP K
1,,178980.0,,,,257817.0,3486.0,,,,...,,False,,,,,,182466.0,257817.0,BADUM JAMES P
2,,,-5104.0,,james.bannantine@enron.com,4046157.0,56301.0,29.0,39.0,0.0,...,864523.0,False,1757552.0,-560222.0,477.0,465.0,566.0,916197.0,5243487.0,BANNANTINE JAMES M
3,1200000.0,1295738.0,-1386055.0,,,6680544.0,11200.0,,,,...,2660303.0,False,3942714.0,,267102.0,,,5634343.0,10623258.0,BAXTER JOHN C
4,400000.0,260455.0,-201641.0,,frank.bay@enron.com,,129142.0,,,,...,69.0,False,145796.0,-82782.0,239671.0,,,827696.0,63014.0,BAY FRANKLIN R


# Análise descritiva de dados

Nesta etapa, você conduzirá uma análise descritiva da base de dados da Enron.

Para a base de dados como um todo, você deve reportar:
- O número de indivíduos (instâncias) na tabela;
- O número de variáveis descritivas (colunas ou atributos) destes indivíduos;
- O número de pessoas de interesse, isto é, fraudadores (POIs) e não-POIs;

Para cada uma das variáveis numéricas, você deve apresentar:
- Média
- Mediana
- Variância
- Desvio padrão
- Quartis

E para cada uma das variáveis categóricas:
- A moda
- Os valores únicos de cada variável

Além de apresentar estatísticas sobre cada variável da base de dados, a análise a ser conduzida nesta etapa requer uma análise crítica. 
Desta forma, você é convidado a extrair *insights* a partir destas estatísticas, verificando se os valores apresentados condizem ou não com a realidade.
**Lembre-se: todas estas estatísticas devem ser calculadas e apresentadas, de forma legível, no relatório fornecido na descrição da ATP.**


In [5]:
# Calculando e exibindo a quantidade de indivíduos (instâncias) no dataset, utilizando Markdown para formatação
display(Markdown('Quantidade de indivíduos (instâncias) no dataset: **{}**'.format(len(df))))

Quantidade de indivíduos (instâncias) no dataset: **146**

In [6]:
# Calculando e exibindo a quantidade de variáveis descritivas no dataset
variaveis_descritivas = df.describe(include=['object', 'category']).T

# Exibindo a quantidade de variáveis descritivas (através de len() ) e seus nomes
display(Markdown(f'**Variáveis descritivas do dataset**: {len(variaveis_descritivas)} variáveis.'))
display(Markdown(f'**Variáveis descritivas:**: {variaveis_descritivas.index.tolist()}'))

**Variáveis descritivas do dataset**: 2 variáveis.

**Variáveis descritivas:**: ['email_address', 'name']

In [7]:
# Calculando e exibindo a quantidade de pessoas de interesse (POI) no dataset
display(Markdown('**Quantidade de Pessoas de Interesse**: {}'.format(df['poi'].sum())))
display(Markdown('**Quantidade de Pessoas fora de interesse**: {}'.format((~df['poi']).sum())))

**Quantidade de Pessoas de Interesse**: 18

**Quantidade de Pessoas fora de interesse**: 128

In [None]:
# Calculando, criando um novo DataFrame e exibindo a quantidade de variáveis numéricas no dataset original
# Criando uma variável que contém somente as colunas numéricas do DataFrame
variaveis_numericas = df.select_dtypes(include=['number']).columns
resumo = pd.DataFrame({
    'Média': df[variaveis_numericas].mean(numeric_only=True),
    'Mediana': df[variaveis_numericas].median(numeric_only=True),
    'Variância': df[variaveis_numericas].var(numeric_only=True),
    'Desvio Padrão': df[variaveis_numericas].std(numeric_only=True),
    '1º Quartil (25%)': df[variaveis_numericas].quantile(0.25, numeric_only=True),
    '3º Quartil (75%)': df[variaveis_numericas].quantile(0.75, numeric_only=True)
}).T

display(Markdown('**Cálculos estatísticos das variáveis numéricas**'))
display(Markdown(resumo.to_markdown(floatfmt=".2f")))

**Cálculos estatísticos das variáveis numéricas**

|                  |              bonus |   deferral_payments |   deferred_income |   director_fees |   exercised_stock_options |        expenses |   from_messages |   from_poi_to_this_person |   from_this_person_to_poi |       loan_advances |   long_term_incentive |             other |   restricted_stock |   restricted_stock_deferred |           salary |   shared_receipt_with_poi |   to_messages |     total_payments |   total_stock_value |
|:-----------------|-------------------:|--------------------:|------------------:|----------------:|--------------------------:|----------------:|----------------:|--------------------------:|--------------------------:|--------------------:|----------------------:|------------------:|-------------------:|----------------------------:|-----------------:|--------------------------:|--------------:|-------------------:|--------------------:|
| Média            |         2374234.61 |          1642674.15 |       -1140475.14 |       166804.88 |                5987053.77 |       108728.92 |          608.79 |                     64.90 |                     41.23 |         41962500.00 |            1470361.45 |         919064.97 |         2321741.14 |                   166410.56 |        562194.29 |                   1176.47 |       2073.86 |         5081526.49 |          6773957.45 |
| Mediana          |          769375.00 |           227449.00 |        -159792.00 |       108579.00 |                1310813.50 |        46950.00 |           41.00 |                     35.00 |                      8.00 |         41762500.00 |             442035.00 |          52382.00 |          451740.00 |                  -146975.00 |        259996.00 |                    740.50 |       1211.00 |         1101393.00 |          1102872.50 |
| Variância        | 114775396172335.09 |   26645521052091.14 | 16203896512113.12 | 102330514030.11 |        964848252082401.75 | 284659397866.12 |      3389406.00 |                   7565.39 |                  10014.63 | 2216828541666666.75 |     35316388281936.87 | 21061242250265.09 | 156707288526355.62 |           17652554476485.44 | 7378661383806.17 |                1388432.46 |    6670344.36 | 844583360181500.75 | 1517708056259895.75 |
| Desvio Padrão    |        10713327.97 |          5161929.97 |        4025406.38 |       319891.41 |               31062006.57 |       533534.81 |         1841.03 |                     86.98 |                    100.07 |         47083208.70 |            5942759.32 |        4589252.91 |        12518278.18 |                  4201494.31 |       2716369.15 |                   1178.32 |       2582.70 |        29061716.40 |         38957772.73 |
| 1º Quartil (25%) |          431250.00 |            81573.00 |        -694862.00 |        98784.00 |                 527886.25 |        22614.00 |           22.75 |                     10.00 |                      1.00 |          1600000.00 |             281250.00 |           1215.00 |          254018.00 |                  -389621.75 |        211816.00 |                    249.75 |        541.25 |          394475.00 |           494510.25 |
| 3º Quartil (75%) |         1200000.00 |          1002671.50 |         -38346.00 |       113784.00 |                2547724.00 |        79952.50 |          145.50 |                     72.25 |                     24.75 |         82125000.00 |             938672.00 |         362096.00 |         1002369.75 |                   -75009.75 |        312117.00 |                   1888.25 |       2634.75 |         2093263.00 |          2949846.75 |

# Análise univariada de dados

Nesta seção, você conduzirá uma análise univariada de dados.
Esta análise deve contemplar **todas** as variáveis disponíveis na base de dados, exceto o **nome do indivíduo**.
O objetivo desta etapa é identificar o comportamento das variáveis, verificando curtose e assimetria, assim como extraindo insights sobre cada variável individualmente.
Desta forma, para cada variável, trabalhe com as seguintes etapas:

* Crie um cabeçalho no relatório com o nome da variável;
* Crie visualizações univariadas (histogramas, box-plots, etc), de acordo com o tipo de dado; e
* Apresente as principais conclusões que podemos obter a partir destas visualizações.



In [9]:
# conduza sua análise univariada de dados aqui
# use quantas células de código e texto forem necessárias para atender os 
# requisitos apresentados acima e a rubrica do projeto

# Análise multivariada de dados

Nesta seção, você deverá conduzir uma análise de dados multivariada. O objetivo desta etapa é encontrar relações e/ou correlações entre as variáveis da base de dados da Enron.
Apesar de mais flexível que a etapa anterior, esta é uma das etapas mais importantes da ATP, uma vez que esta base de dados possui inúmeros relacionamentos interessantes a serem descobertos e reportados.
Nesta etapa, você deverá criar visualizações, contudo, sempre no seguinte formato:
- Apresentar uma pergunta/hipótese sobre os dados,
- Criar uma visualização que responda esta pergunta ou confirme a hipótese, e
- Análise dos dados a partir desta visualização, respondendo textualmente a pergunta/hipótese afirmada anteriormente, assim como apresentando ao leitor os principais insights obtidos a partir da visualização.

Esta etapa do projeto requer que ao menos 20 visualizações bivariadas sejam criadas. Sinta-se a vontade para utilizar gráficos de barra, box-plots, violin plots, ou demais gráficos discutidos durante o curso. Note, contudo, que a utilização dos gráficos deverá ser apropriada, isto é, o tipo de cada gráfico deve ser aderente com os tipos de dados sendo apresentados.

In [10]:
# conduza sua análise multivariada aqui
# use quantas células de código e texto forem necessárias para atender os 
# requisitos apresentados acima e a rubrica do projeto

# Visualizações efetivas

Nesta seção, você deve **escolher** e **melhorar** 5 visualizações criadas anteriormente.
A chave aqui é melhorar estas visualizações com o objetivo de apresentá-las a uma audiência que não conheça a base de dados da Enron e/ou não trabalhe com análise de dados.
**Sendo assim, garanta que o tamanho, cores, texturas e outras componentes visuais sejam bem escolhidas e utilizadas, sempre visando garantir que a informação seja passada de forma clara e correta para a audiência.**

Para cada um destas visualizações, garanta que as seguintes etapas foram seguidas:

1. Criação de visualização: Criar novamente a visualização, garantindo que ela possui título e rótulos nos eixos e legenda (caso necessário)
2. Cores: Garantir que o uso de cores é correto, de acordo com o objetivo da visualização e também com escalas de cores visando leitores daltônicos
3. Cores e tamanhos: Garantir que texturas e tamanhos são utilizados de forma correta
4. Chart junk: Garantir que a visualização possui um baixo fator de "chart junk"
5. Avaliação por pares: você deverá angariar feedback de três pessoas sobre sua visualização. Você deverá apresentar o feedback de cada pessoa, assim como deve discutir, de forma textual, se este feedback acarretou em alguma mudança de design. Você deve apresentar evidências das mudanças realizadas, isto é, a visualização **antes** e **depois** do *feedback*.
6. Descrição: cada visualização deve ser acompanhada de uma descrição que inclua as principais descobertas (*insights*) que podem ser extraídos a partir dela.




In [11]:
# crie as visualizações finais aqui
# novamente, use quantas células forem necessárias

# Conclusão


## Reflexão

Nesta seção você deve apresentar uma reflexão sobre sua atuação neste projeto e sobre os conceitos aprendidos e praticados. A idéia é apresentar (1) o que você fez bem e (2) o que você poderia ter feito diferente. Esta reflexão deve possuir ao menos 2500 caracteres (sem espaços).


```
Escreva sua resposta aqui.
```

# Referências

Adicione na célula abaixo todas as referências utilizadas durante a preparação deste relatório.

```
Adicione as referências aqui.
```

## Trabalhos futuros

Na célula abaixo, apresente ao menos 3 (três) idéias diferentes que você gostaria de atuar em um trabalho futuro com esta mesma base de dados. Elas podem incluir, por exemplo, o uso de aprendizagem de máquina para um objetivo específico, ou criar/analisar variáveis que não tivemos tempo de fazer durante a execução deste trabalho. 
Você deve fornecer **detalhes** sobre como cada idéia seria abordada, especificando as técnicas e/ou metodologia a ser seguida.
Esta seção deve possuir ao menos 2500 caracteres (sem espaços).

```
Escreva sua resposta aqui.
```


# Último passsos

1. Salve este relatório como um jupyter notebook em formato `.ipynb`
2. Salve uma cópia deste relatório como um arquivo PDF, isto é, com extensão `.pdf`
3. Compacte ambos em um único arquivo com extensão ZIP no seguinte formato:(`analise-enron-primeiro_nome-ultimo_nome.zip`)
4. Envie o seu relatório para avaliação no ambiente virtual de aprendizagem