---

## Data Profiling - Perfil de Dados

### Sobre o Pandas Profiling:

#### Pandas Profiling é uma biblioteca de código aberto que pode gerar poderosos relatórios à partir de qualquer dataset, com apenas algumas linhas de código. Esses relatórios são gerados à partir do pandas Dataframe.

- Para cada coluna do dataset serão apresentados os seguintes dados estatísticos:


- Inferência do tipo de dado: Detecta os tipos de colunas em um dataframe.


- Descrição de variáveis: Descreve o tipo, valores ausentes, valores únicos/exclusivos e valores frequentes.


- Estatísticas dos quartis: Valores mínimos, Q1, média, Q3, máximo, variação.


- Estatística descritiva: Média, moda, desvio padrão, soma, coeficiente de variação kurtosis e skewness.


- Correlação entre variáveis aleatórias: Spearman, Pearson e Kendall.


- Cálculos: Count


- Descrição de arquivos de texto: Entenda as categorias (Uppercase, Space), scripts (Latin, Cyrillic) e blocos (ASCII) de textos.


- Descrição de arquivos de imagem: Tamanhos, data da criação, dimensões.

---

## Notas importantes

### Podem haver erros na instalação e/ou execução da biblioteca "pandas-profiling" devido a versões atuais dessa biblioteca com versões anteriores que essa biblioteca depende para sua devida execução.

### Somente realize a instalação das biblioteca que tiverem no nome "anaconda", caso esteja utilizando o Anaconda como plataforma de execução.

---

- Caso haja um erro na biblioteca "MarkupSafe==2.1.1", tentar realizar um downgrade com o comando "pip install MarkupSafe==2.0.1".


- Caso haja um erro na biblioteca "anaconda-project 0.10.2", tente executar o comando "pip install anaconda-project==0.10.2".


- Caso haja um erro na biblioteca "ruamel.yaml 0.17.21", tente executar o comando "pip install ruamel.yaml".


- Caso haja um erro na biblioteca "ruamel.yaml.clib 0.2.6", tente executar o comando "pip install ruamel.yaml.clib".


- Caso haja um erro na biblioteca "ruamel-yaml-conda 0.15.100", tente executar o comando "pip install ruamel-yaml-conda".


- Essas ações acima podem resolver ajudar a resolver possíveis erros e/ou problema.

---

---

### Dicas

- Aconselho realizar a instalação e execução do script em ambientes virtuais do Python, pois assim evitamos instalar bibliotecas que não utilizarem posteriormente e isolar as bibliotecas necessárias para utilização.


- Como criar e iniciar um ambiente virtual com Python ? Consulte o link: https://github.com/Phelipe-Sempreboni/python/blob/main/tutorials/creation%2C%20activation%20and%20use%20of%20virtualenv/documentation.md

---

## Instalação de bibliotecas.

### Só realize a instalação caso não tenha as bibliotecas instaladas.

### Veja o tópico "Dicas" no início deste Jupyter Notebook. 

In [1]:
# Instalação de bibliotecas.
# Notar que podem haver erros na instalação ou execução da biblioteca "pandas-profiling".
# Caso ocorram erros, atente para o "Notas importantes" no início desse Jupyter Notebook.

#%pip install pandas
#%pip install pandas-profiling

## Importe as bibliotecas abaixo que foram instaladas no passo anterior.

In [2]:
# Importando as bibliotecas pandas e pandas-profiling para gerar os resultados esperados do data profiling.
# Notar que iremos importar da biblioteca "pandas_profiling" a biblioteca "ProfileReport".

import pandas as pd
from pandas_profiling import ProfileReport

## Insira o arquivo em um data frame e realize sua leitura.

In [3]:
# Inserindo a base em um data frame do pandas e lendo o arquivo em formato csv.
# Notar que o arquivo está no mesmo repositório deste script, logo, só é necessário mencionar o nome do arquivo.

df = pd.read_csv('UCI_Credit_Card.csv',',')

print(df.head())

  exec(code_obj, self.user_global_ns, self.user_ns)


   ID  LIMIT_BAL  SEX  EDUCATION  MARRIAGE  AGE  PAY_0  PAY_2  PAY_3  PAY_4  \
0   1    20000.0    2          2         1   24      2      2     -1     -1   
1   2   120000.0    2          2         2   26     -1      2      0      0   
2   3    90000.0    2          2         2   34      0      0      0      0   
3   4    50000.0    2          2         1   37      0      0      0      0   
4   5    50000.0    1          2         1   57     -1      0     -1      0   

   ...  BILL_AMT4  BILL_AMT5  BILL_AMT6  PAY_AMT1  PAY_AMT2  PAY_AMT3  \
0  ...        0.0        0.0        0.0       0.0     689.0       0.0   
1  ...     3272.0     3455.0     3261.0       0.0    1000.0    1000.0   
2  ...    14331.0    14948.0    15549.0    1518.0    1500.0    1000.0   
3  ...    28314.0    28959.0    29547.0    2000.0    2019.0    1200.0   
4  ...    20940.0    19146.0    19131.0    2000.0   36681.0   10000.0   

   PAY_AMT4  PAY_AMT5  PAY_AMT6  default.payment.next.month  
0       0.0       0.0   

## Realize a geração do profiling.

In [3]:
# Gerando o profiling que foi nomeado como "report".
# Notar que neste ponto estamos somente gerando, e no passo abaixo iremos realmente conseguir enxergar o resultado.

report = ProfileReport(df, title="Profiling base",html={'style':{'full_width':True}})

## Realize a importação do profiling gerado para a visualização em HTML.

In [4]:
# Utilizando o comando "%timeit" para analisar quanto tempo irá demorar para a execução do comando.
# Realizando a exportação do profiling nomeado como "report". 

%timeit
report.to_file("profiling base.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

# Gerando o relatório direto no Jupyter Notebook

In [None]:
# Aqui iremos gerar o relatório diretamente na interface do Jupyter Notebook com o Pandas.
# Teste rodar no seu Jupyter Notebook, pois caso rode e fique aqui, o Github não conseguirá ler este Jupyter.

df.profile_report(title='profiling base direct generation in jupyter notebook with pandas')

# Relatório completo em modo Dark

In [9]:
# Gerando o profiling que foi nomeado como "report".
# Notar que neste ponto estamos somente gerando, e no passo abaixo iremos realmente conseguir enxergar o resultado.
# Este relatório será gerado no modo Dark, pode ser útil para pessoas com alguma deficiência na visão.

report_dark_mode = ProfileReport(df, title="Profiling base dark mode", dark_mode=True, html={'style':{'full_width':True}})

In [10]:
# Utilizando o comando "%timeit" para analisar quanto tempo irá demorar para a execução do comando.
# Realizando a exportação do profiling nomeado como "report". 

%timeit
report_dark_mode.to_file("profiling base dark mode.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

# Relatório completo explorativo

Este tipo de relatório é mais utilizado quando temos um datset com informações de texto e imagens, onde irá conter mais informações quando for gerado.

In [11]:
# Gerando o profiling que foi nomeado como "report".
# Notar que neste ponto estamos somente gerando, e no passo abaixo iremos realmente conseguir enxergar o resultado.
# Este relatório será gerado no modo Dark, pode ser útil para pessoas com alguma deficiência na visão.
# Este será um relatório com mais informações, mas como dito, é um tipo relatório quando temos textos e imagens.

report_explorative = ProfileReport(df, title="Profiling base explorative",explorative=True ,dark_mode=True, html={'style':{'full_width':True}})

In [12]:
# Utilizando o comando "%timeit" para analisar quanto tempo irá demorar para a execução do comando.
# Realizando a exportação do profiling nomeado como "report". 

%timeit
report_explorative.to_file("profiling base explorative.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

# Relatório Mínimo

Este tipo de relatório é mais utilizado quando queremos menos informações.

Podemos queremos menos informações por conta do consumo de memória.

Podemos queremos menos informações por conta do dataset ser muito grande.

Podemos queremos menos informações por conta de só queremos ver as variáveis no momento, entre outros.

In [14]:
# Gerando o profiling que foi nomeado como "report".
# Notar que neste ponto estamos somente gerando, e no passo abaixo iremos realmente conseguir enxergar o resultado.
# Este relatório será gerado no modo Dark, pode ser útil para pessoas com alguma deficiência na visão.
# Este será um relatório com mais informações, mas como dito, é um tipo relatório quando temos textos e imagens.

report_minimal = ProfileReport(df, title="Profiling base minimal",minimal=True ,dark_mode=True, html={'style':{'full_width':True}})

In [15]:
# Utilizando o comando "%timeit" para analisar quanto tempo irá demorar para a execução do comando.
# Realizando a exportação do profiling nomeado como "report". 

%timeit
report_minimal.to_file("profiling base minimal.html")

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

# Gerando o relatório à partir da variável para o Jupyter Notebook

In [None]:
# Aqui iremos utilizar a variável de geração do relatório para visualiza-lo direto no Jupyter Notebook.
# Teste rodar no seu Jupyter Notebook, pois caso rode e fique aqui, o Github não conseguirá ler este Jupyter.

report_minimal.to_notebook_iframe()

# Gerando o relatório à partir da variável para o Jupyter Notebook em janelas

In [None]:
# Aqui iremos utilizar a variável de geração do relatório para visualiza-lo direto no Jupyter Notebook.
# Neste caso conseguiremos enxergar no modo de janelas, para melhorar a visualização.
# Teste rodar no seu Jupyter Notebook, pois caso rode e fique aqui, o Github não conseguirá ler este Jupyter.

report_minimal.to_widgets()

# Gerando o relatório à partir da variável para o Jupyter Notebook em formato JSON

In [None]:
# Aqui iremos utilizar a variável de geração do relatório para visualiza-lo direto no Jupyter Notebook.
# Neste caso o formato de exibição será em formato JSON.
# Teste rodar no seu Jupyter Notebook, pois caso rode e fique aqui, o Github não conseguirá ler este Jupyter.

report_minimal.to_json()

# Definindo o número de Works, ou seja, o número de processadores da máquina que serão utilizados para geração do relatório

In [None]:
# Aqui iremos utilizar a variável de geração do relatório para visualiza-lo direto no Jupyter Notebook.
# Neste caso estamos definindo quantos processadores da máquina queremos utilizar na geração do relatório.
# Notar também que utilizamos o comando "progress_bar" para ocultar as barras de progresso que foram exibidas acima.

report_minimal = ProfileReport(df,
                               title="Profiling base minimal",
                               minimal=True,
                               dark_mode=True, 
                               pool_size=4,
                               progress_bar=False,
                               html={'style':{'full_width':True}})