### Glossário
- `BD`: sigla para Banco de Dados. Em inglês, `DB` para *Database*.
- `sqlalchemy`: biblioteca Python que suporta a conexão com diferentes tipos de BDs existentes.
- `pip`: ferramenta para instalar bibliotecas do Python
- `biblioteca`: É comum agruparmos vários processamentos de dados em uma biblioteca. Juntos, esses processamentos realizam determinadas tarefas, como visualizar ou interagir com os dados. Uma biblioteca pode ser desenvolvida por você ou por terceiros visando reaproveitar as mesmas manipulações em diferentes lugares.
- `GitHub`: um dos lugares mais utilizados por desenvolvedores de softwares para compartilhar códigos com a comunidade mundial.
- `pandas`: biblioteca para manipulação de tabelas, normalmente conhecidas como `dataframes`.
- `dataframes`: pode ser entendido como uma tabela de dados com linhas e colunas, como uma sheet/folha no Excel.
- `pd`: um apelido convencinado pela comunidade `pandas` para se referir ao `pandas` dentro de um código.
- `df`: uma abreviação de dataframe. É uma outra convenção da comunidade.

## Setup da fonte dos dados

- Antes de começar, certifique-se de seguir **um** dos dois passos para carregar os dados:
    - Via planilha:
        - Adicione o arquivo a este ambiente. Você pode clicar no ícone de "pasta de arquivos" na barra lateral esquerda para fazer o upload do arquivo.
        - Na célula a seguir, configure o nome do arquivo. Exemplo: `NOME_DO_EXCEL = 'Superloja.xls'`
    - Via conexão com o Banco de Dados:
        - Na célula a seguir, configure as credenciais fornecidas.
- Execute as células clicando no botão de play ao lado de cada uma, inclusive após configurar a célula a seguir.

In [None]:
from pathlib import Path

# Opção 1. Configure o nome do arquivo que você fez upload
NOME_DO_EXCEL = 'Superloja.xls'

# Opção 2. adicione as informações para se conectar ao banco de dados disponibilizado
credentials = {
    'drivername': 'mysql',
    'username'  : '',
    'password'  : '',
    'host'      : '',
    'port'      : '3306',
    'database'  : ''
}

credentials['password'] = quote(credentials['password'])
connect_url = sqlalchemy.engine.url.URL.create(**credentials)

In [None]:
if Path(NOME_DO_EXCEL).exists():
    # Caso o arquivo excel tenha sido carregado
    print(f"Arquivo '{NOME_DO_EXCEL}' existe e está pronto para ser carregado.")
elif all(value for value in credentials.values()):
    # Caso contrário, testamos para verificar se as credenciais do BD foram configuradas
    print("Todos os parâmetros de conexão foram configurados (a conexão ainda não foi testada).")
    print(f"Iremos nos conectar com '{connect_url}' (senha mascarada automaticamente).")
else:
    # Não encontramos nem o arquivo e nem todas as credenciais do BD
    print(f"Arquivo '{NOME_DO_EXCEL}' não existe, e as credenciais do BD não foram preenchidas!")

---

## Setup do ambiente

O código a seguir utiliza o comando `pip` para instalar a biblioteca [`pandas_profiling`](https://github.com/pandas-profiling/pandas-profiling), [`mysql-connector-python`](https://docs.sqlalchemy.org/en/14/dialects/mysql.html#module-sqlalchemy.dialects.mysql.mysqlconnector) e [`mysqlclient`](https://github.com/PyMySQL/mysqlclient).


In [None]:
%pip install --upgrade --quiet --quiet pandas_profiling
%pip install --upgrade --quiet --quiet mysql-connector-python mysqlclient

## Carregando o dataset

A sequência de comandos a seguir:

1. Carrega a biblioteca `pandas`, e sinaliza que queremos nos referir a ela pelo nome `pd`
2. Utiliza a biblioteca `pandas` para ler:
    2.1. Da planilha excel, caso ela tenha sido carregada localmente.
    2.2. Do banco de dados MySQL, caso a planilha não tenha sido carregada localmente e as credenciais tenham sido configuradas.
3. Armazena o dataframe com o nome temporário de `df`.

## Relatório inicial

- Vamos utilizar a biblioteca `pandas_profiling` para gerar automaticamente uma análise exploratória inicial.
- Após declaramos o uso da bibliteca com o comando `import`, ficará disponível o comando `profile_report`.

In [None]:
import pandas as pd

if Path(NOME_DO_EXCEL).exists():
    df = pd.read_excel(NOME_DO_EXCEL)
else:
    # Realizamos uma consulta a base de dados superloja, na tabela vendas
    df = pd.read_sql('SELECT * FROM superloja.vendas', str(connect_url))

In [None]:
import pandas_profiling

# Gerar relatório
profile = df.profile_report(title="Análise exploratória automatizada - Superloja")
# Salvar o relatório. Ele ficará disponível nos arquivos locais
profile.to_file("relatório.html")