# ETL Case ClassApp

## Importa as bibliotecas necessárias

In [2]:
import pandas as pd
import psycopg2
from sqlalchemy import create_engine, inspect
import requests
from google.colab import files
import io

## Importa as bases do excel e guarda cada uma em um dataframe pandas

In [9]:
uploaded = files.upload()
base = list(uploaded.keys())[0]
df_escolas_geral_original = pd.read_excel(io.BytesIO(uploaded[base]),sheet_name="BASE ESCOLAS GERAL")
novo_nome_colunas_geral = {'Cliente': 'cliente', 'Go live (Data de Inauguração)': 'data_inauguracao', 'Alunos ativos': 'alunos_ativos', 'ADESÃO':'adesao', 'TAXA DE LEITURA':'taxa_de_leitura', 
                     'QTD MSGS ENVIADAS POR ALUNO POR DIA':'qtd_msgs_enviadas_por_aluno_por_dia','QTD MSGS RECEBIDAS POR ALUNO POR DIA':'qtd_msgs_recebidas_por_aluno_por_dia'}

df_escolas_geral = df_escolas_geral_original.rename(columns=novo_nome_colunas_geral)

In [10]:
df_escolas_churn_original = pd.read_excel(io.BytesIO(uploaded[base]),sheet_name="BASE ESCOLAS CHURN")
novo_nome_colunas_churn = {'Cliente': 'cliente', 'Quantidade de alunos': 'qtd_alunos', 'Go live (Data de Inauguração)': 'data_inauguracao', 'Data do pedido de cancelamento':'data_pedido_cancelamento',
                     'Motivo Cancelamento':'motivo_cancelamento','Concorrente':'concorrente','TAXA DE ADESÃO':'adesao','TAXA DE LEITURA':'taxa_de_leitura',
                     'QTD MSGS ENVIADAS POR ALUNO POR DIA':'qtd_msgs_enviadas_por_aluno_por_dia','QTD MSGS RECEBIDAS POR ALUNO POR DIA':'qtd_msgs_recebidas_por_aluno_por_dia'}

df_escolas_churn = df_escolas_churn_original.rename(columns=novo_nome_colunas_churn)

## Ajusta o tipo de dado de cada coluna

In [11]:
df_escolas_geral['cliente'] = df_escolas_geral['cliente'].astype('string')
df_escolas_geral['data_inauguracao'] = pd.to_datetime(df_escolas_geral['data_inauguracao'], errors='coerce').dt.date
df_escolas_geral['alunos_ativos'] = df_escolas_geral['alunos_ativos'].astype('Int64')
df_escolas_geral['adesao'] = pd.to_numeric(df_escolas_geral['adesao'], errors='coerce')
df_escolas_geral['taxa_de_leitura'] = pd.to_numeric(df_escolas_geral['taxa_de_leitura'], errors='coerce')
df_escolas_geral['qtd_msgs_enviadas_por_aluno_por_dia'] = pd.to_numeric(df_escolas_geral['qtd_msgs_enviadas_por_aluno_por_dia'], errors='coerce')
df_escolas_geral['qtd_msgs_recebidas_por_aluno_por_dia'] = pd.to_numeric(df_escolas_geral['qtd_msgs_recebidas_por_aluno_por_dia'], errors='coerce')

In [12]:
df_escolas_churn['cliente'] = df_escolas_churn['cliente'].astype('string')
df_escolas_churn['qtd_alunos'] = pd.to_numeric(df_escolas_churn['qtd_alunos'], errors='coerce').astype('Int64')
df_escolas_churn['data_inauguracao'] = pd.to_datetime(df_escolas_churn['data_inauguracao'], errors='coerce').dt.date
df_escolas_churn['data_pedido_cancelamento'] = pd.to_datetime(df_escolas_churn['data_pedido_cancelamento'], errors='coerce').dt.date
df_escolas_churn['motivo_cancelamento'] = df_escolas_churn['motivo_cancelamento'].astype('string')
df_escolas_churn['concorrente'] = df_escolas_churn['concorrente'].astype('string')
df_escolas_churn['adesao'] = pd.to_numeric(df_escolas_churn['adesao'], errors='coerce')
df_escolas_churn['taxa_de_leitura'] = pd.to_numeric(df_escolas_churn['taxa_de_leitura'], errors='coerce')
df_escolas_churn['qtd_msgs_enviadas_por_aluno_por_dia'] = pd.to_numeric(df_escolas_churn['qtd_msgs_enviadas_por_aluno_por_dia'], errors='coerce')
df_escolas_churn['qtd_msgs_recebidas_por_aluno_por_dia'] = pd.to_numeric(df_escolas_churn['qtd_msgs_recebidas_por_aluno_por_dia'], errors='coerce')

## Cria um novo dataframe combinando ambos e calculando métricas adicionais

In [None]:
df_escolas_geral['meses'] = ((datetime.now() - df_escolas_geral['data_inauguracao']).dt.days / 30).astype(int)
df_escolas_churn['meses'] = ((df_escolas_churn['data_pedido_cancelamento'] - df_escolas_churn['data_inauguracao']).dt.days / 30)
df_escolas_churn.loc[~df_escolas_churn['meses'].isna(), 'meses'] = df_escolas_churn.loc[~df_escolas_churn['meses'].isna(), 'meses'].astype(int)

df_ativas_churn_info = df_escolas_geral[['cliente', 'data_inauguracao', 'alunos_ativos', 'adesao', 'taxa_de_leitura',
                                         'qtd_msgs_enviadas_por_aluno_por_dia', 'qtd_msgs_recebidas_por_aluno_por_dia',
                                         'meses']].copy()
df_ativas_churn_info['motivo_cancelamento'] = 'Ativa'

df_churn = df_escolas_churn[['cliente', 'data_inauguracao', 'qtd_alunos', 'adesao', 'taxa_de_leitura',
                             'qtd_msgs_enviadas_por_aluno_por_dia', 'qtd_msgs_recebidas_por_aluno_por_dia',
                             'motivo_cancelamento', 'meses']].copy()
df_churn = df_churn.rename(columns={'qtd_alunos': 'alunos_ativos'})

df_ativas_churn_info = pd.concat([df_ativas_churn_info, df_churn], ignore_index=True)

## Conecta com o banco de dados e insere os dados das duas abas em 2 tabelas distintas

### Conectando ao banco

In [13]:
conn = psycopg2.connect(
    host="case-classapp.ctaqq2g6ke93.us-east-1.rds.amazonaws.com",
    database="case_classapp",
    user="postgres",
    password="Santos192013",
    port=5439
)

### Iniciando os objetos de engine de interação com o banco e o inspetor para verificar condições do banco

In [14]:
engine = create_engine('postgresql+psycopg2://postgres:Santos192013@case-classapp.ctaqq2g6ke93.us-east-1.rds.amazonaws.com:5439/case_classapp')
inspector = inspect(engine)

### Tabela base_escolas_geral

In [15]:
tabela_existe = inspector.has_table('base_escolas_geral')

if not tabela_existe:
    df_escolas_geral.to_sql('base_escolas_geral', engine, index=False)
else:
    df_escolas_geral.to_sql('base_escolas_geral', engine, if_exists='replace', index=False)

### Tabela base_escolas_churn

In [16]:
tabela_existe = inspector.has_table('base_escolas_churn')

if not tabela_existe:
    df_escolas_churn.to_sql('base_escolas_churn', engine, index=False)
else:
    df_escolas_churn.to_sql('base_escolas_churn', engine, if_exists='replace', index=False)

### Tabela base_escolas_combinadas

In [None]:
tabela_existe = inspector.has_table('base_escolas_combinadas')

if not tabela_existe:
    df_ativas_churn_info.to_sql('base_escolas_combinadas', engine, index=False)
else:
    df_ativas_churn_info.to_sql('base_escolas_combinadas', engine, if_exists='replace', index=False)

## Sincroniza o Metabase com as novas tabelas

In [3]:
sync_schema_url = f"http://184.73.144.56:3000/api/database/2/sync_schema"

headers = {
    "Content-Type": "application/json",
    "X-api-key": 'mb_44KP8ShaO3wC2gkjjDcT1KUGLP2L6oJsPD580dkdnx8='
}

response = requests.post(sync_schema_url, headers=headers)
print(response)

<Response [200]>
