<h1 style="font-size: 30px"> DESAFIO SANTANDER DEV WEEK 2023 </h1>

# 1. Introdu√ß√£o

O c√≥digo deste Notebook realiza a extra√ß√£o de dados de um banco de dados criado e aplica um processo de ETL (Extra√ß√£o, Transforma√ß√£o e Carregamento) com o objetivo de gerar valor a partir das informa√ß√µes dos usu√°rios. A finalidade principal √© fornecer mensagens personalizadas de investimento, oferecendo insights financeiros relevantes e estrat√©gias de economia adaptadas √† situa√ß√£o de cada usu√°rio.

# 2. Prepara√ß√£o dos Dados

O processo de prepara√ß√£o dos dados envolve a cria√ß√£o de um banco de dados e a inser√ß√£o de dados fict√≠cios nas tabelas correspondentes, representando usu√°rios, contas e cart√µes. Essa etapa simula um ambiente realista, permitindo a execu√ß√£o das opera√ß√µes de Extra√ß√£o, Transforma√ß√£o e Carregamento (ETL) em dados semelhantes aos reais. Isso viabiliza a gera√ß√£o de mensagens personalizadas de investimento com base em m√©tricas financeiras calculadas a partir dos dados inseridos, oferecendo insights valiosos aos usu√°rios.

## 2.1. SQLite

O Sistema de Gerenciamento de Banco de Dados (SGBD) escolhido foi o SQLite devido √† sua leveza e versatilidade para armazenar, gerenciar e recuperar dados. Sua natureza aut√¥noma elimina a necessidade de um servidor externo. Com suporte a consultas SQL, √≠ndices e transa√ß√µes, o SQLite atende √†s demandas do desafio, oferecendo efici√™ncia no gerenciamento de dados locais.

In [1]:
import sqlite3

## 2.2. Cria√ß√£o das Tabelas

O processo de cria√ß√£o das tabelas no banco de dados segue um fluxo bem definido. Primeiramente, s√£o elaboradas instru√ß√µes SQL que especificam a estrutura das tabelas, ent√£o √© estabelecida uma conex√£o com o banco de dados. Utilizando essa conex√£o, as tabelas s√£o criadas no banco de dados por meio da execu√ß√£o das instru√ß√µes.

### 2.2.1. Tabela: Users

A tabela `users` armazena informa√ß√µes b√°sicas sobre os usu√°rios, como um identificador √∫nico (id) e o nome do usu√°rio. Esta tabela √© a base de refer√™ncia para as outras tabelas, permitindo a associa√ß√£o de informa√ß√µes individuais com cada usu√°rio.

In [2]:
create_table_users = '''
    CREATE TABLE users (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        name VARCHAR(50)
    );
'''

### 2.2.2. Tabela: Accounts

A tabela `accounts` cont√©m detalhes das contas financeiras dos usu√°rios. Isso inclui informa√ß√µes como o n√∫mero da conta, a ag√™ncia banc√°ria, o saldo da conta e o ID do usu√°rio ao qual a conta pertence. A coluna `user_id` estabelece uma rela√ß√£o entre a conta e o usu√°rio correspondente na tabela `users`.

In [3]:
create_table_accounts = '''
    CREATE TABLE accounts (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        number VARCHAR(6) UNIQUE,
        agency VARCHAR(4),
        balance REAL,
        user_id INTEGER,
        FOREIGN KEY (user_id) REFERENCES users(id)
    );
'''

### 2.2.3. Tabela: Cards

A tabela `cards` armazena dados relacionados aos cart√µes de cr√©dito dos usu√°rios. Isso inclui o n√∫mero do cart√£o, a utiliza√ß√£o atual do cart√£o, o limite do cart√£o e o ID do usu√°rio associado. A coluna `account_id` estabelece uma rela√ß√£o entre o cart√£o e a conta correspondente na tabela `accounts`.

In [4]:
create_table_cards = '''
    CREATE TABLE cards (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        number VARCHAR(16) UNIQUE,
        usage REAL,
        card_limit REAL,
        account_id INTEGER,
        FOREIGN KEY (account_id) REFERENCES accounts(id)
    );
'''

### 2.2.4. Tabela: News

A tabela `news` armazena mensagens que ser√£o entregues aos usu√°rios. Cada registro na tabela inclui um ID exclusivo, o ID do usu√°rio associado √† mensagem e o conte√∫do da mensagem em si.

In [5]:
create_table_news = '''
    CREATE TABLE news (
        id INTEGER PRIMARY KEY AUTOINCREMENT,
        message TEXT,
        user_id INTEGER,
        FOREIGN KEY (user_id) REFERENCES users(id)
    );
'''

### 2.2.5. Criando as Tabelas no Banco

Uma vez que as instru√ß√µes SQL estejam definidas, √© realizada a conex√£o com o banco de dados `SDW2023.db` e a cria√ß√£o das tabelas, seguindo as instru√ß√µes predefinidas.

In [6]:
conn = sqlite3.connect('SDW2023.db')
cur = conn.cursor()
cur.execute(create_table_users)
cur.execute(create_table_accounts)
cur.execute(create_table_cards)
cur.execute(create_table_news)
conn.commit()
cur.close()
conn.close()

## 2.3. Inser√ß√£o dos Dados

### 2.3.1. Dados

Nesta etapa, s√£o definidos dados fict√≠cios que simulam um ambiente real. Os dados s√£o estruturados em listas de tuplas, onde cada lista representa uma tabela e cada tupla simula um registro correspondente. Cada tupla inclui informa√ß√µes pertinentes √†s entidades previamente definidas, como nomes de usu√°rios, n√∫meros de contas e n√∫meros de cart√µes.

√â importante ressaltar que, por enquanto, nenhuma informa√ß√£o ser√° atribu√≠da √† tabela `news`. Os dados a serem inseridos nessa tabela ser√£o tratados durante a fase de transforma√ß√£o dos dados.

A defini√ß√£o destes dados cobrem todas as variedades poss√≠veis dentro deste contexto banc√°rio:
- Usu√°rio com uma conta e nenhum cart√£o;
- Usu√°rio com uma conta e um ou dois cart√µes;
- Usu√°rio com duas contas e nenhum, um ou dois cart√µes para cada conta.

In [7]:
users = [
    ('Maria Alice Santos',),
    ('Ronaldo Nunes',),
    ('Paulo Moreira',),
    ('Ana Rodrigues',),
    ('Carlos Lima',),
    ('L√∫cia Almeida',),
    ('Fernando Sousa',),
    ('Mariana Costa',),
    ('Jos√© Silva',),
]

accounts = [
    ('000001', '0001', 100.0, 1),
    ('000002', '0002', 200.0, 2),
    ('000003', '0003', 300.0, 3),
    ('000004', '0003', 400.0, 3),
    ('000005', '0001', 500.0, 4),
    ('000006', '0001', 600.0, 4),
    ('000007', '0002', 700.0, 5),
    ('000008', '0002', 800.0, 5),
    ('000009', '0003', 900.0, 6),
    ('000010', '0004', 1000.0, 7),
    ('000011', '0004', 1100.0, 7),
    ('000012', '0002', 1200.0, 8),
    ('000013', '0002', 1300.0, 8),
    ('000014', '0001', 1400.0, 9),
    ('000015', '0001', 1500.0, 9),
]

cards = [
    ('**** **** **** 0001', 1000.0, 1000.0, 2),
    ('**** **** **** 0002', 1000.0, 1500.0, 5),
    ('**** **** **** 0003', 1000.0, 2000.0, 7),
    ('**** **** **** 0004', 1000.0, 2500.0, 8),
    ('**** **** **** 0005', 1000.0, 3000.0, 9),
    ('**** **** **** 0006', 500.0, 500.0, 9),
    ('**** **** **** 0007', 500.0, 1000.0, 10),
    ('**** **** **** 0008', 500.0, 1500.0, 10),
    ('**** **** **** 0009', 500.0, 2000.0, 11),
    ('**** **** **** 0010', 500.0, 2500.0, 11),
    ('**** **** **** 0011', 500.0, 3000.0, 12),
    ('**** **** **** 0012', 250.0, 250.0, 12),
    ('**** **** **** 0013', 250.0, 500.0, 13),
    ('**** **** **** 0014', 250.0, 750.0, 15),
    ('**** **** **** 0015', 250.0, 1000.0, 15),
]

### 2.3.2. Inser√ß√£o dos Dados no Banco

Com os dados estruturados, √© feita uma nova conex√£o com o banco. Utilizando um cursor, ele itera pelas listas de usuarios, contas e cart√µes, executando instru√ß√µes SQL para inserir os dados definidos nas tabelas correspondentes, finalizando a etapa de prepara√ß√£o dos dados.

In [8]:
conn = sqlite3.connect('SDW2023.db')
cur = conn.cursor()

for user in users:
    cur.execute('INSERT INTO users (name) VALUES (?)', user)

for account in accounts:
    cur.execute('INSERT INTO accounts (number, agency, balance, user_id) VALUES (?, ?, ?, ?)', account)

for card in cards:
    cur.execute('INSERT INTO cards (number, usage, card_limit, account_id) VALUES (?, ?, ?, ?)', card)

conn.commit()
conn.close()

# 3. Extra√ß√£o, Transforma√ß√£o e Carregamento

O processo de ETL neste desafio √© iniciado com a extra√ß√£o de dados das tabelas SQL. Na etapa subsequente, os dados passam por uma transforma√ß√£o para agregar valor aos dados atrav√©s de mensagens com estrat√©gias de economia. Por fim, as mensagens personalizadas s√£o carregadas na tabela news, que podem ser consumidas por um sistema de envio de mensagens aos usu√°rios.

Para realizar esse processo, ser√° utilizada a biblioteca `pandas`, que possibilita a manipula√ß√£o e an√°lise eficiente dos dados.

In [9]:
import pandas as pd

## 3.1. Extra√ß√£o

Nessa etapa, os dados s√£o extra√≠dos das tabelas SQL por meio de uma consulta SQL elaborada para unir informa√ß√µes relevantes de diferentes tabelas. A biblioteca `pandas` √© usada para transformar os resultados em um `DataFrame`, permitindo a an√°lise e manipula√ß√£o eficaz dos dados. O processo resulta na visualiza√ß√£o tabular dos dados extra√≠dos, fornecendo a base para as etapas seguintes de transforma√ß√£o.

In [10]:
query = '''
    SELECT u.id AS user_id, u.name AS username, c.id AS card_id, c.number AS card_number, c.usage AS card_usage, c.card_limit
    FROM users u
    JOIN accounts a ON u.id = a.user_id
    FULL JOIN cards c ON a.id = c.account_id
'''

conn = sqlite3.connect('SDW2023.db')
df = pd.read_sql(query, conn)
conn.close()

display(df)

Unnamed: 0,user_id,username,card_id,card_number,card_usage,card_limit
0,1,Maria Alice Santos,,,,
1,2,Ronaldo Nunes,1.0,**** **** **** 0001,1000.0,1000.0
2,3,Paulo Moreira,,,,
3,3,Paulo Moreira,,,,
4,4,Ana Rodrigues,2.0,**** **** **** 0002,1000.0,1500.0
5,4,Ana Rodrigues,,,,
6,5,Carlos Lima,3.0,**** **** **** 0003,1000.0,2000.0
7,5,Carlos Lima,4.0,**** **** **** 0004,1000.0,2500.0
8,6,L√∫cia Almeida,5.0,**** **** **** 0005,1000.0,3000.0
9,6,L√∫cia Almeida,6.0,**** **** **** 0006,500.0,500.0


# 3.2.Transforma√ß√£o

Para a transforma√ß√£o, √© gerado valor atrav√©s da verifica√ß√£o da porcentagem de uso do cart√£o de cr√©dito do usu√°rio, com o prop√≥sito de atribuir uma mensagem de alerta personalizada com base em seu padr√£o de uso.

### 3.2.1. Nova Coluna: Porcentagem de Uso do Cart√£o
Inicialmente, √© calculada a porcentagem de uso do cart√£o para cada usu√°rio. O resultado √© arredondado para duas casas decimais e armazenado na nova coluna `card_usage_percentage`. Isso proporciona uma vis√£o clara da rela√ß√£o entre o uso do cart√£o e o limite dispon√≠vel para cada usu√°rio.

In [11]:
df['card_usage_percentage'] = round(df['card_usage']/df['card_limit'], 2)

### 3.2.2. Fun√ß√£o: Generate Alert
Posteriormente, a fun√ß√£o `generate_alert` √© empregada para criar mensagens de alerta personalizadas. Essas mensagens variam conforme a porcentagem de uso do cart√£o, abrangendo diversos cen√°rios de uso. Cada alerta oferece uma recomenda√ß√£o ou conselho pertinente, orientando o usu√°rio com base na porcentagem de uso espec√≠fica. Na fun√ß√£o, espera-se na entrada uma tupla de 3 posi√ß√µes, com a porcentagem de uso do cart√£o, o primeiro nome do usu√°rio e os √∫ltimos d√≠gitos do cart√£o, respectivamente.

In [12]:
def generate_alert(user_inputs):
    
    usage_percentage = user_inputs[0]
    user_first_name = user_inputs[1]
    card_number_last_digits = user_inputs[2]
    
    if pd.isna(usage_percentage) is True:
        return f"üåü Hey {user_first_name}, que tal aproveitar nossos incr√≠veis cart√µes de cr√©dito? Eles podem tornar suas compras ainda mais especiais!"
    
    alerts = [
        (1.0, f"‚ö†Ô∏è {user_first_name}, alerta importante! Seu cart√£o com final {card_number_last_digits} atingiu ou ultrapassou o limite. Hora de dar um respiro nos gastos! Avalie seus gastos recentes e crie um plano para evitar excessos futuros."),
        (0.9, f"üõë Aten√ß√£o, {user_first_name}! Voc√™ est√° quase no limite! Vamos diminuir o ritmo para manter tudo sob controle. Dica: Analise suas transa√ß√µes e identifique √°reas onde pode cortar gastos desnecess√°rios."),
        (0.8, f"üì¢ Ei, {user_first_name}, a gente percebeu que voc√™ est√° usando bastante seu cart√£o. Vamos dar um check nos gastos? Lembrete: Criar um or√ßamento pode ajudar a gerenciar suas despesas de forma eficiente."),
        (0.6, f"üîç {user_first_name}, seus gastos est√£o moderados. Que tal dar uma olhada nas despesas para manter tudo nos eixos? Dica: Revisar suas transa√ß√µes pode ajudar a identificar oportunidades de economia."),
        (0.4, f"üí° {user_first_name}, √≥timo equil√≠brio nos gastos! Continue assim e sua conta vai sorrir de alegria! Sugest√£o: Considere criar um plano de economia para investir o dinheiro economizado."),
        (0.2, f"üöÄ {user_first_name}, voc√™ est√° abaixo do limite! Mantenha o ritmo e continue controlando seus gastos com maestria! Dica: Explore op√ß√µes de investimento para aumentar seus ganhos."),
        (0.0, f"üåà {user_first_name}, seus gastos est√£o √≥timos! Continue assim e seu cart√£o vai ficar muito feliz com voc√™! Sugest√£o: Mantenha um registro das suas economias para acompanhar seu progresso.")
    ]
    
    for limit, message in alerts:
        if usage_percentage >= limit:
            return message
    
    return None

### 3.2.3. Fun√ß√£o: Get Inputs
A fun√ß√£o get_inputs extrai informa√ß√µes relevantes para a gera√ß√£o de alertas a partir do `DataFrame` com base no `user_id`. Esses dados incluem a porcentagem m√°xima de uso do cart√£o, o primeiro nome do usu√°rio e os d√≠gitos finais do n√∫mero do cart√£o, que s√£o os dados de entrada da fun√ß√£o `generate_alert`.

In [13]:
def get_inputs(df, user_id):

    user_data = df[df['user_id'] == user_id]
    max_usage_pct = user_data['card_usage_percentage'].max()
    
    if pd.isna(max_usage_pct):
        user_id = user_data['user_id'].iloc[0]
        user_first_name = user_data['username'].iloc[0].split()[0]
        card_number_last_digits = user_data['card_number'].iloc[0]
    else:
        max_row = user_data[user_data['card_usage_percentage'] == max_usage_pct].iloc[0]
        user_id = max_row['user_id']
        user_first_name = max_row['username'].split()[0]
        card_number_last_digits = max_row['card_number'].split()[-1]
    
    return (max_usage_pct, user_first_name, card_number_last_digits)

### 3.2.4. Itera√ß√£o e Prepara√ß√£o Para o Carregamento
Neste est√°gio final da transforma√ß√£o, ocorre a itera√ß√£o pelos `user_id` √∫nicos no `DataFrame`. Para cada `user_id`, um alerta √© gerado usando a fun√ß√£o `generate_alert`, e os dados necess√°rios s√£o obtidos por meio da fun√ß√£o `get_inputs`. Esses dados s√£o ent√£o agregados a uma lista chamada `data_to_load`, que resulta em pares de `user_id` e alertas personalizados. A lista `data_to_load` √© o conjunto final de dados pronto para ser carregado no banco de dados.

In [14]:
data_to_load = []

for user_id in df['user_id'].unique():
    data_to_load.append((user_id, generate_alert(get_inputs(df, user_id))))

# 3.3. Carregamento

### 3.3.1. Instru√ß√£o de Inser√ß√£o
A instru√ß√£o SQL `insert_news` √© definida para inserir os dados de `user_id` e `mensagem` na tabela news.

In [15]:
insert_news = "INSERT INTO news(user_id, message) VALUES (?, ?)"

### 3.3.2. Carregando os Dados no Banco de Dados
Nesta etapa, os pares `user_id` e `message` s√£o carregados na tabela `news`. Atrav√©s da instru√ß√£o `insert_news`, os dados da lista `data_to_load` s√£o inseridos no banco de dados, assegurando que os alertas personalizados sejam associados aos respectivos usu√°rios e, ainda, possam ser utilizados por outro processo do sistema para envi√°-las aos usu√°rios.

In [16]:
conn = sqlite3.connect('SDW2023.db')
cur = conn.cursor()

for data in data_to_load:
    cur.execute(insert_news, (int(data[0]), data[1]))

conn.commit()
cur.close()
conn.close()

### 3.3.3. Visualizando Resultados

Para finalizar o processo, visualizamos o carregamento atrav√©s da execu√ß√£o de uma consulta SQL.

In [17]:
query = '''
    SELECT u.id AS user_id, u.name AS username, n.message as message
    FROM users u
    JOIN news n ON u.id = n.user_id
'''

conn = sqlite3.connect('SDW2023.db')
df = pd.read_sql(query, conn)
conn.close()

display(df)

Unnamed: 0,user_id,username,message
0,1,Maria Alice Santos,"üåü Hey Maria, que tal aproveitar nossos incr√≠ve..."
1,2,Ronaldo Nunes,"‚ö†Ô∏è Ronaldo, alerta importante! Seu cart√£o com ..."
2,3,Paulo Moreira,"üåü Hey Paulo, que tal aproveitar nossos incr√≠ve..."
3,4,Ana Rodrigues,"üîç Ana, seus gastos est√£o moderados. Que tal da..."
4,5,Carlos Lima,"üí° Carlos, √≥timo equil√≠brio nos gastos! Continu..."
5,6,L√∫cia Almeida,"‚ö†Ô∏è L√∫cia, alerta importante! Seu cart√£o com fi..."
6,7,Fernando Sousa,"üí° Fernando, √≥timo equil√≠brio nos gastos! Conti..."
7,8,Mariana Costa,"‚ö†Ô∏è Mariana, alerta importante! Seu cart√£o com ..."
8,9,Jos√© Silva,"üöÄ Jos√©, voc√™ est√° abaixo do limite! Mantenha o..."


# 5. Conclus√£o
A conclus√£o do desafio de ETL da <b>Santander Dev Week 2023</b> representa uma conquista s√≥lida na jornada de manipula√ß√£o de dados. Cada etapa, desde a extra√ß√£o at√© o carregamento nos bancos de dados, foi abordada com dilig√™ncia e organiza√ß√£o.

A transforma√ß√£o dos dados brutos resultou em alertas personalizados, fornecendo informa√ß√µes valiosas para os usu√°rios tomarem decis√µes informadas sobre o uso de seus cart√µes de cr√©dito.