# Manipulando Dados com SQL

In [None]:
import sqlite3
import pandas as pd

## Conexão
O que são **Funções Mágicas?**

As funções mágicas no Jupyter Notebook são comandos que começam com um ou dois sinais de porcentagem (% ou %%) e fornecem funcionalidades adicionais que não são parte da linguagem principal do notebook (como Python).

Elas são divididas em dois tipos principais:
- Line Magics (%): Afetam apenas a linha onde são usadas.
- Cell Magics (%%): Afetam toda a célula onde são usadas.

Para trabalhar com **SQL** dentro de um Jupyter Notebook, a extensão **ipython-sql** é amplamente utilizada.

Ela fornece as funções mágicas %sql e %%sql, que permitem conectar-se a bancos de dados SQL e executar consultas diretamente no notebook.

In [None]:
# !pip install ipython-sql

In [None]:
# Magic func
%load_ext sql
%sql sqlite:////content/drive/MyDrive/SQLITE/banco.db

## Explorar

### Exercício:

Selecione todas as linhas e colunas da tabela sqlite_schema e examine a saída.

Quantas tabelas há no banco de dados banco.db?

Que informações elas contêm?

In [None]:
%%sql
SELECT * FROM sqlite_schema

### Exercício:
Selecione a coluna `name` da tabela `sqlite_schema`, mostrando apenas as linhas onde o **`type`** é `"table"`.


In [None]:
%%sql

### Exercício:
Selecione todas as colunas da tabela id_map, limitando seus resultados às primeiras cinco linhas.

Como os dados estão organizados? Que tipo de observação cada linha representa? Como você acha que as colunas household_id, building_id, vdcmun_id e district_id estão relacionadas entre si?

In [None]:
%%sql


### Exercício:

Quantas observações há na tabela `id_map`? Use o comando `count` para descobrir.


In [None]:
%%sql

### Exercício:

Quais distritos estão representados na tabela `id_map`? Use o comando `distinct` para determinar os valores únicos na coluna **`district_id`**.

In [None]:
%%sql


### Exercício:
Quantos prédios existem na tabela `id_map`? Combine os comandos `count` e `distinct` para calcular o número de valores únicos na coluna **`building_id`**.

In [None]:
%%sql


### Exercício:

Para o nosso modelo, vamos focar em Gorkha (distrito `4`). Selecione todas as colunas da tabela `id_map`, mostrando apenas as linhas onde o **`district_id`** é `4` e limitando seus resultados às primeiras cinco linhas.

In [None]:
%%sql


### Exercício:
Quantas observações na tabela `id_map` vêm de Gorkha? Use os comandos `count` e `WHERE` juntos para calcular a resposta.

In [None]:
%%sql

### Exercício:
Quantos prédios na tabela `id_map` estão em Gorkha? Combine os comandos `count` e `distinct` para calcular o número de valores únicos na coluna **`building_id`**, considerando apenas as linhas onde o **`district_id`** é `4`.


In [None]:
%%sql

### Exercício:
Selecione todas as colunas da tabela building_structure e limite seus resultados às primeiras cinco linhas.

Que informações estão nesta tabela? O que cada linha representa? Como isso se relaciona com as informações na tabela id_map?

In [None]:
%%sql


### Exercício:
Quantos prédios existem na tabela building_structure? Use o comando count para descobrir.

In [None]:
%%sql


### Exercício:
Existem mais de 200.000 prédios na tabela `building_structure`, mas como podemos recuperar apenas os prédios que estão em Gorkha?

Use o comando `JOIN` para juntar as tabelas `id_map` e `building_structure`, mostrando apenas os prédios onde o **`district_id`** é `4` e limitando seus resultados às primeiras cinco linhas da nova tabela.

In [None]:
%%sql

Na tabela que acabamos de criar, cada linha representa um lar único em Gorkha. Como podemos criar uma tabela onde cada linha representa um prédio único?

### Exercício:

Use o comando `distinct` para criar uma coluna com todos os IDs de prédios únicos na tabela `id_map`.

Junte essa coluna com todas as colunas da tabela `building_structure`, mostrando apenas os prédios onde o **`district_id`** é `4` e limitando seus resultados às primeiras cinco linhas da nova tabela.

In [None]:
%%sql


Combinamos as tabelas `id_map` e `building_structure` para criar uma tabela com todos os prédios em Gorkha, mas a última peça de dados necessária para nosso modelo, o dano que cada prédio sofreu durante o terremoto, está na tabela `building_damage`.

### Exercicio:
Como podemos combinar todas as três tabelas? Usando a consulta que você criou na última tarefa como base, inclua a coluna **`damage_grade`** à sua tabela adicionando um segundo `JOIN` para a tabela `building_damage`. Certifique-se de limitar seus resultados às primeiras cinco linhas da nova tabela.


In [None]:
%%sql


## Importação

### Exercício:

Use o método `connect` da biblioteca sqlite3 para se conectar ao banco de dados.


In [None]:
conn = sqlite3.connect('')
type(conn)

### Exercício:
Coloque sua última consulta SQL em uma string e atribua-a à variável `query`.

In [None]:
query = """

"""
print(query)

### Exercício:
Use o read_sql da biblioteca pandas para criar um DataFrame a partir de sua query. Certifique-se de que o building_id esteja definido como sua coluna de índice.

__Dica:__ Sua tabela pode ter duas colunas `building_id`, e isso tornará difícil definir como a coluna de índice para seu DataFrame.

Se você enfrentar esse problema, adicione um `alias` para uma das colunas `building_id` em sua consulta usando `AS`

In [None]:
df = pd.read_sql(query, conn)
df.head()

# Previsão de Dano com Regressão Logística

In [None]:
# !pip install category_encoders

In [None]:
import sqlite3
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline, make_pipeline
from category_encoders import OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Preparando Dados

## Import

In [None]:
def wrangle(db_path):
    # Connect to database
    conn = sqlite3.connect(db_path)

    # Construct query
    query = """
        SELECT distinct(i.building_id) AS b_id,
           s.*,
           d.damage_grade
        FROM id_map AS i
        JOIN building_structure AS s ON i.building_id = s.building_id
        JOIN building_damage AS d ON i.building_id = d.building_id
        WHERE district_id = 4
    """

    # Read query results into DataFrame
    df = ...

    return df

### Exercício:
Complete a função `wrangle` acima para que ela retorne os resultados de `query` como um DataFrame. Certifique-se de que a coluna de índice esteja definida como `"b_id"`. Além disso, o caminho para o banco de dados SQLite é `"banco.db"`.


In [None]:
df = wrangle("")
df.head(15)

Parece haver várias características em `df` com informações sobre a condição de uma propriedade após o terremoto.

### Exercício:
Adicione à sua função `wrangle` para que essas características sejam removidas do DataFrame. Não se esqueça de reexecutar todas as células acima.


In [None]:
print(df.info())

Queremos construir um modelo de **classificação binária**, mas nosso alvo atual, `"damage_grade"`, possui mais de duas categorias.

### Exercício:
Adicione à sua função `wrangle` para que ela crie uma nova coluna de alvo chamada `"severe_damage"`. Para os prédios onde o `"damage_grade"` é Grade 4 ou acima, `"severe_damage"` deve ser `1`. Para todos os outros prédios, `"severe_damage"` deve ser `0`. Não se esqueça de remover `"damage_grade"` para evitar vazamento de dados e reexecute todas as células acima.

In [None]:
print(df["severe_damage"].value_counts())

## Explorar

Como nosso modelo será um tipo de modelo linear, precisamos garantir que não haja problemas de multicolinearidade em nosso conjunto de dados.

### Exercício:
Plote um mapa de calor de correlação das características numéricas restantes em df. Como "severe_damage" será seu alvo, você não precisa incluí-lo no mapa de calor.

Você vê alguma característica que precisa ser removida?

### Exercício:
Altere a função `wrangle` para que ela remova a coluna `"count_floors_pre_eq"`. Não se esqueça de reexecutar todas as células acima.


Antes de construirmos nosso modelo, vamos ver se conseguimos identificar alguma diferença óbvia entre as casas que foram severamente danificadas no terremoto (`"severe_damage"==1`) e aquelas que não foram (`"severe_damage"==0`). Vamos começar com uma característica numérica.

### Exercício:

Use o seaborn para criar um boxplot que mostre as distribuições da coluna `"height_ft_pre_eq"` para ambos os grupos na coluna `"severe_damage"`. Lembre-se de rotular seus eixos.


Antes de avançarmos para as muitas características categóricas neste conjunto de dados, é uma boa ideia verificar o equilíbrio entre nossas duas classes. Qual é a porcentagem de prédios que foram severamente danificados e qual é a porcentagem que não foram?

### Exercício:
Crie um gráfico de barras dos valores contados na coluna `"severe_damage"`. Você quer calcular as frequências relativas das classes, não a contagem bruta, então não se esqueça de definir o argumento `normalize` como `True`.


### Exercício:
Crie duas variáveis, `majority_class_prop` e `minority_class_prop`, para armazenar os valores contados normalizados para as duas classes em `df["severe_damage"]`.


# Tabla Pivot

Uma tabela pivot (ou tabela dinâmica) em Pandas é uma estrutura de dados que permite resumir e reorganizar dados de um DataFrame, facilitando a análise de informações.

Ela é frequentemente usada para __agregar dados e visualizar relações entre variáveis.__

Criação de uma Tabela Pivot em Pandas:
- Para criar uma tabela pivot, você pode usar o método pivot_table().

 A função permite especificar:

  - data: O DataFrame que você está utilizando.

  - index: As colunas que você deseja usar como índice (linhas).

  - columns: As colunas que você deseja usar como colunas (cabeçalhos).

  - values: Os dados que você deseja agregar.
  
  - aggfunc: A função de agregação a ser utilizada (como mean, sum, etc.).

### Exercício:
Será que os edifícios com certos tipos de fundação são mais propensos a sofrer danos severos? Crie uma tabela dinâmica de `df` onde o índice é `"foundation_type"` e os valores vêm da coluna `"severe_damage"`, agregados pela média.


### Exercício:
Como as proporções em `foundation_pivot` se comparam às proporções de nossas classes majoritária e minoritária? Plote `foundation_pivot` como um gráfico de barras horizontal, adicionando linhas verticais nos valores para `majority_class_prop` e `minority_class_prop`.


### Exercício:
Combine os métodos `select_dtypes` e `nunique` para verificar se há características categóricas de alta ou baixa cardinalidade no conjunto de dados.


## Dividir

### Exercício:
Crie sua matriz de características `X` e o vetor de alvo `y`. Seu alvo é `"severe_damage"`.


### Exercício:
Divida seus dados (`X` e `y`) em conjuntos de treinamento e teste usando uma divisão aleatória de treino-teste. Seu conjunto de teste deve ser 20% do seu total de dados. E não se esqueça de definir um `random_state` para garantir a reprodutibilidade.

In [None]:
X_train, X_test, y_train, y_test = train_test_split()

print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

<div class="alert alert-block alert-info">
    <p><b>Pergunta Frequente:</b> Por que definimos o estado aleatório como <code>42</code>?</p>
    <p><b>Resposta:</b> A verdade é que você pode escolher qualquer inteiro ao definir um estado aleatório. O número que você escolher não afeta os resultados do seu projeto; ele apenas garante que seu trabalho seja reprodutível para que outros possam verificá-lo. No entanto, muitas pessoas escolhem <code>42</code> porque aparece em uma obra de ficção científica bem conhecida chamada <a href='https://en.wikipedia.org/wiki/42_(number)#The_Hitchhiker's_Guide_to_the_Galaxy'>O Guia do Mochileiro das Galáxias</a>. Em resumo, é uma piada interna. 😉</p>
</div>

# Contruindo Model

## Baseline

### Exercício:
Calcule a pontuação de precisão de referência para o seu modelo.

In [None]:
acc_baseline = ...
print("Baseline Accuracy:", round(acc_baseline, 2))

## Iterar

### Exercício:
Crie um pipeline chamado `model` que contenha um transformador `OneHotEncoder` e um preditor `LogisticRegression`. Certifique-se de definir o argumento `use_cat_names` para o seu transformador como `True`. Em seguida, ajuste-o aos dados de treinamento.

__Dica:__ Se você receber um <code>ConvergenceWarning</code> ao ajustar seu modelo aos dados de treinamento, não se preocupe. Isso pode acontecer às vezes com modelos de regressão logística.

Tente definir o argumento <code>max_iter</code> em seu preditor como <code>1000</code>.
</div>

In [None]:
# Build model
model = ...

## Avaliar

### Exercício:
Calcule as pontuações de precisão para treinamento e teste dos seus modelos.


In [None]:
acc_train =
acc_test =

print("Training Accuracy:", round(acc_train, 2))
print("Test Accuracy:", round(acc_test, 2))

# Comunicar Resultados

Em modelos de aprendizado de máquina, como a __regressão logística__, os métodos `predict` e `predict_proba` são usados para fazer previsões, mas eles retornam informações diferentes sobre as previsões.

- __Predict:__

  - __O que é:__ é utilizado para prever as __classes finais__ (ou rótulos) dos dados de entrada.

  - __Retorno:__ Ele retorna a classe predita para cada amostra de entrada.

  - __Como funciona:__ O modelo calcula a probabilidade de cada classe.

- __Predict_proba:__

  - __O que é:__ é usado para prever as __probabilidades__ das classes para os dados de entrada.

  - __Retorno:__ Ele retorna um array com as probabilidades de cada classe para cada amostra de entrada. Para classificação binária, o retorno é uma matriz com duas colunas: a primeira coluna representa a probabilidade de pertencer à classe 0 e a segunda coluna a probabilidade de pertencer à classe 1.

  - __Como funciona:__ Este método fornece uma visão mais detalhada da confiança do modelo em suas previsões, permitindo que você veja não apenas a classe predita, mas também a probabilidade associada a essa previsão.

## Comparação entre predict e predict_proba:
- __predict:__ Retorna as classes preditas diretamente (0 ou 1), ideal para decisões finais.

- __predict_proba:__ Retorna as probabilidades associadas a cada classe, útil para entender a confiança do modelo em suas previsões. Isso é particularmente valioso em situações onde a diferença entre classes é sutil e uma probabilidade pode ajudar a tomar decisões mais informadas.

### Exercício:
Em vez de usar o método `predict` com seu modelo, tente usar `predict_proba` com seus dados de treinamento. Como a saída de `predict_proba` difere da de `predict`? O que ela representa?

In [None]:
y_train_pred_proba =
print(y_train_pred_proba[:5])

### Exercício:
Extraia os nomes e as importâncias das características do seu `modelo`.


In [None]:
features =
importances =

## Odds_ratio
o termo odds ratio (ou razão de chances) refere-se a uma medida que quantifica a relação entre as chances de um evento acontecer em comparação com ele não acontecer.

Quando você ajusta um modelo de regressão logística, o modelo estima os coeficientes (importâncias) para as variáveis independentes (features).

Esses coeficientes estão na forma logarítmica. Para entender o impacto de uma variável no modelo, você pode exponenciar os coeficientes (aplicar a função exponencial), o que resulta nos odds ratios.

### Exercício:
Crie uma Série do pandas chamada `odds_ratios`, onde o índice são as `features` e os valores são a exponencial das `importances`.

In [None]:
odds_ratios =
odds_ratios.head()

### Exercício:
Crie um gráfico de barras horizontal com os cinco maiores coeficientes de `odds_ratios`. Certifique-se de rotular seu eixo x como `"Odds Ratio"`.


### Exercício:
Crie um gráfico de barras horizontal com os cinco menores coeficientes de `odds_ratios`. Certifique-se de rotular seu eixo x como `"Odds Ratio"`.
