# Manipulando Dados com SQL

In [None]:
import sqlite3
import pandas as pd

## Conex√£o
O que s√£o **Fun√ß√µes M√°gicas?**

As fun√ß√µes m√°gicas no Jupyter Notebook s√£o comandos que come√ßam com um ou dois sinais de porcentagem (% ou %%) e fornecem funcionalidades adicionais que n√£o s√£o parte da linguagem principal do notebook (como Python).

Elas s√£o divididas em dois tipos principais:
- Line Magics (%): Afetam apenas a linha onde s√£o usadas.
- Cell Magics (%%): Afetam toda a c√©lula onde s√£o usadas.

Para trabalhar com **SQL** dentro de um Jupyter Notebook, a extens√£o **ipython-sql** √© amplamente utilizada.

Ela fornece as fun√ß√µes m√°gicas %sql e %%sql, que permitem conectar-se a bancos de dados SQL e executar consultas diretamente no notebook.

In [None]:
# !pip install ipython-sql

In [None]:
# Magic func
%load_ext sql
%sql sqlite:////content/drive/MyDrive/SQLITE/banco.db

## Explorar

### Exerc√≠cio:

Selecione todas as linhas e colunas da tabela sqlite_schema e examine a sa√≠da.

Quantas tabelas h√° no banco de dados banco.db?

Que informa√ß√µes elas cont√™m?

In [None]:
%%sql
SELECT * FROM sqlite_schema

### Exerc√≠cio:
Selecione a coluna `name` da tabela `sqlite_schema`, mostrando apenas as linhas onde o **`type`** √© `"table"`.


In [None]:
%%sql

### Exerc√≠cio:
Selecione todas as colunas da tabela id_map, limitando seus resultados √†s primeiras cinco linhas.

Como os dados est√£o organizados? Que tipo de observa√ß√£o cada linha representa? Como voc√™ acha que as colunas household_id, building_id, vdcmun_id e district_id est√£o relacionadas entre si?

In [None]:
%%sql


### Exerc√≠cio:

Quantas observa√ß√µes h√° na tabela `id_map`? Use o comando `count` para descobrir.


In [None]:
%%sql

### Exerc√≠cio:

Quais distritos est√£o representados na tabela `id_map`? Use o comando `distinct` para determinar os valores √∫nicos na coluna **`district_id`**.

In [None]:
%%sql


### Exerc√≠cio:
Quantos pr√©dios existem na tabela `id_map`? Combine os comandos `count` e `distinct` para calcular o n√∫mero de valores √∫nicos na coluna **`building_id`**.

In [None]:
%%sql


### Exerc√≠cio:

Para o nosso modelo, vamos focar em Gorkha (distrito `4`). Selecione todas as colunas da tabela `id_map`, mostrando apenas as linhas onde o **`district_id`** √© `4` e limitando seus resultados √†s primeiras cinco linhas.

In [None]:
%%sql


### Exerc√≠cio:
Quantas observa√ß√µes na tabela `id_map` v√™m de Gorkha? Use os comandos `count` e `WHERE` juntos para calcular a resposta.

In [None]:
%%sql

### Exerc√≠cio:
Quantos pr√©dios na tabela `id_map` est√£o em Gorkha? Combine os comandos `count` e `distinct` para calcular o n√∫mero de valores √∫nicos na coluna **`building_id`**, considerando apenas as linhas onde o **`district_id`** √© `4`.


In [None]:
%%sql

### Exerc√≠cio:
Selecione todas as colunas da tabela building_structure e limite seus resultados √†s primeiras cinco linhas.

Que informa√ß√µes est√£o nesta tabela? O que cada linha representa? Como isso se relaciona com as informa√ß√µes na tabela id_map?

In [None]:
%%sql


### Exerc√≠cio:
Quantos pr√©dios existem na tabela building_structure? Use o comando count para descobrir.

In [None]:
%%sql


### Exerc√≠cio:
Existem mais de 200.000 pr√©dios na tabela `building_structure`, mas como podemos recuperar apenas os pr√©dios que est√£o em Gorkha?

Use o comando `JOIN` para juntar as tabelas `id_map` e `building_structure`, mostrando apenas os pr√©dios onde o **`district_id`** √© `4` e limitando seus resultados √†s primeiras cinco linhas da nova tabela.

In [None]:
%%sql

Na tabela que acabamos de criar, cada linha representa um lar √∫nico em Gorkha. Como podemos criar uma tabela onde cada linha representa um pr√©dio √∫nico?

### Exerc√≠cio:

Use o comando `distinct` para criar uma coluna com todos os IDs de pr√©dios √∫nicos na tabela `id_map`.

Junte essa coluna com todas as colunas da tabela `building_structure`, mostrando apenas os pr√©dios onde o **`district_id`** √© `4` e limitando seus resultados √†s primeiras cinco linhas da nova tabela.

In [None]:
%%sql


Combinamos as tabelas `id_map` e `building_structure` para criar uma tabela com todos os pr√©dios em Gorkha, mas a √∫ltima pe√ßa de dados necess√°ria para nosso modelo, o dano que cada pr√©dio sofreu durante o terremoto, est√° na tabela `building_damage`.

### Exercicio:
Como podemos combinar todas as tr√™s tabelas? Usando a consulta que voc√™ criou na √∫ltima tarefa como base, inclua a coluna **`damage_grade`** √† sua tabela adicionando um segundo `JOIN` para a tabela `building_damage`. Certifique-se de limitar seus resultados √†s primeiras cinco linhas da nova tabela.


In [None]:
%%sql


## Importa√ß√£o

### Exerc√≠cio:

Use o m√©todo `connect` da biblioteca sqlite3 para se conectar ao banco de dados.


In [None]:
conn = sqlite3.connect('')
type(conn)

### Exerc√≠cio:
Coloque sua √∫ltima consulta SQL em uma string e atribua-a √† vari√°vel `query`.

In [None]:
query = """

"""
print(query)

### Exerc√≠cio:
Use o read_sql da biblioteca pandas para criar um DataFrame a partir de sua query. Certifique-se de que o building_id esteja definido como sua coluna de √≠ndice.

__Dica:__ Sua tabela pode ter duas colunas `building_id`, e isso tornar√° dif√≠cil definir como a coluna de √≠ndice para seu DataFrame.

Se voc√™ enfrentar esse problema, adicione um `alias` para uma das colunas `building_id` em sua consulta usando `AS`

In [None]:
df = pd.read_sql(query, conn)
df.head()

# Previs√£o de Dano com Regress√£o Log√≠stica

In [None]:
# !pip install category_encoders

In [None]:
import sqlite3
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline, make_pipeline
from category_encoders import OneHotEncoder
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Preparando Dados

## Import

In [None]:
def wrangle(db_path):
    # Connect to database
    conn = sqlite3.connect(db_path)

    # Construct query
    query = """
        SELECT distinct(i.building_id) AS b_id,
           s.*,
           d.damage_grade
        FROM id_map AS i
        JOIN building_structure AS s ON i.building_id = s.building_id
        JOIN building_damage AS d ON i.building_id = d.building_id
        WHERE district_id = 4
    """

    # Read query results into DataFrame
    df = ...

    return df

### Exerc√≠cio:
Complete a fun√ß√£o `wrangle` acima para que ela retorne os resultados de `query` como um DataFrame. Certifique-se de que a coluna de √≠ndice esteja definida como `"b_id"`. Al√©m disso, o caminho para o banco de dados SQLite √© `"banco.db"`.


In [None]:
df = wrangle("")
df.head(15)

Parece haver v√°rias caracter√≠sticas em `df` com informa√ß√µes sobre a condi√ß√£o de uma propriedade ap√≥s o terremoto.

### Exerc√≠cio:
Adicione √† sua fun√ß√£o `wrangle` para que essas caracter√≠sticas sejam removidas do DataFrame. N√£o se esque√ßa de reexecutar todas as c√©lulas acima.


In [None]:
print(df.info())

Queremos construir um modelo de **classifica√ß√£o bin√°ria**, mas nosso alvo atual, `"damage_grade"`, possui mais de duas categorias.

### Exerc√≠cio:
Adicione √† sua fun√ß√£o `wrangle` para que ela crie uma nova coluna de alvo chamada `"severe_damage"`. Para os pr√©dios onde o `"damage_grade"` √© Grade 4 ou acima, `"severe_damage"` deve ser `1`. Para todos os outros pr√©dios, `"severe_damage"` deve ser `0`. N√£o se esque√ßa de remover `"damage_grade"` para evitar vazamento de dados e reexecute todas as c√©lulas acima.

In [None]:
print(df["severe_damage"].value_counts())

## Explorar

Como nosso modelo ser√° um tipo de modelo linear, precisamos garantir que n√£o haja problemas de multicolinearidade em nosso conjunto de dados.

### Exerc√≠cio:
Plote um mapa de calor de correla√ß√£o das caracter√≠sticas num√©ricas restantes em df. Como "severe_damage" ser√° seu alvo, voc√™ n√£o precisa inclu√≠-lo no mapa de calor.

Voc√™ v√™ alguma caracter√≠stica que precisa ser removida?

### Exerc√≠cio:
Altere a fun√ß√£o `wrangle` para que ela remova a coluna `"count_floors_pre_eq"`. N√£o se esque√ßa de reexecutar todas as c√©lulas acima.


Antes de construirmos nosso modelo, vamos ver se conseguimos identificar alguma diferen√ßa √≥bvia entre as casas que foram severamente danificadas no terremoto (`"severe_damage"==1`) e aquelas que n√£o foram (`"severe_damage"==0`). Vamos come√ßar com uma caracter√≠stica num√©rica.

### Exerc√≠cio:

Use o seaborn para criar um boxplot que mostre as distribui√ß√µes da coluna `"height_ft_pre_eq"` para ambos os grupos na coluna `"severe_damage"`. Lembre-se de rotular seus eixos.


Antes de avan√ßarmos para as muitas caracter√≠sticas categ√≥ricas neste conjunto de dados, √© uma boa ideia verificar o equil√≠brio entre nossas duas classes. Qual √© a porcentagem de pr√©dios que foram severamente danificados e qual √© a porcentagem que n√£o foram?

### Exerc√≠cio:
Crie um gr√°fico de barras dos valores contados na coluna `"severe_damage"`. Voc√™ quer calcular as frequ√™ncias relativas das classes, n√£o a contagem bruta, ent√£o n√£o se esque√ßa de definir o argumento `normalize` como `True`.


### Exerc√≠cio:
Crie duas vari√°veis, `majority_class_prop` e `minority_class_prop`, para armazenar os valores contados normalizados para as duas classes em `df["severe_damage"]`.


# Tabla Pivot

Uma tabela pivot (ou tabela din√¢mica) em Pandas √© uma estrutura de dados que permite resumir e reorganizar dados de um DataFrame, facilitando a an√°lise de informa√ß√µes.

Ela √© frequentemente usada para __agregar dados e visualizar rela√ß√µes entre vari√°veis.__

Cria√ß√£o de uma Tabela Pivot em Pandas:
- Para criar uma tabela pivot, voc√™ pode usar o m√©todo pivot_table().

 A fun√ß√£o permite especificar:

  - data: O DataFrame que voc√™ est√° utilizando.

  - index: As colunas que voc√™ deseja usar como √≠ndice (linhas).

  - columns: As colunas que voc√™ deseja usar como colunas (cabe√ßalhos).

  - values: Os dados que voc√™ deseja agregar.
  
  - aggfunc: A fun√ß√£o de agrega√ß√£o a ser utilizada (como mean, sum, etc.).

### Exerc√≠cio:
Ser√° que os edif√≠cios com certos tipos de funda√ß√£o s√£o mais propensos a sofrer danos severos? Crie uma tabela din√¢mica de `df` onde o √≠ndice √© `"foundation_type"` e os valores v√™m da coluna `"severe_damage"`, agregados pela m√©dia.


### Exerc√≠cio:
Como as propor√ß√µes em `foundation_pivot` se comparam √†s propor√ß√µes de nossas classes majorit√°ria e minorit√°ria? Plote `foundation_pivot` como um gr√°fico de barras horizontal, adicionando linhas verticais nos valores para `majority_class_prop` e `minority_class_prop`.


### Exerc√≠cio:
Combine os m√©todos `select_dtypes` e `nunique` para verificar se h√° caracter√≠sticas categ√≥ricas de alta ou baixa cardinalidade no conjunto de dados.


## Dividir

### Exerc√≠cio:
Crie sua matriz de caracter√≠sticas `X` e o vetor de alvo `y`. Seu alvo √© `"severe_damage"`.


### Exerc√≠cio:
Divida seus dados (`X` e `y`) em conjuntos de treinamento e teste usando uma divis√£o aleat√≥ria de treino-teste. Seu conjunto de teste deve ser 20% do seu total de dados. E n√£o se esque√ßa de definir um `random_state` para garantir a reprodutibilidade.

In [None]:
X_train, X_test, y_train, y_test = train_test_split()

print("X_train shape:", X_train.shape)
print("y_train shape:", y_train.shape)
print("X_test shape:", X_test.shape)
print("y_test shape:", y_test.shape)

<div class="alert alert-block alert-info">
    <p><b>Pergunta Frequente:</b> Por que definimos o estado aleat√≥rio como <code>42</code>?</p>
    <p><b>Resposta:</b> A verdade √© que voc√™ pode escolher qualquer inteiro ao definir um estado aleat√≥rio. O n√∫mero que voc√™ escolher n√£o afeta os resultados do seu projeto; ele apenas garante que seu trabalho seja reprodut√≠vel para que outros possam verific√°-lo. No entanto, muitas pessoas escolhem <code>42</code> porque aparece em uma obra de fic√ß√£o cient√≠fica bem conhecida chamada <a href='https://en.wikipedia.org/wiki/42_(number)#The_Hitchhiker's_Guide_to_the_Galaxy'>O Guia do Mochileiro das Gal√°xias</a>. Em resumo, √© uma piada interna. üòâ</p>
</div>

# Contruindo Model

## Baseline

### Exerc√≠cio:
Calcule a pontua√ß√£o de precis√£o de refer√™ncia para o seu modelo.

In [None]:
acc_baseline = ...
print("Baseline Accuracy:", round(acc_baseline, 2))

## Iterar

### Exerc√≠cio:
Crie um pipeline chamado `model` que contenha um transformador `OneHotEncoder` e um preditor `LogisticRegression`. Certifique-se de definir o argumento `use_cat_names` para o seu transformador como `True`. Em seguida, ajuste-o aos dados de treinamento.

__Dica:__ Se voc√™ receber um <code>ConvergenceWarning</code> ao ajustar seu modelo aos dados de treinamento, n√£o se preocupe. Isso pode acontecer √†s vezes com modelos de regress√£o log√≠stica.

Tente definir o argumento <code>max_iter</code> em seu preditor como <code>1000</code>.
</div>

In [None]:
# Build model
model = ...

## Avaliar

### Exerc√≠cio:
Calcule as pontua√ß√µes de precis√£o para treinamento e teste dos seus modelos.


In [None]:
acc_train =
acc_test =

print("Training Accuracy:", round(acc_train, 2))
print("Test Accuracy:", round(acc_test, 2))

# Comunicar Resultados

Em modelos de aprendizado de m√°quina, como a __regress√£o log√≠stica__, os m√©todos `predict` e `predict_proba` s√£o usados para fazer previs√µes, mas eles retornam informa√ß√µes diferentes sobre as previs√µes.

- __Predict:__

  - __O que √©:__ √© utilizado para prever as __classes finais__ (ou r√≥tulos) dos dados de entrada.

  - __Retorno:__ Ele retorna a classe predita para cada amostra de entrada.

  - __Como funciona:__ O modelo calcula a probabilidade de cada classe.

- __Predict_proba:__

  - __O que √©:__ √© usado para prever as __probabilidades__ das classes para os dados de entrada.

  - __Retorno:__ Ele retorna um array com as probabilidades de cada classe para cada amostra de entrada. Para classifica√ß√£o bin√°ria, o retorno √© uma matriz com duas colunas: a primeira coluna representa a probabilidade de pertencer √† classe 0 e a segunda coluna a probabilidade de pertencer √† classe 1.

  - __Como funciona:__ Este m√©todo fornece uma vis√£o mais detalhada da confian√ßa do modelo em suas previs√µes, permitindo que voc√™ veja n√£o apenas a classe predita, mas tamb√©m a probabilidade associada a essa previs√£o.

## Compara√ß√£o entre predict e predict_proba:
- __predict:__ Retorna as classes preditas diretamente (0 ou 1), ideal para decis√µes finais.

- __predict_proba:__ Retorna as probabilidades associadas a cada classe, √∫til para entender a confian√ßa do modelo em suas previs√µes. Isso √© particularmente valioso em situa√ß√µes onde a diferen√ßa entre classes √© sutil e uma probabilidade pode ajudar a tomar decis√µes mais informadas.

### Exerc√≠cio:
Em vez de usar o m√©todo `predict` com seu modelo, tente usar `predict_proba` com seus dados de treinamento. Como a sa√≠da de `predict_proba` difere da de `predict`? O que ela representa?

In [None]:
y_train_pred_proba =
print(y_train_pred_proba[:5])

### Exerc√≠cio:
Extraia os nomes e as import√¢ncias das caracter√≠sticas do seu `modelo`.


In [None]:
features =
importances =

## Odds_ratio
o termo odds ratio (ou raz√£o de chances) refere-se a uma medida que quantifica a rela√ß√£o entre as chances de um evento acontecer em compara√ß√£o com ele n√£o acontecer.

Quando voc√™ ajusta um modelo de regress√£o log√≠stica, o modelo estima os coeficientes (import√¢ncias) para as vari√°veis independentes (features).

Esses coeficientes est√£o na forma logar√≠tmica. Para entender o impacto de uma vari√°vel no modelo, voc√™ pode exponenciar os coeficientes (aplicar a fun√ß√£o exponencial), o que resulta nos odds ratios.

### Exerc√≠cio:
Crie uma S√©rie do pandas chamada `odds_ratios`, onde o √≠ndice s√£o as `features` e os valores s√£o a exponencial das `importances`.

In [None]:
odds_ratios =
odds_ratios.head()

### Exerc√≠cio:
Crie um gr√°fico de barras horizontal com os cinco maiores coeficientes de `odds_ratios`. Certifique-se de rotular seu eixo x como `"Odds Ratio"`.


### Exerc√≠cio:
Crie um gr√°fico de barras horizontal com os cinco menores coeficientes de `odds_ratios`. Certifique-se de rotular seu eixo x como `"Odds Ratio"`.
