# Previsão de Danos com Árvores de Decisão

Comparar __Árvore de Decisão__ com __Regressão Linear__ ajuda a entender quando cada técnica é mais adequada, já que ambas podem ser usadas para resolver problemas de regressão.

1. __Natureza do Modelo__
  - Árvore de Decisão:

    - É um modelo não linear e não paramétrico.

    - Toma decisões baseadas em uma série de divisões nos dados, criando uma estrutura em forma de árvore.

    - Divide o espaço dos dados em regiões com base em uma série de condições.

    - Funciona bem com relações não lineares e interações complexas entre variáveis.
  - Regressão Linear:

    - É um modelo linear e paramétrico.

    - Baseia-se na suposição de que a relação entre as variáveis independentes (features) e a variável dependente (target) é linear, ou seja, pode ser modelada por uma linha reta (ou plano, no caso de múltiplas variáveis).

    - Procura ajustar uma linha que minimize a soma dos erros quadrados (least squares) entre os valores preditos e os valores reais.

2. __Como Funciona__
  - Árvore de Decisão:

    - Divisão Recursiva: Divide os dados em subconjuntos baseados em perguntas ou condições, por exemplo, "A idade é maior que 30?". Cada divisão é feita para reduzir o erro dentro de cada região.

    - Cada folha da árvore representa um valor final, e a previsão para novos dados é baseada no caminho tomado pela árvore.
    - Não assume uma forma específica da relação entre as variáveis, sendo flexível para capturar padrões complexos nos dados.
  - Regressão Linear:

    - Função Linear: Ajusta uma linha reta aos dados de forma que a equação da reta seja da forma 𝑦 = 𝛽0 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ + 𝛽𝑛𝑥𝑛 onde β são os coeficientes do modelo.

    - A previsão é feita pela combinação linear das variáveis de entrada. Isso significa que cada variável tem uma contribuição proporcional e independente no resultado final.

3. __Interpretação__
  - Árvore de Decisão:

    - Interpretação fácil em termos de regras de decisão (por exemplo, "se a idade for maior que 30 e o salário maior que R$ 5.000, o valor esperado é 300.000").

    - As árvores podem se tornar mais complexas à medida que o número de nós aumenta, mas a interpretação é direta em termos de ramificações.

  - Regressão Linear:

    - Muito interpretável quando se trata de entender a relação entre as variáveis independentes e a variável dependente. Cada coeficiente 𝛽 indica quanto a variável independente associada influencia o valor previsto.

    - Oferece uma visão clara de como as variáveis estão correlacionadas com o resultado, facilitando a compreensão da contribuição de cada variável no resultado final.

4. __Comportamento com Dados__
  - Árvore de Decisão:

    - Funciona bem com dados não lineares e discretos.

    - Sensível a overfitting se não for podada ou controlada adequadamente (como limitar a profundidade da árvore).

    - Tende a capturar relações complexas nos dados, mesmo em situações onde a relação entre as variáveis é difícil de modelar com uma linha reta.

  - Regressão Linear:

    - Funciona bem apenas com dados lineares ou aproximadamente lineares.

    - Sofre com dados não lineares, pois tenta ajustar uma linha reta, o que pode não representar bem relações mais complexas.

    - Menos propensa a overfitting em comparação com árvores, especialmente com regularização (como Ridge ou Lasso), mas depende muito de suposições sobre a distribuição dos dados.

5. __Robustez a Outliers__

  - Árvore de Decisão:

    - Mais robusta a outliers. Outliers podem acabar em um galho separado da árvore e, portanto, não afetam significativamente as previsões nas outras regiões.

  - Regressão Linear:

    - Muito sensível a outliers. Um outlier pode ter um impacto significativo no ajuste da reta, deslocando a linha para ajustar mal os dados, já que a regressão linear minimiza o erro quadrático (least squares).

6. __Aplicabilidade__

 - Árvore de Decisão:

    - É apropriada para problemas não lineares, onde há interações complexas entre variáveis.

    - Funciona bem com dados categóricos e numéricos, sem a necessidade de normalização ou padronização dos dados.

    - Boa opção para situações onde a interpretação baseada em regras é importante.

  - Regressão Linear:

    - Ideal para problemas lineares, onde a relação entre as variáveis independentes e o alvo é aproximadamente linear.

    - Funciona melhor com variáveis contínuas e exige normalização ou padronização dos dados se os valores tiverem diferentes escalas.

    - Quando as relações são simples e facilmente modeláveis, a regressão linear oferece resultados diretos e interpretáveis.

7. __Exemplo Gráfico de Funcionamento:__
  - Árvore de Decisão: O espaço dos dados é dividido em regiões retangulares ou cúbicas, e a previsão é feita com base em qual "caixa" os dados de teste caem.

  - Regressão Linear: Tenta ajustar uma linha reta através dos dados para prever o valor da variável alvo.

## Conclusão:

| Aspecto            | Regressão Linear (LR)               | Árvore de Decisão (DT)               |
|--------------------|-------------------------------------|---------------------------------------|
| **Função de Custo**| MSE (distância)                     | Impureza (Gini/Entropia)             |
| **Relação**        | Linear                              | Não-linear                            |
| **Tipo de Modelo** | Paramétrico (B° + B¹X¹ + ...)      | Não-paramétrico (flexível)           |
| **Funciona bem com**| Relações lineares entre variáveis   | Dados não lineares, interações complexas |
| **Overfitting**    | Menos propensa (pode ser regularizada) | Propensa a overfitting (pode ser podada) |
| **Interpretação**  | Baseada em coeficientes lineares    | Baseada em regras de decisão          |
| **Sensível a Outliers**| Altamente sensível               | Não muito sensível                    |
| **Robustez**       | Melhor com dados numéricos contínuos| Robustez com dados mistos             |
| **Complexidade**   | Simples de implementar e interpretar| Pode se tornar complexa com muitas divisões |
| **Aplicações**     | Previsão de valores contínuos        | Classificação e regressão, especialmente em problemas complexos |

## Finais
A __regressão linear__ é adequada para problemas onde se espera uma __relação linear__ clara entre as variáveis, enquanto as __árvores de decisão__ são mais versáteis e podem __capturar interações complexas e não lineares.__

A escolha entre os dois modelos deve considerar a natureza dos dados, a complexidade do problema e o objetivo da análise.

In [None]:
!pip install category_encoders

In [None]:
import sqlite3

import matplotlib.pyplot as plt
import numpy as np

import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.pipeline import Pipeline, make_pipeline
from category_encoders import OrdinalEncoder, OneHotEncoder
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.linear_model import LogisticRegression

# Preparando Dados

## Importação

In [None]:
def wrangle(db_path):
    # Connect to database
    conn = sqlite3.connect(db_path)

    # Construct query
    query = """
        SELECT distinct(i.building_id) AS b_id,
           s.*,
           d.damage_grade
        FROM id_map AS i
        JOIN building_structure AS s ON i.building_id = s.building_id
        JOIN building_damage AS d ON i.building_id = d.building_id
        WHERE district_id = 4
    """

    # Read query results into DataFrame
    df = pd.read_sql(query, conn, index_col="b_id")

    # Identify leaky columns
    drop_cols = [col for col in df.columns if "post_eq" in col]

    # Add high-cardinality / redundant column
    drop_cols.append("building_id")

    # Create binary target column
    df["damage_grade"] = df["damage_grade"].str[-1].astype(int)
    df["severe_damage"] = (df["damage_grade"] > 3).astype(int)

    # Drop old target
    drop_cols.append("damage_grade")

    # Drop multicollinearity column
    drop_cols.append("count_floors_pre_eq")

    # Drop columns
    df.drop(columns=drop_cols, inplace=True)

    return df

### Exercício:
Use a função `wrangle` acima para importar seu conjunto de dados para o DataFrame `df`. O caminho para o banco de dados SQLite é `"banco.db"`


In [None]:
df = wrangle('/content/drive/MyDrive/SQLITE/banco.db')
df.head()

## Divisão

### Exercício:
Crie sua matriz de características `X` e vetor alvo `y`. Seu alvo é `"severe_damage"`.


In [None]:
target = "severe_damage"
X = df.drop(columns=target)
y = df[target]

### Exercício:
Divida seus dados (`X` e `y`) em conjuntos de treinamento e teste usando uma divisão aleatória de treino-teste. Seu conjunto de teste deve ser 20% do total de seus dados. E não se esqueça de definir um `random_state` para garantir a reprodutibilidade.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42
)

## Validações:

A validação é uma etapa crucial no processo de desenvolvimento de modelos de aprendizado de máquina. Seu objetivo principal é avaliar como o modelo se comporta em dados que não foram utilizados durante o treinamento. Isso é importante para:

- Evitar Overfitting: Um modelo que se ajusta muito bem aos dados de treinamento pode não generalizar bem para novos dados. A validação ajuda a identificar isso.

- Aprimorar a Generalização: Garantir que o modelo aprenda padrões que sejam úteis fora do conjunto de treinamento.

- Selecionar o Melhor Modelo: A validação permite comparar diferentes modelos e escolher o que apresenta melhor desempenho em dados não vistos.

Durante a validação, você pode ajustar hiperparâmetros (como a profundidade de uma árvore de decisão, taxa de aprendizado, etc.). O conjunto de validação é usado para verificar o desempenho com diferentes configurações, ajudando a escolher a melhor.

### Exercício:
Divida seus dados de treinamento (`X_train` e `y_train`) em conjuntos de treino e validação usando uma divisão aleatória de treino-teste. Seus dados de validação devem ser 20% dos dados restantes. Não se esqueça de definir um `random_state`.


In [None]:
X_train, X_val, y_train, y_val = train_test_split(
    X_train,
    y_train,
    test_size=0.2,
    random_state=42
)

# Construindo Model

## Baseline

### Exercício:
Calcule a pontuação de precisão básica para o seu modelo.


In [None]:
acc_baseline = y_train.value_counts(normalize=True).max()
print("Baseline Accuracy:", round(acc_baseline, 2))

## Iterar

# OrdinalEncoder
O OrdinalEncoder é útil quando você trabalha com variáveis categóricas em seus dados.

Árvores de decisão não conseguem lidar diretamente com texto ou categorias (por exemplo, "baixo", "médio", "alto").

O OrdinalEncoder transforma essas categorias em números inteiros, como:
- "baixo" → 0
- "médio" → 1
- "alto" → 2

Esse processo é chamado de codificação ordinal e garante que os dados categóricos possam ser usados no treinamento do modelo.
## Diferenças entre o LabelEncoder
É comum confundir o `OrdinalEncoder` e o `LabelEncoder` porque ambos são usados para converter categorias em números.

No entanto, eles são aplicados em contextos diferentes e têm diferenças importantes. Vamos entender:

- __LabelEncoder:__
  - Finalidade: O LabelEncoder é usado para converter rótulos (labels) de variáveis dependentes (ou seja, o alvo a ser previsto) de forma que uma variável categórica seja transformada em números.

  - Aplicação: Ele é tipicamente usado quando você está lidando com uma variável de saída ou target. É útil em problemas de classificação, onde a saída (classe) é categórica.

  - Como funciona: Ele mapeia cada categoria em um número inteiro único. __Por exemplo:__
  
    ['negado', 'aprovado', 'pendente'] pode ser convertido para [0, 1, 2].

  - Restrições: Usado apenas para a variável alvo (dependente).
  Não é recomendado para codificar variáveis preditoras (independentes), pois ele não mantém uma relação ordinal entre os valores.

- __OrdinalEncoder:__
  - Finalidade: O OrdinalEncoder é usado para converter variáveis categóricas independentes (as características ou features) em números, assumindo que existe uma ordem natural entre as categorias.

  - Aplicação: Ele é aplicado nas variáveis de entrada (independentes) e pode ser usado quando as categorias têm uma relação de ordem. __Por exemplo__, uma coluna de "nível de escolaridade" com valores como ['Fundamental', 'Médio', 'Superior'] tem uma ordem clara, e o OrdinalEncoder pode converter esses valores em [0, 1, 2] de forma coerente com essa relação.

  - Como funciona: Assim como o LabelEncoder, ele atribui números inteiros às categorias, mas pode ser aplicado a múltiplas colunas de entrada.

  - Restrições: Usado apenas para variáveis de entrada (independentes). Presume que as categorias tenham uma ordem natural. Se as categorias não tiverem uma ordem (por exemplo, cores), pode ser mais apropriado usar um OneHotEncoder.

## Quando Usar Cada Um:
- Use **LabelEncoder** quando precisar codificar a variável alvo (como rótulos de classes para classificação).

- Use **OrdinalEncoder** quando precisar codificar variáveis de entrada que tenham categorias com uma ordem natural.

### Exercício:
Crie um pipeline chamado `model` que contenha um transformador `OrdinalEncoder` e um preditor `DecisionTreeClassifier`. (Certifique-se de definir um `random_state` para seu preditor.) Em seguida, ajuste seu modelo aos dados de treinamento.

In [None]:
# Build Model
model = make_pipeline(
    OrdinalEncoder(),
    DecisionTreeClassifier(max_depth = 6, random_state=42)
)
# Fit model to training data
model.fit(X_train,y_train)

### Exercício:
Calcule as pontuações de precisão de treinamento e validação para seus modelos.


In [None]:
acc_train = accuracy_score(y_train, model.predict(X_train))
acc_val = model.score(X_val, y_val)

print("Training Accuracy:", round(acc_train, 2))
print("Validation Accuracy:", round(acc_val, 2))

 ### Exercício:
Use o método `get_depth` no `DecisionTreeClassifier` em seu modelo para ver quão profunda sua árvore cresceu durante o treinamento.

In [None]:
tree_depth = model.named_steps["decisiontreeclassifier"].get_depth()
print("Tree Depth:", tree_depth)

### Exercício:
Crie uma faixa de possíveis valores para o hiperparâmetro `max_depth` do `DecisionTreeClassifier` do seu modelo. `depth_hyperparams` deve variar de `1` a `50` em incrementos de `2`.


In [None]:
depth_hyperparams = range(1,50,2)

### Exercício:
Complete o código abaixo para que ele treine um modelo para cada `max_depth` em `depth_hyperparams`. Sempre que um novo modelo for treinado, o código também deve calcular as pontuações de precisão de treinamento e validação e adicioná-las às listas `training_acc` e `validation_acc`, respectivamente.


In [None]:
# Create empty lists for training and validation accuracy scores
training_acc = []
validation_acc = []

for d in depth_hyperparams:
    # Create model with `max_depth` of `d`
    test_model = make_pipeline(
      OrdinalEncoder(),
      DecisionTreeClassifier(max_depth=d, random_state=42)
    )
    # Fit model to training data
    test_model.fit(X_train, y_train)
    # Calculate training accuracy score and append to `training_acc`
    training_acc.append(test_model.score(X_train,y_train))
    # Calculate validation accuracy score and append to `training_acc`
    validation_acc.append(test_model.score(X_val,y_val))

print("Training Accuracy Scores:", training_acc[:3])
print("Validation Accuracy Scores:", validation_acc[:3])

### Exercício:
Crie uma visualização com duas linhas. A primeira linha deve plotar os valores de `training_acc` como uma função de `depth_hyperparams`, e a segunda deve plotar `validation_acc` como uma função de `depth_hyperparams`. O eixo x deve ser rotulado como `"Max Depth"` e o eixo y como `"Accuracy Score"`. Também inclua uma legenda para que seu público possa distinguir entre as duas linhas.


In [None]:
# Plot `depth_hyperparams`, `training_acc`
plt.plot(depth_hyperparams, training_acc, label='training')
plt.plot(depth_hyperparams, validation_acc, label='training')
plt.xlabel("Max Depth")
plt.ylabel("Accuracy Score");

## Avaliar

### Exercício:
Com base na sua visualização, escolha o valor de `max_depth` que leva à melhor pontuação de precisão de validação. Em seguida, re-treine seu modelo original com esse valor de `max_depth`. Por fim, verifique como seu modelo ajustado se comporta em seu conjunto de teste calculando a pontuação de precisão do teste abaixo. Você conseguiu resolver o problema de sobreajuste com esse novo `max_depth`?


In [None]:
test_acc = model.score(X_test, y_test)
print("Test Accuracy:", round(test_acc, 2))

# Comunicar Resultados

### Exercício:
Complete o código abaixo para usar a função `plot_tree` do scikit-learn para visualizar a lógica de decisão do seu modelo.


In [None]:
X_train.columns

In [None]:
# Create larger figure
fig, ax = plt.subplots(figsize=(25, 12))
# Plot tree
plot_tree(
    decision_tree=model.named_steps["decisiontreeclassifier"],
    feature_names=X_train.columns.to_list(),
    filled=True,  # Color leaf with class
    rounded=True,  # Round leaf edges
    proportion=True,  # Display proportion of classes in leaf
    max_depth=3,  # Only display first 3 levels
    fontsize=12,  # Enlarge font
    ax=ax,  # Place in figure axis
);

## Resumindo a Informação de um Nó

#### Cores (Azul e Laranja)
As cores nos nós de uma árvore de decisão são uma representação visual das classes previstas para cada nó.

- Significado das Cores:
  - Azul: Representa uma classe, por exemplo, a classe 0.
  - Laranja: Representa outra classe, por exemplo, a classe 1.

- Preenchimento da Cor:
  - Preenchimento Completo: Indica que o nó é "puro" e contém uma alta proporção de uma única classe. Por exemplo, um nó completamente azul sugere que a maioria ou todas as amostras pertencem à classe 0.

  - Preenchimento Parcial: Sugere uma mistura de classes. Se um nó estiver parcialmente preenchido por azul e laranja, isso indica que as amostras são uma combinação de ambas as classes.

#### Value
O valor em cada nó mostra a contagem de amostras de cada classe que alcançaram aquele nó.

- Interpretação do Value:
  - Um nó que mostra value=[50, 20] indica que 50 amostras pertencem à classe 0 e 20 amostras pertencem à classe 1.

  - Em nós "puros", onde todas as amostras pertencem a uma única classe, você verá algo como value=[70, 0] (70 amostras da classe 0) ou value=[0, 30] (30 amostras da classe 1).

#### Gini
O índice de Gini mede a impureza ou heterogeneidade de um nó. É uma métrica fundamental usada para construir a árvore de decisão.
- Interpretação do Gini:

  - Um Gini de 0 significa que o nó é puro (todas as amostras pertencem à mesma classe).

  - Um Gini de 0.5 indica uma mistura igual de classes, ou seja, o nó contém um número equilibrado de amostras de ambas as classes.

#### Samples
A quantidade de samples refere-se ao número total de amostras que chegaram a um nó específico.

- Interpretação de Samples:
    - Se um nó exibe samples=100, isso significa que 100 amostras foram classificadas até aquele ponto da árvore. Essa informação ajuda a entender quantas amostras contribuíram para as decisões tomadas na árvore.

#### Conclusão:

- __gini=0.48:__ Um valor de Gini próximo de 0 sugere maior pureza. Um Gini de 0.48 sugere uma mistura moderada de classes.
- __samples=120:__ Indica que 120 amostras foram classificadas até esse ponto da árvore.
- __value=[70, 50]:__ Mostra que existem 70 amostras da classe 0 e 50 amostras da classe 1.

### Exercício:
Atribua os nomes das características e importâncias do seu modelo às variáveis abaixo. Para as `features`, você pode obtê-las a partir dos nomes das colunas em seu conjunto de treinamento. Para as `importances`, você acessa o atributo `feature_importances_` do `DecisionTreeClassifier` do seu modelo.


In [None]:
features = X_train.columns
importances = model.named_steps["decisiontreeclassifier"].feature_importances_

print("Features:", features[:3])
print("Importances:", importances[:3])

### Exercício:
Crie uma série pandas chamada `feat_imp`, onde o índice é `features` e os valores são suas `importances`. A série deve ser classificada da menor para a maior importância.

In [None]:
feat_imp = pd.Series(importances, index=X_train.columns).sort_values(ascending=False)
feat_imp.head()

### Exercício:
Crie um gráfico de barras horizontal com todas as características em `feat_imp`. Certifique-se de rotular o eixo x como `"Gini Importance"`.

In [None]:
# Create horizontal bar chart
feat_imp.plot(kind='barh')
plt.xlabel("Gini Importance")
plt.ylabel("Features");

# Além do Modelo: Ética de Dados

# Preparando Dados

### Exercício:
Execute a célula abaixo para se conectar ao banco de dados `banco.db`.

In [None]:
%load_ext sql
%sql sqlite:////content/drive/MyDrive/SQLITE/banco.db

### Exercício:
Selecione todas as colunas da tabela `household_demographics`, limitando seus resultados às primeiras cinco linhas.

In [None]:
%%sql
select *
from household_demographics
limit 5


### Exercício:
Quantas observações existem na tabela `household_demographics`? Use o comando `count` para descobrir.

In [None]:
%%sql
select count(*)
from household_demographics
limit 5


### Exercício:
Selecione todas as colunas da tabela `id_map`, limitando seus resultados às primeiras cinco linhas.

In [None]:
%%sql
select *
from id_map
limit 5



### Exercício:
Crie uma tabela com todas as colunas de `household_demographics`, todas as colunas de `building_structure`, a coluna **`vdcmun_id`** de `id_map` e a coluna **`damage_grade`** de `building_damage`. Seus resultados devem mostrar apenas linhas onde o **`district_id`** é `4` e limitar seus resultados às primeiras cinco linhas.

In [None]:
%%sql
select h.*, i.vdcmun_id, s.*, d.damage_grade
from household_demographics as h

join id_map as i on i.household_id = h.household_id
join building_structure as s on i.building_id = s.building_id
join building_damage as d on i.building_id = d.building_id

where district_id = 4
limit 5

## Importação

In [None]:
def wrangle(db_path):
    # Connect to database
    conn = sqlite3.connect(db_path)

    # Construct query
    query = """
    select h.*, i.vdcmun_id, s.*, d.damage_grade
    from household_demographics as h

    join id_map as i on i.household_id = h.household_id
    join building_structure as s on i.building_id = s.building_id
    join building_damage as d on i.building_id = d.building_id

    where district_id = 4;
    """

    # Read query results into DataFrame
    df = pd.read_sql(query, conn, index_col='household_id')

    # Identify leaky columns
    drop_cols = [col for col in df.columns if "post_eq" in col]

    # Add high-cardinality / redundant column
    drop_cols.append("building_id")

    # Create binary target column
    df["damage_grade"] = df["damage_grade"].str[-1].astype(int)
    df["severe_damage"] = (df["damage_grade"] > 3).astype(int)

    # Drop old target
    drop_cols.append("damage_grade")

    # Drop multicollinearity column
    drop_cols.append("count_floors_pre_eq")

    # Group caste columns
    top_10 = df["caste_household"].value_counts().head(10).index
    df["caste_household"].apply(lambda c: c if c in top_10 else "Other")

    # Drop columns
    df.drop(columns=drop_cols, inplace=True)

    return df

### Exercício:
Adicione a consulta que você criou na tarefa anterior à função `wrangle` acima. Em seguida, importe seus dados executando a célula abaixo. O caminho para o banco de dados é `"banco.db"`.

In [None]:
df = wrangle('/content/drive/MyDrive/SQLITE/banco.db')
df.head()

## Explorar

### Exercício:
Combine os métodos `select_dtypes` para verificar se há características categóricas de alta ou baixa cardinalidade no conjunto de dados.

In [None]:
# Check for high- and low-cardinality categorical features
df.select_dtypes("object").nunique()

### Exercício:
Adicione à sua função `wrangle` para que a coluna `"caste_household"` contenha apenas os 10 maiores grupos de castas. Para as linhas que não estão nesses grupos, `"caste_household"` deve ser alterado para `"Other"`.

In [None]:
# top_10 = df["caste_household"].value_counts().head(10).index
# df["caste_household"].apply(lambda c: c if c in top_10 else "Other").value_counts()



## Dividir

### Exercício:
Crie sua matriz de características `X` e vetor alvo `y`. Como nosso modelo só considerará dados de construção e de domicílio, `X` não deve incluir a coluna de município `"vdcmun_id"`. Seu alvo é `"severe_damage"`.

In [None]:
target = "severe_damage"
X = df.drop(columns=[target, "vdcmun_id"])
y = df[target]

### Exercício:
Divida seus dados (`X` e `y`) em conjuntos de treinamento e teste usando uma divisão aleatória de treino-teste. Seu conjunto de teste deve ser 20% do total de seus dados. Certifique-se de definir um `random_state` para garantir a reprodutibilidade.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X,
    y,
    test_size=0.2,
    random_state=42
)

# Construindo Model

## Baseline

### Exercício:
Calcule a pontuação de precisão básica para o seu modelo.

In [None]:
acc_baseline = y_train.value_counts(normalize=True).max()
print("Baseline Accuracy:", round(acc_baseline, 2))

## Iterar

### Exercício:
Crie um Pipeline chamado `model_lr`. Ele deve ter um transformador `OneHotEncoder` e um preditor `LogisticRegression`. Certifique-se de definir o argumento `use_cat_names` para `True` em seu transformador.

In [None]:
model_lr = make_pipeline(
    OneHotEncoder(use_cat_names=True),
    LogisticRegression(max_iter=20000)
)
model_lr.fit(X_train,y_train)

## Avaliar

### Exercício:
Calcule as pontuações de precisão de treinamento e teste para `model_lr`.

In [None]:
acc_train = accuracy_score(y_train, model_lr.predict(X_train))
acc_test = model_lr.score(X_test, y_test)

print("LR Training Accuracy:", acc_train)
print("LR Validation Accuracy:", acc_test)

# Comunicar Resultados

### Exercício:
Primeiro, extraia os nomes das características e importâncias do seu modelo. Em seguida, crie uma série pandas chamada `feat_imp`, onde o índice é `features` e os valores são o exponencial das suas `importances`.

In [None]:
features = model_lr.named_steps["onehotencoder"].get_feature_names_out()
importances = model_lr.named_steps["logisticregression"].coef_[0]
feat_imp = pd.Series(np.exp(importances), index=features).sort_values()
feat_imp.head()

### Exercício:

Crie um gráfico de barras horizontal com os dez maiores coeficientes de `feat_imp`. Certifique-se de rotular o eixo x como `"Odds Ratio"`.


In [None]:
feat_imp.tail(10).plot(kind='barh')
plt.xlabel("Odds Ratio")

### Exercício:
Crie um gráfico de barras horizontal com os dez menores coeficientes de `feat_imp`. Certifique-se de rotular o eixo x como `"Odds Ratio"`.

In [None]:
feat_imp.head(10).plot(kind='barh')
plt.xlabel("Odds Ratio")

## Explorar Ainda Mais

### Exercício:
Quais municípios tiveram a maior proporção de edifícios severamente danificados? Crie um DataFrame `damage_by_vdcmun` agrupando `df` por `"vdcmun_id"` e, em seguida, calculando a média da coluna `"severe_damage"`. Certifique-se de classificar `damage_by_vdcmun` da maior para a menor proporção.

In [None]:
damage_by_vdcmun = (
    df.groupby("vdcmun_id")["severe_damage"].mean().sort_values(ascending=False)
).to_frame()
damage_by_vdcmun

Crie um gráfico de linhas de `damage_by_vdcmun`. Rotule seu eixo x como `"Municipality ID"`, seu eixo y como `"% of Total Households"` e dê ao seu gráfico o título `"Household Damage by Municipality"`.

In [None]:
# Plot line
plt.plot(damage_by_vdcmun.values)
plt.xticks(range(len(damage_by_vdcmun)), labels=damage_by_vdcmun.index)
plt.yticks(np.arange(0.0, 1.1, 0.2))
plt.xlabel("Municipality ID")
plt.ylabel("% of Total Households")
plt.title("Severe Damage by Municipality");

Dada a plotagem acima, nossa próxima pergunta é: Como as populações Gurung e Kumal estão distribuídas por esses municípios?

### Exercício:
Crie uma nova coluna em `damage_by_vdcmun` que contenha a proporção de lares Gurung em cada município.

In [None]:
damage_by_vdcmun["Gurung"] = (
    df[df["caste_household"] == "Gurung"]
    .groupby("vdcmun_id")["severe_damage"]
    .count() /
    df.groupby("vdcmun_id")["severe_damage"]
    .count()
)
damage_by_vdcmun

### Exercício:
Crie uma nova coluna em `damage_by_vdcmun` que contenha a proporção de lares Kumal em cada município. Substitua quaisquer valores `NaN` na coluna por `0`.

In [None]:
damage_by_vdcmun["Kumal"] = (
    df[df["caste_household"] == "Kumal"]
    .groupby("vdcmun_id")["severe_damage"]
    .count() /
    df.groupby("vdcmun_id")["severe_damage"]
    .count()
).fillna(0)
damage_by_vdcmun

### Exercício:
Crie uma visualização que combine o gráfico de linhas de lares severamente danificados que você fez acima com um gráfico de barras empilhadas mostrando a proporção de lares Gurung e Kumal em cada município. Rotule seu eixo x como `"Municipality ID"` e seu eixo y como `"% of Total Households"`.

In [None]:
# Plot line
damage_by_vdcmun.drop(columns="severe_damage").plot(
    kind='bar', stacked=True
)
plt.plot(damage_by_vdcmun["severe_damage"].values)
plt.xticks(range(len(damage_by_vdcmun)), labels=damage_by_vdcmun.index)
plt.yticks(np.arange(0.0, 1.1, 0.2))

plt.xlabel("Municipality ID")
plt.ylabel("% of Total Households")
plt.title("Household Caste by Municipality")
plt.legend();

# Conclusão:
Nosso modelo avaliou os lares com base na casta, embora essa característica não tenha relação com o nível de danos em um edifício.

Isso ilustra o conceito de "arma de destruição matemática", que critica como os modelos estatísticos podem reforçar desigualdades sociais, utilizando variáveis que não são relevantes para a questão em análise.

Isso significa que é fundamental ser cauteloso ao selecionar as variáveis que serão utilizadas em modelos de machine learning ou análise de dados.

Utilizar características que não são relevantes ou que possam introduzir preconceitos pode resultar em decisões equivocadas e perpetuar desigualdades. Com isso, o cientista de dados deve:

- __Fazer uma análise crítica dos dados:__ Avaliar quais variáveis realmente influenciam o que está sendo modelado e eliminar aquelas que não têm relevância.

- __Ser ético:__ Considerar as implicações sociais das análises e modelos, garantindo que não estejam contribuindo para discriminação ou injustiça.

- __Validar e testar modelos:__ Usar métodos rigorosos para testar a robustez e a validade dos modelos, garantindo que os resultados sejam justos e precisos.

- __Interpretar resultados com cautela:__ Ser consciente das limitações dos modelos e das análises, e como as conclusões podem ser interpretadas erroneamente se baseadas em dados tendenciosos.

Em resumo, é um lembrete de que a ciência de dados não é apenas técnica, mas também social e ética.