## Desafio
Você foi contratado por um banco para conseguir definir o score de crédito dos clientes. Você precisa analisar todos os clientes do banco e, com base nessa análise, criar um modelo que consiga ler as informações do cliente e dizer automaticamente o score de crédito dele:

- Ruim
- Ok
- Bom

In [None]:
# Importar e analisar tabela
import pandas as pd
df = pd.read_csv('clientes.csv')
df.info()

# Colunas Importantes
display(
    df[
        ['profissao','mix_credito','comportamento_pagamento']
      ].tail(25)
    )

# LabelEncoder
Vamos explorar a classe `LabelEncoder` da biblioteca `scikit-learn` (sklearn.preprocessing).

Essa ferramenta é amplamente utilizada no pré-processamento de dados para transformar rótulos categóricos em valores numéricos, o que é essencial para muitos algoritmos de machine learning que exigem entradas numéricas.

Ela converte variáveis categóricas (não numéricas) em números inteiros. Cada categoria única recebe um valor inteiro distinto. Essa codificação é simples e direta, tornando-a útil para transformar dados antes de alimentá-los em modelos de aprendizado de máquina.

## Quando Usar LabelEncoder
- __Rótulos de Classes:__ É ideal para transformar rótulos de classe (variável alvo) em números. Por exemplo, transformar categorias como "gato", "cachorro" e "pássaro" em 0, 1 e 2, respectivamente.

- __Variáveis Categóricas Ordinais:__ Quando as categorias têm uma ordem intrínseca, como "baixo", "médio" e "alto".

## Quando Não Usar LabelEncoder
- __Variáveis Categóricas Nominais:__ Para variáveis categóricas sem ordem intrínseca (como cores: "vermelho", "verde", "azul"), é preferível usar `OneHotEncoder` para evitar que o modelo interprete uma ordem inexistente entre as categorias.

- __Dados de Entrada:__ LabelEncoder não deve ser usado para transformar variáveis independentes (features) diretamente, especialmente se não houver uma ordem lógica entre as categorias.

## Quando Usar OneHotEncoder em vez de LabelEncoder?
- Se as categorias __não possuem ordem__ e são puramente nominais, como "cor" ou "tipo de animal", use o __`OneHotEncoder`__. Isso garante que o modelo não atribua significado a uma ordem numérica.

- Se as categorias __possuem ordem__, como "baixo", "médio" e "alto", você pode usar o __`LabelEncoder`__, mas tome cuidado com a interpretação do modelo.

In [None]:
# Codificando colunas texto para número
from sklearn.preprocessing import LabelEncoder

codificador = LabelEncoder()

# Codificar e transformar as colunas categóricas em números.
df['profissao'] = codificador.fit_transform(df['profissao'])
df['mix_credito'] = codificador.fit_transform(df['mix_credito'])
df['comportamento_pagamento'] = codificador.fit_transform(df['comportamento_pagamento'])

display(
    df[
        ['profissao','mix_credito','comportamento_pagamento']
      ].tail(25)
    )

In [None]:
# Preparando Dados para Aprendizado de Máquina
from sklearn.model_selection import train_test_split

x = df.drop(columns=['score_credito', 'id_cliente'])
y = df['score_credito']

x_treino, x_teste, y_treino, y_teste = train_test_split(x, y)

__Explicação:__

- __Separação de variáveis:__ x contém as colunas que serão usadas como características (features), enquanto y contém a variável que queremos prever (target).

- __Divisão do conjunto de dados:__ A função train_test_split() divide os dados em conjuntos de treinamento e teste. Isso permite que o modelo seja treinado em uma parte dos dados e testado em outra, garantindo uma avaliação justa do desempenho.

# Algoritmos de aprendizado de máquina
Eles são usados para construir modelos preditivos com base em dados, e cada um tem suas características e aplicações específicas.
## Random Forest
__Random Forest__ é uma técnica que utiliza um conjunto de árvores de decisão para realizar a classificação ou regressão.

- __Baseado em Árvores de Decisão:__ O Random Forest constrói múltiplas árvores de decisão durante o treinamento. Cada árvore é construída com um subconjunto aleatório dos dados e das características.

- __Bagging:__ Utiliza a técnica de bootstrap aggregating (bagging), onde várias árvores são treinadas em diferentes amostras do conjunto de dados e, em seguida, suas previsões são combinadas para obter um resultado mais robusto e generalizado.

## K-Nearest Neighbors (KNN)
- __Não Baseado em Árvores de Decisão:__ KNN é um algoritmo baseado em distância, onde a previsão para um ponto é feita com base nos K vizinhos mais próximos no espaço de características.

- __Simples e Intuitivo:__ Ao contrário das árvores de decisão, KNN não constrói um modelo explícito; em vez disso, armazena o conjunto de treinamento e realiza cálculos de distância para fazer previsões.

In [None]:
# Treinando os Modelos de IA
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier

modelo_arvore_decisao = RandomForestClassifier()
modelo_knn = KNeighborsClassifier()

modelo_arvore_decisao.fit(x_treino, y_treino)
modelo_knn.fit(x_treino, y_treino)

In [None]:
# Obtendo Previsões
previsao_arvore = modelo_arvore_decisao.predict(x_teste)
previsao_knn = modelo_knn.predict(x_teste)

# Verificando a Precisão de Cada Modelo
from sklearn.metrics import accuracy_score

print(accuracy_score(y_teste, previsao_arvore))
print(accuracy_score(y_teste, previsao_knn))

In [None]:
# Analisar oq tem nesse arquivo
tabela_novos_clientes = pd.read_csv('novos_clientes.csv')
tabela_novos_clientes

In [None]:
# Fazendo Novas Previsões
tabela_novos_clientes = pd.read_csv('novos_clientes.csv')

tabela_novos_clientes['profissao'] = codificador.fit_transform(tabela_novos_clientes['profissao'])
tabela_novos_clientes['mix_credito'] = codificador.fit_transform(tabela_novos_clientes['mix_credito'])
tabela_novos_clientes['comportamento_pagamento'] = codificador.fit_transform(tabela_novos_clientes['comportamento_pagamento'])

previsoes = modelo_arvore_decisao.predict(tabela_novos_clientes)
print(previsoes)


__Explicação:__
- __Importação de Novos Dados:__ Lemos um novo arquivo CSV que contém dados de novos clientes.

- __Codificação das Novas Entradas:__ As colunas categóricas do novo DataFrame são codificadas da mesma forma que fizemos anteriormente.

- __Fazendo Previsões:__ Usamos o modelo treinado (modelo_arvore_decisao) para prever o score de crédito dos novos clientes, imprimindo as previsões resultantes.

In [24]:
# =========================================================================================
# =========================================================================================
# =========================================================================================
# =========================================================================================
# =========================================================================================
# =========================================================================================
# =========================================================================================
# =========================================================================================
# =========================================================================================
# =========================================================================================

# Preço por Tudo

In [None]:
# pip install category_encoders

In [None]:
from glob import glob

import pandas as pd
import seaborn as sns

from category_encoders import OneHotEncoder

from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression, Ridge
from sklearn.metrics import mean_absolute_error
from sklearn.pipeline import make_pipeline
from sklearn.utils.validation import check_is_fitted

from ipywidgets import Dropdown, FloatSlider, IntSlider, interact

In [None]:
def limpeza(filepath):
    # Read CSV file
    df = pd.read_csv(filepath)

    # Apartments in "Capital Federal", less than 400,000
    mask_ba = df["place_with_parent_names"].str.contains("Capital Federal")
    mask_apt = df["property_type"] == "apartment"
    mask_price = df["price_aprox_usd"] < 400_000
    df = df[mask_ba & mask_apt & mask_price]

    # Remove outliers for "surface_covered_in_m2"
    low, high = df["surface_covered_in_m2"].quantile([0.1, 0.9])
    mask_area = df["surface_covered_in_m2"].between(low, high)
    df = df[mask_area]

    # Split "lat-lon" column
    df[["lat", "lon"]] = df["lat-lon"].str.split(",", expand=True).astype(float)
    df.drop(columns="lat-lon", inplace=True)

    # Get neighborhood name
    df["neighborhood"] = df["place_with_parent_names"].str.split("|", expand=True)[3]
    df.drop(columns="place_with_parent_names", inplace=True)

    return df


Vamos começar usando o que aprendemos para carregar todos os nossos arquivos CSV em um DataFrame.

### Exercício:
Use o glob para criar uma lista que contenha os nomes dos arquivos para todos os arquivos CSV de imóveis em Buenos Aires no diretório de dados. Atribua esta lista à variável chamada `files`.

Na última vez, colocamos todos os nossos DataFrames em uma lista usando um loop `for`. Desta vez, vamos usar uma técnica de codificação mais compacta chamada compreensão de lista.

A compreensão de lista é usada para iterar através de listas sem escrever loops explicitamente, o que é especialmente útil para filtrar dados de acordo com uma condição específica.

__Exemplo:__
```python
price_mexican_pesos = [
    35000000.0,
    2000000.0,
    2700000.0,
    6347000.0,
    6994543.16,
    6617835.61,
    670000.0,
]

# price_colombian_pesos = []
# for price in price_mexican_pesos:
#     price_colombian_pesos.append(price * 190)
# print(price_colombian_pesos)

price_colombian_pesos = [price * 190 for price in price_mexican_pesos]
print(price_colombian_pesos)
```

### Exercício:
Use sua função `limpeza` em uma compreensão de lista para criar uma lista chamada `frames`. A lista deve conter os DataFrames limpos para os nomes dos arquivos que você coletou em `files`.

### Exercício:
Use `pd.concat` para concatenar os itens em `frames` em um único DataFrame chamado `df`. Certifique-se de definir o argumento `ignore_index` como `True`.

# Explorar

A primeira coisa que precisamos considerar ao tentar usar todas as características do `df` são os valores ausentes.

Embora seja verdade que você pode imputar valores ausentes, ainda é necessário ter dados suficientes em uma coluna para fazer uma boa imputação.

Uma regra geral é que, se mais da metade dos dados em uma coluna estiver ausente, é melhor removê-la do que tentar imputar.

Dê uma olhada na saída do `df.info()`. Existem colunas onde mais da metade dos valores são NaN? Se sim, essas colunas precisam ser removidas!

### Exercício:
Modifique sua função `limpeza` para remover quaisquer colunas que tenham mais da metade dos valores como NaN.

Certifique-se de reexecutar todas as células acima antes de continuar.

A próxima coisa que precisamos observar são as colunas categóricas com baixa ou alta cardinalidade.

Se houver apenas uma categoria em uma coluna, ela não fornecerá informações únicas para o nosso modelo. Por outro lado, colunas onde quase cada linha tem sua própria categoria não ajudarão o nosso modelo a identificar tendências úteis nos dados.

Vamos dar uma olhada na cardinalidade de nossas características.

### Exercício:
Calcule o número de valores únicos para cada característica não numérica em `df`.

Aqui, podemos ver que colunas como "operation" têm apenas um valor, enquanto cada linha em "properati_url" tem um valor único. Esses são exemplos claros de características de baixa e alta cardinalidade que não devemos incluir em nosso modelo.

### Exercício:
Modifique sua função `limpeza` para remover características categóricas de alta e baixa cardinalidade.

Também é importante remover quaisquer colunas que constituam __vazamento__, ou seja, características que foram criadas usando nosso alvo ou que forneceriam ao nosso modelo informações que ele não teria acesso quando estiver em produção.

__Em Outras Palavras:__

__Vazamento__ é o uso de dados no treinamento do seu modelo que normalmente __não estariam disponíveis ao fazer previsões.__

Por exemplo, suponha que queremos prever preços de imóveis em USD, mas incluímos preços de imóveis em Pesos Mexicanos em nosso modelo.

Se assumirmos uma taxa de câmbio fixa ou quase constante, nosso modelo terá um erro baixo nos dados de treinamento, mas isso não refletirá seu desempenho em dados do mundo real.

### Exercício:
Modifique sua função `limpeza` para remover quaisquer características que constituam vazamento.

Finalmente, o último problema que precisamos observar é a multicolinearidade, ou seja, características em nossa matriz de características que estão altamente correlacionadas entre si. Uma boa maneira de detectar isso é usar um mapa de calor. Vamos criar um!

### Exercício:
Plote um mapa de calor de correlação das características numéricas restantes em `df`.

Como "price_aprox_usd" será seu alvo, você não precisa incluí-lo no mapa de calor.

### Exercício:
Modifique sua função `limpeza` para remover colunas que não tenham características fortemente correlacionadas na sua matriz de características.

# Dividir Dados


### Exercício:
Crie sua matriz de características `X_train` e vetor alvo `y_train`. Seu alvo é "price_aprox_usd". Suas características devem ser todas as colunas que permanecem no DataFrame que você limpou acima.

# Baseline

### Exercício:
Calcule o erro absoluto médio de base para o seu modelo.

# Iterar

### Exercício:
Crie um pipeline chamado model que contenha um OneHotEncoder, um SimpleImputer e um preditor Ridge.

# Avaliar


### Exercício:
Calcule o erro absoluto médio de treinamento para suas previsões em comparação com os alvos verdadeiros em `y_train`.

### Exercício:
Importe seus dados de teste `buenos-aires-features.csv` para um DataFrame e gere uma lista de previsões usando seu modelo.

#Comunicar Resultados

Nesta lição, confiamos em equações e visualizações para comunicar sobre nosso modelo.

No entanto, em muitos projetos de ciência de dados, a comunicação significa fornecer aos stakeholders ferramentas que eles podem usar para implantar um modelo — em outras palavras, utilizá-lo em ação.

Vamos analisar duas maneiras pelas quais você pode implantar este modelo.

Uma das coisas que você pode ser solicitado a fazer é envolver seu modelo em uma função para que um programador possa fornecer entradas e, em seguida, receber uma previsão como saída.

### Exercício:
Crie uma função chamada make_prediction que receba quatro argumentos (area, lat, lon e neighborhood) e retorne a previsão do seu modelo para o preço de um apartamento.

In [None]:
# testar


Outro tipo de implantação é criar um painel interativo, onde um usuário pode fornecer valores e receber uma previsão.

### Exercício:
Adicione sua função `make_prediction` ao widget interativo abaixo, execute a célula e, em seguida, ajuste o widget para ver como o preço previsto do apartamento muda.

- Crie uma função interativa nos Jupyter Widgets.

Ótimo trabalho! Você deve ter percebido que há muitas maneiras de melhorar este painel.

Por exemplo, um usuário pode selecionar um bairro e, em seguida, fornecer coordenadas de latitude e longitude que não estão naquele bairro. Também seria útil incluir uma visualização, como um mapa.

De qualquer forma, este é um excelente primeiro passo para criar painéis dinâmicos que transformam seu modelo de uma abstração complicada em uma ferramenta concreta que qualquer pessoa pode acessar. Uma das partes mais importantes dos projetos de ciência de dados é criar produtos que as pessoas possam usar para facilitar seu trabalho ou suas vidas.