# 1 - Analisar os Dados
Nesta etapa são realizadas análises para entender os dados que estamos trabalhando. 

Geralmente existe algum documento ou texto informando a origem e a finalidade dos dados, mas ainda é necessário análisar coisas como:
* Quais valores são mais frequentes;
* Faixa etária;
* Quantidade/porcentagem de valores nulos;
* 

A primeira coisa, mais importante a se fazer, é importar a biblioteca que nos permite analisar e manipular tabelas, o `pandas`.

Para importar o pandas, usamos o comando `import pandas as pd`, que em tradução, seria algo como "importar o pandas como pd", ou seja, para utilizarmos a biblioteca pandas, iremos utilizar a sigla `pd`.

Se por algum motivo der erro ao executar o comando `import pandas as pd`, provavelmente o pandas não estará instalado no computador em questão. Para instalar o pandas, basta executar, em uma célula de código, o comando `!pip install pandas`

Detalhe importante: Ao abrir um jupyter notebook (arquivo com extensão `.ipynb`), verificar se a versão do python que esta sendo executada é a versão do anaconda e se o arquivo está marcado como confiável (em inglês, `trust`)

In [None]:
# Importar a biblioteca pandas com o apelido pd
import pandas as pd

Após importat a biblioteca pandas, devemos realizar a leitura da base de dados. Para isto, o arquivo jupyter notebook (arquivo com extensão `.ipynb`) e a base de dados necessitam estar na mesma pasta.

Para ler o arquivo de dados (arquivo com extensão `.csv`), criamos uma variável, geralmente chamada de df (abreviação de Data Frame, em portugês seria "Quadro de Dados"), e atribuímos à variável, com o sinal `=`, a leitura da base de dados com pd.read_csv('nome_do_arquivo.csv').

Vale ressaltar que os dados geralmente vem no formato `.csv` (`C`omma `S`eparated `V`alues, em portugês, Valores separadps por vírgula), mas em alguns raros casos, os dados podem vir no formato do excel `.xlsx` e, nestes casos, o comando para ler estes arquivos é bem intuitivo, sendo, ao invés de `pd.read_csv('nome_do_arquivo.csv')` fica `pd.read_excel('nome_do_arquivo.xlsx)`


A fonte dos dados da aula de hoje está disponível em:
https://www.kaggle.com/datasets/jackdaoud/marketing-data?select=ifood_df.csv

A base de dados que iremos utilizar hoje foi fornecida pelo ifood, gerada ao realizar uma pesquisa averiguando o perfil dos clientes durante 2 anos e se eles iriam ou não aceitar a campanha de aderir ao clube ifood. 

Na pasta do google drive em que esta aula se encontra existe uma imagem chamada `metadados.png` com informações do que cada coluna representa.

In [None]:
# Realiza a leitura da base de dados
df = pd.read_csv('ifood.csv')

In [None]:
# Exibe as 3 linhas iniciais da tabela
df.head(3)

Repare que a quantidade de colunas muito grande acaba não exibindo todas as colunas. Para resolver isto, podemos solicitar para mostrar as colunas que desejamos.

In [None]:
# Exibe todas as colunas
df.columns

In [None]:
# Exibe as duas linhas iniciais da metade das colunas
df[['ultima_compra', 'visitas', 'online', 'loja', 'catalogo', 'descontos',
       'vinho', 'doces', 'fruta', 'carne']].head(2)

In [None]:
# Exibe as duas linhas iniciais da outra metade das colunas
df[['peixe', 'renda', 'total_gasto', 'adolescentes', 'criancas', 'estado_civil', 
'educacao', 'tempo_cliente', 'reclamacao', 'idade', 'aceitou_campanha']].head(2)

In [None]:
df = df[
  ['ultima_compra', 'visitas', 'online', 'loja', 'catalogo', 'descontos',
       'vinho', 'doces', 'fruta', 'carne', 'peixe', 'renda', 'total_gasto',
       'adolescentes', 'criancas', 'estado_civil', 'educacao', 'tempo_cliente',
       'reclamacao', 'idade',
       'aceitou_campanha']  
]

In [None]:
# Exibe quantidade de valores nulos por coluna
df.isnull().sum()

Nossa base de dados não possui valores nulos, não sendo necessário realizar o tratamento de valores nulos.

In [None]:
# Exibe o tipo de dados das colunas
df.dtypes

In [None]:
# Exibe informações descritivas a respeito das colunas numéricas
df.describe().T

In [None]:
# Exibe informações descritivas a respeito das colunas não numéricas
df.describe(include='O').T

De acordo com a informação da coluna (`aceitou_campanha`) que é a classe alvo, existem apenas valores 1 e 0.

Desta forma, também é interessante analizarmos quantas vezes cada valor aparece nesta coluna. Para isto, usamos o comando value_counts:

In [None]:
df.aceitou_campanha.value_counts()

Um insight interessante que já podemos ter é que a minoria dos clientes aceitou contratar o clube ifood e talvez seja interessante mudar a estratégia de marketing que esta sendo utilizada...

# 2 - Tratamento de Dados

Nesta etapa se enquadram 3 etapas:
* Tratamento de valores nulos;
* Converter dados textuais para numéricos;
* Normalizar os dados.

Como vimos durante nossa análise dos dados, não temos dados nulos e temos apenas duas colunas com valores textuais (as colunas `estado_civil` e `educacao`)

### 2.1 - Converter dados textuais para numéricos

In [None]:
# Verifica quais valores aparecem na coluna educacao e quantas vezes aparecem
df.educacao.value_counts()

Por se tratar de uma quantidade relativamente pequena de valores únicos, iremos usar o loc.

In [None]:
df.loc[df['educacao'] == 'primeiro_grau', 'educacao'] = 1
df.loc[df['educacao'] == 'segundo_grau', 'educacao'] = 2
df.loc[df['educacao'] == 'graduado', 'educacao'] = 3         
df.loc[df['educacao'] == 'mestrado', 'educacao'] = 4         
df.loc[df['educacao'] == 'doutorado', 'educacao'] = 5     
# Converte a coluna educacao para o tipo de dados numérico  
df['educacao'] = pd.to_numeric(df['educacao'])    

In [None]:
# Verifica quais valores aparecem na coluna estado_civil e quantas vezes aparecem
df.estado_civil.value_counts()

In [None]:
df.loc[df['estado_civil'] == 'solteiro', 'estado_civil'] = 1
df.loc[df['estado_civil'] == 'uniao_estavel', 'estado_civil'] = 2
df.loc[df['estado_civil'] == 'casado', 'estado_civil'] = 3         
df.loc[df['estado_civil'] == 'divorciado', 'estado_civil'] = 4         
df.loc[df['estado_civil'] == 'viuvo', 'estado_civil'] = 5   
# Converte a coluna estado_civil para o tipo de dados numérico  
df['estado_civil'] = pd.to_numeric(df['estado_civil'])   

In [None]:
# Verifica o tipo de dados das colunas
df.dtypes

### 2.2 Normalizar os dados

A normalização é necessária para que todas as colunas possuam o mesmo peso de importância para os algoritmos de machine learning. Entretanto, após treinar um modelo, só é possível utilizar o modelo treinado em dados normalizados pelos mesmos parâmetros utilizados para normalizar os dados que treinaram o modelo.

#### O que são estes parâmetros?
Para normalizar os dados, são necessários dois valores de cada coluna, sendo o valor máximo e o valor mínimo.

In [None]:
# Cria uma lista para receber o nome das colunas
lista_coluna = []
# Cria uma lista para receber o valor máximo de cada coluna
lista_max = []
# Cria uma lista para receber o valor mínimo de cada coluna
lista_min = []

# Cria um loop para percorrer as colunas
# e preencher as listas criadas acima
# Sem pegar os dados da última coluna
for col in df.columns[0:-1]:
    lista_coluna.append(col)
    lista_max.append(df[col].max())
    lista_min.append(df[col].min())

# Cria um dicionário com as listas criadas
dic_norm = {
    'coluna' : lista_coluna,
    'maximo': lista_max,
    'minimo': lista_min}

# Cria um dataframe com o dicionário criado
df_normalizar = pd.DataFrame(dic_norm)

# Exibe os dados utilizados para normalizar a base de dados
df_normalizar

# Se desejar salvar estes dados para
# utilizar em outros dias, basta salvar
# esta base de dados conforme aprendemos
# basta descomentar a linha de baixo para salvar
# df_normalizar.to_csv('parametros_para_normalizar.csv', index = False)

Não podemos equecer de não normalizar a coluna da nossa classe alvo

In [None]:
# Realiza a normalização de toda a base de dados e atribui à variável df_norm
df_norm = (df - df.min()) / (df.max() - df.min())

# Retornamos os valores da classe alvo para os valores numéricos originais
df_norm[['aceitou_campanha']] = df[['aceitou_campanha']]

In [None]:
# Exibe a base de dados normalizada
df_norm.head()

# 3 - Vamos treinar um modelo!!
Para treinar o modelo nós separamos a base de dados em duas partes, `treinamento` e `teste`.

# `Treinamento`
Será utilizado para treinar o modelo

# `Teste`
Será utilizado para Testar se o modelo performa bem em dados que não foram utilizados para treinar

# Como fazemos isto?
Iremos utilizar a biblioteca train_test_split do sklearn, que irá realizar isto automaticamente.

Para isto, precisamos separar os dados em 2 (x e y), sendo X as `variáveis independentes` e y a `variável dependente` (Classe Alvo).

Na varável x nós queremos colocar todas as colunas menos a última, então vamos usar o código `list(df_norm.columns[0:-1])` para selecionar todas as colunas menos a última

In [None]:
# Atribui todas as colunas menos a última à variável X
x = df_norm[list(df_norm.columns[0:-1])]

# Atribuimos à variável y a nossa classe alvo (que é aceitou_campanha ou não)
y = df_norm['aceitou_campanha']

A quantidade de dados utilizados para o teste geralmente  fica entre 40% e 20%. Esta porcentagem de dados para testes é definida no parâmetro test_size.

Geralmente é bom ter muitos dados para treinar o modelo (o termo "muitos" pode ser subjetivo, mas diria que uma boa quantidade é de 10.000 para cima.), mas como temos uma quantidade pequena de dados (um pouco mais de 2000 registros), irei separar apenas 15% para teste e 85% para treinar o modelo. 

In [None]:
# Importamos a biblioteca necessária para dividir a base de dados
from sklearn.model_selection import train_test_split

# Separamos X e y em treino e teste
train_X, test_X, train_Y, test_Y = train_test_split(x, y, test_size=0.15)

In [None]:
from sklearn.ensemble import ExtraTreesClassifier

# Cria uma instância do modelo
clf = ExtraTreesClassifier()
# Treina o modelo com a base de treinamento
clf.fit(train_X, train_Y)

# Realiza a predição dos valores de teste
pred_Y = clf.predict(test_X)

# Retorna a acurácia de acerto na base de teste
accuracy_score(test_Y, pred_Y)

Bons resultados de acurácia são acurácias acima de 95%. O que não significa que nosso resultado obtido tenha sido horroroso, podemos deduzir dois pontos:
* Tivemos poucos dados para treinar o modelo e é necessário que sejam coletados mais dados, ou;
* Os dados não posuem uma correlação muito boa para prever nossa classe alvo.

Outra forma de analisarmos o resultado é com a matriz de confusão:

In [None]:
# Importa a biblioteca para realizar a matriz de confusão
from sklearn.metrics import confusion_matrix

# Cria a matriz de confusão com os dados reais de teste e os preditos
confusion_matrix(test_Y, pred_Y)

Para interpretar a matriz de confusão, vamos interpretar o 0 como negativo (de não aceitou a proposta) e o 1 como positivo (aceitou a proposta):

* VN (Verdadeiro Negativo) - São os valores 0 classificados como 0
* VP (Verdadeiro Positivo) - São os valores 1 classificados como 1
* FP (Falso Positivo) - São os valores 0 classificados como 1
* FN (Falso Negativo) - São os valores 1 classificados como 0

Então, analisando a matriz de confusão retornada, temos:
* VN = 279
* VP = 16
* FP = 5
* FN = 31

O calculo da acurácia é dado por:

`(VN + VP) / (VN + FP + FN + VP)`

E na prática, fica

In [None]:
(279 + 16) / (279 + 5 + 31 + 16)

# 4 - E se quisermos testar o nosso algoritmo treinado em novos dados??

Podemos preencher manualmente uma planilha no excel, usar o formulário do google ou ja receber uma planilha pronta (em csv ou xlsx).

Importante notar que geralmente, os dados novos geralmente não possuem a classe alvo, sendo papel do nosso modelo treinado prever para a classe alvo.

In [None]:
# Repare que estamos lendo um arquivo de excel, não um csv
df = pd.read_excel('dados_novos.xlsx')

In [None]:
df.head()

Assim como realizamos o tratamento dos dados anteriormente, agora também temos que converter dados textuais para numéricos e em seguida normalizar com os valores de df_normalizar

Para converter os dados textuais para numéricos é muito simples, basta usar os mesmos códigos de antes:

In [None]:
df.loc[df['educacao'] == 'primeiro_grau', 'educacao'] = 1
df.loc[df['educacao'] == 'segundo_grau', 'educacao'] = 2
df.loc[df['educacao'] == 'graduado', 'educacao'] = 3         
df.loc[df['educacao'] == 'mestrado', 'educacao'] = 4         
df.loc[df['educacao'] == 'doutorado', 'educacao'] = 5     
# Converte a coluna educacao para o tipo de dados numérico  
df['educacao'] = pd.to_numeric(df['educacao'])    

df.loc[df['estado_civil'] == 'solteiro', 'estado_civil'] = 1
df.loc[df['estado_civil'] == 'uniao_estavel', 'estado_civil'] = 2
df.loc[df['estado_civil'] == 'casado', 'estado_civil'] = 3         
df.loc[df['estado_civil'] == 'divorciado', 'estado_civil'] = 4         
df.loc[df['estado_civil'] == 'viuvo', 'estado_civil'] = 5   
# Converte a coluna estado_civil para o tipo de dados numérico  
df['estado_civil'] = pd.to_numeric(df['estado_civil'])   

In [None]:
df_normalizar

In [None]:
# Criamos uma lista com o index 
# (valor único de cada linha)
list(df_normalizar.index)

Como mencionado anteriormente, os novos dados necessitam ser normalizados com os valores utilizados nos dados de treinamento do modelo.

Com o df_normalizar e o código abaixo (ambos são códigos universais então podem ser utilizados em outros códigos)

In [None]:
df_norm = df.copy()
for var in list(df_normalizar.index):
    coluna = df_normalizar.iloc[var]['coluna']
    maximo = df_normalizar.iloc[var]['maximo']
    minimo = df_normalizar.iloc[var]['minimo']

    df_norm[coluna] = (df_norm[coluna] - minimo) / (maximo - minimo)

In [None]:
df.head()

In [None]:
df_norm.head()

Agora, é importante notar, que os novos dados que desejamos prever, não possuem a classe alvo, logo não é possível calcular a acurácia nem a matriz de confusão.

Também não é necessário realizar a separação da base em treinamento e teste (pois temos já treinamos e testamos o modelo), basta usar o df_norm para o modelo prever os valores da classe alvo

Após realizar a previsão de cada registro, será criada uma lista de valores preditos que poderemos alocar na classe alvo do Data Frame df

In [None]:
# Realiza a predição dos valores de teste
pred_Y = clf.predict(df_norm)

# Criamos a coluna aceitou_campanha
# e alocamos os valores preditos para
# a coluna 
df['aceitou_campanha'] = pred_Y

# Exibe os dados novos e os respectivos valores preditos
df

# Exercícios

A base de dados `preco_carros.csv` possui informaçõs sobre valores de carros no reino unido.


## Contexto
Os dados foram extraídos de vários sites na República Tcheca e na Alemanha durante um período de mais de um ano. Originalmente, eu queria construir um modelo para estimar se um carro é uma boa ou má compra com base na postagem. 
Mas não consegui criar um modelo com o qual pudesse ficar satisfeito e agora não tenho utilidade para esses dados. Eu acredito muito em dados abertos, então aqui vai.

## OBS
Os dados foram ajustados lentamente ao longo do ano e algumas das fontes foram completamente desestruturadas, portanto, como resultado, os dados estão sujos, há valores ausentes e alguns valores obviamente errados (por exemplo, números de telefone raspados como quilometragem, etc.)

Existem aproximadamente 3,5 milhões de linhas e as seguintes colunas:

maker - normalizou todas as letras minúsculas

modelo - tudo normalizado em minúsculas

quilometragem - em KM

ano_fabricação

engine_displacement - em ccm

engine_power - em kW

body_type - quase nunca presente, mas raspei apenas carros pessoais, sem motocicletas ou veículos utilitários

color_slug - também quase nunca presente

stk_year - ano do último controle de emissão

transmissão - automática ou manual

porta_contagem

assento_contagem

fuel_type - gasolina, diesel, cng, gpl, elétrico

date_created - quando o anúncio foi copiado

data da última visualização - quando o anúncio foi visto pela última vez. Nossa política era remover todos os anúncios com mais de 60 dias

price_eur - preço de tabela convertido em EUR




## Um modelo treinado em todos os carros pode ser usado para prever com precisão os preços dos modelos com apenas algumas amostras?


1 - Realize a leitura da base de dados;

2 - Realize uma análise da base de dados (Tipo de dados das colunas, quantidade e porcentagem de valores nulos por coluna, descrição de valores...);

3 - Realize o tratamento de valores nulos;

4 - Realize a conversão dos valores textuais para numéricos;

5 - Realize a normalização da base de dados (Sem normalizar a classe alvo, que é a última coluna `aceitou_proposta`);

6 - Crie a variável X (Para receber os dados de todas as colunas menos a última);

7 - Crie a variável y para receber os dados da coluna `aceitou_proposta`;

8 - Use o train_test_split para separar a base de dados em treinamento e teste (separe 30% dos dados para teste);

9 - Aplique a base de treinamento em no mínimo 4 modelos;

10 - Verifique qual modelo resultou na melhor acurácia;