# Classificação: Primeiros passos

Neste projeto, iremos analisar dados de uma campanha de marketing para aderência de investimentos. O intuito é usar as informações dos dados para prever se os clientes de um banco vão aplicar o dinheiro em um investimento ou não.

Essa previsão será feita utilizando machine learning e este notebook vai conter os passos para se obter um modelo capaz de realizar as previsões, desde a **leitura**, **análise exploratória**, **separação** e **transformação** dos dados, até o **ajuste**, **avaliação** e **comparação** de modelos de classificação.

# Análise exploratória

## Fazendo a leitura dos dados

Podemos realizar a leitura dos dados a partir da biblioteca `pandas`. Por conta disso, vamos realizar a importação da biblioteca com o comando `import pandas as pd`.

Como o arquivo de dados está no formato *csv*, vamos realizar a leitura com a função [`read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

In [1]:
import pandas as pd

In [2]:
dados = pd.read_csv('marketing_investimento.csv')

In [3]:
dados

Unnamed: 0,idade,estado_civil,escolaridade,inadimplencia,saldo,fez_emprestimo,tempo_ult_contato,numero_contatos,aderencia_investimento
0,45,casado (a),superior,nao,242,nao,587,1,sim
1,42,casado (a),medio,nao,1289,nao,250,4,sim
2,23,solteiro (a),superior,nao,363,nao,16,18,nao
3,58,divorciado (a),superior,nao,1382,nao,700,1,sim
4,50,casado (a),medio,nao,3357,nao,239,4,sim
...,...,...,...,...,...,...,...,...,...
1263,52,solteiro (a),superior,nao,83,nao,1223,6,sim
1264,35,solteiro (a),superior,nao,5958,nao,215,1,sim
1265,30,solteiro (a),superior,nao,-477,sim,1532,2,sim
1266,42,casado (a),superior,nao,2187,nao,525,3,sim


Para criar modelos de classificação, precisamos utilizar dados de qualidade, sem inconsistências e sem dados faltantes. Vamos checar se existem dados nulos e o tipo dos dados de cada coluna na base de dados a partir do método [`info()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.info.html).

In [4]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1268 entries, 0 to 1267
Data columns (total 9 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   idade                   1268 non-null   int64 
 1   estado_civil            1268 non-null   object
 2   escolaridade            1268 non-null   object
 3   inadimplencia           1268 non-null   object
 4   saldo                   1268 non-null   int64 
 5   fez_emprestimo          1268 non-null   object
 6   tempo_ult_contato       1268 non-null   int64 
 7   numero_contatos         1268 non-null   int64 
 8   aderencia_investimento  1268 non-null   object
dtypes: int64(4), object(5)
memory usage: 89.3+ KB


### Analise exploratória dos dados
- Vendo se existem inconsistência nos dados
- Obs: para fazer a classificação temos que  ter dados categoricos na coluna aderencia_investimento
- Vamos explograr cada uma das colunas da base de dados com o uso da biblioteca plotly.Començando pelas variáveis categoricas
depois explorar as variáveis numéricas.

### Variaveis categóricas

In [5]:
import plotly.express as px


In [7]:
px.histogram(dados,  x = 'aderencia_investimento', text_auto=True)

In [None]:
# Fazendo uma comparação da coluna estado civil e aderencia de investimento, passando a enteder  se o estado civil enfluenciou mais em uma escolha
# da aderencia do investimento, agrupando a barra referente ao estdo civil
px.histogram(dados,  x = 'estado_civil', text_auto=True, color = 'aderencia_investimento', barmode='group')

In [13]:
px.histogram(dados,  x = 'escolaridade', text_auto=True,color = 'aderencia_investimento', barmode='group')

In [14]:
px.histogram(dados,  x = 'inadimplencia', text_auto=True, color = 'aderencia_investimento', barmode='group')

In [15]:
px.histogram(dados,  x = 'fez_emprestimo', text_auto=True, color = 'aderencia_investimento', barmode='group')