# 1 - Base de Dados

Para aplicar a ciência de Dados ao Marketing, são necessários dados a respeito do público em questão.

A forma mais popular de armazenar e utilizar dados para a Ciência de Dados é o formato CSV (Comma Separated Values -  em português, Valores separados por vírgula)
Este tipo de arquivo é muito semelhante às planilhas do excel, exceto pelo fato que os valores de cada linha são separados porvírgula. 

Para conseguir ler, analizar e manipular estes arquivos CSV com o python, é necessária a utilização da biblioteca pandas

Para utilizar uma biblioteca no python é necessário que no código seja importada a determinada biblioteca e, para isto, usamos a seguinte sintaxe:
`import nome_da_biblioteca`

Ainda sobre a importação das bibliotecas, podemos dar um apelido às bibbliotecas importadas com o comando `as`, ficando a seguinte sintaxe:
`import nome_da_biblioteca as apelido_da_biblioteca`

Após importar uma biblioteca no código, sempre que desejar utilizar alguma função dela, é necessário que chame a biblioteca pelo nome (se não tiver definido um apelido) ou pelo determidado apelido 

In [1]:
# Importa a biblioteca pandas com o apelido de pd
import pandas as pd

#### Nossa base de dados é referente a dados coletados na última campanha de marketing de um determinado banco

In [48]:
# Leitura da base de dados

# Repare que chamamos o pandas por meio do pd
# em seguida utilizamos a função read_csv para especificar qual o arquivo desejamos que seja lido pelo pandas
df = pd.read_csv('banco.csv')

# 2 - Exploração da base de Dados

### 2.1 - Função head() - Visualização dos Dados

In [31]:
# Exibir os 5 primeiros registros da base de dados
df.head()

Unnamed: 0,idade,emprego,estado_civil,educacao,saldo_bancario,possui_casa,emprestimo,dia,mes,duracao,qtd_contato,deposito
0,59,admin.,married,secondary,2343,yes,no,5,may,1042,1,yes
1,56,admin.,married,secondary,45,no,no,5,may,1467,1,yes
2,41,technician,married,secondary,1270,yes,no,5,may,1389,1,yes
3,55,services,married,secondary,2476,yes,no,5,may,579,1,yes
4,54,admin.,married,tertiary,184,no,no,5,may,673,2,yes


In [22]:
# Por padrão, a função head() só exibe os 5 primeiros elementos da base de dados
# Se desejar exibir mais ou menos registros, basta determinar o valor dentro do parênteses

# Exibir os 10 primeiros registros da base de dados
df.head(10)

Unnamed: 0,idade,emprego,estado_civil,educacao,saldo_bancario,possui_casa,emprestimo,dia,mes,duracao,qtd_contato,deposito
0,59,admin.,married,secondary,2343,yes,no,5,may,1042,1,yes
1,56,admin.,married,secondary,45,no,no,5,may,1467,1,yes
2,41,technician,married,secondary,1270,yes,no,5,may,1389,1,yes
3,55,services,married,secondary,2476,yes,no,5,may,579,1,yes
4,54,admin.,married,tertiary,184,no,no,5,may,673,2,yes
5,42,management,single,tertiary,0,yes,yes,5,may,562,2,yes
6,56,management,married,tertiary,830,yes,yes,6,may,1201,1,yes
7,60,retired,divorced,secondary,545,yes,no,6,may,1030,1,yes
8,37,technician,married,secondary,1,yes,no,6,may,608,1,yes
9,28,services,single,secondary,5090,yes,no,6,may,1297,3,yes


### 2.2 - Função shape - Retornar o tamanho da base de dados 
Quantidade de linhas e de colunas

In [26]:
# Respectivamente retorna a quantidade de linhas e a quantidade de colunas da base de dados
df.shape

(11162, 12)

#### Repare que a função shape retorna dois valores em sequência, assim como em listas e strings, é possível selecionar estes falores com as suas posições

In [27]:
# Irá retornar somente a quantidade de linhas da Base de Dados
df.shape[0]

11162

In [28]:
# Irá retornar somente a quantidade de colunas da Base de Dados
df.shape[1]

12

### 2.3 - Função coluns - Retorna o nome de todas as volunas da Base de Dados

In [35]:
# Exibe todas as colunas da Base de Dados
df.columns

Index(['idade', 'emprego', 'estado_civil', 'educacao', 'saldo_bancario',
       'possui_casa', 'emprestimo', 'dia', 'mes', 'duracao', 'qtd_contato',
       'deposito'],
      dtype='object')

#### Repare que a função columns retorna os valores em sequência, assim como em listas e strings, é possível selecionar estes falores com as suas posições

In [36]:
# Exibe a primeira coluna da Base de Dados
df.columns[0]

'idade'

In [37]:
# Exibe a segunda coluna da Base de Dados
df.columns[1]

'emprego'

In [38]:
# Exibe a terceira coluna da Base de Dados
df.columns[2]

'estado_civil'

In [39]:
# Exibe a última coluna da Base de Dados
df.columns[-1]

'deposito'

### 2.4 - Função info() - Informa, para cada coluna, a quantidade de valores não nulos e o tipo de dados da coluna

In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11162 entries, 0 to 11161
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   idade           11162 non-null  int64 
 1   emprego         11162 non-null  object
 2   estado_civil    11162 non-null  object
 3   educacao        11162 non-null  object
 4   saldo_bancario  11162 non-null  int64 
 5   possui_casa     11162 non-null  object
 6   emprestimo      11162 non-null  object
 7   dia             11162 non-null  int64 
 8   mes             11162 non-null  object
 9   duracao         11162 non-null  int64 
 10  qtd_contato     11162 non-null  int64 
 11  deposito        11162 non-null  object
dtypes: int64(5), object(7)
memory usage: 1.0+ MB


#### Para facilitar a verificação de dados ausentes na base de dados, podemos usar as funções isnull() e sum(), para somar todos os valores nulos de cada coluna

In [43]:
# Exibe a quantidade de valores nulos em cada coluna
df.isnull().sum()

idade             0
emprego           0
estado_civil      0
educacao          0
saldo_bancario    0
possui_casa       0
emprestimo        0
dia               0
mes               0
duracao           0
qtd_contato       0
deposito          0
dtype: int64

### 2.5 - Exibe uma descrição de todas as colunas que possuem valores numéricos
a primeira análise é a quantidade de valores

a segunda a média dos valores

a terceira é o desvio padrão (não precisamos focar aqui)

a quarta informa o menor valor presente na coluna

a quinta informa que 25% do valores são iguais ou menor ao valor informado

a sexta informa que 50% do valores são iguais ou menor ao valor informado

a sétima informa que 75% do valores são iguais ou menor ao valor informado

a oitava informa o maior valor presente da coluna


In [47]:
df.describe()

Unnamed: 0,idade,saldo_bancario,dia,duracao,qtd_contato
count,11162.0,11162.0,11162.0,11162.0,11162.0
mean,41.231948,1528.538524,15.658036,371.993818,2.508421
std,11.913369,3225.413326,8.42074,347.128386,2.722077
min,18.0,-6847.0,1.0,2.0,1.0
25%,32.0,122.0,8.0,138.0,1.0
50%,39.0,550.0,15.0,255.0,2.0
75%,49.0,1708.0,22.0,496.0,3.0
max,95.0,81204.0,31.0,3881.0,63.0
