# AcademIA BB - Ciência de Dados

Bem vindos e bem vindas à AcademIA BB! Esse material faz parte do eixo de Ciência de Dados e contém o conteúdo que será desenvolvido nas Lives. 

O conteúdo é baseado em uma premissa "mãos na massa", então os conceitos serão explicados à medida que são apresentados por meio do código.


Projetos de ciências de dados seguem alguns passos, vamos dividir os nossos em 5:

1. Investigar o quadro geral
2. Obter os dados.
3. Descobrir e visualizar os dados para obter insights.
4. Preparar os dados para algoritmos de Aprendizado de Máquina.
5. Selecionar um modelo e treina-lo.


No primeiro passo, é aferida a disponibilidade dos dados que são importantes para o problema. No nosso caso, vamos estudar um problema de rotatividade de clientes do cartão de crédito. Esses dados devem ser obtidos e importados para nosso ambiente de desenvolvimento para que possamos acessá-lo pelo Python.


## Caso de Estudo

Um gerente do banco está incomodado com o fato de cada vez mais clientes abandonarem os serviços de cartão de crédito. Eles realmente apreciariam se alguém pudesse prever quem será desligado, para que possam ir proativamente ao cliente para fornecer-lhes melhores serviços e direcionar as decisões dos clientes na direção oposta.

No nosso exemplo, os clientes estão abandonando os serviços de cartão de crédito e queremos buscar hipóteses que expliquem esse comportamento. Para entender e explorar esse comportamento, vamos analisar os dados dos clientes que abandonaram ou não o serviço. Esses dados podem ou não conter insights sobre a evasão do serviço, mas para aferir essa situação, precisamos primeiro entender quais dados estão disponíveis e como eles poderiam afetar a decisão de evadir ou não.


Os dados dos clientes serão disponibilizados e passaremos para o próximo passo, que é importar os dados para nosso ambiente de desenvolvimento.

### Importando dados

Temos um conjunto de dados que possue várias informações dos clientes. Esses dados nos foram disponibilizados através de um arquivo CSV, ou seja, os dados estão no formato de texto separado por vírgulas. 

Esse tipo de arquivo possui dados estruturados em linhas e colunas, o que é muito comum e considerado padrão na ciência de dados. A primeira linha de nosso arquivo de texto possuirá o nome de cada uma de nossas colunas, separados por vírgulas. Todas as outras linhas são consideradas 'observações', ou seja, valores para cada coluna de nosso conjunto. Uma linha possui, portanto, um valor por coluna e o número de valores de cada linha deve corresponder ao número de colunas.

Esse arquivo possui os dados mas nosso ambiente de desenvolvimento Python ainda não tem acesso a eles. Vamos então importar os dados para nosso ambiente.


In [None]:
## Instalação das bibliotecas no LabbLite
# Retire os comentários para instalar as bibliotecas no LabbLite.
# As bibliotecas sklearn, pandas, numpy e matplotlib já deveriam estar instaladas
# por padrão. Caso não estejam, instalar com o comando pip
#import micropip 
#await micropip.install('seaborn')
#await micropip.install('imblearn')

In [1]:
import pandas as pd # Primeiro vamos importar a biblioteca Pandas para poder manipular o arquivo

df = pd.read_csv('bases/ds_dataset_002.csv',sep=';') # Agora vamos importar os dados e atribuir à variável df

### Observando os valores de nosso DataFrame

Percebemos que mesmo depois de executar a célula acima, os valores de nosso conjunto de dados não aparecem na tela. Isso por que apenas importamos o conjunto de dados para nosso ambiente de desenvolvimento mas ainda não os escrevemos na tela. 

Conjuntos de dados costumam ter centenas senão centenas de milhares ou até milhões de linhas. Não se costuma, portanto, visualizar todos os valores de um conjunto de dados e sim apenas algumas linhas. 

In [2]:
df.head(10) # Esse comando nos mostra as 5 primeiras linhas do arquivo importado

Unnamed: 0,Indicador,Idade,Genero,Dependentes,Escolaridade,Estado_Civil,Renda,Cartao,Limite_Credito
0,0,45,M,3,Ensino Médio Completo,Casado,De 60 Mil a 80 Mil,Blue,12691.0
1,0,49,F,5,Pós-Graduação,Solteiro,Menos de 40 Mil,Blue,8256.0
2,0,51,M,3,Pós-Graduação,Casado,De 80 Mil a 120 Mil,Blue,3418.0
3,0,40,F,4,Ensino Médio Completo,,Menos de 40 Mil,Blue,3313.0
4,0,40,M,3,Sem Escolaridade,Casado,De 60 Mil a 80 Mil,Blue,4716.0
5,0,44,M,2,Pós-Graduação,Casado,De 40 Mil a 60 Mil,Blue,4010.0
6,0,51,M,4,Desconhecido,Casado,Mais de 120 Mil,Gold,34516.0
7,0,32,M,0,Ensino Médio Completo,,De 60 Mil a 80 Mil,Silver,29081.0
8,0,37,M,3,Sem Escolaridade,Solteiro,De 60 Mil a 80 Mil,Blue,22352.0
9,0,48,M,2,Pós-Graduação,Solteiro,De 80 Mil a 120 Mil,Blue,11656.0


## Descrevendo um conjunto de dados

Conjuntos de dados possuem diversas informações que podem descrevê-los. A análise realizada para descrever o conjunto de dados é chamada 'Análise Descritiva'. Essa análise busca descrever o conjunto a partir do que chamamos de 'medidas resumo' que, como o nome diz, resumem e sintetizam informações sobre o conjunto inteiro. Por exemplo, a partir de uma lista de idades é possível obter o valor médio das idades, que corresponde à soma de todas os valores dividida pelo número total de observações. Algumas informações sobre o conjunto podem ser obtidas facilmente a partir da observação simples do conjunto, como
- Número de observações
- Tipo de dados
    - Quantitativos
    - Qualitativos
- Valores mínimos e máximos
- Ordenação dos valores



Para acessar uma coluna do nosso DataFrame, utiliza-se o colchete `[]` com o nome da coluna desejada. É possível selecionar mais de uma coluna utilizando dois colchetes `[[]]`, como no exemplo abaixo.

In [3]:
df['Indicador']

0        0
1        0
2        0
3        0
4        0
        ..
10122    0
10123    1
10124    1
10125    1
10126    1
Name: Indicador, Length: 10127, dtype: int64

In [4]:
df[['Indicador','Genero']]

Unnamed: 0,Indicador,Genero
0,0,M
1,0,F
2,0,M
3,0,F
4,0,M
...,...,...
10122,0,M
10123,1,M
10124,1,F
10125,1,M


In [5]:
df['Idade'][0:10] # para selecionar linhas, utilize um segundo par de colchetes

0    45
1    49
2    51
3    40
4    40
5    44
6    51
7    32
8    37
9    48
Name: Idade, dtype: int64

In [6]:
df[['Indicador','Genero']][0:10] # também funciona para mais de uma coluna

Unnamed: 0,Indicador,Genero
0,0,M
1,0,F
2,0,M
3,0,F
4,0,M
5,0,M
6,0,M
7,0,M
8,0,M
9,0,M


### Função `info()`


Muitas informações importantes dos nossos dados podems ser obtidas através da função `info()`. Para executar a função, após o nome da sua variável que contém os dados, escreva `.info()` e execute a célula, como no exemplo a seguir. A saída conterá informações sobre o conjunto de dados como número de linhas, colunas, valores nulos e os tipos de dados de cada coluna. 

Essa é uma função muito útil para ter uma visão geral de nosso conjunto de dados e escolher quais passos seguir na sua análise.

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10127 entries, 0 to 10126
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Indicador       10127 non-null  int64  
 1   Idade           10127 non-null  int64  
 2   Genero          10127 non-null  object 
 3   Dependentes     10127 non-null  int64  
 4   Escolaridade    10127 non-null  object 
 5   Estado_Civil    9378 non-null   object 
 6   Renda           9015 non-null   object 
 7   Cartao          10127 non-null  object 
 8   Limite_Credito  10127 non-null  float64
dtypes: float64(1), int64(3), object(5)
memory usage: 712.2+ KB


### Função `describe()`

A função `describe()` possui um objetivo semelhante, com a diferença que ele irá retornar informações de estatística descritiva das colunas numéricas de nosso conjunto de dados. 

As estatísticas obtidas são:
- count : Contagem

É o número de observações daquela variável. Ou seja, é o número de linhas que possuem valores válidos para aquela coluna. Caso em certas linhas os valores para aquela coluna sejam nulos, por exemplo, esses valores não serão contados.

- Média

É a média aritmética dos valores válidos da coluna. A média aritmética é obtida a partir da soma de todos os valores observados dividida pelo número de observações.


- std - Desvio-Padrão

O desvio-padrão é uma medida de distribuição que mede quanto cada observação se distancia da média. Ele nos dá informações sobre a distribuição de valores das nossas observações. Quanto maior o valor do desvio-padrão, maior a variação dos valores observados com relação a média.

- min e max - Mínimo e Máximo

Esses são os valores mínimo e máximo para a coluna observada. 

- Mediana

A mediana é uma medida de posição que corresponde ao valor que esteja localizado na metade da lista ordenada dos valores observados. Essa medida é útil pois ela reduz a influência de valores extremos, chamados de __outliers__. 

No caso da saída de nossa função `describe()`, a mediana é apresentada a partir de seus 'quartis', que são as posições relativas na lista ordenada de valores de nossas observações. 

O primeiro quartil corresponde ao valor apresentado como '25%' e ele apresenta o valor central entre o menor e metade da lista ordenada. Por definição, indica que até seu valor, 25% dos dados estarão incluídos. Isso também indica que apenas 25% dos valores é inferior ao primeiro quartil. 

O segundo quartil corresponde à mediana e é o valor que se encontra na posição central da lista ordenada de valores. Indica também que 50% dos valores é inferior ao valor da mediana. 

O terceiro quartil é o valor que se encontra na posição 75% da lista ordenada de valores.


In [8]:
df.describe()

Unnamed: 0,Indicador,Idade,Dependentes,Limite_Credito
count,10127.0,10127.0,10127.0,10127.0
mean,0.16066,46.32596,2.346203,8631.953698
std,0.367235,8.016814,1.298908,9088.77665
min,0.0,26.0,0.0,1438.3
25%,0.0,41.0,1.0,2555.0
50%,0.0,46.0,2.0,4549.0
75%,0.0,52.0,3.0,11067.5
max,1.0,73.0,5.0,34516.0


### Funções de Estatística Descritiva

DataFrames são variáveis muito úteis para a análise descritiva de um conjunto de dados pois possuem funções para a obtenção de valores de forma simples. 

Para obter o número total de linhas de nosso conjunto, podemos utilizar a função `len()` ou a variável `shape` de nosso DataFrame. 

In [9]:
len(df)

10127

In [10]:
df.shape

(10127, 9)

Para obter o máximo e mínimo de uma coluna ou de todas as colunas, basta utilizar as funções `max()` e `min()`.

In [11]:
df['Idade'].max()

73

### Distribuição de Valores

Os valores observados podem estar distribuídos de forma diferente. Temos uma função chamada `value_counts()` que mostra o número de observações para cada valor na coluna observada. Vamos aplicar essa função na nossa coluna de Indicador, assim vamos saber quantas pessoas evadiram nosso serviço de cartão de crédito.

In [12]:
df['Indicador'].value_counts()

0    8500
1    1627
Name: Indicador, dtype: int64

In [13]:
df['Cartao'].value_counts(normalize=True)

Blue        0.931767
Silver      0.054804
Gold        0.011455
Platinum    0.001975
Name: Cartao, dtype: float64