# Usando groupby e Funções Descritivas

Neste arquivo, será feito a seleção de dados usando o atributo "**groupby**" e algumas funções descritivas. Com isso, vamos enriquecer o nosso conhecimento em pré-processamento de dados usando a linguagem de programação Python.

In [1]:
import pandas as pd
# importando a biblioteca "Pandas" do Python

In [2]:
dados = pd.read_csv("bank.csv", encoding = "UTF-8", sep = ";")
# atribuindo ao objeto "dados" todos os registros do banco de dados "bank.csv"

In [3]:
dados
# lendo os registros armazenados no objeto "dados"

Unnamed: 0,age,job,marital,education,default,balance,housing,loan,contact,day,month,duration,campaign,pdays,previous,poutcome,y
0,30,unemployed,married,primary,no,1787,no,no,cellular,19,oct,79,1,-1,0,unknown,no
1,33,services,married,secondary,no,4789,yes,yes,cellular,11,may,220,1,339,4,failure,no
2,35,management,single,tertiary,no,1350,yes,no,cellular,16,apr,185,1,330,1,failure,no
3,30,management,married,tertiary,no,1476,yes,yes,unknown,3,jun,199,4,-1,0,unknown,no
4,59,blue-collar,married,secondary,no,0,yes,no,unknown,5,may,226,1,-1,0,unknown,no
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4516,33,services,married,secondary,no,-333,yes,no,cellular,30,jul,329,5,-1,0,unknown,no
4517,57,self-employed,married,tertiary,yes,-3313,yes,yes,unknown,9,may,153,1,-1,0,unknown,no
4518,57,technician,married,secondary,no,295,no,no,cellular,19,aug,151,11,-1,0,unknown,no
4519,28,blue-collar,married,secondary,no,1137,no,no,cellular,6,feb,129,4,211,3,other,no


Vamos usar o atributo "**describe**" para observar diversas informações estatísticas sobre a nossa base de dados armazenada no objeto. Vale a pena salientar que só será válido para os campos de dados que possuem variáveis do tipo numérico.

In [4]:
dados.describe()
# usando o atributo "describe" para obter resultado estatísticos da nossa base de dados armazenada no
# objeto "dados"

Unnamed: 0,age,balance,day,duration,campaign,pdays,previous
count,4521.0,4521.0,4521.0,4521.0,4521.0,4521.0,4521.0
mean,41.170095,1422.657819,15.915284,263.961292,2.79363,39.766645,0.542579
std,10.576211,3009.638142,8.247667,259.856633,3.109807,100.121124,1.693562
min,19.0,-3313.0,1.0,4.0,1.0,-1.0,0.0
25%,33.0,69.0,9.0,104.0,1.0,-1.0,0.0
50%,39.0,444.0,16.0,185.0,2.0,-1.0,0.0
75%,49.0,1480.0,21.0,329.0,3.0,-1.0,0.0
max,87.0,71188.0,31.0,3025.0,50.0,871.0,25.0


Mais adiante, será informado o que cada função descritiva representa em uma base de dados e como ela pode ser de grande auxílio para enxergar registros inconsistentes e faltantes.

Por exemplo "**mean**" é o valor médio de cada campo de dado com tipo de variável numérica. Assim, ela pode ser usado como atributo para visualizar o valor médio de um determinado campo de dado. Observe o exemplo abaixo.

In [6]:
dados.age.mean()
# funções de agrupamento - média das idades

41.17009511170095

Observe que o resultado está de acordo com o valor visto em "mean" no atributo "describe".

Não só com o valor médio podemos fazer isso, mas sim com todas as funções descritivas.

In [8]:
dados.age.min()
# funções de agrupamento - valor mínimo das idades

19

In [7]:
dados.age.max()
# funções de agrupamento - valor máximo das idades

87

Agora, podemos obter resultados estatísticos de uma determinada parcela de usuários que se enquadram com determinadas características. No exemplo abaixo, vamos observar o valor médio das idades de quem é casado.

In [9]:
dados[dados.marital == "married"].age.mean()
# média de idade das pessoas casadas

43.45441544511977

Agora, vamos fazer filtragens mais complexas com o auxílio do atributo "**groupby**". Nele, estaremos selecionando entre os campos de dados "marital", "education" e "age" a média individual das idades para quem possui cada um dos estágios de educação e estão em determinada situações conjugais.

In [11]:
dados[["marital", "education", "age"]].groupby(["marital", "education"]).mean()
# usando o atributo "groupby" para fazer uma seleção mais precisa

Unnamed: 0_level_0,Unnamed: 1_level_0,age
marital,education,Unnamed: 2_level_1
divorced,primary,51.392405
divorced,secondary,43.496296
divorced,tertiary,45.148387
divorced,unknown,50.375
married,primary,47.511407
married,secondary,42.404345
married,tertiary,41.777166
married,unknown,48.444444
single,primary,37.013699
single,secondary,33.052545


Portanto, a parte de pré-processamento usando a biblioteca "Pandas" do Python está concluída. Agora podemos avançar com mais segurança no aprendizado de Machine Learning.

### Alguma dúvida? Entre em Contato Comigo:

- [Me Envie um E-mail](mailto:alysson.barbosa@ee.ufcg.edu.br);