# Analisando dados com Pandas

Muitas vezes no nosso dia dia precisamos de analizar rapidamente nossos dados e gostariamos de obter algumas informações sobre eles, para ajudar na tomada de decisão, ou mesmo para o desenvolvimento de soluções. Neste momento temos de contar com algumas ferramentas para nos auxiliar neste trabalho, o pandas é uma ferramenta perfeita para este fim.

## O DataSet

Para fins didáticos criei um dataset que representa um banco de dados de um hospital fictício, ele foi montado aleatoriamente, coletei algumas especialidades da lista especialidades médicas que pode ser encontrada [aqui](https://pt.wikipedia.org/wiki/Lista_de_especialidades_m%C3%A9dicas). 


O dataset é composto da seguinte forma:

* Id - um número sequencial
* Data - data do atendimento
* Horário - hora do atendimento
* Especialidade - nome da Especialidade

## Importando os dados

In [1]:
%matplotlib inline
import pandas as pd

Para iniciar temos de carregar nossos dados, neste caso vamos utilizar a função `read_csv`. Como nossos dados estão no idioma português devemos especificar o charset, para que não tenhamos problemas com os dados sendo exibidos de forma errada. Assim vamos usar o seguinte parâmetro para a função `read_csv` do pandas, `encoding='iso-8859-1'`. 

Além disso vamos especificar nossa coluna de data para que o pandas possa realizar um parse nesta coluna transformando-a no tipo apropriado para nosso trabalho, isso é feito por meio do parâmetro `parse_dates`, em seguida vamos informar ao pandas que nossa data inicia com o dia ao invés do mês como é comum nos EUA, isto é feito da seguinte maneira `dayfirst=True`.

In [2]:
data = pd.read_csv('dataset.csv', delimiter=';', encoding='iso-8859-1', parse_dates=['data'], dayfirst=True)

Com nosso dataset carregado podemos então obter alguma informação sobre ele.

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22822 entries, 0 to 22821
Data columns (total 4 columns):
id               22822 non-null int64
data             22822 non-null datetime64[ns]
horario          22822 non-null object
especialidade    22822 non-null object
dtypes: datetime64[ns](1), int64(1), object(2)
memory usage: 713.3+ KB


Podemos perceber que o dataset possui 22822 registros, agora vamos exibir um pouco de nossos dados.

In [4]:
data.head()

Unnamed: 0,id,data,horario,especialidade
0,24554,2018-06-11,11:33:51,Clínica Médica
1,24553,2018-06-11,11:33:27,Neurologia
2,24552,2018-06-11,11:33:22,Clínica Médica
3,24551,2018-06-11,11:17:35,Neurologia
4,24550,2018-06-11,11:16:47,Pediatria


## Removendo dados desnecessários

Para este tutorial não precisaremos de todas as colunas do nosso dataset então, vamos remover algumas colunas, para isso basta agente usar o `drop`. Segundo o manual disponível [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html), dado uma lista de labels de colunas ou rows ele irá remover do dataset.
Devemos especificar se desejamos remover uma linha ou coluna, para isso devemos informar o parametro `axis` que pode assumir os valores 0 para index e 1 para colunas, sendo que o padrão é o 0, sendo assim para removermos as colunas que não desejamos podemos fazer o seguinte:

In [5]:
data = data.drop(["horario"], axis=1)
data.head()

Unnamed: 0,id,data,especialidade
0,24554,2018-06-11,Clínica Médica
1,24553,2018-06-11,Neurologia
2,24552,2018-06-11,Clínica Médica
3,24551,2018-06-11,Neurologia
4,24550,2018-06-11,Pediatria


## Conhecendo as especialidades

Muito bem temos nosso dataset pronto para iniciarmos nosso estudo.

Vamos exibir quais especialidades temos no nosso dataset, para isso faremos o seguinte:

In [6]:
especialidades = data[['especialidade']].drop_duplicates().sort_values('especialidade').set_index('especialidade')
especialidades

Cardiologista
Clínica Médica
Dermatologista
Ecocardiografia
Ecografia
Ginecologista
Mamografia
Neurologia
Oftalmologista
Ortopedia
Ortopedista


O que acabamos de fazer foi o seguinte: por meio do `fancy indexing` (Indexação sofisticada em tradução livre :P) obtivemos todas as nossas especialidades, como temos várias especialidades repetidas chamamos a função `drop_duplicates()` para remover os registros duplicados  e em seguida ordenamos o resultados, por fim neste caso apenas para uma melhor representação dos dados definimos a coluna especialidade como indice, experimente remover a função `set_index('especialidade')` para ver como fica o resultado.

Agora digamos que desejamos exibir apenas os 5 primeiros itens podemos então, fazer o seguinte:

In [7]:
especialidades[:5]

Cardiologista
Clínica Médica
Dermatologista
Ecocardiografia
Ecografia


Da mesma forma podemos utilizar a função `head` e informar a quantidade desejada de itens. Ou seja esta função retorna as `n` primeiras linhas do nosso dataset.

In [8]:
especialidades.head(5)

Cardiologista
Clínica Médica
Dermatologista
Ecocardiografia
Ecografia


## Extraindo informações

Agora que sabemos quais especialidades temos, vamos contar quantos registros temos em cada especialidade, para isso precisamos agrupar nossos dados pela especialidade e em seguida informar quais campos queremos contar.

In [9]:
data.groupby(['especialidade']).especialidade.count()

especialidade
Cardiologista          2
Clínica Médica     14416
Dermatologista         6
Ecocardiografia        2
Ecografia              1
Ginecologista          2
Mamografia             1
Neurologia           575
Oftalmologista         1
Ortopedia           3442
Ortopedista            1
Pediatria           2210
Psiquiatria         1338
Radiologia           821
Urologia               4
Name: especialidade, dtype: int64

Uma outra maneira e mais simples de conseguirmos o mesmo resultado seria apenas apontarmos a coluna que desejamos  em seguida chamarmos a função `value_counts()`, como podemos ver a seguir 

In [10]:
data.especialidade.value_counts()

Clínica Médica     14416
Ortopedia           3442
Pediatria           2210
Psiquiatria         1338
Radiologia           821
Neurologia           575
Dermatologista         6
Urologia               4
Cardiologista          2
Ginecologista          2
Ecocardiografia        2
Ortopedista            1
Ecografia              1
Oftalmologista         1
Mamografia             1
Name: especialidade, dtype: int64

Se observarmos ao executar o código anterior recebemos um objeto do tipo Series.

In [11]:
type(data.especialidade.value_counts())

pandas.core.series.Series

Como  então obtermos o mesmo resultado mas desta vez recebendo um objeto do tipo DataFrame? para isso basta adicionarmos a função `reset_index()` ela nos retornará um objeto DataFrame, aproveito para renomear as colunas

In [12]:
data.especialidade.value_counts().reset_index().rename(columns={'index': 'Especialidade', 'especialidade': 'Total'})

Unnamed: 0,Especialidade,Total
0,Clínica Médica,14416
1,Ortopedia,3442
2,Pediatria,2210
3,Psiquiatria,1338
4,Radiologia,821
5,Neurologia,575
6,Dermatologista,6
7,Urologia,4
8,Cardiologista,2
9,Ginecologista,2


Muito bem, agora digamos que você deseja saber quantos atendimentos a empresa teve por ano?

In [13]:
data.groupby(data['data'].dt.year).size()

data
2017    13073
2018     9749
dtype: int64

Inicialmente obtemos a coluna data e em seguida pegamos o objeto do tipo `DatetimeProperties` para que possamos obter por sua vez o atributo `year` que nos da o ano da nossa data, para somente depois agruparmos os dados por ano e por fim obtermos o total de atendimentos por ano.

Podemos obter os dados da mesma maneira, mas agora retornarmos o objeto como um `DataFrame`

In [14]:
data.groupby(data['data'].dt.year).size().reset_index().rename(columns={0: 'Total'}).set_index('data')

Unnamed: 0_level_0,Total
data,Unnamed: 1_level_1
2017,13073
2018,9749


Agora sabemos que no ano de 2017 tivemos `13073` atendimentos enquanto o ano de 2018 tivemos apenas `9749` totalizando `22822` registros.

Muito bem, agora e se nós desejamos saber quanto cada especialidade atendeu por ano? para isso basta agrupar os dados por ano e especialidade.

In [15]:
data.groupby([data['data'].dt.year, 'especialidade'])[['id']].count().rename(columns={'id': 'Total'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Total
data,especialidade,Unnamed: 2_level_1
2017,Cardiologista,2
2017,Clínica Médica,8173
2017,Dermatologista,6
2017,Ecocardiografia,2
2017,Ecografia,1
2017,Ginecologista,2
2017,Mamografia,1
2017,Neurologia,413
2017,Oftalmologista,1
2017,Ortopedia,1757


Assim descobrimos que nem todas as especialidades atuaram em 2018 por exemplo. Agora e se ao contrário gostariamos de saber o total de atendimento por mes e ano?

In [16]:
data.groupby([data['data'].dt.year, data['data'].dt.month])[['id']].count().rename(columns={'id': 'Total'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Total
data,data,Unnamed: 2_level_1
2017,3,533
2017,4,1165
2017,5,20
2017,6,1595
2017,7,1709
2017,8,1907
2017,9,1820
2017,10,1673
2017,11,1449
2017,12,1202


Para finalizar vamos agrupar todos, ano, mes e especialidade.

Normalmente o pandas mostra várias linhas, porém para ficar uma imagem melhor de ser exibida limitei os registro da seguinte manera:

In [17]:
pd.set_option("display.max_rows",10)

In [18]:
data.groupby([data['data'].dt.year, data['data'].dt.month, 'especialidade'])[['id']].count().rename(columns={'id': 'Total'})

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Total
data,data,especialidade,Unnamed: 3_level_1
2017,3,Cardiologista,1
2017,3,Clínica Médica,339
2017,3,Dermatologista,6
2017,3,Ecocardiografia,2
2017,3,Ecografia,1
...,...,...,...
2018,6,Neurologia,33
2018,6,Ortopedia,145
2018,6,Pediatria,53
2018,6,Psiquiatria,33
