# Introdução ao Python Pandas

**Data:** 23 Novembro 2017 

Conteúdo:

- [Criação de um DataFrame](#Criação&nbsp;de&nbsp;um&nbsp;DataFrame)
- [Visualização do DataFrame](#Visualização&nbsp;do&nbsp;DataFrame)
- [Acesso aos dados](#Acesso&nbsp;aos&nbsp;dados)
- [_Missing data_](#Missing&nbsp;data)
- [Operações sobre os dados](#Operações&nbsp;sobre&nbsp;os&nbsp;dados)
- [Criação de um DataFrame]()

In [None]:
import pandas as pd
import numpy as np

---
# Criação&nbsp;de&nbsp;um&nbsp;DataFrame


## A partir de um dicionário

In [None]:
data = {'dia': ['Seg', 'Seg', 'Ter', 'Ter'],
         'Cidade': ['Lisboa', 'Porto', 'Lisboa', 'Porto'],
         'Visitantes':[100, 58, 135, 200],
         'Gasto médio': [25.3, 20.1, 35.7, 30.2]}

In [None]:
users_df = pd.DataFrame(data)
users_df

In [None]:
print(users_df)

## A partir de um dicionário de listas

In [None]:
cidades = ['Lisboa', 'Porto', 'Lisboa', 'Porto']
visitantes = [100, 58, 135, 200]
gasto_medio = [25.3, 20.1, 35.7, 30.2]
dia = ['Seg', 'Seg', 'Ter', 'Ter']

In [None]:
lista_labels = ['Cidade', 'dia', 'Visitantes', 'Gasto médio']
lista_cols = [cidades, dia, visitantes, gasto_medio]

In [None]:
zipped = list(zip(lista_labels, lista_cols))
print(zipped)

In [None]:
dict(zipped)

In [None]:
users_df = pd.DataFrame(dict(zipped))
users_df

## A partir de um csv

In [None]:
users_df = pd.read_csv('data.csv')
users_df

## A partir de um excel

In [None]:
users_df = pd.read_excel('data.xlsx')
users_df

## Opções do csv

In [None]:
users_df = pd.read_csv('csaude1.csv')
users_df

### Indicar a coluna que será usada como `index`:

In [None]:
csaude1_df = pd.read_csv('csaude1.csv', index_col='mes')
csaude1_df

In [None]:
csaude2_df = pd.read_csv('csaude2.csv', index_col='mes')
csaude2_df

---
# Visualização&nbsp;do&nbsp;DataFrame

In [None]:
print(csaude1_df)

In [None]:
type(csaude1_df)

In [None]:
csaude1_df.shape

## Índices, colunas e valores

 - `.index`: devolve os valores da coluna `index`; 
 - `.columns`: devolve o nome das colunas;
 - `.values`: devolve os valores das colunas como um array numpy.

In [None]:
csaude1_df.index

In [None]:
type(csaude1_df.index)

In [None]:
csaude1_df.columns

In [None]:
type(csaude1_df.columns)

In [None]:
csaude1_df.values

In [None]:
type(csaude1_df.values)

## Resumo do DataFrame

Os métodos `info()` e `describe()` permitem obter informação sobre um `DataFrame`: 

- `info()` informação sobre as colunas e os tipos de dados
- `describe()` uma análise estatística simples doas valores das colunas

In [None]:
csaude1_df.info()

In [None]:
csaude1_df.describe()

## Topo e fim

As funções `head` e `tail` permitem ver as primeiras ou as últimas colunas de um `DataFrame`.

In [None]:
csaude1_df.head(3)

In [None]:
csaude1_df.tail(2)

## Broadcasting


### Acrescentar uma coluna com o mesmo valor em cada entrada

In [None]:
csaude1_df['acidentes'] = 0.0
csaude1_df

### Mudar o `index` de um `DataFrame`

In [None]:
csaude1_df.index = ['A', 'B', 'C', 'D', 'E', 'F']
csaude1_df

In [None]:
csaude1_df.index = ['Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun']
csaude1_df

### Mudar o nome das columas de um `DataFrame`

In [None]:
csaude1_df.columns = ['A', 'B','C', 'D', 'E', 'F']
csaude1_df

In [None]:
csaude1_df.columns=['utentes', 'consultas', 'faltas', 'tempo espera', 'epoca', 'acidentes']
csaude1_df

---
# Acesso&nbsp;aos&nbsp;dados

## Usando os atributos

In [None]:
csaude1_df['consultas']['Jan']

In [None]:
csaude1_df['faltas']['Abr']

## Usando o .loc

In [None]:
csaude1_df.loc['Jan', 'consultas']

In [None]:
csaude1_df.loc['Jan', ['consultas', 'faltas']]

In [None]:
csaude1_df.loc[['Jan', 'Jun'], 'tempo espera']

In [None]:
csaude1_df.loc['Mar':'Jun']

**Q1:** Obtenha o seguinte _output_:

| 	| consultas |	faltas|
|:-:|:-|:-|
|Mar| 	87| 	2|
|Abr| 	68| 	15|
|Mai| 	95| 	4|
|Jun| 	110| 	8|

## Usando o .iloc

In [None]:
csaude1_df

### Faltas em Abril:

In [None]:
# Faltas em Abril 
csaude1_df.iloc[3,2]

### Consultas ao longo dos meses:

In [None]:
csaude1_df.iloc[:,1]

### Consultas e tempo de espera de Março a Junho

In [None]:
csaude1_df.iloc[2:, [1, 3]]

**Q2:** Obtenha o seguinte _output_:



|	| utentes| 	consultas| 	faltas|
|:-:|:-|:-|:-|
|Jan| 	350| 	90| 	5|
|Mar| 	360| 	87| 	2|
|Mai| 	370|	95| 	4|


## Ordenação

**Atenção**: as funções seguintes devolvem um novo `DataFrame`, isto é, não ordenam o próprio!

In [None]:
csaude1_df.sort_index(axis=0, ascending=False)

In [None]:
csaude1_df.sort_index(axis=1, ascending=True)

In [None]:
csaude1_df.sort_values(by='tempo espera')

## Boleanos

### Quais os meses em que houve mais que 90 consultas?

In [None]:
csaude1_df.consultas > 90

In [None]:
csaude1_df['consultas']>90

### Pesquisa 

In [None]:
maior_movimento = csaude1_df.consultas>90
csaude1_df[maior_movimento]

## Combinar filtros

In [None]:
csaude1_df[(csaude1_df.consultas >=80) & (csaude1_df.faltas < 7)]

In [None]:
csaude1_df[(csaude1_df.consultas >=90) | (csaude1_df['tempo espera'] < 5)]

**Q3:** Obtenha um `DataFrame` cujas entradas correspondem aos meses em que o tempo espera se situou entre os 5 e os 10 minutos:


|	|utentes |	consultas| 	faltas| 	tempo espera| 	epoca| 	acidentes|
|:-:|:-|:-|:-|:-|:-|
|Jan| 	350| 	90| 	5| 	12.4 |	baixa |	0.0|
|Fev| 	352| 	80| 	7| 	12.5| 	baixa |	0.0|
|Mar| 	360| 	87| 	2| 	6.2| 	baixa |	0.0|


## Filtros especiais

Existem um conjunto de funções especiais:

- `.all()`: devolve verdadeiro se todos os elementos são `True` no eixo pedido (por defeito é ao longo das colunas)
- `.any()`: devolve verdadeiro se algum elemento é  `True` no eixo pedido (por defeito é ao longo das colunas)
- `.isnull()`: devolve um objecto boleano do mesmo tamanho indicando se os valores são `null`.
- `.notnull()`: o contrário da função `isnull()`.


Estas funções podem ser usadas tendo em atenção que o número 0 é considerado `False` e `NaN` é considerado `null`.

In [None]:
new_csaude_df = csaude1_df.copy()
new_csaude_df['vacinas'] = [0, 0, 50, 60, 70, 80]
new_csaude_df

### Todos os elementos de uma coluna são diferentes de zero?

In [None]:
new_csaude_df.all()

**Q4:** Devolver apenas as colunas em que todos os elementos são diferentes de zero.

|| 	utentes 	|consultas |	faltas 	|tempo espera| 	epoca|
|:-|:-|:-|:-|:-|:-|
|Jan |	350 |	90 |	5 |	12.4 |	baixa|
|Fev | 	352 |	80 |	7 |	12.5 |	baixa|
|Mar |	360 |	87 |	2 |	6.2 |	baixa|
|Abr | 	367 |	68 |	15 |	2.1 |	media|
|Mai |	370 |	95 |	4 |	NaN |	media|
|Jun |	381 |	110 |	8 |	17.3 |	alta|

### Existem elementos ao longo da coluna diferentes de zero?

In [None]:
new_csaude_df.any()

**Q5:** Devolver apenas as colunas que têm algum elemento diferente de zero.


|	|utentes |	consultas |	faltas |	tempo espera |	epoca |	vacinas|
|:-|:-|:-|:-|:-|:-|:-|
|Jan| 	350| 	90 |	5 |	12.4 |	baixa |	0|
|Fev |	352 |	80 |	7 |	12.5 |	baixa |	0|
|Mar |	360 |	87| 	2 |	6.2 |	baixa |	50|
|Abr |	367 |	68 |	15 |	2.1 |	media |	60|
|Mai |	370 |	95 |	4 |	NaN |	media |	70|
|Jun |	381 |	110 |	8 |	17.3 |	alta |	80|


### Existem elementos não definidos  (`NaN`)?

In [None]:
new_csaude_df.isnull()

**Q6:** Existem elementos não definidos?

    utentes         False
    consultas       False
    faltas          False
    tempo espera     True
    epoca           False
    acidentes       False
    vacinas         False
    dtype: bool

**Q7:** Devolver apenas a(as) coluna(s) que têm elementos não definidos


|	|tempo espera|
|:-|:-|
|Jan |	12.4|
|Fev |	12.5|
|Mar |	6.2|
|Abr |	2.1|
|Mai |	NaN|
|Jun |	17.3|

**Q8:** Devolver apenas as colunas que não contêm `NaN`s

| |	utentes |	consultas 	|faltas |	epoca |	acidentes |	vacinas|
|:-|:-|:-|:-|:-|:-|:-|
|Jan |	350 |	90 |	5 |	baixa |	0.0 |	0
|Fev |	352 |	80 |	7 |	baixa |	0.0 |	0
|Mar |	360 |	87 |	2 |	baixa |	0.0 |	50
|Abr |	367 |	68 |	15 |	media |	0.0 |	60
|Mai |	370 |	95 |	4 |	media |	0.0 |	70
|Jun |	381 |	110 |	8 |	alta |	0.0 |	80

---
# Missing&nbsp;data

## Eliminar linhas com `NaN`s

A função `.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)` devolve um novo `DataFrame` não incluíndo as linhas (`axis=0`) ou colunas (`axis=0`) que têm `NaN`s:

- `how='any'`: basta existir um elemento `NaN`;
- `how='all'`: todos os elementos têm de ser `NaN`.



**Exemplo:** Devolver um `DataFrame` que não inclua as colunas que tenham algum `NaN`s

In [None]:
new_csaude_df.dropna(axis=0, how='any')

## Preencher os _missing values_

A função `.fillna()` permite preencher as entradas que contêm `NaN`s com um determinado valor

In [None]:
new_csaude_df.fillna(value=10)

---
# Operações&nbsp;sobre&nbsp;os&nbsp;dados

In [None]:
new_csaude_df.acidentes[new_csaude_df.vacinas > 0] = 23
new_csaude_df

## Operações vectoriais

In [None]:
new_csaude2_df = new_csaude_df.loc[:,'utentes':'tempo espera'].copy()
new_csaude2_df

In [None]:
new_csaude2_df.floordiv(8)

In [None]:
np.floor_divide(new_csaude2_df,8)

## Aplicar uma função

In [None]:
def dia_trabalho(n):
    return n//8 # divisão inteira

In [None]:
new_csaude2_df.apply(dia_trabalho)

In [None]:
new_csaude2_df.apply(lambda x: x//8)

In [None]:
new_csaude2_df.apply(np.cumsum)

In [None]:
new_csaude2_df.apply(lambda x: x.max()-x.min())

## Mapear um conjunto de valores

In [None]:
transformacao = {'baixa':0, 'media':1, 'alta':2}
new_csaude_df.epoca.map(transformacao)

## Guardar as transformações

In [None]:
new_csaude_df['epoca_num'] = new_csaude_df.epoca.map(transformacao)
new_csaude_df

In [None]:
new_csaude_df['consultas hora'] = new_csaude_df.consultas.floordiv(8)
new_csaude_df

In [None]:
new_csaude_df['consultas marcadas'] = new_csaude_df.consultas + new_csaude_df.faltas
new_csaude_df

# Juntar&nbsp;dois&nbsp;DataFrames

Mais informação pode ser obtida no site oficial do [python pandas](https://pandas.pydata.org/pandas-docs/stable/merging.html)

## `Append`

O método `append()` permite juntar um `DataFrame` a seguir ao outro. 

**Atenção:** ele mantém os índices originais. Para ignorar e criar novos índices, é necessário usar a opção `ignore_index=True`.

In [None]:
csaude_df1 = pd.read_csv('csaude1.csv')
csaude_df2 = pd.read_csv('csaude2.csv')

In [None]:
csaude_df1.append(csaude_df2)

In [None]:
csaude_df1.append(csaude_df2, ignore_index=True)

## `Concat`

In [None]:
csaude_df1 = pd.read_csv('csaude1.csv', index_col='mes')
csaude_df2 = pd.read_csv('csaude2.csv', index_col='mes')
csaude_df = csaude_df1.append(csaude_df2)
csaude_df

In [None]:
epocas = pd.DataFrame(csaude_df.epoca.map(transformacao))
epocas

In [None]:
epocas = epocas.rename(columns={'epoca': 'epoca num'})
epocas

In [None]:
csaude_df2 = pd.concat([csaude_df, epocas])
csaude_df2

In [None]:
csaude_df3 = pd.concat([csaude_df, epocas], axis = 1)
csaude_df3

# Soluções:

- **Q1:** `csaude1_df.loc['Mar':'Jun', ['consultas', 'faltas']]`
- **Q2:** `csaude1_df.iloc[0::2, :3]`
- **Q3:** `csaude1_df[ (csaude1_df['tempo espera'] >=5) & (csaude1_df['tempo espera'] <=15)]`
- **Q4:** `new_csaude_df.loc[:, new_csaude_df.all()]`
- **Q5:** `new_csaude_df.loc[:,new_csaude_df.any()]`
- **Q6:** `new_csaude_df.isnull().any()`
- **Q7:** `new_csaude_df.loc[:, new_csaude_df.isnull().any()]`
- **Q8:** `new_csaude_df.loc[:,new_csaude_df.notnull().all()]`