# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Python - Aula 20</span>

*Leandro Franco de Souza*<br>
*ICMC/USP São Carlos*

*(com material dos Profs. Moacir Antonelli Ponti e Luis Gustavo Nonato)*

# <font color="red"> Conteúdo:</font>

### <span style="color:red">- Transformações com *apply*, *map* e *applymap*</span>
### <span style="color:red">- Limpeza de dados</span>

__Referências__ <br>
- McKinney, W. and PyData Development Team [Pandas: powerful Python data analysis toolkit](https://pandas.pydata.org/pandas-docs/stable/pandas.pdf)
- Documentação Pandas [http://pandas.pydata.org/pandas-docs/stable/index.html](http://pandas.pydata.org/pandas-docs/stable/index.html)
- Wickham, H. Tidy data: https://vita.had.co.nz/papers/tidy-data.pdf

---
# Transformações com `apply`, `map` e `applymap`

* `apply` aplica uma função ao longo de linhas (axis=0) ou colunas (axis=1) de um DataFrame
* `map` aplica uma função em cada elemento de uma Serie
* `applymap` aplica uma função em cada elemento de um DataFrame

In [None]:
import pandas as pd
import numpy as np
dtips = pd.read_csv('tips.csv')
dtips

In [None]:
# soma das contas e gorjetas ao longo das linhas
dtips[['total_bill','tip']].apply(np.sum)

In [None]:
# soma da conta e gorjeta ao longo das colunas (total do dia)
dtips[['total_bill','tip']].apply(np.sum, axis=1)

In [None]:
# criando coluna com gorjeta média por pessoa na mesa
dtips['tip_perperson'] = dtips.apply(lambda x: np.round(x['tip']/x['size'],2), axis=1)
dtips

In [None]:
dtips[['total_bill','tip']].applymap(np.round)

In [None]:
dtips['total_bill'].map(np.round)

---
# Limpeza de dados

## Tratando dados faltantes e duplicados

Esse dataset traz valores **faltantes**

Por padrão, esses serão carregados como sendo valores `NaN` do `numpy`

É preciso investigá-los pois eles são apenas ignorados pela maioria das funções

In [None]:
dtips = pd.read_csv('tips.csv')

pd.isna(dtips)

np.any(pd.isna(dtips))

### Percorrendo colunas

Por padrão a iteração é por linhas, vamos iterar pelas colunas procurando onde há dados faltantes

In [None]:
print('Dados faltantes em:')
for (colName, colData) in dtips.items():
    if (np.any(pd.isna(colData))):
        print(colName)

Para filtrar especificamente os valores `NaN` há algumas opções, em particular `isna()`  combinado com `any(axis=1)` para verificar todas as colunas

In [None]:
np.any(dtips.isna(),axis=1)

In [None]:
dtips.loc[np.any(dtips.isna(),axis=1)]

### `dropna`

Remove todas as linhas ou colunas onde dados faltantes aparecem.

* `axis` define se linhas (padrão, 0) ou colunas (1)

In [None]:
print(dtips.shape)

In [None]:
dtips_na_rows = dtips.dropna()
print(dtips_na_rows.shape)

In [None]:
dtips_na_cols = dtips.dropna(axis=1)
print(dtips_na_cols.shape)

### `fillna`

Substituir dados faltantes por algum valor

In [None]:
dtips.loc[np.any(dtips.isna(),axis=1)]

In [None]:
dtips_fill1 = dtips.fillna(0)

# mostrando dados preenchidos, filtrando pelos do dataframe com nans
dtips_fill1.loc[np.any(dtips.isna(),axis=1)]

Preenchimento diferenciado por colunas pode ser feito com dicionário

In [None]:
filldic = {'total_bill':-1, 'tip': 0}

dtips_fill2 = dtips.fillna(filldic)
dtips_fill2.loc[np.any(dtips.isna(),axis=1)]

### `duplicated`, `drop_duplicates()`

Lida com linhas duplicados retorando `True` se detectada duplicação.

In [None]:
print(dtips.duplicated())
print('\n',dtips.duplicated().any())

- parâmetro `keep`:
    - False: retorna `True` para todas as duplicatas
    - first: a primeira não é detectada
    - last: a última não é detectada    

In [None]:
dtips[dtips.duplicated(keep=False)]

In [None]:
dtips[dtips.duplicated(keep='first')]

In [None]:
dtips[dtips.duplicated(keep='last')]

Para remover usamos `drop_duplicates()` valendo o mesmo parâmetro `keep`

In [None]:
dtips_first = dtips.drop_duplicates(keep='first')
dtips_last = dtips.drop_duplicates(keep='last')

# notar que foram removidos índices diferentes!
print(dtips_first.iloc[217:225])
print(dtips_last.iloc[217:225])

In [None]:
# nesses casos pode ser útil resetar os índices novamente!
dtips_first = dtips_first.reset_index()

In [None]:
print(dtips_first.iloc[217:225])

# <font color="red">Resumo da aula</font>

### <span style="color:red">- Transformações com *apply*, *map* e *applymap*</span>
### <span style="color:red">- Limpeza de dados</span>