# <font color="red"> MBA em IA e Big Data</font>
## <span style="color:red">Linguagens e Ferramentas para Inteligência Artificial e Big Data (Python e SQL)</span>

### <span style="color:darkred">Python - Aula 19</span>

*Leandro Franco de Souza*<br>
*ICMC/USP São Carlos*

*(com material dos Profs. Moacir Antonelli Ponti e Luis Gustavo Nonato)*

# <font color="red"> Conteúdo:</font>

### <span style="color:red">- Modulo: Pandas</span>
### <span style="color:red">- Pandas: series</span>
### <span style="color:red">- Pandas: estatísticas</span>
### <span style="color:red">- Pandas: agrupando (*groupby* e *agg*)</span>

__Referências__ <br>
- McKinney, W. and PyData Development Team [Pandas: powerful Python data analysis toolkit](https://pandas.pydata.org/pandas-docs/stable/pandas.pdf)
- Documentação Pandas [http://pandas.pydata.org/pandas-docs/stable/index.html](http://pandas.pydata.org/pandas-docs/stable/index.html)
- Wickham, H. Tidy data: https://vita.had.co.nz/papers/tidy-data.pdf

# Series

> Array unidimensional com um determinado tipo de dado

É similar a um dicionário, possuindo índice (que pode funcionar como chave) e valores.

Uma série pode ser obtida a partir de uma *coluna* de um dataframe

Pode ser criada por meio de um array numpy, um dicionário ou até um único escalar

In [None]:
import pandas as pd
import numpy as np
serie_aleat = pd.Series(np.random.rand(8))
print(serie_aleat)

Note que o índice dessa série, como não foi especificado, é numérico iniciando em 0

In [None]:
veic = {
    'AAA0A00': 1980,
    'BBB1B11': 2001,
    'CCC2C22': 1984,
    'DDD3D33': 2010,
    'EEE13E4': 2011}

In [None]:
s_veic = pd.Series(veic)
print(s_veic)

Séries se comportam de forma muito similar à `ndarrays`

In [None]:
s_veic.mean()

In [None]:
s_veic > s_veic.mean()

In [None]:
s_veic[s_veic > s_veic.mean()]

In [None]:
s_veic.dtype

É possível obter um array de fato pelo atributo `array`

In [None]:
s_veic.array

Ou um numpy array com `to_numpy()`:

In [None]:
s_veic.to_numpy()

---



In [None]:
df = pd.read_csv('countries_data.tsv', sep='\t')

In [None]:
df.info()

In [None]:
df.sample(6)

### Relembrando

Vamos recuperar os dados: ano, população e expectativa de vida
* em Porto Rico
* a partir de 1990

In [None]:
# recuperando as colunas
df[['year','pop','lifeExp']]

In [None]:
df.loc[ (df['country']=='Puerto Rico') & (df['year']>=1990) , ['year','pop','lifeExp']]

Em numpy e pandas os operadores lógicos E, OU e NÃO : `&`, `|`, `~`

In [None]:
yearonly = df['year']
type(yearonly)
yearonly

# Estatísticas

Há várias funções para análise dos dados.

Consultar a documentação oficial é importante (há muito ruído na internet/vídeos)

Básicas, que retornam um escalar como: `mean`, `std`, `quantile`, `min`, `max`

E mais complexas como: `cov` (covariance), `corr` (correlation)

`describe` gera estatística descritiva para todas as colunas numéricas (ou série)

In [None]:
df['pop'].mean()

In [None]:
df.describe()

In [None]:
df[['lifeExp', 'pop', 'gdpPercap']].corr()

---

# `groupby()` e `agg()`

Alguns cálculos são interessantes de se fazer agrupando por certos valores

Nesse dataset, uma pergunta possível seria:
* Qual a expectativa de vida média, por ano, considerando todos os países?

In [None]:
df.groupby(['year'])

In [None]:
df.groupby(['year'])['lifeExp'].mean()

Pandas tem várias funções embutidas, mas pode ser que queiramos aplicar nossas próprias funções ou de biblioteca externa, como do `numpy`

Nesse caso, usamos `agg()` para aplicar a função desejada, agregada aos grupos

In [None]:
import numpy as np

df.groupby(['year'])['lifeExp'].agg(np.mean)

E até mesmo gerar um novo dataframe, agregando múltiplas funções
* lista de tuplas contendo (nome,funcao)

In [None]:
df.groupby(['year'])['pop'].agg( [
                        ('media', np.mean),
                        ('log10_somapop', lambda val: np.log2(val.sum())) ])

É possível agrupar com múltiplas colunas

In [None]:
yearcont = df.groupby(['year','continent'])[['pop','gdpPercap']].agg([np.mean, np.std])
yearcont

Nesse caso o índice será composto, tornando mais difícil acesso

Tente mostrar o `yearcont.index` para ver

In [None]:
yearcont.index

Para facilitar, é útil "achatar" os índices, resetando-os

In [None]:
yearcont = yearcont.reset_index()
yearcont.head(10)

---

#### <font color="blue">Exercício 2.7</font>

Carregue o arquivo `tips.csv`:
1. Filtre as linhas selecionando apenas jantares (time = 'Dinner') e cuja conta foi superior a 40 (total_bill > 40), mostrando o total da conta, número de pessoas na mesa e gorjeta (total_bill, size, tip);
2. Obtenha um novo dataframe em que seja mostrada a gorjeta (tip) média e máxima para cada valor de dia da semana (day) e horário (time)

In [None]:
dtips = pd.read_csv('tips.csv')

# <font color="red">Resumo da aula</font>

### <span style="color:red">- Modulo: Pandas</span>
### <span style="color:red">- Pandas: series</span>
### <span style="color:red">- Pandas: estatísticas</span>
### <span style="color:red">- Pandas: agrupando (*groupby* e *agg*)</span>