# Aula 03 - Tabelas e Tipos de Dados

## Introdução

Neste notebook vamos explorar um pouco de dados tabulares. A principal biblioteca para leitura de dados tabulares em Python se chama **pandas**. A mesma é bastante poderosa implementando uma série de operações de bancos de dados (e.g., groupby e join). Nossa discussão será focada em algumas das funções principais do pandas que vamos explorar no curso. Existe uma série ampla de funcionalidades que a biblioteca (além de outras) vai trazer. 

Caso necessite de algo além da aula, busque na documentação da biblioteca. Por fim, durante esta aula, também vamos aprender um pouco de bash.

## Objetivos

1. Aprender Pandas
2. Entender diferentes tipos de dados
3. Básico de filtros e seleções

## Resultado Esperado

1. Aplicação de filtros básicos para gerar insights nos dados de dados tabulares

## Imports básicos

A maioria dos nossos notebooks vai iniciar com os imports abaixo.
1. pandas: dados tabulates
1. matplotlib: gráficos e plots

A chamada `plt.ion` habilita gráficos do matplotlib no notebook diretamente. Caso necesse salvar alguma figura, chame `plt.savefig` após seu plot.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

plt.ion()

## Series

Existem dois tipos base de dados em pandas. O primeiro, Series, representa uma coluna de dados. Um combinação de Series vira um DataFrame (mais abaixo). Diferente de um vetor `numpy`, a Series de panda captura uma coluna de dados (ou vetor) indexado. Isto é, podemos nomear cada um dos valores.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

In [3]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Note que podemos usar como um vetor

In [4]:
data[0]

0.25

Porém o índice nos ajuda. Para um exemplo trivial como este não será tão interessante, mas vamos usar o mesmo.

In [5]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Com .loc acessamos uma linha do índice com base no nome. Então:

1. `series.loc[objeto_python]` - valor com o devido nome.
1. `series.iloc[int]` - i-ésimo elemento da Series.

In [6]:
data.loc['a']

0.25

In [7]:
data.loc['b']

0.5

Com `iloc` acessamos por número da linha, estilho um vetor.

In [8]:
data.iloc[0]

0.25

In [9]:
data[0]

0.25

## Data Frames

Ao combinar várias Series com um índice comum, criamos um **DataFrame**. Não é tão comum gerar os mesmos na mão como estamos fazendo, geralmente carregamos DataFrames de arquivos `.csv`, `.json` ou até de sistemas de bancos de dados `mariadb`. De qualquer forma, use os exemplos abaixo para entender a estrutura de um dataframe.

Lembre-se que {}/dict é um dicionário (ou mapa) em Python. Podemos criar uma série a partir de um dicionário
index->value

In [10]:
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}

A linha abaixo pega todas as chaves.

In [11]:
list(area_dict.keys())

['California', 'Texas', 'New York', 'Florida', 'Illinois']

Agora todas as colunas

In [12]:
list(area_dict.values())

[423967, 695662, 141297, 170312, 149995]

Acessando um valor.

In [13]:
area_dict['California']

423967

Podemos criar a série a partir do dicionário, cada chave vira um elemento do índice. Os valores viram os dados do vetor.

In [14]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Agora, vamos criar outro dicionário com a população dos estados.

In [15]:
pop_dict = {'California': 38332521,
            'Texas': 26448193,
            'New York': 19651127,
            'Florida': 19552860,
            'Illinois': 12882135}
pop = pd.Series(pop_dict)
pop

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por fim, observe que o DataFrame é uma combinação de Series. Cada uma das Series vira uma coluna da tabela de dados.

In [16]:
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Agora o use de `.loc e .iloc` deve ficar mais claro, observe os exemplos abaixo.

In [17]:
data.loc['California']

area      423967
pop     38332521
Name: California, dtype: int64

In [18]:
data.loc[['California', 'Texas']]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


Note que o uso de `iloc` retorna a i-ésima linha. O problema é que nem sempre nos dataframes esta ordem vai fazer sentido. O `iloc` acaba sendo mais interessante para iteração (e.g., passar por todas as linhas.)

In [19]:
data.iloc[0]

area      423967
pop     38332521
Name: California, dtype: int64

## Slicing

Agora, podemos realizar slicing no DataFrame. Slicing é uma operação Python que retorna sub-listas/sub-vetores. Caso não conheça, tente executar o exemplo abaixo:

```python
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])
```

In [20]:
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])

7
1
3
[1, 3, 5]


Voltando para o nosso **dataframe**, podemos realizar o slicing usando o `.iloc`.

In [21]:
data.iloc[2:4]

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860


## Modificando DataFrames

Series e DataFrames são objetos mutáveis em Python. Podemos adicionar novas colunas em DataFrama facilmente da mesma forma que adicionamos novos valores em um mapa. Por fim, podemos também mudar o valor de linhas específicas e adicionar novas linhas.

In [22]:
data['density'] = data['pop'] / data['area']
data.loc['Texas']

area       6.956620e+05
pop        2.644819e+07
density    3.801874e+01
Name: Texas, dtype: float64

In [23]:
df = data

In [24]:
df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

## Arquivos

Antes de explorar DataFrames em arquivos, vamos ver como um notebook na é um shell bastante poderoso. Ao usar uma exclamação (!) no notebook Jupyter, conseguimos executar comandos do shell do sistema. Em particular, aqui estamos executando o comando ls para indentificar os dados da pasta atual.

Tudo que executamos com `!` é um comando do terminal do unix. Então, este notebook só deve executar as linhas abaixo em um `Mac` ou `Linux`.

In [25]:
!ls .

tabelas.ipynb


Com a opção -lha, mostramos meta-dados dos arquivos como o owner, tamanho e permissões. Note que todos os arquivos são .csv, isto é comma separated.

In [26]:
!ls -lha .

total 160K
drwxr-xr-x 1 flaviovdf flaviovdf 4.0K Nov 24 10:36 .
drwxr-xr-x 1 flaviovdf flaviovdf 4.0K Nov 24 10:31 ..
drwxr-xr-x 1 flaviovdf flaviovdf 4.0K Nov 24 10:36 .ipynb_checkpoints
-rw-r--r-- 1 flaviovdf flaviovdf 142K Nov 24 10:31 tabelas.ipynb


Vamos identificar qual a cara de um csv. O programa `head` imprime as primeiras `n` linhas de um arquivo.

In [27]:
!head baby.csv

head: cannot open 'baby.csv' for reading: No such file or directory


## Baby Names

É bem mais comum fazer uso de DataFrames que já existem em arquivos. Note que o trabalho do cientista de dados nem sempre vai ter tais arquivos prontos. Em várias ocasiões, você vai ter que coletar e organizar os mesmos. Limpeza e coleta de dados é uma parte fundamental do seu trabalho. Durante a matéria, boa parte dos notebooks já vão ter dados prontos.

In [28]:
df = pd.read_csv('baby.csv', index_col=0)
df

TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

O método `head` do notebook retorna as primeiras `n` linhas do mesmo. Use tal método para entender seus dados. **Sempre olhe para seus dados.** Note como as linhas abaixo usa o `loc` e `iloc` para entender um pouco a estrutura dos mesmos.

In [None]:
df.head()

O método `head` do notebook retorna as primeiras `n` linhas do mesmo. Use tal método para entender seus dados. **Sempre olhe para seus dados.** Note como as linhas abaixo usa o `loc` e `iloc` para entender um pouco a estrutura dos mesmos.

In [None]:
df.head(6)

In [None]:
df[10:15]

In [None]:
df.iloc[0:6]

In [None]:
df[['Name', 'Gender']].head(6)

## Groupby

Vamos responder algumas perguntas com a função groupby. Lembrando a ideia é separar os dados com base em valores comuns, ou seja, agrupar por nomes e realizar alguma operação. O comando abaixo agrupa todos os recem-náscidos por nome. Imagine a mesma fazendo uma operação equivalente ao laço abaixo:

```python
buckets = {}                    # Mapa de dados
names = set(df['Name'])         # Conjunto de nomes únicos
for idx, row in df.iterrows():  # Para cada linha dos dados
    name = row['Name']
    if name not in buckets:
        buckets[name] = []      # Uma lista para cada nome
    buckets[name].append(row)   # Separa a linha para cada nome
```

O código acima é bastante lento!!! O groupby é optimizado. Com base na linha abaixo, o mesmo nem retorna nehum resultado ainda. Apenas um objeto onde podemos fazer agregações.

In [29]:
gb = df.groupby('Name')
type(gb)

KeyError: 'Name'

Agora posso agregar todos os nomes com alguma operação. Por exemplo, posso somar a quantidade de vezes que cada nome ocorre. Em python, seria o seguinte código.

```python
sum_ = {}                       # Mapa de dados
for name in buckets:            # Para cada nomee
    sum_[name] = 0
    for row in buckets[name]:   # Para cada linha com aquele nome, aggregate (some)
        sum_[name] += row['Count']
```

Observe o resultado da agregação abaixo. Qual o problema com a coluna `Year`??

In [35]:
gb.mean()

Unnamed: 0_level_0,Year,Count
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Aaban,2013.500000,6.000000
Aadan,2009.750000,5.750000
Aadarsh,2009.000000,5.000000
Aaden,2010.015306,17.479592
Aadhav,2014.000000,6.000000
Aadhya,2012.875000,11.325000
Aadi,2008.794872,8.025641
Aadil,2003.000000,5.000000
Aadin,2008.000000,5.000000
Aadit,2009.666667,6.000000


Não faz tanto sentido somar o ano, embora seja um número aqui representa uma categoria. Vamos somar as contagens apenas.

In [36]:
gb.sum()['Count'].sort_values()

Name
Zyshonne             5
Makenlee             5
Makenlie             5
Makinlee             5
Makua                5
Cathaleya            5
Makyia               5
Makynzee             5
Malacai              5
Catello              5
Malai                5
Catcher              5
Malajah              5
Maleeha              5
Maleigh              5
Castin               5
Maleko               5
Malini               5
Malissia             5
Malissie             5
Makaylie             5
Makay                5
Makalynn             5
Makailyn             5
Mahesh               5
Caylynn              5
Caylyn               5
Mahin                5
Mahjabeen            5
Mahreen              5
                ...   
Brian          1159034
Joshua         1174451
Edward         1212969
Andrew         1239305
Kenneth        1261928
Steven         1272459
George         1324735
Mark           1341573
Paul           1357785
Anthony        1397105
Donald         1403439
Barbara        1424544
Linda 

E ordenar...

In [37]:
gb.sum()['Count'].sort_values()

Name
Zyshonne             5
Makenlee             5
Makenlie             5
Makinlee             5
Makua                5
Cathaleya            5
Makyia               5
Makynzee             5
Malacai              5
Catello              5
Malai                5
Catcher              5
Malajah              5
Maleeha              5
Maleigh              5
Castin               5
Maleko               5
Malini               5
Malissia             5
Malissie             5
Makaylie             5
Makay                5
Makalynn             5
Makailyn             5
Mahesh               5
Caylynn              5
Caylyn               5
Mahin                5
Mahjabeen            5
Mahreen              5
                ...   
Brian          1159034
Joshua         1174451
Edward         1212969
Andrew         1239305
Kenneth        1261928
Steven         1272459
George         1324735
Mark           1341573
Paul           1357785
Anthony        1397105
Donald         1403439
Barbara        1424544
Linda 

É comum, embora mais chato de ler, fazer tudo em uma única chamada. Isto é uma prática que vem do mundo SQL. A chamada abaixo seria o mesmo de:

```sql
SELECT Name, SUM(Count)
FROM baby_table
GROUPBY Name
ORDERBY SUM(Count)
```

In [38]:
df.groupby('Name').sum().sort_values(by='Count')['Count']

Name
Zyshonne             5
Makenlee             5
Makenlie             5
Makinlee             5
Makua                5
Cathaleya            5
Makyia               5
Makynzee             5
Malacai              5
Catello              5
Malai                5
Catcher              5
Malajah              5
Maleeha              5
Maleigh              5
Castin               5
Maleko               5
Malini               5
Malissia             5
Malissie             5
Makaylie             5
Makay                5
Makalynn             5
Makailyn             5
Mahesh               5
Caylynn              5
Caylyn               5
Mahin                5
Mahjabeen            5
Mahreen              5
                ...   
Brian          1159034
Joshua         1174451
Edward         1212969
Andrew         1239305
Kenneth        1261928
Steven         1272459
George         1324735
Mark           1341573
Paul           1357785
Anthony        1397105
Donald         1403439
Barbara        1424544
Linda 

Podemos inverter com ::-1

In [39]:
df.groupby(['Name', 'Year']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Count
Name,Year,Unnamed: 2_level_1
Aaban,2013,6
Aaban,2014,6
Aadan,2008,12
Aadan,2009,6
Aadan,2014,5
Aadarsh,2009,5
Aaden,2005,5
Aaden,2007,98
Aaden,2008,939
Aaden,2009,1242


## NBA Salaries e Indexação Booleana

Por fim, vamos explorar alguns dados da NBA para entender a indexação booleana. Vamos carregar os dados da mesma forma que carregamos os dados dos nomes de crianças.

In [40]:
df = pd.read_csv('https://media.githubusercontent.com/media/icd-ufmg/material/master/aulas/03-Tabelas-e-Tipos-de-Dados/nba_salaries.csv')
df.head()

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
0,Paul Millsap,PF,Atlanta Hawks,18.671659
1,Al Horford,C,Atlanta Hawks,12.0
2,Tiago Splitter,C,Atlanta Hawks,9.75625
3,Jeff Teague,PG,Atlanta Hawks,8.0
4,Kyle Korver,SG,Atlanta Hawks,5.746479


Por fim, vamos indexar nosso DataFrame por booleanos. A linha abaixo pega um vetor de booleanos onde o nome do time é `Houston Rockets`.

In [41]:
df['TEAM'] == 'Houston Rockets'

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
387    False
388    False
389    False
390    False
391    False
392    False
393    False
394    False
395    False
396    False
397    False
398    False
399    False
400    False
401    False
402    False
403    False
404    False
405    False
406    False
407    False
408    False
409    False
410    False
411    False
412    False
413    False
414    False
415    False
416    False
Name: TEAM, Length: 417, dtype: bool

Podemos usar tal vetor para filtrar nosso DataFrame. A linha abaixo é o mesmo de um:

```sql
SELECT *
FROM table
WHERE TEAM = 'Houston Rockets'
```

In [42]:
filtro = df['TEAM'] == 'Houston Rockets'
df[filtro]

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
131,Dwight Howard,C,Houston Rockets,22.359364
132,James Harden,SG,Houston Rockets,15.756438
133,Ty Lawson,PG,Houston Rockets,12.404495
134,Corey Brewer,SG,Houston Rockets,8.229375
135,Trevor Ariza,SF,Houston Rockets,8.19303
136,Patrick Beverley,PG,Houston Rockets,6.486486
137,K.J. McDaniels,SG,Houston Rockets,3.189794
138,Terrence Jones,PF,Houston Rockets,2.48953
139,Donatas Motiejunas,PF,Houston Rockets,2.288205
140,Sam Dekker,SF,Houston Rockets,1.6464


Assim como pegar os salários maior do que um certo valor!

In [43]:
df[df['SALARY'] > 20]

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
29,Joe Johnson,SF,Brooklyn Nets,24.894863
60,Derrick Rose,PG,Chicago Bulls,20.093064
72,LeBron James,SF,Cleveland Cavaliers,22.9705
131,Dwight Howard,C,Houston Rockets,22.359364
156,Chris Paul,PG,Los Angeles Clippers,21.468695
169,Kobe Bryant,SF,Los Angeles Lakers,25.0
201,Chris Bosh,PF,Miami Heat,22.19273
255,Carmelo Anthony,SF,New York Knicks,22.875
268,Kevin Durant,SF,Oklahoma City Thunder,20.158622


## Exercícios

Abaixo temos algumas chamadas em pandas. Tente explicar cada uma delas.

In [44]:
df[['POSITION', 'SALARY']].groupby('POSITION').mean()

Unnamed: 0_level_0,SALARY
POSITION,Unnamed: 1_level_1
C,6.082913
PF,4.951344
PG,5.165487
SF,5.532675
SG,3.988195


In [45]:
df[['TEAM', 'SALARY']].groupby('TEAM').mean().sort_values('SALARY')

Unnamed: 0_level_0,SALARY
TEAM,Unnamed: 1_level_1
Phoenix Suns,2.971813
Utah Jazz,3.095993
Portland Trail Blazers,3.246206
Philadelphia 76ers,3.267796
Boston Celtics,3.352367
Milwaukee Bucks,4.019873
Detroit Pistons,4.221176
Toronto Raptors,4.392507
Brooklyn Nets,4.408229
Denver Nuggets,4.459243


## Merge

Agora, vamos explorar algumas chamadas que fazem opereações de merge.

In [46]:
people = pd.DataFrame(
    [["Joey",      "blue",       42,  "M"],
     ["Weiwei",    "blue",       50,  "F"],
     ["Joey",      "green",       8,  "M"],
     ["Karina",    "green",  np.nan,  "F"],
     ["Fernando",  "pink",        9,  "M"],
     ["Nhi",       "blue",        3,  "F"],
     ["Sam",       "pink",   np.nan,  "M"]], 
    columns = ["Name", "Color", "Age", "Gender"])
people

Unnamed: 0,Name,Color,Age,Gender
0,Joey,blue,42.0,M
1,Weiwei,blue,50.0,F
2,Joey,green,8.0,M
3,Karina,green,,F
4,Fernando,pink,9.0,M
5,Nhi,blue,3.0,F
6,Sam,pink,,M


In [47]:
email = pd.DataFrame(
    [["Deb",  "deborah_nolan@berkeley.edu"],
     ["Sam",  np.nan],
     ["John", "doe@nope.com"],
     ["Joey", "jegonzal@cs.berkeley.edu"],
     ["Weiwei", "weiwzhang@berkeley.edu"],
     ["Weiwei", np.nan],
     ["Karina", "kgoot@berkeley.edu"]], 
    columns = ["User Name", "Email"])
email

Unnamed: 0,User Name,Email
0,Deb,deborah_nolan@berkeley.edu
1,Sam,
2,John,doe@nope.com
3,Joey,jegonzal@cs.berkeley.edu
4,Weiwei,weiwzhang@berkeley.edu
5,Weiwei,
6,Karina,kgoot@berkeley.edu


In [48]:
people.merge(email, 
             how = "inner",
             left_on = "Name", right_on = "User Name")

Unnamed: 0,Name,Color,Age,Gender,User Name,Email
0,Joey,blue,42.0,M,Joey,jegonzal@cs.berkeley.edu
1,Joey,green,8.0,M,Joey,jegonzal@cs.berkeley.edu
2,Weiwei,blue,50.0,F,Weiwei,weiwzhang@berkeley.edu
3,Weiwei,blue,50.0,F,Weiwei,
4,Karina,green,,F,Karina,kgoot@berkeley.edu
5,Sam,pink,,M,Sam,


## Para exploração futura

* Veja a documentação do pandas. https://pandas.pydata.org/
* O livro do Jake Vanderplas explora várias funções pandas. https://jakevdp.github.io/PythonDataScienceHandbook/