---
layout: page
title: Tabelas e Tipos de Dados
nav_order: 2
---

[<img src="./colab_favicon_small.png" style="float: right;">](https://colab.research.google.com/github/icd-ufmg/icd-ufmg.github.io/blob/master/_lessons/02-tabelas.ipynb)


# Tabelas e Tipos de Dados

{: .no_toc .mb-2 }

Aprendendo como criar e manipular tabelas.
{: .fs-6 .fw-300 }

{: .no_toc .text-delta }
Resultados Esperados

1. Aprender o básico de Pandas
1. Entender diferentes tipos de dados
1. Básico de filtros e seleções
1. Aplicação de filtros básicos para gerar insights nos dados de dados tabulares



---
**Sumário**
1. TOC
{:toc}
---

## Introdução

Neste notebook vamos explorar um pouco de dados tabulares, ou seja, tabelas. Tabelas de dados representam um dos tipos de dados mais comuns para o cientista de dados. Pense nas inúmeras tabelas Excell que você já trabalhou com.

A principal biblioteca para leitura de dados tabulares em Python se chama **pandas**. A mesma é bastante poderosa implementando uma série de operações de bancos de dados (e.g., groupby e join). Nossa discussão será focada em algumas das funções principais do pandas que vamos explorar no curso. Existe uma série ampla de funcionalidades que a biblioteca (além de outras) vai trazer. 

Caso necessite de algo além da aula, busque na documentação da biblioteca. Por fim, durante esta aula, também vamos aprender um pouco de bash.

### Imports básicos

A maioria dos nossos notebooks vai iniciar com os imports abaixo.
1. pandas: dados tabulates
1. matplotlib: gráficos e plots

A chamada `plt.ion` habilita gráficos do matplotlib no notebook diretamente. Caso necesse salvar alguma figura, chame `plt.savefig` após seu plot.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

plt.ion()

<matplotlib.pyplot._IonContext at 0x7f4ae2db2350>

## Series

Existem dois tipos base de dados em pandas. O primeiro, Series, representa uma coluna de dados. Um combinação de Series vira um DataFrame (mais abaixo). Diferente de um vetor `numpy`, a Series de panda captura uma coluna de dados (ou vetor) indexado. Isto é, podemos nomear cada um dos valores.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

In [3]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Note que podemos usar como um vetor

In [4]:
data[0]

0.25

Porém o índice nos ajuda. Para um exemplo trivial como este não será tão interessante, mas vamos usar o mesmo.

In [5]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Com .loc acessamos uma linha do índice com base no nome. Então:

1. `series.loc[objeto_python]` - valor com o devido nome.
1. `series.iloc[int]` - i-ésimo elemento da Series.

In [6]:
data.loc['a']

0.25

In [7]:
data.loc['b']

0.5

Com `iloc` acessamos por número da linha, estilho um vetor.

In [8]:
data.iloc[0]

0.25

In [9]:
data[0]

0.25

## Data Frames

Ao combinar várias Series com um índice comum, criamos um **DataFrame**. Não é tão comum gerar os mesmos na mão como estamos fazendo, geralmente carregamos DataFrames de arquivos `.csv`, `.json` ou até de sistemas de bancos de dados `mariadb`. De qualquer forma, use os exemplos abaixo para entender a estrutura de um dataframe.

Lembre-se que {}/dict é um dicionário (ou mapa) em Python. Podemos criar uma série a partir de um dicionário
index->value

In [10]:
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}

A linha abaixo pega todas as chaves.

In [11]:
list(area_dict.keys())

['California', 'Texas', 'New York', 'Florida', 'Illinois']

Agora todas as colunas

In [12]:
list(area_dict.values())

[423967, 695662, 141297, 170312, 149995]

Acessando um valor.

In [13]:
area_dict['California']

423967

Podemos criar a série a partir do dicionário, cada chave vira um elemento do índice. Os valores viram os dados do vetor.

In [14]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Agora, vamos criar outro dicionário com a população dos estados.

In [15]:
pop_dict = {'California': 38332521,
            'Texas': 26448193,
            'New York': 19651127,
            'Florida': 19552860,
            'Illinois': 12882135}
pop = pd.Series(pop_dict)
pop

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por fim, observe que o DataFrame é uma combinação de Series. Cada uma das Series vira uma coluna da tabela de dados.

In [16]:
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Agora o use de `.loc e .iloc` deve ficar mais claro, observe os exemplos abaixo.

In [17]:
data.loc['California']

area      423967
pop     38332521
Name: California, dtype: int64

In [18]:
data.loc[['California', 'Texas']]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


Note que o uso de `iloc` retorna a i-ésima linha. O problema é que nem sempre nos dataframes esta ordem vai fazer sentido. O `iloc` acaba sendo mais interessante para iteração (e.g., passar por todas as linhas.)

In [19]:
data.iloc[0]

area      423967
pop     38332521
Name: California, dtype: int64

## Slicing

Agora, podemos realizar slicing no DataFrame. Slicing é uma operação Python que retorna sub-listas/sub-vetores. Caso não conheça, tente executar o exemplo abaixo:

```python
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])
```

In [20]:
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])

7
1
3
[1, 3, 5]


Voltando para o nosso **dataframe**, podemos realizar o slicing usando o `.iloc`.

In [21]:
data.iloc[2:4]

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860


## Modificando DataFrames

Series e DataFrames são objetos mutáveis em Python. Podemos adicionar novas colunas em DataFrama facilmente da mesma forma que adicionamos novos valores em um mapa. Por fim, podemos também mudar o valor de linhas específicas e adicionar novas linhas.

In [22]:
data['density'] = data['pop'] / data['area']
data.loc['Texas']

area       6.956620e+05
pop        2.644819e+07
density    3.801874e+01
Name: Texas, dtype: float64

In [23]:
df = data

In [24]:
df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

## Arquivos

Antes de explorar DataFrames em arquivos, vamos ver como um notebook na é um shell bastante poderoso. Ao usar uma exclamação (!) no notebook Jupyter, conseguimos executar comandos do shell do sistema. Em particular, aqui estamos executando o comando ls para indentificar os dados da pasta atual.

Tudo que executamos com `!` é um comando do terminal do unix. Então, este notebook só deve executar as linhas abaixo em um `Mac` ou `Linux`.

In [25]:
!ls .

01-causalidade.md     12-causalidade.ipynb
02-tabelas	      12-causalidade.md
02-tabelas.ipynb      13-poder
02-tabelas.md	      13-poder_files
03-viz		      13-poder.ipynb
03-viz_files	      13-poder.md
03-viz.ipynb	      14-correlacao
03-viz.md	      14-correlacao_files
04-stat		      14-correlacao.ipynb
04-stat_files	      14-correlacao.md
04-stat.ipynb	      15-linear
04-stat.md	      15-linear_files
05-prob		      15-linear.ipynb
05-prob_files	      15-linear.md
05-prob.ipynb	      16-vero
05-prob.md	      16-vero_files
06-risco	      16-vero.ipynb
06-risco_files	      16-vero.md
06-risco.ipynb	      17-gradiente
06-risco.md	      17-gradiente_files
07-tcl		      17-gradiente.ipynb
07-tcl_files	      17-gradiente.md
07-tcl.ipynb	      18-multipla
07-tcl.md	      18-multipla_files
08-amostragem	      18-multipla.ipynb
08-amostragem_files   18-multipla.md
08-amostragem.ipynb   26b-tutorial-sklearn-classification.ipynb
08-amostragem.md      26-tutorial-skle

Com a opção -lha, mostramos meta-dados dos arquivos como o owner, tamanho e permissões. Note que todos os arquivos são .csv, isto é comma separated.

In [26]:
!ls -lha .

total 160M
drwxr-xr-x 38 flaviovdf flaviovdf 4.0K Apr  4 12:47 .
drwxr-xr-x  9 flaviovdf flaviovdf 4.0K Apr  4 12:41 ..
-rw-r--r--  1 flaviovdf flaviovdf  618 Apr  4 12:01 01-causalidade.md
drwxr-xr-x  2 flaviovdf flaviovdf 4.0K Apr  4 12:01 02-tabelas
-rw-r--r--  1 flaviovdf flaviovdf  99K Apr  4 12:47 02-tabelas.ipynb
-rw-r--r--  1 flaviovdf flaviovdf  49K Apr  4 12:38 02-tabelas.md
drwxr-xr-x  3 flaviovdf flaviovdf 4.0K Apr  4 12:01 03-viz
drwxr-xr-x  2 flaviovdf flaviovdf 4.0K Apr  4 12:01 03-viz_files
-rw-r--r--  1 flaviovdf flaviovdf 759K Apr  4 12:01 03-viz.ipynb
-rw-r--r--  1 flaviovdf flaviovdf  39K Apr  4 12:01 03-viz.md
drwxr-xr-x  3 flaviovdf flaviovdf 4.0K Apr  4 12:01 04-stat
drwxr-xr-x  2 flaviovdf flaviovdf 4.0K Apr  4 12:01 04-stat_files
-rw-r--r--  1 flaviovdf flaviovdf 360K Apr  4 12:01 04-stat.ipynb
-rw-r--r--  1 flaviovdf flaviovdf  26K Apr  4 12:01 04-stat.md
drwxr-xr-x  3 flaviovdf flaviovdf 4.0K Apr  4 12:01 05-prob
drwxr-xr-x  2 flaviovdf flavio

Vamos identificar qual a cara de um csv. O programa `head` imprime as primeiras `n` linhas de um arquivo.

In [27]:
! head baby.csv

Id,Name,Year,Gender,State,Count
1,Mary,1910,F,AK,14
2,Annie,1910,F,AK,12
3,Anna,1910,F,AK,10
4,Margaret,1910,F,AK,8
5,Helen,1910,F,AK,7
6,Elsie,1910,F,AK,6
7,Lucy,1910,F,AK,6
8,Dorothy,1910,F,AK,5
9,Mary,1911,F,AK,12


Observe como o comando `head` nos ajuda a entender o arquivo `.csv`. Sabemos quais colunas e qual o separador do mesmo.

## Baby Names

É bem mais comum fazer uso de DataFrames que já existem em arquivos. Note que o trabalho do cientista de dados nem sempre vai ter tais arquivos prontos. Em várias ocasiões, você vai ter que coletar e organizar os mesmos. Limpeza e coleta de dados é uma parte fundamental do seu trabalho. Durante a matéria, boa parte dos notebooks já vão ter dados prontos.

In [28]:
df = pd.read_csv('https://media.githubusercontent.com/media/icd-ufmg/material/master/aulas/03-Tabelas-e-Tipos-de-Dados/baby.csv')
df = df.drop('Id', axis='columns') # remove a coluna id, serve de nada
df

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
...,...,...,...,...,...
5647421,Seth,2014,M,WY,5
5647422,Spencer,2014,M,WY,5
5647423,Tyce,2014,M,WY,5
5647424,Victor,2014,M,WY,5


O método `head` do notebook retorna as primeiras `n` linhas do mesmo. Use tal método para entender seus dados. **Sempre olhe para seus dados.** Note como as linhas abaixo usa o `loc` e `iloc` para entender um pouco a estrutura dos mesmos.

In [29]:
df.head()

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7


O método `head` do notebook retorna as primeiras `n` linhas do mesmo. Use tal método para entender seus dados. **Sempre olhe para seus dados.** Note como as linhas abaixo usa o `loc` e `iloc` para entender um pouco a estrutura dos mesmos.

In [30]:
df.head(6)

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
5,Elsie,1910,F,AK,6


In [31]:
df[10:15]

Unnamed: 0,Name,Year,Gender,State,Count
10,Ruth,1911,F,AK,7
11,Annie,1911,F,AK,6
12,Elizabeth,1911,F,AK,6
13,Helen,1911,F,AK,6
14,Mary,1912,F,AK,9


In [32]:
df.iloc[0:6]

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
5,Elsie,1910,F,AK,6


In [33]:
df[['Name', 'Gender']].head(6)

Unnamed: 0,Name,Gender
0,Mary,F
1,Annie,F
2,Anna,F
3,Margaret,F
4,Helen,F
5,Elsie,F


## Groupby

Vamos responder algumas perguntas com a função groupby. Lembrando a ideia é separar os dados com base em valores comuns, ou seja, agrupar por nomes e realizar alguma operação. O comando abaixo agrupa todos os recem-náscidos por nome. Imagine a mesma fazendo uma operação equivalente ao laço abaixo:

```python
buckets = {}                    # Mapa de dados
names = set(df['Name'])         # Conjunto de nomes únicos
for idx, row in df.iterrows():  # Para cada linha dos dados
    name = row['Name']
    if name not in buckets:
        buckets[name] = []      # Uma lista para cada nome
    buckets[name].append(row)   # Separa a linha para cada nome
```

O código acima é bastante lento!!! O groupby é optimizado. Com base na linha abaixo, o mesmo nem retorna nehum resultado ainda. Apenas um objeto onde podemos fazer agregações.

In [34]:
gb = df.groupby('Name')
type(gb)

pandas.core.groupby.generic.DataFrameGroupBy

Agora posso agregar todos os nomes com alguma operação. Por exemplo, posso somar a quantidade de vezes que cada nome ocorre. Em python, seria o seguinte código.

```python
sum_ = {}                       # Mapa de dados
for name in buckets:            # Para cada nomee
    sum_[name] = 0
    for row in buckets[name]:   # Para cada linha com aquele nome, aggregate (some)
        sum_[name] += row['Count']
```

Observe o resultado da agregação abaixo. Qual o problema com a coluna `Year`??

In [35]:
gb.mean()

Unnamed: 0_level_0,Year,Count
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Aaban,2013.500000,6.000000
Aadan,2009.750000,5.750000
Aadarsh,2009.000000,5.000000
Aaden,2010.015306,17.479592
Aadhav,2014.000000,6.000000
...,...,...
Zyrah,2012.000000,5.500000
Zyren,2013.000000,6.000000
Zyria,2006.714286,5.785714
Zyriah,2009.666667,6.444444


Não faz tanto sentido somar o ano, embora seja um número aqui representa uma categoria. Vamos somar as contagens apenas.

In [36]:
gb.sum()['Count'].sort_values()

Name
Zyshonne          5
Makenlee          5
Makenlie          5
Makinlee          5
Makua             5
             ...   
William     3839236
Michael     4312975
Robert      4725713
John        4845414
James       4957166
Name: Count, Length: 30274, dtype: int64

E ordenar...

In [37]:
gb.sum()['Count'].sort_values()

Name
Zyshonne          5
Makenlee          5
Makenlie          5
Makinlee          5
Makua             5
             ...   
William     3839236
Michael     4312975
Robert      4725713
John        4845414
James       4957166
Name: Count, Length: 30274, dtype: int64

É comum, embora mais chato de ler, fazer tudo em uma única chamada. Isto é uma prática que vem do mundo SQL. A chamada abaixo seria o mesmo de:

```sql
SELECT Name, SUM(Count)
FROM baby_table
GROUPBY Name
ORDERBY SUM(Count)
```

In [38]:
(df[['Name', 'Count']].
 groupby('Name').
 sum().
 sort_values(by='Count')
)

Unnamed: 0_level_0,Count
Name,Unnamed: 1_level_1
Zyshonne,5
Makenlee,5
Makenlie,5
Makinlee,5
Makua,5
...,...
William,3839236
Michael,4312975
Robert,4725713
John,4845414


In [39]:
(df.
 groupby(['Name', 'Year']).
 sum()
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Count
Name,Year,Unnamed: 2_level_1
Aaban,2013,6
Aaban,2014,6
Aadan,2008,12
Aadan,2009,6
Aadan,2014,5
...,...,...
Zyriah,2011,6
Zyriah,2012,5
Zyriah,2013,7
Zyriah,2014,6


## NBA Salaries e Indexação Booleana

Por fim, vamos explorar alguns dados da NBA para entender a indexação booleana. Vamos carregar os dados da mesma forma que carregamos os dados dos nomes de crianças.

In [40]:
df = pd.read_csv('https://media.githubusercontent.com/media/icd-ufmg/material/master/aulas/03-Tabelas-e-Tipos-de-Dados/nba_salaries.csv')
df.head()

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
0,Paul Millsap,PF,Atlanta Hawks,18.671659
1,Al Horford,C,Atlanta Hawks,12.0
2,Tiago Splitter,C,Atlanta Hawks,9.75625
3,Jeff Teague,PG,Atlanta Hawks,8.0
4,Kyle Korver,SG,Atlanta Hawks,5.746479


Por fim, vamos indexar nosso DataFrame por booleanos. A linha abaixo pega um vetor de booleanos onde o nome do time é `Houston Rockets`.

In [41]:
df['TEAM'] == 'Houston Rockets'

0      False
1      False
2      False
3      False
4      False
       ...  
412    False
413    False
414    False
415    False
416    False
Name: TEAM, Length: 417, dtype: bool

Podemos usar tal vetor para filtrar nosso DataFrame. A linha abaixo é o mesmo de um:

```sql
SELECT *
FROM table
WHERE TEAM = 'Houston Rockets'
```

In [42]:
filtro = df['TEAM'] == 'Houston Rockets'
df[filtro]

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
131,Dwight Howard,C,Houston Rockets,22.359364
132,James Harden,SG,Houston Rockets,15.756438
133,Ty Lawson,PG,Houston Rockets,12.404495
134,Corey Brewer,SG,Houston Rockets,8.229375
135,Trevor Ariza,SF,Houston Rockets,8.19303
136,Patrick Beverley,PG,Houston Rockets,6.486486
137,K.J. McDaniels,SG,Houston Rockets,3.189794
138,Terrence Jones,PF,Houston Rockets,2.48953
139,Donatas Motiejunas,PF,Houston Rockets,2.288205
140,Sam Dekker,SF,Houston Rockets,1.6464


Assim como pegar os salários maior do que um certo valor!

In [43]:
df[df['SALARY'] > 20]

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
29,Joe Johnson,SF,Brooklyn Nets,24.894863
60,Derrick Rose,PG,Chicago Bulls,20.093064
72,LeBron James,SF,Cleveland Cavaliers,22.9705
131,Dwight Howard,C,Houston Rockets,22.359364
156,Chris Paul,PG,Los Angeles Clippers,21.468695
169,Kobe Bryant,SF,Los Angeles Lakers,25.0
201,Chris Bosh,PF,Miami Heat,22.19273
255,Carmelo Anthony,SF,New York Knicks,22.875
268,Kevin Durant,SF,Oklahoma City Thunder,20.158622


## Exercícios

Abaixo temos algumas chamadas em pandas. Tente explicar cada uma delas.

In [44]:
(df[['POSITION', 'SALARY']].
 groupby('POSITION').
 mean()
)

Unnamed: 0_level_0,SALARY
POSITION,Unnamed: 1_level_1
C,6.082913
PF,4.951344
PG,5.165487
SF,5.532675
SG,3.988195


In [45]:
(df[['TEAM', 'SALARY']].
 groupby('TEAM').
 mean().
 sort_values('SALARY')
)

Unnamed: 0_level_0,SALARY
TEAM,Unnamed: 1_level_1
Phoenix Suns,2.971813
Utah Jazz,3.095993
Portland Trail Blazers,3.246206
Philadelphia 76ers,3.267796
Boston Celtics,3.352367
Milwaukee Bucks,4.019873
Detroit Pistons,4.221176
Toronto Raptors,4.392507
Brooklyn Nets,4.408229
Denver Nuggets,4.459243
