---
layout: page
title: Tabelas e Tipos de Dados
---

# Tabelas e Tipos de Dados
{: .no_toc .mb-2 }

Um breve resumo de alguns comandos python.
{: .fs-6 .fw-300 }

{: .no_toc .text-delta }
Objetivo

*. Aprender Pandas
*. Entender diferentes tipos de dados
*. Básico de filtros e seleções


{: .no_toc .text-delta }
Resultado Esperado

*. Aplicação de filtros básicos para gerar insights nos dados de dados tabulares

---
**Sumário**
1. TOC
{:toc}
---

## Introdução

Neste notebook vamos explorar um pouco de dados tabulares. A principal biblioteca para leitura de dados tabulares em Python se chama **pandas**. A mesma é bastante poderosa implementando uma série de operações de bancos de dados (e.g., groupby e join). Nossa discussão será focada em algumas das funções principais do pandas que vamos explorar no curso. Existe uma série ampla de funcionalidades que a biblioteca (além de outras) vai trazer. 

Caso necessite de algo além da aula, busque na documentação da biblioteca. Por fim, durante esta aula, também vamos aprender um pouco de bash.

## Imports básicos

A maioria dos nossos notebooks vai iniciar com os imports abaixo.
1. pandas: dados tabulates
1. matplotlib: gráficos e plots

A chamada `plt.ion` habilita gráficos do matplotlib no notebook diretamente. Caso necesse salvar alguma figura, chame `plt.savefig` após seu plot.

In [34]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

plt.ion()

## Series

Existem dois tipos base de dados em pandas. O primeiro, Series, representa uma coluna de dados. Um combinação de Series vira um DataFrame (mais abaixo). Diferente de um vetor `numpy`, a Series de panda captura uma coluna de dados (ou vetor) indexado. Isto é, podemos nomear cada um dos valores.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

In [3]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Note que podemos usar como um vetor

In [4]:
data[0]

0.25

Porém o índice nos ajuda. Para um exemplo trivial como este não será tão interessante, mas vamos usar o mesmo.

In [5]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Com .loc acessamos uma linha do índice com base no nome. Então:

1. `series.loc[objeto_python]` - valor com o devido nome.
1. `series.iloc[int]` - i-ésimo elemento da Series.

In [6]:
data.loc['a']

0.25

In [7]:
data.loc['b']

0.5

Com `iloc` acessamos por número da linha, estilho um vetor.

In [8]:
data.iloc[0]

0.25

In [9]:
data[0]

0.25

## Data Frames

Ao combinar várias Series com um índice comum, criamos um **DataFrame**. Não é tão comum gerar os mesmos na mão como estamos fazendo, geralmente carregamos DataFrames de arquivos `.csv`, `.json` ou até de sistemas de bancos de dados `mariadb`. De qualquer forma, use os exemplos abaixo para entender a estrutura de um dataframe.

Lembre-se que {}/dict é um dicionário (ou mapa) em Python. Podemos criar uma série a partir de um dicionário
index->value

In [10]:
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}

A linha abaixo pega todas as chaves.

In [11]:
list(area_dict.keys())

['California', 'Texas', 'New York', 'Florida', 'Illinois']

Agora todas as colunas

In [12]:
list(area_dict.values())

[423967, 695662, 141297, 170312, 149995]

Acessando um valor.

In [13]:
area_dict['California']

423967

Podemos criar a série a partir do dicionário, cada chave vira um elemento do índice. Os valores viram os dados do vetor.

In [14]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Agora, vamos criar outro dicionário com a população dos estados.

In [15]:
pop_dict = {'California': 38332521,
            'Texas': 26448193,
            'New York': 19651127,
            'Florida': 19552860,
            'Illinois': 12882135}
pop = pd.Series(pop_dict)
pop

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por fim, observe que o DataFrame é uma combinação de Series. Cada uma das Series vira uma coluna da tabela de dados.

In [16]:
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Agora o use de `.loc e .iloc` deve ficar mais claro, observe os exemplos abaixo.

In [17]:
data.loc['California']

area      423967
pop     38332521
Name: California, dtype: int64

In [18]:
data.loc[['California', 'Texas']]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


Note que o uso de `iloc` retorna a i-ésima linha. O problema é que nem sempre nos dataframes esta ordem vai fazer sentido. O `iloc` acaba sendo mais interessante para iteração (e.g., passar por todas as linhas.)

In [19]:
data.iloc[0]

area      423967
pop     38332521
Name: California, dtype: int64

## Slicing

Agora, podemos realizar slicing no DataFrame. Slicing é uma operação Python que retorna sub-listas/sub-vetores. Caso não conheça, tente executar o exemplo abaixo:

```python
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])
```

In [20]:
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])

7
1
3
[1, 3, 5]


Voltando para o nosso **dataframe**, podemos realizar o slicing usando o `.iloc`.

In [21]:
data.iloc[2:4]

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860


## Modificando DataFrames

Series e DataFrames são objetos mutáveis em Python. Podemos adicionar novas colunas em DataFrama facilmente da mesma forma que adicionamos novos valores em um mapa. Por fim, podemos também mudar o valor de linhas específicas e adicionar novas linhas.

In [22]:
data['density'] = data['pop'] / data['area']
data.loc['Texas']

area       6.956620e+05
pop        2.644819e+07
density    3.801874e+01
Name: Texas, dtype: float64

In [23]:
df = data

In [24]:
df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

## Arquivos

Antes de explorar DataFrames em arquivos, vamos ver como um notebook na é um shell bastante poderoso. Ao usar uma exclamação (!) no notebook Jupyter, conseguimos executar comandos do shell do sistema. Em particular, aqui estamos executando o comando ls para indentificar os dados da pasta atual.

Tudo que executamos com `!` é um comando do terminal do unix. Então, este notebook só deve executar as linhas abaixo em um `Mac` ou `Linux`.

In [25]:
!ls .

baby.csv  tabelas  tabelas.ipynb  tabelas.md


Com a opção -lha, mostramos meta-dados dos arquivos como o owner, tamanho e permissões. Note que todos os arquivos são .csv, isto é comma separated.

In [26]:
!ls -lha .

total 148M
drwxr-xr-x 4 flaviovdf flaviovdf 4.0K Dec  2 14:24 .
drwxr-xr-x 7 flaviovdf flaviovdf 4.0K Dec  1 15:05 ..
-rw-r--r-- 1 flaviovdf flaviovdf 148M Dec  2 13:10 baby.csv
drwxr-xr-x 2 flaviovdf flaviovdf 4.0K Nov 30 09:22 .ipynb_checkpoints
-rw-r--r-- 1 flaviovdf flaviovdf 3.2K Dec  2 14:24 .nbgrader.log
drwxr-xr-x 3 flaviovdf flaviovdf 4.0K Nov 30 13:27 tabelas
-rw-r--r-- 1 flaviovdf flaviovdf  28K Dec  2 14:24 tabelas.ipynb
-rw-r--r-- 1 flaviovdf flaviovdf  58K Nov 30 13:33 tabelas.md


Vamos identificar qual a cara de um csv. O programa `head` imprime as primeiras `n` linhas de um arquivo.

In [27]:
!head baby.csv

Id,Name,Year,Gender,State,Count
1,Mary,1910,F,AK,14
2,Annie,1910,F,AK,12
3,Anna,1910,F,AK,10
4,Margaret,1910,F,AK,8
5,Helen,1910,F,AK,7
6,Elsie,1910,F,AK,6
7,Lucy,1910,F,AK,6
8,Dorothy,1910,F,AK,5
9,Mary,1911,F,AK,12


## Baby Names

É bem mais comum fazer uso de DataFrames que já existem em arquivos. Note que o trabalho do cientista de dados nem sempre vai ter tais arquivos prontos. Em várias ocasiões, você vai ter que coletar e organizar os mesmos. Limpeza e coleta de dados é uma parte fundamental do seu trabalho. Durante a matéria, boa parte dos notebooks já vão ter dados prontos.

In [35]:
df = pd.read_csv('baby.csv')
df = df.drop('Id', axis='columns') # remove a coluna id, serve de nada
df

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
5,Elsie,1910,F,AK,6
6,Lucy,1910,F,AK,6
7,Dorothy,1910,F,AK,5
8,Mary,1911,F,AK,12
9,Margaret,1911,F,AK,7


O método `head` do notebook retorna as primeiras `n` linhas do mesmo. Use tal método para entender seus dados. **Sempre olhe para seus dados.** Note como as linhas abaixo usa o `loc` e `iloc` para entender um pouco a estrutura dos mesmos.

In [36]:
df.head()

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7


O método `head` do notebook retorna as primeiras `n` linhas do mesmo. Use tal método para entender seus dados. **Sempre olhe para seus dados.** Note como as linhas abaixo usa o `loc` e `iloc` para entender um pouco a estrutura dos mesmos.

In [37]:
df.head(6)

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
5,Elsie,1910,F,AK,6


In [38]:
df[10:15]

Unnamed: 0,Name,Year,Gender,State,Count
10,Ruth,1911,F,AK,7
11,Annie,1911,F,AK,6
12,Elizabeth,1911,F,AK,6
13,Helen,1911,F,AK,6
14,Mary,1912,F,AK,9


In [39]:
df.iloc[0:6]

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
5,Elsie,1910,F,AK,6


In [40]:
df[['Name', 'Gender']].head(6)

Unnamed: 0,Name,Gender
0,Mary,F
1,Annie,F
2,Anna,F
3,Margaret,F
4,Helen,F
5,Elsie,F


## Groupby

Vamos responder algumas perguntas com a função groupby. Lembrando a ideia é separar os dados com base em valores comuns, ou seja, agrupar por nomes e realizar alguma operação. O comando abaixo agrupa todos os recem-náscidos por nome. Imagine a mesma fazendo uma operação equivalente ao laço abaixo:

```python
buckets = {}                    # Mapa de dados
names = set(df['Name'])         # Conjunto de nomes únicos
for idx, row in df.iterrows():  # Para cada linha dos dados
    name = row['Name']
    if name not in buckets:
        buckets[name] = []      # Uma lista para cada nome
    buckets[name].append(row)   # Separa a linha para cada nome
```

O código acima é bastante lento!!! O groupby é optimizado. Com base na linha abaixo, o mesmo nem retorna nehum resultado ainda. Apenas um objeto onde podemos fazer agregações.

In [48]:
subdf = df[['Name', 'Year', 'Count']]
subdf.head()

Unnamed: 0,Name,Year,Count
0,Mary,1910,14
1,Annie,1910,12
2,Anna,1910,10
3,Margaret,1910,8
4,Helen,1910,7


In [49]:
gb = subdf.groupby('Name')
type(gb)

pandas.core.groupby.generic.DataFrameGroupBy

Agora posso agregar todos os nomes com alguma operação. Por exemplo, posso somar a quantidade de vezes que cada nome ocorre. Em python, seria o seguinte código.

```python
sum_ = {}                       # Mapa de dados
for name in buckets:            # Para cada nomee
    sum_[name] = 0
    for row in buckets[name]:   # Para cada linha com aquele nome, aggregate (some)
        sum_[name] += row['Count']
```

Observe o resultado da agregação abaixo. Qual o problema com a coluna `Year`??

In [58]:
df['Year'].max()

2014

In [59]:
series_size = gb.sum()['Count']
series_size.sort_values()

Name
Zyshonne             5
Makenlee             5
Makenlie             5
Makinlee             5
Makua                5
Cathaleya            5
Makyia               5
Makynzee             5
Malacai              5
Catello              5
Malai                5
Catcher              5
Malajah              5
Maleeha              5
Maleigh              5
Castin               5
Maleko               5
Malini               5
Malissia             5
Malissie             5
Makaylie             5
Makay                5
Makalynn             5
Makailyn             5
Mahesh               5
Caylynn              5
Caylyn               5
Mahin                5
Mahjabeen            5
Mahreen              5
                ...   
Brian          1159034
Joshua         1174451
Edward         1212969
Andrew         1239305
Kenneth        1261928
Steven         1272459
George         1324735
Mark           1341573
Paul           1357785
Anthony        1397105
Donald         1403439
Barbara        1424544
Linda 

Não faz tanto sentido somar o ano, embora seja um número aqui representa uma categoria. Vamos somar as contagens apenas.

In [60]:
gb.sum()['Count'].sort_values()

Name
Zyshonne             5
Makenlee             5
Makenlie             5
Makinlee             5
Makua                5
Cathaleya            5
Makyia               5
Makynzee             5
Malacai              5
Catello              5
Malai                5
Catcher              5
Malajah              5
Maleeha              5
Maleigh              5
Castin               5
Maleko               5
Malini               5
Malissia             5
Malissie             5
Makaylie             5
Makay                5
Makalynn             5
Makailyn             5
Mahesh               5
Caylynn              5
Caylyn               5
Mahin                5
Mahjabeen            5
Mahreen              5
                ...   
Brian          1159034
Joshua         1174451
Edward         1212969
Andrew         1239305
Kenneth        1261928
Steven         1272459
George         1324735
Mark           1341573
Paul           1357785
Anthony        1397105
Donald         1403439
Barbara        1424544
Linda 

E ordenar...

In [61]:
gb.sum()['Count'].sort_values()

Name
Zyshonne             5
Makenlee             5
Makenlie             5
Makinlee             5
Makua                5
Cathaleya            5
Makyia               5
Makynzee             5
Malacai              5
Catello              5
Malai                5
Catcher              5
Malajah              5
Maleeha              5
Maleigh              5
Castin               5
Maleko               5
Malini               5
Malissia             5
Malissie             5
Makaylie             5
Makay                5
Makalynn             5
Makailyn             5
Mahesh               5
Caylynn              5
Caylyn               5
Mahin                5
Mahjabeen            5
Mahreen              5
                ...   
Brian          1159034
Joshua         1174451
Edward         1212969
Andrew         1239305
Kenneth        1261928
Steven         1272459
George         1324735
Mark           1341573
Paul           1357785
Anthony        1397105
Donald         1403439
Barbara        1424544
Linda 

É comum, embora mais chato de ler, fazer tudo em uma única chamada. Isto é uma prática que vem do mundo SQL. A chamada abaixo seria o mesmo de:

```sql
SELECT Name, SUM(Count)
FROM baby_table
GROUPBY Name
ORDERBY SUM(Count)
```

In [65]:
df.shape

(5647426, 5)

In [64]:
gb = df.groupby('Name')
gbsum = gb.sum()
gbsort = gbsum.sort_values(by='Count')
gbsort['Count']

Name
Zyshonne             5
Makenlee             5
Makenlie             5
Makinlee             5
Makua                5
Cathaleya            5
Makyia               5
Makynzee             5
Malacai              5
Catello              5
Malai                5
Catcher              5
Malajah              5
Maleeha              5
Maleigh              5
Castin               5
Maleko               5
Malini               5
Malissia             5
Malissie             5
Makaylie             5
Makay                5
Makalynn             5
Makailyn             5
Mahesh               5
Caylynn              5
Caylyn               5
Mahin                5
Mahjabeen            5
Mahreen              5
                ...   
Brian          1159034
Joshua         1174451
Edward         1212969
Andrew         1239305
Kenneth        1261928
Steven         1272459
George         1324735
Mark           1341573
Paul           1357785
Anthony        1397105
Donald         1403439
Barbara        1424544
Linda 

Podemos inverter com ::-1

In [None]:
df.groupby(['Name', 'Year']).sum()

## NBA Salaries e Indexação Booleana

Por fim, vamos explorar alguns dados da NBA para entender a indexação booleana. Vamos carregar os dados da mesma forma que carregamos os dados dos nomes de crianças.

In [None]:
df = pd.read_csv('https://media.githubusercontent.com/media/icd-ufmg/material/master/aulas/03-Tabelas-e-Tipos-de-Dados/nba_salaries.csv')
df.head()

Por fim, vamos indexar nosso DataFrame por booleanos. A linha abaixo pega um vetor de booleanos onde o nome do time é `Houston Rockets`.

In [None]:
df['TEAM'] == 'Houston Rockets'

Podemos usar tal vetor para filtrar nosso DataFrame. A linha abaixo é o mesmo de um:

```sql
SELECT *
FROM table
WHERE TEAM = 'Houston Rockets'
```

In [None]:
filtro = df['TEAM'] == 'Houston Rockets'
df[filtro]

Assim como pegar os salários maior do que um certo valor!

In [None]:
df[df['SALARY'] > 20]

## Exercícios

Abaixo temos algumas chamadas em pandas. Tente explicar cada uma delas.

In [None]:
df[['POSITION', 'SALARY']].groupby('POSITION').mean()

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').mean().sort_values('SALARY')