---
layout: page
title: Tabelas e Tipos de Dados
nav_order: 2
---

[<img src="./colab_favicon_small.png" style="float: right;">](https://colab.research.google.com/github/icd-ufmg/icd-ufmg.github.io/blob/master/_lessons/02-tabelas.ipynb)


# Tabelas e Tipos de Dados

{: .no_toc .mb-2 }

Um breve resumo de alguns comandos python.
{: .fs-6 .fw-300 }

{: .no_toc .text-delta }
Resultados Esperados

1. Aprender o básico de Pandas
1. Entender diferentes tipos de dados
1. Básico de filtros e seleções
1. Aplicação de filtros básicos para gerar insights nos dados de dados tabulares



---
**Sumário**
1. TOC
{:toc}
---

## Introdução

Neste notebook vamos explorar um pouco de dados tabulares. A principal biblioteca para leitura de dados tabulares em Python se chama **pandas**. A mesma é bastante poderosa implementando uma série de operações de bancos de dados (e.g., groupby e join). Nossa discussão será focada em algumas das funções principais do pandas que vamos explorar no curso. Existe uma série ampla de funcionalidades que a biblioteca (além de outras) vai trazer. 

Caso necessite de algo além da aula, busque na documentação da biblioteca. Por fim, durante esta aula, também vamos aprender um pouco de bash.

### Imports básicos

A maioria dos nossos notebooks vai iniciar com os imports abaixo.
1. pandas: dados tabulates
1. matplotlib: gráficos e plots

A chamada `plt.ion` habilita gráficos do matplotlib no notebook diretamente. Caso necesse salvar alguma figura, chame `plt.savefig` após seu plot.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

plt.ion()

<matplotlib.pyplot._IonContext at 0x2528877cdf0>

## Series

Existem dois tipos base de dados em pandas. O primeiro, Series, representa uma coluna de dados. Um combinação de Series vira um DataFrame (mais abaixo). Diferente de um vetor `numpy`, a Series de panda captura uma coluna de dados (ou vetor) indexado. Isto é, podemos nomear cada um dos valores.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

In [3]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Note que podemos usar como um vetor:

In [4]:
data[3]

1.0

Podemos também acessar os valores pelas suas posições na série e pelos índices através das funções `loc` e `iloc`:

In [5]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

1. `series.loc[índice]` - valor indexado pelo índice correspondente.
1. `series.iloc[int]` - i-ésimo elemento da Series.

In [6]:
data.loc['a']

0.25

In [7]:
data.loc['b']

0.5

Com `iloc` acessamos por número da linha, como em um vetor tradicional.

In [8]:
data.iloc[0]

0.25

In [9]:
data[0]

0.25

## Data Frames

Ao combinar várias Series com um índice comum, criamos um **DataFrame**. Não é tão comum gerar os mesmos na mão como estamos fazendo, geralmente carregamos DataFrames de arquivos `.csv`, `.json` ou até de sistemas de bancos de dados `mariadb`. De qualquer forma, use os exemplos abaixo para entender a estrutura de um dataframe.

Lembre-se que {}/dict é um dicionário (ou mapa) em Python. Podemos criar uma série a partir de um dicionário
index->value

In [10]:
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}

In [11]:
area_dict['California']

423967

A linha abaixo lista todas as chaves.

In [12]:
list(area_dict.keys())

['California', 'Texas', 'New York', 'Florida', 'Illinois']

Agora todas as colunas

In [13]:
list(area_dict.values())

[423967, 695662, 141297, 170312, 149995]

Acessando um valor.

In [14]:
area_dict['California']

423967

Podemos criar a série a partir do dicionário, cada chave vira um elemento do índice. Os valores viram os dados do vetor.

In [16]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Agora, vamos criar outro dicionário com a população dos estados.

In [17]:
pop_dict = {'California': 38332521,
            'Texas': 26448193,
            'New York': 19651127,
            'Florida': 19552860,
            'Illinois': 12882135}
pop = pd.Series(pop_dict)
pop

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por fim, observe que o DataFrame é uma combinação de Series: `area` + `pop`. Cada uma das Series torna-se uma coluna da tabela de dados (ou DataFrame).

In [19]:
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Agora o uso de `.loc e .iloc` deve ficar mais claro:

In [20]:
data.loc['California']

area      423967
pop     38332521
Name: California, dtype: int64

In [21]:
data.loc[['California', 'Texas']]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


In [22]:
df_texas_cali = data.loc[['California', 'Texas']]

In [23]:
df_texas_cali

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


Note que o uso de `iloc` retorna a i-ésima linha. O problema é que nem sempre nos dataframes esta ordem vai fazer sentido. O `iloc` acaba sendo mais interessante para iteração (e.g., passar por todas as linhas.)

In [24]:
data.iloc[0]

area      423967
pop     38332521
Name: California, dtype: int64

In [25]:
data.iloc[[0,2]]

Unnamed: 0,area,pop
California,423967,38332521
New York,141297,19651127


## Slicing

Agora, podemos realizar *slicing* no DataFrame. Slicing é uma operação Python que retorna sub-listas/sub-vetores. Caso não conheça, tente executar o exemplo abaixo:

In [26]:
vec = []
vec = [7, 1, 3, 5, 9]
print(vec[0])
print(vec[1])
print(vec[2])

# Agora, l[ini:fim] retorna uma sublista iniciando na posição ini e terminando na posição fim-1
print(vec[1:4])

7
1
3
[1, 3, 5]


Voltando para o nosso **dataframe**, podemos realizar o slicing usando o `.iloc`.

In [27]:
data.iloc[2:4]

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860


## Modificando DataFrames

Series e DataFrames são objetos mutáveis em Python. Podemos adicionar novas colunas em DataFrama facilmente da mesma forma que adicionamos novos valores em um mapa. Por fim, podemos também mudar o valor de linhas específicas e adicionar novas linhas.

In [28]:
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [29]:
data['density'] = data['pop'] / data['area']
data.loc['Texas']

area       6.956620e+05
pop        2.644819e+07
density    3.801874e+01
Name: Texas, dtype: float64

In [30]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [31]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [32]:
df = data

In [33]:
df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

## Arquivos

Antes de explorar DataFrames criados a partir de arquivos, vamos ver como um notebook é um shell bastante poderoso. Ao usar uma exclamação (!) no notebook Jupyter, conseguimos executar comandos do shell do sistema. Em particular, aqui estamos executando o comando ls para indentificar os dados da pasta atual.

Tudo que executamos com `!` é um comando do terminal do unix. Então, este notebook só deve executar as linhas abaixo em um computador `Windows`.

In [34]:
!dir

 O volume na unidade C ‚ Windows8_OS
 O N£mero de S‚rie do Volume ‚ 845B-74CB

 Pasta de C:\Users\pedro\OneDrive\Desktop\ICD\Aula 2 - Tabelas

05/09/2022  16:30    <DIR>          .
05/09/2022  16:30    <DIR>          ..
05/09/2022  16:28    <DIR>          .ipynb_checkpoints
05/09/2022  16:30            51.514 Aula 02 - P - Tabelas.ipynb
30/06/2021  17:49          (27.639) baby.csv
               2 arquivo(s)         79.153 bytes
               3 pasta(s)   889.702.158.336 bytes dispon¡veis


## Baby Names

É bem mais comum fazer uso de DataFrames que já existem em arquivos. No entanto, é importante ressaltar que nem sempre esses arquivos já estão prontos para o cientista de dados. Em várias ocasiões, você vai ter que coletar e organizar os mesmos. Limpeza e coleta de dados é uma parte fundamental do seu trabalho. Durante o curso, boa parte dos notebooks já vão ter dados prontos.

Primeiro, vamos abrir o arquivo csv que temos no nosso diretório:

In [35]:
df = pd.read_csv('baby.csv')
df

Unnamed: 0,Birth Weight,Gestational Days,Maternal Age,Maternal Height,Maternal Pregnancy Weight,Maternal Smoker
0,120,284,27,62,100,False
1,113,282,33,64,135,False
2,128,279,28,64,115,True
3,108,282,23,67,125,True
4,136,286,25,62,93,False
...,...,...,...,...,...,...
1169,113,275,27,60,100,False
1170,128,265,24,67,120,False
1171,130,291,30,65,150,True
1172,125,281,21,65,110,False


In [36]:
df.describe()

Unnamed: 0,Birth Weight,Gestational Days,Maternal Age,Maternal Height,Maternal Pregnancy Weight
count,1174.0,1174.0,1174.0,1174.0,1174.0
mean,119.462521,279.101363,27.228279,64.049404,128.478705
std,18.328671,16.010305,5.817839,2.526102,20.734282
min,55.0,148.0,15.0,53.0,87.0
25%,108.0,272.0,23.0,62.0,114.25
50%,120.0,280.0,26.0,64.0,125.0
75%,131.0,288.0,31.0,66.0,139.0
max,176.0,353.0,45.0,72.0,250.0


Podemos também carregar outro conjunto de dados sobre bebês, que contém informações sobre os seus nomes. A versão completa está disponível publicamente pela Internet:

In [37]:
df = pd.read_csv('https://media.githubusercontent.com/media/icd-ufmg/material/master/aulas/03-Tabelas-e-Tipos-de-Dados/baby.csv')
df = df.drop('Id', axis='columns') # remove a coluna id, não serve para nada
df

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
...,...,...,...,...,...
5647421,Seth,2014,M,WY,5
5647422,Spencer,2014,M,WY,5
5647423,Tyce,2014,M,WY,5
5647424,Victor,2014,M,WY,5


In [38]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5647426 entries, 0 to 5647425
Data columns (total 5 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   Name    object
 1   Year    int64 
 2   Gender  object
 3   State   object
 4   Count   int64 
dtypes: int64(2), object(3)
memory usage: 215.4+ MB


O método `head` do notebook retorna as primeiras `n` linhas do mesmo. Use tal método para entender seus dados. **Sempre olhe para seus dados.** Note como as linhas abaixo usa o `loc` e `iloc` para entender um pouco a estrutura dos mesmos.

In [None]:
df.head()

In [None]:
df.head(6)

In [None]:
df[10:15]

In [None]:
df.iloc[0:6]

In [None]:
df[['Name', 'Gender']].head(6)

## Groupby

Vamos responder algumas perguntas com a função groupby. Lembrando a ideia é separar os dados com base em valores comuns, ou seja, agrupar por nomes e realizar alguma operação. O comando abaixo agrupa todos os recem-náscidos por nome. Imagine a mesma fazendo uma operação equivalente ao laço abaixo:

```python
buckets = {}                    # Mapa de dados
names = set(df['Name'])         # Conjunto de nomes únicos
for idx, row in df.iterrows():  # Para cada linha dos dados
    name = row['Name']
    if name not in buckets:
        buckets[name] = []      # Uma lista para cada nome
    buckets[name].append(row)   # Separa a linha para cada nome
```

O código acima é bastante lento!!! O groupby é optimizado. Com base na linha abaixo, o mesmo nem retorna nehum resultado ainda. Apenas um objeto onde podemos fazer agregações.

In [None]:
gb = df.groupby('Name')
type(gb)

Agora posso agregar todos os nomes com alguma operação. Por exemplo, posso somar a quantidade de vezes que cada nome ocorre. Em Python, seria o seguinte código.

```python
sum_ = {}                       # Mapa de dados
for name in buckets:            # Para cada nomee
    sum_[name] = 0
    for row in buckets[name]:   # Para cada linha com aquele nome, aggregate (some)
        sum_[name] += row['Count']
```

Observe o resultado da agregação abaixo. Qual o problema com a coluna `Year`??

In [None]:
gb.mean()

Não faz tanto sentido somar o ano, embora seja um número aqui representa uma categoria. Vamos somar as contagens apenas.

In [None]:
gb.sum()['Count']

E ordenar...

In [None]:
gb.sum()['Count'].sort_values()

É comum, embora mais chato de ler, fazer tudo em uma única chamada. Isto é uma prática que vem do mundo SQL. A chamada abaixo seria o mesmo de:

```sql
SELECT Name, SUM(Count)
FROM baby_table
GROUPBY Name
ORDERBY SUM(Count)
```

In [None]:
df.groupby('Name').sum().sort_values(by='Count')['Count']

Use `[::-1]` para inverter a ordem:

In [None]:
df.groupby('Name').sum().sort_values(by='Count')['Count'][::-1]

Podemos agrupar por múltiplas colunas:

In [None]:
df.groupby(['Name', 'Year']).sum()

## NBA Salaries e Indexação Booleana

Por fim, vamos explorar alguns dados da NBA para entender a indexação booleana. Vamos carregar os dados da mesma forma que carregamos os dados dos nomes de crianças.

In [None]:
df = pd.read_csv('https://media.githubusercontent.com/media/icd-ufmg/material/master/aulas/03-Tabelas-e-Tipos-de-Dados/nba_salaries.csv')
df.head()

Por fim, vamos indexar nosso DataFrame por booleanos. A linha abaixo pega um vetor de booleanos onde o nome do time é `Houston Rockets`.

In [None]:
df['TEAM'] == 'Houston Rockets'

Podemos usar tal vetor para filtrar nosso DataFrame. A linha abaixo é o mesmo de um:

```sql
SELECT *
FROM table
WHERE TEAM = 'Houston Rockets'
```

In [None]:
filtro = df['TEAM'] == 'Houston Rockets'
df[filtro]

In [None]:
df[df['TEAM'] == 'Houston Rockets']

Assim como pegar os salários maior do que um certo valor!

In [None]:
df[df['SALARY'] > 2]

## Exercícios

Abaixo temos algumas chamadas em pandas. Tente explicar cada uma delas.

In [None]:
df[['POSITION', 'SALARY']].groupby('POSITION').mean()

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').mean().sort_values('SALARY')

## Merge

Agora, vamos explorar algumas chamadas que fazem opereações de merge.

In [None]:
people = pd.DataFrame(
    [["Joey",      "blue",       42,  "M"],
     ["Weiwei",    "blue",       50,  "F"],
     ["Joey",      "green",       8,  "M"],
     ["Karina",    "green",  np.nan,  "F"],
     ["Fernando",  "pink",        9,  "M"],
     ["Nhi",       "blue",        3,  "F"],
     ["Sam",       "pink",   np.nan,  "M"]], 
    columns = ["Name", "Color", "Age", "Gender"])
people

In [None]:
email = pd.DataFrame(
    [["Deb",  "deborah_nolan@berkeley.edu"],
     ["Sam",  np.nan],
     ["John", "doe@nope.com"],
     ["Joey", "jegonzal@cs.berkeley.edu"],
     ["Weiwei", "weiwzhang@berkeley.edu"],
     ["Weiwei", np.nan],
     ["Karina", "kgoot@berkeley.edu"]], 
    columns = ["User Name", "Email"])
email

In [None]:
people.merge(email, 
             how = "inner",
             left_on = "Name", right_on = "User Name")