<a href="https://colab.research.google.com/github/DaniSBoy/Trabalhos-Introducao-Ciencias-De-Dados/blob/main/aulas/Aula_02_P_Tabelas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
layout: page
title: Tabelas e Tipos de Dados
nav_order: 2
---

[<img src="./colab_favicon_small.png" style="float: right;">](https://colab.research.google.com/github/icd-ufmg/icd-ufmg.github.io/blob/master/_lessons/02-tabelas.ipynb)


# Tabelas e Tipos de Dados

{: .no_toc .mb-2 }

Um breve resumo de alguns comandos python.
{: .fs-6 .fw-300 }

{: .no_toc .text-delta }
Resultados Esperados

1. Aprender o básico de Pandas
1. Entender diferentes tipos de dados
1. Básico de filtros e seleções
1. Aplicação de filtros básicos para gerar insights nos dados de dados tabulares



---
**Sumário**
1. TOC
{:toc}
---

## Introdução

Neste notebook vamos explorar um pouco de dados tabulares. A principal biblioteca para leitura de dados tabulares em Python se chama **pandas**. A mesma é bastante poderosa implementando uma série de operações de bancos de dados (e.g., groupby e join). Nossa discussão será focada em algumas das funções principais do pandas que vamos explorar no curso. Existe uma série ampla de funcionalidades que a biblioteca (além de outras) vai trazer. 

Caso necessite de algo além da aula, busque na documentação da biblioteca. Por fim, durante esta aula, também vamos aprender um pouco de bash.

### Imports básicos

A maioria dos nossos notebooks vai iniciar com os imports abaixo.
1. pandas: dados tabulates
1. matplotlib: gráficos e plots

A chamada `plt.ion` habilita gráficos do matplotlib no notebook diretamente. Caso necesse salvar alguma figura, chame `plt.savefig` após seu plot.

In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

plt.ion()

## Series

Existem dois tipos base de dados em pandas. O primeiro, Series, representa uma coluna de dados. Um combinação de Series vira um DataFrame (mais abaixo). Diferente de um vetor `numpy`, a Series de panda captura uma coluna de dados (ou vetor) indexado. Isto é, podemos nomear cada um dos valores.

In [None]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

In [None]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Note que podemos usar como um vetor:

In [None]:
data[3]

1.0

Podemos também acessar os valores pelas suas posições na série e pelos índices através das funções `loc` e `iloc`:

In [None]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

1. `series.loc[índice]` - valor indexado pelo índice correspondente.
1. `series.iloc[int]` - i-ésimo elemento da Series.

In [None]:
data.loc['a']

0.25

In [None]:
data.loc['b']

0.5

Com `iloc` acessamos por número da linha, como em um vetor tradicional.

In [None]:
data.iloc[0]

0.25

In [None]:
data[0]

0.25

## Data Frames

Ao combinar várias Series com um índice comum, criamos um **DataFrame**. Não é tão comum gerar os mesmos na mão como estamos fazendo, geralmente carregamos DataFrames de arquivos `.csv`, `.json` ou até de sistemas de bancos de dados `mariadb`. De qualquer forma, use os exemplos abaixo para entender a estrutura de um dataframe.

Lembre-se que {}/dict é um dicionário (ou mapa) em Python. Podemos criar uma série a partir de um dicionário
index->value

In [None]:
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}

In [None]:
area_dict['California']

423967

A linha abaixo lista todas as chaves.

In [None]:
list(area_dict.keys())

['California', 'Texas', 'New York', 'Florida', 'Illinois']

Agora todas as colunas

In [None]:
list(area_dict.values())

[423967, 695662, 141297, 170312, 149995]

Acessando um valor.

In [None]:
area_dict['California']

423967

Podemos criar a série a partir do dicionário, cada chave vira um elemento do índice. Os valores viram os dados do vetor.

In [None]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

Agora, vamos criar outro dicionário com a população dos estados.

In [None]:
pop_dict = {'California': 38332521,
            'Texas': 26448193,
            'New York': 19651127,
            'Florida': 19552860,
            'Illinois': 12882135}
pop = pd.Series(pop_dict)
pop

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

Por fim, observe que o DataFrame é uma combinação de Series: `area` + `pop`. Cada uma das Series torna-se uma coluna da tabela de dados (ou DataFrame).

In [None]:
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Agora o uso de `.loc e .iloc` deve ficar mais claro:

In [None]:
data.loc['California']

area      423967
pop     38332521
Name: California, dtype: int64

In [None]:
data.loc[['California', 'Texas']]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


In [None]:
df_texas_cali = data.loc[['California', 'Texas']]

In [None]:
df_texas_cali

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


Note que o uso de `iloc` retorna a i-ésima linha. O problema é que nem sempre nos dataframes esta ordem vai fazer sentido. O `iloc` acaba sendo mais interessante para iteração (e.g., passar por todas as linhas.)

In [None]:
data.iloc[0]

area      423967
pop     38332521
Name: California, dtype: int64

In [None]:
data.iloc[[0,2]]

Unnamed: 0,area,pop
California,423967,38332521
New York,141297,19651127


## Slicing

Agora, podemos realizar *slicing* no DataFrame. Slicing é uma operação Python que retorna sub-listas/sub-vetores. Caso não conheça, tente executar o exemplo abaixo:

In [None]:
vec = []
vec = [7, 1, 3, 5, 9]
print(vec[0])
print(vec[1])
print(vec[2])

# Agora, l[ini:fim] retorna uma sublista iniciando na posição ini e terminando na posição fim-1
print(vec[1:4])

7
1
3
[1, 3, 5]


Voltando para o nosso **dataframe**, podemos realizar o slicing usando o `.iloc`.

In [None]:
data.iloc[2:4]

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860


## Modificando DataFrames

Series e DataFrames são objetos mutáveis em Python. Podemos adicionar novas colunas em DataFrama facilmente da mesma forma que adicionamos novos valores em um mapa. Por fim, podemos também mudar o valor de linhas específicas e adicionar novas linhas.

In [None]:
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [None]:
data['density'] = data['pop'] / data['area']
data.loc['Texas']

area       6.956620e+05
pop        2.644819e+07
density    3.801874e+01
Name: Texas, dtype: float64

In [None]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [None]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [None]:
df = data

In [None]:
df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

## Arquivos

Antes de explorar DataFrames criados a partir de arquivos, vamos ver como um notebook é um shell bastante poderoso. Ao usar uma exclamação (!) no notebook Jupyter, conseguimos executar comandos do shell do sistema. Em particular, aqui estamos executando o comando ls para indentificar os dados da pasta atual.

Tudo que executamos com `!` é um comando do terminal do unix. Então, este notebook só deve executar as linhas abaixo em um computador `Windows`.

In [None]:
!dir

sample_data


## Baby Names

É bem mais comum fazer uso de DataFrames que já existem em arquivos. No entanto, é importante ressaltar que nem sempre esses arquivos já estão prontos para o cientista de dados. Em várias ocasiões, você vai ter que coletar e organizar os mesmos. Limpeza e coleta de dados é uma parte fundamental do seu trabalho. Durante o curso, boa parte dos notebooks já vão ter dados prontos.

Primeiro, vamos abrir o arquivo csv que temos no nosso diretório:

In [None]:
df = pd.read_csv('baby.csv')
df

FileNotFoundError: ignored

In [1]:
df.describe()

NameError: ignored

Podemos também carregar outro conjunto de dados sobre bebês, que contém informações sobre os seus nomes. A versão completa está disponível publicamente pela Internet:

In [5]:
df = pd.read_csv('https://media.githubusercontent.com/media/icd-ufmg/material/master/aulas/03-Tabelas-e-Tipos-de-Dados/baby.csv')
df = df.drop('Id', axis='columns') # remove a coluna id, não serve para nada
df

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
...,...,...,...,...,...
5647421,Seth,2014,M,WY,5
5647422,Spencer,2014,M,WY,5
5647423,Tyce,2014,M,WY,5
5647424,Victor,2014,M,WY,5


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5647426 entries, 0 to 5647425
Data columns (total 5 columns):
 #   Column  Dtype 
---  ------  ----- 
 0   Name    object
 1   Year    int64 
 2   Gender  object
 3   State   object
 4   Count   int64 
dtypes: int64(2), object(3)
memory usage: 215.4+ MB


O método `head` do notebook retorna as primeiras `n` linhas do mesmo. Use tal método para entender seus dados. **Sempre olhe para seus dados.** Note como as linhas abaixo usa o `loc` e `iloc` para entender um pouco a estrutura dos mesmos.

In [None]:
df.head()

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7


In [None]:
df.head(6)

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
5,Elsie,1910,F,AK,6


In [None]:
df[10:15]

Unnamed: 0,Name,Year,Gender,State,Count
10,Ruth,1911,F,AK,7
11,Annie,1911,F,AK,6
12,Elizabeth,1911,F,AK,6
13,Helen,1911,F,AK,6
14,Mary,1912,F,AK,9


In [None]:
df.iloc[0:6]

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
5,Elsie,1910,F,AK,6


In [None]:
df[['Name', 'Gender']].head(6)

Unnamed: 0,Name,Gender
0,Mary,F
1,Annie,F
2,Anna,F
3,Margaret,F
4,Helen,F
5,Elsie,F


## Groupby

Vamos responder algumas perguntas com a função groupby. Lembrando a ideia é separar os dados com base em valores comuns, ou seja, agrupar por nomes e realizar alguma operação. O comando abaixo agrupa todos os recem-náscidos por nome. Imagine a mesma fazendo uma operação equivalente ao laço abaixo:

```python
buckets = {}                    # Mapa de dados
names = set(df['Name'])         # Conjunto de nomes únicos
for idx, row in df.iterrows():  # Para cada linha dos dados
    name = row['Name']
    if name not in buckets:
        buckets[name] = []      # Uma lista para cada nome
    buckets[name].append(row)   # Separa a linha para cada nome
```

O código acima é bastante lento!!! O groupby é optimizado. Com base na linha abaixo, o mesmo nem retorna nehum resultado ainda. Apenas um objeto onde podemos fazer agregações.

In [14]:
gb = df.groupby('Name')
type(gb)
gb.head()

Unnamed: 0,Name,Year,Gender,State,Count
0,Mary,1910,F,AK,14
1,Annie,1910,F,AK,12
2,Anna,1910,F,AK,10
3,Margaret,1910,F,AK,8
4,Helen,1910,F,AK,7
...,...,...,...,...,...
5620949,Wyoma,1917,F,WY,6
5621158,Wyoma,1919,F,WY,7
5621251,Wyoma,1920,F,WY,8
5621413,Wyoma,1921,F,WY,5


Agora posso agregar todos os nomes com alguma operação. Por exemplo, posso somar a quantidade de vezes que cada nome ocorre. Em Python, seria o seguinte código.

```python
sum_ = {}                       # Mapa de dados
for name in buckets:            # Para cada nomee
    sum_[name] = 0
    for row in buckets[name]:   # Para cada linha com aquele nome, aggregate (some)
        sum_[name] += row['Count']
```

Observe o resultado da agregação abaixo. Qual o problema com a coluna `Year`??

In [None]:
gb.mean()

Unnamed: 0_level_0,Year,Count
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Aaban,2013.500000,6.000000
Aadan,2009.750000,5.750000
Aadarsh,2009.000000,5.000000
Aaden,2010.015306,17.479592
Aadhav,2014.000000,6.000000
...,...,...
Zyrah,2012.000000,5.500000
Zyren,2013.000000,6.000000
Zyria,2006.714286,5.785714
Zyriah,2009.666667,6.444444


Não faz tanto sentido somar o ano, embora seja um número aqui representa uma categoria. Vamos somar as contagens apenas.

In [None]:
gb.sum()['Count']

Name
Aaban         12
Aadan         23
Aadarsh        5
Aaden       3426
Aadhav         6
            ... 
Zyrah         11
Zyren          6
Zyria         81
Zyriah        58
Zyshonne       5
Name: Count, Length: 30274, dtype: int64

E ordenar...

In [None]:
gb.sum()['Count'].sort_values()

Name
Zyshonne          5
Makenlee          5
Makenlie          5
Makinlee          5
Makua             5
             ...   
William     3839236
Michael     4312975
Robert      4725713
John        4845414
James       4957166
Name: Count, Length: 30274, dtype: int64

É comum, embora mais chato de ler, fazer tudo em uma única chamada. Isto é uma prática que vem do mundo SQL. A chamada abaixo seria o mesmo de:

```sql
SELECT Name, SUM(Count)
FROM baby_table
GROUPBY Name
ORDERBY SUM(Count)
```

In [None]:
df.groupby('Name').sum().sort_values(by='Count')['Count']

Name
Zyshonne          5
Makenlee          5
Makenlie          5
Makinlee          5
Makua             5
             ...   
William     3839236
Michael     4312975
Robert      4725713
John        4845414
James       4957166
Name: Count, Length: 30274, dtype: int64

Use `[::-1]` para inverter a ordem:

In [None]:
df.groupby('Name').sum().sort_values(by='Count')['Count'][::-1]

Name
James       4957166
John        4845414
Robert      4725713
Michael     4312975
William     3839236
             ...   
Makua             5
Makinlee          5
Makenlie          5
Makenlee          5
Zyshonne          5
Name: Count, Length: 30274, dtype: int64

Podemos agrupar por múltiplas colunas:

In [None]:
df.groupby(['Name', 'Year']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Count
Name,Year,Unnamed: 2_level_1
Aaban,2013,6
Aaban,2014,6
Aadan,2008,12
Aadan,2009,6
Aadan,2014,5
...,...,...
Zyriah,2011,6
Zyriah,2012,5
Zyriah,2013,7
Zyriah,2014,6


## NBA Salaries e Indexação Booleana

Por fim, vamos explorar alguns dados da NBA para entender a indexação booleana. Vamos carregar os dados da mesma forma que carregamos os dados dos nomes de crianças.

In [15]:
df = pd.read_csv('https://media.githubusercontent.com/media/icd-ufmg/material/master/aulas/03-Tabelas-e-Tipos-de-Dados/nba_salaries.csv')
df.head()

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
0,Paul Millsap,PF,Atlanta Hawks,18.671659
1,Al Horford,C,Atlanta Hawks,12.0
2,Tiago Splitter,C,Atlanta Hawks,9.75625
3,Jeff Teague,PG,Atlanta Hawks,8.0
4,Kyle Korver,SG,Atlanta Hawks,5.746479


Por fim, vamos indexar nosso DataFrame por booleanos. A linha abaixo pega um vetor de booleanos onde o nome do time é `Houston Rockets`.

In [16]:
df['TEAM'] == 'Houston Rockets'

0      False
1      False
2      False
3      False
4      False
       ...  
412    False
413    False
414    False
415    False
416    False
Name: TEAM, Length: 417, dtype: bool

Podemos usar tal vetor para filtrar nosso DataFrame. A linha abaixo é o mesmo de um:

```sql
SELECT *
FROM table
WHERE TEAM = 'Houston Rockets'
```

In [17]:
filtro = df['TEAM'] == 'Houston Rockets'
df[filtro]

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
131,Dwight Howard,C,Houston Rockets,22.359364
132,James Harden,SG,Houston Rockets,15.756438
133,Ty Lawson,PG,Houston Rockets,12.404495
134,Corey Brewer,SG,Houston Rockets,8.229375
135,Trevor Ariza,SF,Houston Rockets,8.19303
136,Patrick Beverley,PG,Houston Rockets,6.486486
137,K.J. McDaniels,SG,Houston Rockets,3.189794
138,Terrence Jones,PF,Houston Rockets,2.48953
139,Donatas Motiejunas,PF,Houston Rockets,2.288205
140,Sam Dekker,SF,Houston Rockets,1.6464


In [18]:
df[df['TEAM'] == 'Houston Rockets']

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
131,Dwight Howard,C,Houston Rockets,22.359364
132,James Harden,SG,Houston Rockets,15.756438
133,Ty Lawson,PG,Houston Rockets,12.404495
134,Corey Brewer,SG,Houston Rockets,8.229375
135,Trevor Ariza,SF,Houston Rockets,8.19303
136,Patrick Beverley,PG,Houston Rockets,6.486486
137,K.J. McDaniels,SG,Houston Rockets,3.189794
138,Terrence Jones,PF,Houston Rockets,2.48953
139,Donatas Motiejunas,PF,Houston Rockets,2.288205
140,Sam Dekker,SF,Houston Rockets,1.6464


Assim como pegar os salários maior do que um certo valor!

In [19]:
df[df['SALARY'] > 2]

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
0,Paul Millsap,PF,Atlanta Hawks,18.671659
1,Al Horford,C,Atlanta Hawks,12.000000
2,Tiago Splitter,C,Atlanta Hawks,9.756250
3,Jeff Teague,PG,Atlanta Hawks,8.000000
4,Kyle Korver,SG,Atlanta Hawks,5.746479
...,...,...,...,...
408,Jared Dudley,SF,Washington Wizards,4.375000
409,Alan Anderson,SG,Washington Wizards,4.000000
410,Drew Gooden,PF,Washington Wizards,3.300000
411,Ramon Sessions,PG,Washington Wizards,2.170465


## Exercícios

Abaixo temos algumas chamadas em pandas. Tente explicar cada uma delas.

In [22]:
df[['POSITION', 'SALARY']].groupby('POSITION').mean()

Unnamed: 0_level_0,SALARY
POSITION,Unnamed: 1_level_1
C,6.082913
PF,4.951344
PG,5.165487
SF,5.532675
SG,3.988195


In [23]:
df[['TEAM', 'SALARY']].groupby('TEAM').mean().sort_values('SALARY')

Unnamed: 0_level_0,SALARY
TEAM,Unnamed: 1_level_1
Phoenix Suns,2.971813
Utah Jazz,3.095993
Portland Trail Blazers,3.246206
Philadelphia 76ers,3.267796
Boston Celtics,3.352367
Milwaukee Bucks,4.019873
Detroit Pistons,4.221176
Toronto Raptors,4.392507
Brooklyn Nets,4.408229
Denver Nuggets,4.459243


## Merge

Agora, vamos explorar algumas chamadas que fazem opereações de merge.

In [20]:
people = pd.DataFrame(
    [["Joey",      "blue",       42,  "M"],
     ["Weiwei",    "blue",       50,  "F"],
     ["Joey",      "green",       8,  "M"],
     ["Karina",    "green",  np.nan,  "F"],
     ["Fernando",  "pink",        9,  "M"],
     ["Nhi",       "blue",        3,  "F"],
     ["Sam",       "pink",   np.nan,  "M"]], 
    columns = ["Name", "Color", "Age", "Gender"])
people

Unnamed: 0,Name,Color,Age,Gender
0,Joey,blue,42.0,M
1,Weiwei,blue,50.0,F
2,Joey,green,8.0,M
3,Karina,green,,F
4,Fernando,pink,9.0,M
5,Nhi,blue,3.0,F
6,Sam,pink,,M


In [21]:
email = pd.DataFrame(
    [["Deb",  "deborah_nolan@berkeley.edu"],
     ["Sam",  np.nan],
     ["John", "doe@nope.com"],
     ["Joey", "jegonzal@cs.berkeley.edu"],
     ["Weiwei", "weiwzhang@berkeley.edu"],
     ["Weiwei", np.nan],
     ["Karina", "kgoot@berkeley.edu"]], 
    columns = ["User Name", "Email"])
email

Unnamed: 0,User Name,Email
0,Deb,deborah_nolan@berkeley.edu
1,Sam,
2,John,doe@nope.com
3,Joey,jegonzal@cs.berkeley.edu
4,Weiwei,weiwzhang@berkeley.edu
5,Weiwei,
6,Karina,kgoot@berkeley.edu


In [24]:
people.merge(email, 
             how = "inner",
             left_on = "Name", right_on = "User Name")

Unnamed: 0,Name,Color,Age,Gender,User Name,Email
0,Joey,blue,42.0,M,Joey,jegonzal@cs.berkeley.edu
1,Joey,green,8.0,M,Joey,jegonzal@cs.berkeley.edu
2,Weiwei,blue,50.0,F,Weiwei,weiwzhang@berkeley.edu
3,Weiwei,blue,50.0,F,Weiwei,
4,Karina,green,,F,Karina,kgoot@berkeley.edu
5,Sam,pink,,M,Sam,
