# Aula 03 - Tabelas e Tipos de Dados

## Objetivos

1. Aprender Pandas
2. Entender diferentes tipos de dados
3. Básico de filtros e seleções

## Resultado Esperado

1. Aplicação de filtros básicos para gerar insights nos dados de dados tabulares

A principal biblioteca para leitura de dados tabulares em Python se chama Pandas. A mesma é bastante poderosa implementando uma série de operações de bancos de dados (e.g., groupby e join). Durante esta aula, também vamos aprender um pouco de bash.

In [1]:
# -*- coding: utf8

import pandas as pd
import matplotlib.pyplot as plt

plt.ion()

## Series

Um dos tipos base do pandas é o Series. O mesmo, captura uma série de dados (ou vetor), indexado.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

In [3]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Note que podemos usar como um vetor

In [4]:
data[0]

0.25

Porém o índice nos ajuda. Para um exemplo trivial como este não será tão interessante, mas vamos usar o mesmo.

In [5]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Com .loc acessamos a linha do índice.

In [6]:
data.loc['a']

0.25

In [7]:
data.loc['b']

0.5

Com iloc acessamos por número da linha, estilho um vetor.

In [8]:
data.iloc[0]

0.25

## Data Frames

Ao combinar várias Series com um índice comum, criamos um **dataframe**. Não é tão comum gerar os mesmos na mão como estamos fazendo, geralmente fazemos uso de arquivos. De qualquer forma, observe a estrutura do mesmo.

Lembre-se que {}/dict é um dicionário (ou mapa) em Python. Podemos criar uma série a partir de um dicionário
index->value

In [9]:
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}

In [10]:
list(area_dict.keys())

['California', 'Texas', 'New York', 'Florida', 'Illinois']

In [11]:
list(area_dict.values())

[423967, 695662, 141297, 170312, 149995]

In [12]:
area_dict['California']

423967

In [13]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [14]:
pop_dict= {'California': 38332521,
           'Texas': 26448193,
           'New York': 19651127,
           'Florida': 19552860,
           'Illinois': 12882135}
pop = pd.Series(pop_dict)
pop

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [15]:
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Agora o use de .loc e .iloc deve ficar mais claro, observe os exemplos abaixo.

In [16]:
data.loc['California']

area      423967
pop     38332521
Name: California, dtype: int64

In [17]:
data.loc[['California', 'Texas']]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


Assim como o use de iloc, pois temos uma ordem nas linhas. (o índice também é ordenado, mas pode não ser claro a primeira vista).

In [18]:
data.iloc[0]

area      423967
pop     38332521
Name: California, dtype: int64

Podemos realize slicing, estilo uma lista. Caso não conheça, tente executar o exemplo abaixo:

```python
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])
```

In [19]:
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])

7
1
3
[1, 3, 5]


Agora voltando para o nosso **dataframe**, podemos fazer a mesma coisa usando `.iloc`.

In [20]:
data.iloc[2:4]

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860


Podemos adicionar novas colunas facilmente.

In [21]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [22]:
df = data

In [23]:
df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

## Arquivos

Ao usar uma exclamação (!) no notebook Jupyter, conseguimos executar comandos do shell do sistema. Em particular, aqui estamos executando o comando ls para indentificar os dados da pasta atual.

In [24]:
!ls .

Aula03-Tabelas.ipynb  movie_metadata.csv_movie_metadata.csv  nba_salaries.csv


Com a opção -lha, mostramos meta-dados dos arquivos como o owner, tamanho e permissões. Note que todos os arquivos são .csv, isto é comma separated.

In [25]:
!ls -lha .

total 1.6M
drwxr-xr-x 3 flaviovdf flaviovdf 4.0K Mar 11 15:02 .
drwxr-xr-x 6 flaviovdf flaviovdf 4.0K Mar 11 11:30 ..
-rw-r--r-- 1 flaviovdf flaviovdf  69K Mar 11 13:09 Aula03-Tabelas.ipynb
drwxr-xr-x 2 flaviovdf flaviovdf 4.0K Mar 11 11:24 .ipynb_checkpoints
-rw-r--r-- 1 flaviovdf flaviovdf 1.5M Mar 11 11:24 movie_metadata.csv_movie_metadata.csv
-rw-r--r-- 1 flaviovdf flaviovdf  18K Mar 11 11:24 nba_salaries.csv


Vamos identificar qual a cara de um csv.

In [26]:
!head nba_salaries.csv

PLAYER,POSITION,TEAM,SALARY
Paul Millsap,PF,Atlanta Hawks,18.671659
Al Horford,C,Atlanta Hawks,12.0
Tiago Splitter,C,Atlanta Hawks,9.75625
Jeff Teague,PG,Atlanta Hawks,8.0
Kyle Korver,SG,Atlanta Hawks,5.746479
Thabo Sefolosha,SF,Atlanta Hawks,4.0
Mike Scott,PF,Atlanta Hawks,3.333333
Kent Bazemore,SF,Atlanta Hawks,2.0
Dennis Schroder,PG,Atlanta Hawks,1.7634


## Baby Names

Vamos olhar para os dados de nomes de crianças nos EUA.

In [31]:
df = pd.read_csv('StateNames.csv')

In [32]:
df.head(6)

Unnamed: 0,Id,Name,Year,Gender,State,Count
0,1,Mary,1910,F,AK,14
1,2,Annie,1910,F,AK,12
2,3,Anna,1910,F,AK,10
3,4,Margaret,1910,F,AK,8
4,5,Helen,1910,F,AK,7
5,6,Elsie,1910,F,AK,6


In [33]:
df[0:6]

Unnamed: 0,Id,Name,Year,Gender,State,Count
0,1,Mary,1910,F,AK,14
1,2,Annie,1910,F,AK,12
2,3,Anna,1910,F,AK,10
3,4,Margaret,1910,F,AK,8
4,5,Helen,1910,F,AK,7
5,6,Elsie,1910,F,AK,6


In [34]:
df.iloc[0:6]

Unnamed: 0,Id,Name,Year,Gender,State,Count
0,1,Mary,1910,F,AK,14
1,2,Annie,1910,F,AK,12
2,3,Anna,1910,F,AK,10
3,4,Margaret,1910,F,AK,8
4,5,Helen,1910,F,AK,7
5,6,Elsie,1910,F,AK,6


In [35]:
df[['Name', 'Gender']].head(6)

Unnamed: 0,Name,Gender
0,Mary,F
1,Annie,F
2,Anna,F
3,Margaret,F
4,Helen,F
5,Elsie,F


In [36]:
df.groupby('Name').count().sort_values(by='Id')['Id'][::-1]

Name
Leslie        7194
Lee           7125
James         7037
John          6865
Robert        6820
Jessie        6636
William       6522
Michael       6396
Mary          6371
Charles       6268
David         6147
Joseph        5978
George        5925
Richard       5894
Thomas        5832
Terry         5828
Daniel        5704
Jamie         5690
Kelly         5659
Jerry         5644
Francis       5641
Paul          5569
Elizabeth     5517
Edward        5509
Kenneth       5481
Marion        5469
Jesse         5461
Anthony       5452
Dana          5435
Andrew        5394
              ... 
Chene            1
Leaann           1
Leahna           1
Leala            1
Leeasia          1
Leilanee         1
Lehuanani        1
Lehiwa           1
Chauntel         1
Chauntelle       1
Lehi             1
Chavely          1
Chavi            1
Leesha           1
Leeon            1
Leelee           1
Leeam            1
Chealsea         1
Chay             1
Ledia            1
Chayden          1
Lectori

## Lendo o nba_salaries.csv

Para ler dados usando a biblioteca pandas basta usarmos a chamada: pd.read_csv. Note que o csv está bem organizado, por isso não passamos nenhum argumento extra.


In [None]:
df = pd.read_csv('nba_salaries.csv')
df

Também podemos indexar por booleanos

In [None]:
filtro = df['TEAM'] == 'Houston Rockets'
filtro

In [None]:
df[filtro]['SALARY'].mean()

O pandas funciona um pouco como um banco de dados. Temos funções como groupby, sort etc.

In [None]:
df[['POSITION', 'SALARY']].groupby('POSITION').mean()

In [None]:
df[['TEAM', 'SALARY']].groupby('TEAM').mean().sort_values('SALARY')

In [None]:
df.columns

In [None]:
df.dtypes

In [None]:
df.index