# Aula 03 - Tabelas e Tipos de Dados

## Objetivos

1. Aprender Pandas
2. Entender diferentes tipos de dados
3. Básico de filtros e seleções

## Resultado Esperado

1. Aplicação de filtros básicos para gerar insights nos dados da NBA

A principal biblioteca para leitura de dados tabulares em Python se chama Pandas. A mesma é bastante poderosa implementando uma série de operações de bancos de dados (e.g., groupby e join). Durante esta aula, também vamos aprender um pouco de bash.

In [1]:
# -*- coding: utf8

import pandas as pd
import matplotlib.pyplot as plt

plt.ion()

## Series

Um dos tipos base do pandas é o Series. O mesmo, captura uma série de dados (ou vetor), indexado.

In [2]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])

In [3]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

Note que podemos usar como um vetor

In [4]:
data[0]

0.25

Porém o índice nos ajuda. Para um exemplo trivial como este não será tão interessante, mas vamos usar o mesmo.

In [5]:
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

Com .loc acessamos a linha do índice.

In [6]:
data.loc['a']

0.25

In [7]:
data.loc['b']

0.5

Com iloc acessamos por número da linha, estilho um vetor.

In [8]:
data.iloc[0]

0.25

## Data Frames

Ao combinar várias Series com um índice comum, criamos um **dataframe**. Não é tão comum gerar os mesmos na mão como estamos fazendo, geralmente fazemos uso de arquivos. De qualquer forma, observe a estrutura do mesmo.

Lembre-se que {}/dict é um dicionário (ou mapa) em Python. Podemos criar uma série a partir de um dicionário
index->value

In [9]:
area_dict = {'California': 423967,
             'Texas': 695662,
             'New York': 141297,
             'Florida': 170312,
             'Illinois': 149995}

In [10]:
list(area_dict.keys())

['California', 'Texas', 'New York', 'Florida', 'Illinois']

In [11]:
list(area_dict.values())

[423967, 695662, 141297, 170312, 149995]

In [12]:
area_dict['California']

423967

In [13]:
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [14]:
pop_dict= {'California': 38332521,
           'Texas': 26448193,
           'New York': 19651127,
           'Florida': 19552860,
           'Illinois': 12882135}
pop = pd.Series(pop_dict)
pop

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [15]:
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


Agora o use de .loc e .iloc deve ficar mais claro, observe os exemplos abaixo.

In [16]:
data.loc['California']

area      423967
pop     38332521
Name: California, dtype: int64

In [17]:
data.loc[['California', 'Texas']]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193


Assim como o use de iloc, pois temos uma ordem nas linhas. (o índice também é ordenado, mas pode não ser claro a primeira vista).

In [18]:
data.iloc[0]

area      423967
pop     38332521
Name: California, dtype: int64

Podemos realize slicing, estilo uma lista. Caso não conheça, tente executar o exemplo abaixo:

```python
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])
```

In [19]:
l = []
l = [7, 1, 3, 5, 9]
print(l[0])
print(l[1])
print(l[2])

# Agora, l[bg:ed] retorna uma sublista iniciando em bg e terminando em ed-1
print(l[1:4])

7
1
3
[1, 3, 5]


Agora voltando para o nosso **dataframe**, podemos fazer a mesma coisa usando `.iloc`.

In [20]:
data.iloc[2:4]

Unnamed: 0,area,pop
New York,141297,19651127
Florida,170312,19552860


Podemos adicionar novas colunas facilmente.

In [21]:
data['density'] = data['pop'] / data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [22]:
df = data

In [23]:
df.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

## Arquivos

Ao usar uma exclamação (!) no notebook Jupyter, conseguimos executar comandos do shell do sistema. Em particular, aqui estamos executando o comando ls para indentificar os dados da pasta atual.

In [24]:
!ls .

Aula03-Tabelas.ipynb                  nba_salaries.csv
movie_metadata.csv_movie_metadata.csv


Com a opção -lha, mostramos meta-dados dos arquivos como o owner, tamanho e permissões. Note que todos os arquivos são .csv, isto é comma separated.

In [25]:
!ls -lha .

total 3072
drwxr-xr-x  6 flaviovdf  staff   192B Mar 11 06:38 [1m[36m.[m[m
drwxr-xr-x  7 flaviovdf  staff   224B Mar 10 19:55 [1m[36m..[m[m
drwxr-xr-x  3 flaviovdf  staff    96B Mar 10 15:21 [1m[36m.ipynb_checkpoints[m[m
-rw-r--r--  1 flaviovdf  staff    55K Mar 11 06:38 Aula03-Tabelas.ipynb
-rw-r--r--@ 1 flaviovdf  staff   1.4M Mar 10 18:53 movie_metadata.csv_movie_metadata.csv
-rw-r--r--  1 flaviovdf  staff    18K Mar 10 18:47 nba_salaries.csv


Vamos identificar qual a cara de um csv.

In [26]:
!head nba_salaries.csv

PLAYER,POSITION,TEAM,SALARY
Paul Millsap,PF,Atlanta Hawks,18.671659
Al Horford,C,Atlanta Hawks,12.0
Tiago Splitter,C,Atlanta Hawks,9.75625
Jeff Teague,PG,Atlanta Hawks,8.0
Kyle Korver,SG,Atlanta Hawks,5.746479
Thabo Sefolosha,SF,Atlanta Hawks,4.0
Mike Scott,PF,Atlanta Hawks,3.333333
Kent Bazemore,SF,Atlanta Hawks,2.0
Dennis Schroder,PG,Atlanta Hawks,1.7634


## Lendo o nba_salaries.csv

Para ler dados usando a biblioteca pandas basta usarmos a chamada: pd.read_csv. Note que o csv está bem organizado, por isso não passamos nenhum argumento extra.


In [27]:
df = pd.read_csv('nba_salaries.csv')
df

Unnamed: 0,PLAYER,POSITION,TEAM,SALARY
0,Paul Millsap,PF,Atlanta Hawks,18.671659
1,Al Horford,C,Atlanta Hawks,12.000000
2,Tiago Splitter,C,Atlanta Hawks,9.756250
3,Jeff Teague,PG,Atlanta Hawks,8.000000
4,Kyle Korver,SG,Atlanta Hawks,5.746479
5,Thabo Sefolosha,SF,Atlanta Hawks,4.000000
6,Mike Scott,PF,Atlanta Hawks,3.333333
7,Kent Bazemore,SF,Atlanta Hawks,2.000000
8,Dennis Schroder,PG,Atlanta Hawks,1.763400
9,Tim Hardaway Jr.,SG,Atlanta Hawks,1.304520


In [28]:
filtro = df['TEAM'] == 'Houston Rockets'
filtro

0      False
1      False
2      False
3      False
4      False
5      False
6      False
7      False
8      False
9      False
10     False
11     False
12     False
13     False
14     False
15     False
16     False
17     False
18     False
19     False
20     False
21     False
22     False
23     False
24     False
25     False
26     False
27     False
28     False
29     False
       ...  
387    False
388    False
389    False
390    False
391    False
392    False
393    False
394    False
395    False
396    False
397    False
398    False
399    False
400    False
401    False
402    False
403    False
404    False
405    False
406    False
407    False
408    False
409    False
410    False
411    False
412    False
413    False
414    False
415    False
416    False
Name: TEAM, Length: 417, dtype: bool

In [29]:
df[filtro]['SALARY'].mean()

7.1071530833333343

O pandas funciona um pouco como um banco de dados. Temos funções como groupby, sort etc.

In [30]:
df[['POSITION', 'SALARY']].groupby('POSITION').mean()

Unnamed: 0_level_0,SALARY
POSITION,Unnamed: 1_level_1
C,6.082913
PF,4.951344
PG,5.165487
SF,5.532675
SG,3.988195


In [31]:
df[['TEAM', 'SALARY']].groupby('TEAM').mean().sort_values('SALARY')

Unnamed: 0_level_0,SALARY
TEAM,Unnamed: 1_level_1
Phoenix Suns,2.971813
Utah Jazz,3.095993
Portland Trail Blazers,3.246206
Philadelphia 76ers,3.267796
Boston Celtics,3.352367
Milwaukee Bucks,4.019873
Detroit Pistons,4.221176
Toronto Raptors,4.392507
Brooklyn Nets,4.408229
Denver Nuggets,4.459243


In [32]:
df.columns

Index(['PLAYER', 'POSITION', 'TEAM', 'SALARY'], dtype='object')

In [33]:
df.dtypes

PLAYER       object
POSITION     object
TEAM         object
SALARY      float64
dtype: object

In [34]:
df.index

RangeIndex(start=0, stop=417, step=1)

In [36]:
?pd.read_csv