# Introdução à Pandas

In [1]:
import numpy as np
import pandas as pd

## O que é Pandas?

A biblioteca Pandas apresenta uma série de evoluções na utilização de `arrays` para a representação de tabelas de dados.

* [Documentação](https://pandas.pydata.org/docs/reference/index.html#api)
* [GitHub](https://github.com/pandas-dev/pandas/blob/master/pandas/core/base.py)

Vamos trabalhar com **três** objetos principais, os quais **precisamos** entender:
1. Pandas Series
2. Pandas DataFrame
3. Index

## Pandas Series

**O tijolo inicial da biblioteca Pandas**. A `Series` é uma classe semelhante aos **vetores** (um `array` **1-D**) - ela é um `array` indexado (misturando elementos de um `array` e um `dict`).

In [2]:
type(pd.Series)

type

In [3]:
pd.Series

pandas.core.series.Series

### Criando uma `Series`

Podemos inicializar uma `Series` da mesma forma que inicializamos um `array`: através de um iterável.

In [6]:
# From a list
values = [99, 22, 3, 4]
series1 = pd.Series(data = values)
print(series1)

0    99
1    22
2     3
3     4
dtype: int64


A série criada tem 3 elementos fundamentais:

* O `Index` - [0, 1, 2, 3] que aparece à esquerda acima;
* Os **valores** da série [1, 2, 3, 4], inicializados a partir de nossa lista;
* O `dtype` - assim como os `arrays` as `Series` só podem conter objetos de um tipo por vez.

Toda vez que criamos uma série, a Pandas criará automaticamente um índice numérico (como um `array` ou uma `list`). No entanto, assim com em um dicionário, podemos criar um índice diretamente.

In [7]:
nome_linhas = ['I', 'II', 'III', 'IV']

series2 = pd.Series(data = values, 
                    index = nome_linhas)

print(series2)

I      99
II     22
III     3
IV      4
dtype: int64


Enquanto os **valores** da série contém apenas um tipo de objeto, o índice pode conter mútiplos tipos: no exemplo abaixo vamos criar uma série que mistura os índices de `str` e `list`:

In [8]:
nome_linhas = [['I', 'II'], 'II', 'III', 'IV']
series3 = pd.Series(data = values, 
                    index = nome_linhas)
print(series3)

[I, II]    99
II         22
III         3
IV          4
dtype: int64


O único requisito para os **índices** é que eles tenham o mesmo comprimento que os **valores**.

In [10]:
print(values)
print(len(values))

[99, 22, 3, 4]
4


In [9]:
nome_linhas = ['I', 'II', 'III', 'IV', 'V']
series4 = pd.Series(data = values, 
                    index = nome_linhas)
print(series4)

ValueError: Length of values (4) does not match length of index (5)

Devemos tomar cuidado ao inicializar séries desta forma: as séries não precisam ter índices únicos, o que pode levar a comportamentos estranhos:

In [12]:
values = [1,1,1,1]
nome_linhas = ['I', 'II', 'II', 'II']
series5 = pd.Series(data = values, 
                    index = nome_linhas)
print(series5)

I     1
II    1
II    1
II    1
dtype: int64


In [13]:
np.array([1,1,1,1])

array([1, 1, 1, 1])

In [14]:
aa = {'I' : 1, 'II' : 2, 'III' : 3}

Assim como `arrays`, `Series` podem conter apenas um tipo de objeto. Se criarmos uma `Series` a partir de um iterável com valores mistos (por exemplo, `ints` e `lists`), a Pandas irá converter todos os objetos para um tipo genérico, chamado `object`.

In [19]:
pd.Series([1,2,3,'4'])

0    1
1    2
2    3
3    4
dtype: object

Além de criar `Series` a partir de uma lista de valores e outra de índices, podemos especificar os dois elementos juntos através de um `dict`. Neste caso, as **chaves** do `dict` serão usadas como o índice, enquanto os **valores** serão utilizados como os valores da `Series`.

In [20]:
# From a dict

dict_notas = dict({'Titanic' : 7.8,
                  'Dune' : 8.2,
                  'Dune (David Lynch)' : 6.4,
                  'House of Gucci' : 7.0,
                  'Joker' : 8.4,
                  'Alien' : 8.4})
notas_imdb = pd.Series(dict_notas)
print(notas_imdb)

Titanic               7.8
Dune                  8.2
Dune (David Lynch)    6.4
House of Gucci        7.0
Joker                 8.4
Alien                 8.4
dtype: float64


In [23]:
pd.Series(data = [7.8, 8.2, 6.4, 7.0, 8.4, 8.4],
          index = ['Titanic', 'Dune', 'Dune (DL)', 'House of Gucci', 'Joker', 'Alien'])

Titanic           7.8
Dune              8.2
Dune (DL)         6.4
House of Gucci    7.0
Joker             8.4
Alien             8.4
dtype: float64

Podemos utilizar a estrutura descrita acima para criar diferentes tipos de séries: **numéricas**, como a `notas_imdb`, de **strings** ou mesmo de listas.

Vamos ver como fazer isso expandindo nossos `dicts` sobre filmes:

In [24]:
dict_cast = dict({'Titanic' : ['Kate Winslet', 'Leonardo DiCaprio'],
                  'Dune' : ['Timothée Chalamet', 'Zendaya'],
                  'Dune (David Lynch)' : ['Sting'],
                  'House of Gucci' : ['Lady Gaga', 'Adam Driver', 'Al Pacino'],
                  'Joker' : ['Joaquin Phoenix'],
                  'Alien' : ['Sigourney Weaver', 'Ian Holm'],
                  'Aliens' : ['Sigourney Weaver', 'Paul Reiser']})

elenco = pd.Series(dict_cast, name = 'elenco')
print(elenco)

Titanic                 [Kate Winslet, Leonardo DiCaprio]
Dune                         [Timothée Chalamet, Zendaya]
Dune (David Lynch)                                [Sting]
House of Gucci        [Lady Gaga, Adam Driver, Al Pacino]
Joker                                   [Joaquin Phoenix]
Alien                        [Sigourney Weaver, Ian Holm]
Aliens                    [Sigourney Weaver, Paul Reiser]
Name: elenco, dtype: object


In [25]:
dict_diretor = dict({'Titanic' : 'James Cameron',
                     'Dune' : 'Denis Villeneuve',
                     'Dune (David Lynch)' : 'David Lynch',
                     'House of Gucci' : 'Ridley Scott',
                     'Joker' : 'Todd Phillips',
                     'Alien' : 'Ridley Scott',
                     'Aliens' : 'James Cameron'})
diretor = pd.Series(dict_diretor, name = 'diretor')
print(diretor)

Titanic                  James Cameron
Dune                  Denis Villeneuve
Dune (David Lynch)         David Lynch
House of Gucci            Ridley Scott
Joker                    Todd Phillips
Alien                     Ridley Scott
Aliens                   James Cameron
Name: diretor, dtype: object


### Some methods and attributes
* Check Type
* Check Size
* `.describe()`
* `.values`
* `.index`

In [30]:
notas_imdb

Titanic               7.8
Dune                  8.2
Dune (David Lynch)    6.4
House of Gucci        7.0
Joker                 8.4
Alien                 8.4
dtype: float64

In [29]:
print(type(notas_imdb))

<class 'pandas.core.series.Series'>


In [33]:
print(notas_imdb.dtype)

float64


In [34]:
print(elenco.dtype)

object


Então, o `type` da `notas_imdb` é `pandas.Series` e o tipo dos dados dentro desta `pandas.Series` é `float64`. Quando o `dtype` de uma `Series` for `object` *em geral* o que temos é uma séries de strings.

Assim como listas e arrays, séries são iteráveis: isso significa que podemos utilizar a função `len` para descobrir o comprimento de uma série.

In [35]:
print(len(notas_imdb))

6


O método `.describe()` nos permite fazer uma investigação preliminar sobre o conteúdo de uma série utilizando indicadores da estatística descritiva.

In [36]:
print(notas_imdb.describe())

count    6.000000
mean     7.700000
std      0.827043
min      6.400000
25%      7.200000
50%      8.000000
75%      8.350000
max      8.400000
dtype: float64


In [39]:
np.median(notas_imdb)

8.0

O comportamento deste método depende do `dtype` da `Series`: para um `dtype` numérico teremos indicadores de localização (média, mediana, quartis, etc) e dispersão (desvio padrão), já para outros tipos teremos uma descrição mais simples:

In [45]:
elenco.describe()

count                                     7
unique                                    7
top       [Kate Winslet, Leonardo DiCaprio]
freq                                      1
Name: elenco, dtype: object

In [46]:
elenco

Titanic                 [Kate Winslet, Leonardo DiCaprio]
Dune                         [Timothée Chalamet, Zendaya]
Dune (David Lynch)                                [Sting]
House of Gucci        [Lady Gaga, Adam Driver, Al Pacino]
Joker                                   [Joaquin Phoenix]
Alien                        [Sigourney Weaver, Ian Holm]
Aliens                    [Sigourney Weaver, Paul Reiser]
Name: elenco, dtype: object

In [38]:
diretor

Titanic                  James Cameron
Dune                  Denis Villeneuve
Dune (David Lynch)         David Lynch
House of Gucci            Ridley Scott
Joker                    Todd Phillips
Alien                     Ridley Scott
Aliens                   James Cameron
Name: diretor, dtype: object

Podemos utilizar o **atributo** `.values` para acessar os elementos de uma `Series` como um `np.array`:

In [47]:
print(notas_imdb.values)

[7.8 8.2 6.4 7.  8.4 8.4]


In [48]:
type(notas_imdb.values)

numpy.ndarray

Por fim, podemos acessar os índices de uma `Series` através do atributo `.index`.

In [49]:
print(notas_imdb.index)

Index(['Titanic', 'Dune', 'Dune (David Lynch)', 'House of Gucci', 'Joker',
       'Alien'],
      dtype='object')


### Indexação
Assim como `lists` e `np.arrays`, `Series` podem ser indexadas. Vamos ver as principais maneiras de fazê-lo: primeiro relembrando a indexação de `np.arrays`, depois vendo como podemos utilizar o próprio índice da série.

#### Emprestando de `np.array`!
Podemos indexar uma `Series` como um `np.array`:

Primeiro por `ints`...

In [51]:
notas_imdb

Titanic               7.8
Dune                  8.2
Dune (David Lynch)    6.4
House of Gucci        7.0
Joker                 8.4
Alien                 8.4
dtype: float64

In [59]:
a = [1,2,3]

In [60]:
a[0]

1

In [61]:
a[1:]

[2, 3]

In [63]:
notas_imdb[0]

7.8

... depois por `slices` ...

In [52]:
notas_imdb[0:3]

Titanic               7.8
Dune                  8.2
Dune (David Lynch)    6.4
dtype: float64

In [53]:
notas_imdb[1:]

Dune                  8.2
Dune (David Lynch)    6.4
House of Gucci        7.0
Joker                 8.4
Alien                 8.4
dtype: float64

... e, o mais útil de todos, por máscaras (através dos iteráveis de booleanos)!

Para isso precisamos lembrar como um `np.array` (e, por extensão, uma `Series`) se comportam frente aos operadores booleanos `<`, `>`, `==`, etc...

In [64]:
notas_imdb == 8.4

Titanic               False
Dune                  False
Dune (David Lynch)    False
House of Gucci        False
Joker                  True
Alien                  True
dtype: bool

O resultado é uma nova série, com o resultado da comparação booleana aplicada elemento à elemento. 

Agora podemos utilizar essa nova série para indexar a série original!

In [65]:
mascara = notas_imdb > 8
print(mascara)

Titanic               False
Dune                   True
Dune (David Lynch)    False
House of Gucci        False
Joker                  True
Alien                  True
dtype: bool


In [68]:
mascara_idiota = [False, True, False,False, True, False]
notas_imdb[mascara_idiota]

Dune     8.2
Joker    8.4
dtype: float64

Também podemos fazer a comparação dentro do próprio índice:

In [66]:
notas_imdb > 8

Titanic               False
Dune                   True
Dune (David Lynch)    False
House of Gucci        False
Joker                  True
Alien                  True
dtype: bool

In [69]:
notas_imdb[notas_imdb > 8]

Dune     8.2
Joker    8.4
Alien    8.4
dtype: float64

#### Lembrando `dicts`!
Podemos utilizar o índice que definimos na criação de uma série para acessar os valores associados à uma certa chave. Esse comportamento é semelhante à forma como indexamos dicionários.

In [70]:
notas_imdb['Dune']

8.2

# 2. The Pandas DataFrame
Um `DataFrame` da Pandas será o principal tipo que utilizaremos no restante do Bootcamp para representar tabelas de dados. Ao longo das próximas semanas iremos nos familiarizar com os métodos e atributos deste objeto, que nos permitem carregar dados, limpa-los e iniciar o processo de análise.

Podemos pensar em um DataFrame de diferentes formas:
* Uma coleção de `Series`;
* Uma `np.array` onde as linhas e as colunas tem *nomes*;
* Uma tabela, semelhante à uma planilha.

In [71]:
pd.DataFrame

pandas.core.frame.DataFrame

In [72]:
type(pd.DataFrame)

type

## Criando um DataFrame

Vamos começar construindo nossos DataFrames dentro do Python, a partir de `Series`, `arrays` ou `lists` e `dicts`. Ao longo das próximas semanas aprenderemos a ler arquivos (.csv, .txt, .xlsx), acessar DBs (SQL) e mesmo extrair dados de APIs.

Por enquanto, vamos construir uma tabela com os dados de filmes das nossas séries: notas do IMDB, elenco e diretor.

In [80]:
notas_imdb

Titanic               7.8
Dune                  8.2
Dune (David Lynch)    6.4
House of Gucci        7.0
Joker                 8.4
Alien                 8.4
dtype: float64

In [81]:
elenco

Titanic                 [Kate Winslet, Leonardo DiCaprio]
Dune                         [Timothée Chalamet, Zendaya]
Dune (David Lynch)                                [Sting]
House of Gucci        [Lady Gaga, Adam Driver, Al Pacino]
Joker                                   [Joaquin Phoenix]
Alien                        [Sigourney Weaver, Ian Holm]
Aliens                    [Sigourney Weaver, Paul Reiser]
Name: elenco, dtype: object

In [82]:
diretor

Titanic                  James Cameron
Dune                  Denis Villeneuve
Dune (David Lynch)         David Lynch
House of Gucci            Ridley Scott
Joker                    Todd Phillips
Alien                     Ridley Scott
Aliens                   James Cameron
Name: diretor, dtype: object

---
### `dict` de `Series`

A forma mais simples de converter um conjunto de séries em um DataFrame (onde cada `Series` será uma coluna) é através de um dicionário. Vamos construir um `dict` onde as chaves serão os nomes das colunas da tabela e os valores serão as `Series` que criamos.

In [85]:
dict_series = {'notas' : notas_imdb,
               'elenco' : elenco,
               'diretor' : diretor}
print(dict_series.keys())
print(dict_series['notas'])

dict_keys(['notas', 'elenco', 'diretor'])
Titanic               7.8
Dune                  8.2
Dune (David Lynch)    6.4
House of Gucci        7.0
Joker                 8.4
Alien                 8.4
dtype: float64


Agora vamos utilizar o objeto `DataFrame` para inicializar nosso DataFrame.

In [86]:
pd.DataFrame(dict_series)

Unnamed: 0,notas,elenco,diretor
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott
Aliens,,"[Sigourney Weaver, Paul Reiser]",James Cameron
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve
Dune (David Lynch),6.4,[Sting],David Lynch
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott
Joker,8.4,[Joaquin Phoenix],Todd Phillips
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]",James Cameron


Como podemos ver, o nosso `DataFrame` contém toda informação de nossas `Series`. A ordem dos elementos nas `Series` originais não importa neste caso: ao criar um DataFrame estamos *alinhando* as diferentes `Series` através de seu índice que neste caso é o nome do filme. 

**DEVEMOS TOMAR CUIDADO COM ESTE COMPORTAMENTO: PODEMOS TER ÍNDICES REPETIDOS, OU MESMO NÃO ÍNDICES RELEVANTES**, e, neste caso, o cruzamento entre séries **DEPENDERÁ DA ORDEM DOS ELEMENTOS**.

Como não temos uma nota para o filme **Aliens** (Alien II), o `DataFrame` *criou* uma entrada NaN indicando que esta informação não estava disponível.

---

### `dict` de `dicts`
Podemos *pular* a etapa onde transformamos os `dicts` em `Series` e construir nosso `DataFrame` a partir de um `dict` de `dicts`!

In [87]:
print(dict_notas)

{'Titanic': 7.8, 'Dune': 8.2, 'Dune (David Lynch)': 6.4, 'House of Gucci': 7.0, 'Joker': 8.4, 'Alien': 8.4}


In [88]:
dict_dicts = {'notas' : dict_notas,
              'elenco' : dict_cast,
              'diretor' : dict_diretor}
print(dict_dicts)

{'notas': {'Titanic': 7.8, 'Dune': 8.2, 'Dune (David Lynch)': 6.4, 'House of Gucci': 7.0, 'Joker': 8.4, 'Alien': 8.4}, 'elenco': {'Titanic': ['Kate Winslet', 'Leonardo DiCaprio'], 'Dune': ['Timothée Chalamet', 'Zendaya'], 'Dune (David Lynch)': ['Sting'], 'House of Gucci': ['Lady Gaga', 'Adam Driver', 'Al Pacino'], 'Joker': ['Joaquin Phoenix'], 'Alien': ['Sigourney Weaver', 'Ian Holm'], 'Aliens': ['Sigourney Weaver', 'Paul Reiser']}, 'diretor': {'Titanic': 'James Cameron', 'Dune': 'Denis Villeneuve', 'Dune (David Lynch)': 'David Lynch', 'House of Gucci': 'Ridley Scott', 'Joker': 'Todd Phillips', 'Alien': 'Ridley Scott', 'Aliens': 'James Cameron'}}


In [89]:
pd.DataFrame(dict_dicts)

Unnamed: 0,notas,elenco,diretor
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]",James Cameron
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve
Dune (David Lynch),6.4,[Sting],David Lynch
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott
Joker,8.4,[Joaquin Phoenix],Todd Phillips
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott
Aliens,,"[Sigourney Weaver, Paul Reiser]",James Cameron


Novamente, podemos ver que o `DataFrame` criado utilizou os as chaves do dicionário para cruzar as informações de maneira correta: o filme **Aliens** foi criado com uma nota `NaN`, indicando que o Python interpretou corretamente que este filme não está presente no `dict_notas`.

---

### `dict` de `lists`

A terceira forma que veremos hoje para criar um `DataFrame` é a partir de um `dict` de `lists`. Temos que tomar cuidado sempre que utilizarmos essa forma (e sempre que nossas séries não estejam indexadas por nomes, ids, etc...): **a ordem dos elementos em cada lista determinará o emparelhamento entre as colunas do `DataFrame`!**

In [90]:
list(dict_diretor.values())

['James Cameron',
 'Denis Villeneuve',
 'David Lynch',
 'Ridley Scott',
 'Todd Phillips',
 'Ridley Scott',
 'James Cameron']

In [91]:
lista_notas = list(dict_notas.values())
lista_elenco = list(dict_cast.values())
lista_diretor = list(dict_diretor.values())

In [94]:
lista_diretor

['James Cameron',
 'Denis Villeneuve',
 'David Lynch',
 'Ridley Scott',
 'Todd Phillips',
 'Ridley Scott',
 'James Cameron']

Como vimos ao longo da criação dos outros `DataFrames`, a lista de notas tem menos valores que as outras listas (ela não tem o filme **Aliens**). O que acontecerá se tentarmos criar o `DataFrame` mesmo assim? Primeiro vamos guardar nossas listas em um dicionário:

In [95]:
dict_listas = {'notas' : lista_notas,
               'elenco' : lista_elenco,
               'diretor' : lista_diretor}
pd.DataFrame(dict_listas)

ValueError: All arrays must be of the same length

In [98]:
lista_notas

[7.8, 8.2, 6.4, 7.0, 8.4, 8.4]

In [99]:
lista_elenco

[['Kate Winslet', 'Leonardo DiCaprio'],
 ['Timothée Chalamet', 'Zendaya'],
 ['Sting'],
 ['Lady Gaga', 'Adam Driver', 'Al Pacino'],
 ['Joaquin Phoenix'],
 ['Sigourney Weaver', 'Ian Holm'],
 ['Sigourney Weaver', 'Paul Reiser']]

O `ValueError` nos explica que para criar um `DataFrame` a partir de listas estas precisam ter o mesmo número de elementos. Vamos usar um slice para igualar o tamanho das listas e criar nosso DataFrame e compara-lo ao criado utilizando o `dict` de séries:

In [96]:
dict_listas = {'notas' : lista_notas,
               'elenco' : lista_elenco[1:],
               'diretor' : lista_diretor[1:]}
pd.DataFrame(dict_listas)

Unnamed: 0,notas,elenco,diretor
0,7.8,"[Timothée Chalamet, Zendaya]",Denis Villeneuve
1,8.2,[Sting],David Lynch
2,6.4,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott
3,7.0,[Joaquin Phoenix],Todd Phillips
4,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott
5,8.4,"[Sigourney Weaver, Paul Reiser]",James Cameron


In [97]:
pd.DataFrame(dict_series)

Unnamed: 0,notas,elenco,diretor
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott
Aliens,,"[Sigourney Weaver, Paul Reiser]",James Cameron
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve
Dune (David Lynch),6.4,[Sting],David Lynch
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott
Joker,8.4,[Joaquin Phoenix],Todd Phillips
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]",James Cameron


Como a construção do `DataFrame` não tem mais o índice das `Series` ou `dicts` não conseguimos mais cruzar as informações corretamente: ao utilizar a ordem das informações como índice (indexação inteira), não temos a estrutura original - as notas estão todas deslocadas!

## Métodos e atributos
Nesta seção veremos alguns métodos e atributos utéis dos `DataFrames`:

* `.describe()`
* `.info()`
* `.shape`
* `.columns`

Primeiro, vamos guardar o nosso `DataFrame` correto (criado a partir do `dict` de `Series` ou de `dicts`).

In [101]:
tb_filmes = pd.DataFrame(dict_series)
tb_filmes

Unnamed: 0,notas,elenco,diretor
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott
Aliens,,"[Sigourney Weaver, Paul Reiser]",James Cameron
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve
Dune (David Lynch),6.4,[Sting],David Lynch
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott
Joker,8.4,[Joaquin Phoenix],Todd Phillips
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]",James Cameron


In [102]:
type(tb_filmes)

pandas.core.frame.DataFrame

O método `.describe()` é semelhante ao método `.describe()` das `Series`: agora, no entanto, ele retorna as estatisticas descritivas de todas as colunas numéricas de nosso `DataFrame`

In [106]:
tb_filmes

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Aliens,,"[Sigourney Weaver, Paul Reiser]",James Cameron,
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
Dune (David Lynch),6.4,[Sting],David Lynch,64.0
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott,70.0
Joker,8.4,[Joaquin Phoenix],Todd Phillips,84.0
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]",James Cameron,78.0


In [105]:
tb_filmes.describe()

Unnamed: 0,notas,aleato
count,6.0,6.0
mean,7.7,77.0
std,0.827043,8.270429
min,6.4,64.0
25%,7.2,72.0
50%,8.0,80.0
75%,8.35,83.5
max,8.4,84.0


O método `.info()` nos retorna uma série de informações úteis sobre o nosso `DataFrame`:

* Nome das Colunas;
* Número de Linhas;
* Qtd. de valores nulos;
* Tipos das colunas.

In [107]:
tb_filmes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 7 entries, Alien to Titanic
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   notas    6 non-null      float64
 1   elenco   7 non-null      object 
 2   diretor  7 non-null      object 
 3   aleato   6 non-null      float64
dtypes: float64(2), object(2)
memory usage: 280.0+ bytes


O atributo `.columns` nos permite ver os nomes das colunas de um `DataFrame` através de um iterável:

In [108]:
tb_filmes.columns

Index(['notas', 'elenco', 'diretor', 'aleato'], dtype='object')

Por fim o atributo `.index` nos permite acessar os índices das linhas de um `DataFrame`:

In [109]:
tb_filmes.index

Index(['Alien', 'Aliens', 'Dune', 'Dune (David Lynch)', 'House of Gucci',
       'Joker', 'Titanic'],
      dtype='object')

In [125]:
a = print

In [126]:
a()




In [116]:
lucas = dict()
lucas['nome'] = 'Lucas'
lucas['prof'] = 'Eng.'

In [118]:
alunos['Lucas'] = lucas

## Indexando `DataFrames`

`DataFrames` são muito parecidas com `np.arrays` de 2D: temos dois índices, um para as linhas outro para as colunas. Vamos começar vendo como acessar um (ou mais) colunas de um `DataFrame` primeiro.

### Selecionado Colunas
Para acessar uma coluna de um `DataFrame` podemos utilizar a indexação simples `['nome_da_coluna']` para extrair uma coluna só ou utilizar um iterável com os nomes das colunas para extrair mais que uma coluna. Vamos ver isso na prática:

In [129]:
type(tb_filmes['notas'])

pandas.core.series.Series

Podemos criar uma `list` (um iterável) com nomes de colunas e utiliza-la para indexar o `DataFrame`. O resultado será outro `DataFrame` com todas as colunas nomeadas na lista:

In [130]:
lista_colunas = ['notas', 'diretor']
tb_filmes[lista_colunas]

pandas.core.frame.DataFrame

Muitas vezes vemos esse filtro feito de forma implicita:

In [131]:
tb_filmes[['notas', 'diretor']]

Unnamed: 0,notas,diretor
Alien,8.4,Ridley Scott
Aliens,,James Cameron
Dune,8.2,Denis Villeneuve
Dune (David Lynch),6.4,David Lynch
House of Gucci,7.0,Ridley Scott
Joker,8.4,Todd Phillips
Titanic,7.8,James Cameron


Os colchetes duplos surgem pois estamos:

1. Indexado (par externo de colchetes)
1. Criando uma lista (par interno de colchetes)

Temos que nos atentar aos tipos retornados por cada um dos filtros:

In [132]:
type(tb_filmes['notas'])

pandas.core.series.Series

In [133]:
type(tb_filmes[['notas', 'diretor']])

pandas.core.frame.DataFrame

Se queremos criar um `DataFrame` com apenas uma coluna podemos fazê-lo:

In [136]:
tb_filmes[['notas']]

Unnamed: 0,notas
Alien,8.4
Aliens,
Dune,8.2
Dune (David Lynch),6.4
House of Gucci,7.0
Joker,8.4
Titanic,7.8


In [None]:
type(tb_filmes[['notas']])

Isso será necessário mais a frente no curso quando utilizarmos as bibliotecas de Machine Learning.

----------------------------------------------------------------

### Selecionando Linhas (e Colunas!)

Se quisermos fazer um filtro sobre as linhas devemos utilizar os atributos `.loc` e `.iloc` (ou o método `.sample()`). Esses atributos nos permitem indexar os `DataFrame` como indexamos `np.arrays` 2D - através da especificação da linha e coluna que desejamos. Vamos começar com o atributo `.iloc`.

#### Utilizando `.iloc`

O atributo `.iloc` nos permite indexar um `DataFrame` utilizando a mesma notação das `np.arrays`:


``` python
tb_filmes.iloc[row_number, column_number]
```

In [138]:
tb_filmes

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Aliens,,"[Sigourney Weaver, Paul Reiser]",James Cameron,
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
Dune (David Lynch),6.4,[Sting],David Lynch,64.0
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott,70.0
Joker,8.4,[Joaquin Phoenix],Todd Phillips,84.0
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]",James Cameron,78.0


In [140]:
tb_filmes.iloc[1,1]

['Sigourney Weaver', 'Paul Reiser']

Além de inteiros, também podemos utilizar slices.

Primeiro, vamos todas as colunas para a primeira linha:

In [141]:
tb_filmes.iloc[0,:]

notas                               8.4
elenco     [Sigourney Weaver, Ian Holm]
diretor                    Ridley Scott
aleato                             84.0
Name: Alien, dtype: object

Agora vamos buscar todas as linhas da primeira coluna:

In [142]:
tb_filmes.iloc[:,0]

Alien                 8.4
Aliens                NaN
Dune                  8.2
Dune (David Lynch)    6.4
House of Gucci        7.0
Joker                 8.4
Titanic               7.8
Name: notas, dtype: float64

#### Utilizando `.loc`

O atributo `.loc` nos permite indexar um `DataFrame` utilizando a mesma notação das `np.arrays`, mas ao invés de `ints` e `slices` podemos utilizar usar os próprios índices do `DataFrame`: **nomes das linhas e nomes das colunas**.


``` python
tb_filmes.loc[row_name, column_name]
```

In [146]:
tb_filmes

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Aliens,,"[Sigourney Weaver, Paul Reiser]",James Cameron,
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
Dune (David Lynch),6.4,[Sting],David Lynch,64.0
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott,70.0
Joker,8.4,[Joaquin Phoenix],Todd Phillips,84.0
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]",James Cameron,78.0


In [147]:
tb_filmes.loc['Alien', 'aleato']

84.0

Além de utilizar os nomes diretamente, também podemos utilizar slices (de nomes):

In [149]:
tb_filmes.loc['Alien', 'notas':'diretor']

notas                               8.4
elenco     [Sigourney Weaver, Ian Holm]
diretor                    Ridley Scott
Name: Alien, dtype: object

Outra forma útil de indexação através do `.loc` é utilizando listas:

In [150]:
tb_filmes.loc[['Alien', 'Aliens'], :]

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Aliens,,"[Sigourney Weaver, Paul Reiser]",James Cameron,


In [151]:
tb_filmes.loc[:, ['notas', 'elenco']]

Unnamed: 0,notas,elenco
Alien,8.4,"[Sigourney Weaver, Ian Holm]"
Aliens,,"[Sigourney Weaver, Paul Reiser]"
Dune,8.2,"[Timothée Chalamet, Zendaya]"
Dune (David Lynch),6.4,[Sting]
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]"
Joker,8.4,[Joaquin Phoenix]
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]"


In [152]:
tb_filmes.loc['Alien':'Dune', 'notas':'elenco']

Unnamed: 0,notas,elenco
Alien,8.4,"[Sigourney Weaver, Ian Holm]"
Aliens,,"[Sigourney Weaver, Paul Reiser]"
Dune,8.2,"[Timothée Chalamet, Zendaya]"


In [163]:
tb_filmes.iloc[[-1,0, 3], :]

Unnamed: 0,notas,elenco,diretor,aleato
Titanic,7.8,"[Kate Winslet, Leonardo DiCaprio]",James Cameron,78.0
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Dune (David Lynch),6.4,[Sting],David Lynch,64.0


### Utilizando `.sample()`
O método `.sample()` é utilizado para gerar uma amostra aleatória das linhas de um `DataFrame`

In [169]:
tb_filmes.sample(n=2)

Unnamed: 0,notas,elenco,diretor,aleato
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
Dune (David Lynch),6.4,[Sting],David Lynch,64.0


## Máscaras e Filtros

Filtros são o Be-A-Bá de dados, englobando operações como: selecionar todas as vendas em MG, ou então todos os ataques de tubarão que aconteceram no hemisfério Sul, ou mesmo todos os clientes que fizeram mais de um pedido no mês de Janeiro.

A idéia fundamental por trás dos Filtros na biblioteca Pandas é o **conceito de Máscara**: um vetor de valores booleanos com um número de elementos igual ao número de linhas do nosso `DataFrame`. Já vimos hoje como construir máscaras através dos operadores booleanos: agora utilizaremos estas para filtrar nossos `DataFrames`!

### Máscaras Simples (uma condição)

In [173]:
tb_filmes['notas'] > 8

Alien                  True
Aliens                False
Dune                   True
Dune (David Lynch)    False
House of Gucci        False
Joker                  True
Titanic               False
Name: notas, dtype: bool

In [170]:
filmes_bons = tb_filmes['notas'] > 8

In [174]:
filmes_bons

Alien                  True
Aliens                False
Dune                   True
Dune (David Lynch)    False
House of Gucci        False
Joker                  True
Titanic               False
Name: notas, dtype: bool

A variável `filmes_bons` é nossa máscara: vamos utiliza-la para filtrar nosso `DataFrame`

In [175]:
tb_filmes[filmes_bons]

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
Joker,8.4,[Joaquin Phoenix],Todd Phillips,84.0


Simples! Podemos utilizar a mesma máscara de forma implicita:

In [176]:
tb_filmes[tb_filmes['notas'] > 8]

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
Joker,8.4,[Joaquin Phoenix],Todd Phillips,84.0


### Máscaras Complexas

A máscara `filmes_bons` contém apenas uma condição - muitas vezes precisamos concatenar condições para obter o resultado necessário. Vamos entender como podemos construir essas máscaras utilizando os operadores `&` (BITWISE AND) e `|` (BITWISE OR)

In [177]:
filmes_bons = tb_filmes['notas'] > 8
print(filmes_bons)

Alien                  True
Aliens                False
Dune                   True
Dune (David Lynch)    False
House of Gucci        False
Joker                  True
Titanic               False
Name: notas, dtype: bool


In [178]:
filmes_rs = tb_filmes['diretor'] == 'Ridley Scott'
print(filmes_rs)

Alien                  True
Aliens                False
Dune                  False
Dune (David Lynch)    False
House of Gucci         True
Joker                 False
Titanic               False
Name: diretor, dtype: bool


In [180]:
tb_filmes[filmes_bons]

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
Joker,8.4,[Joaquin Phoenix],Todd Phillips,84.0


# Voltamos 21h25

Se quisermos filtrar os filmes que são simultaneamente bons e do Ridley Scott precisamos utilizar o operador `&` (**E**):

In [182]:
filmes_rs_bons = filmes_rs & filmes_bons
print(filmes_rs_bons)

Alien                  True
Aliens                False
Dune                  False
Dune (David Lynch)    False
House of Gucci        False
Joker                 False
Titanic               False
dtype: bool


In [183]:
tb_filmes[filmes_rs_bons]

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0


Se quisermos encontrar todos os filmes que são bons + todos os filmes do Ridley Scott podemos utilizar o operador `|` (OU)

In [184]:
filmes_rs_ou_bons = filmes_rs | filmes_bons
tb_filmes[filmes_rs_ou_bons]

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott,70.0
Joker,8.4,[Joaquin Phoenix],Todd Phillips,84.0


Podemos fazer todas as etapas acima de forma implicita (tomando cuidado com os `()` ao redor de cada condição)!

In [187]:
tb_filmes[(tb_filmes['notas'] > 9.5) & (tb_filmes['diretor'] == 'Ridley Scott')]

Unnamed: 0,notas,elenco,diretor,aleato


In [186]:
tb_filmes[(tb_filmes['notas'] > 8) | (tb_filmes['diretor'] == 'Ridley Scott')]

Unnamed: 0,notas,elenco,diretor,aleato
Alien,8.4,"[Sigourney Weaver, Ian Holm]",Ridley Scott,84.0
Dune,8.2,"[Timothée Chalamet, Zendaya]",Denis Villeneuve,82.0
House of Gucci,7.0,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott,70.0
Joker,8.4,[Joaquin Phoenix],Todd Phillips,84.0


### Combinando Máscaras, Filtros e `.loc`s

Podemos utilizar as nossas máscaras dentro de indexações feitas utilizando o `.loc` (ou `.iloc`):

In [188]:
tb_filmes.loc[filmes_rs_bons, 'elenco']

Alien    [Sigourney Weaver, Ian Holm]
Name: elenco, dtype: object

In [189]:
tb_filmes.loc[filmes_rs_ou_bons, ['elenco', 'diretor']]

Unnamed: 0,elenco,diretor
Alien,"[Sigourney Weaver, Ian Holm]",Ridley Scott
Dune,"[Timothée Chalamet, Zendaya]",Denis Villeneuve
House of Gucci,"[Lady Gaga, Adam Driver, Al Pacino]",Ridley Scott
Joker,[Joaquin Phoenix],Todd Phillips


A última forma nos permite filtrar linhas ao mesmo tempo que selecionamos colunas específicas. Por fim, podemos utilizar o próprio índice de um `DataFrame` como origem de uma máscara:

In [190]:
tb_filmes.index

Index(['Alien', 'Aliens', 'Dune', 'Dune (David Lynch)', 'House of Gucci',
       'Joker', 'Titanic'],
      dtype='object')

In [195]:
tb_filmes.loc[tb_filmes.index == 'Aliens']

notas                                  NaN
elenco     [Sigourney Weaver, Paul Reiser]
diretor                      James Cameron
aleato                                 NaN
Name: Aliens, dtype: object