# Introdução à Programação para Ciência de Dados

### Aula 17: Pandas I

**Professor:** Igor Malheiros

## Introdução

Uma das mais importantes ferramentas para Ciência de Dados em Python é a biblioteca **Pandas**. Com essa ferramenta de código aberto é possível processar eficientemente dados tabulares de maneira similar à softwares de planilhas, tais como LibreOffice Calc, Microsoft Excel e Apple Numbers. O Pandas é amplamente utilizado nos domínios acadêmicos e comerciais em áreas que incluem Finanças, Neurociência, Economia, Estatística, Marketing e muito mais.

Dentre as principais vantagens da utilização dessa ferramenta podemos citar:

- Facilidade de acesso
- Ferramenta de livre uso e modificação
- Alta flexibilidade
- Facilidade de uso
- Eficiência

Boa parte do Pandas foi construída utilizando a biblioteca Numpy, sendo esse um dos segredos da vantagem de eficiência dessa ferramenta em relação às estruturas de dados tradicionais fornecidas por Python.

Nesse curso, nós estudaremos as duas principais estruturas de dados que o Pandas oferece. As *Series* e os *DataFrames*.

### Pandas - Series

Em um primeiro momento, podemos entender uma Series como sendo uma estrutura de dados muito similar às **listas** de Python, ou seja, temos um conjunto de elementos armazenados de forma sequencial. Assim, podemos utilizar os acessos à elementos com o operador de `[]`, para acessarmos de $0$ até $n-1$ as posições dos elementos armazenados nessa estrutura de dados. Os acessos de múltiplos elementos via *slicing* também são válidos nas Series, enquanto que os acessos via índices negativos **não são válidos**.

Entretanto, podemos apontar algumas diferenças, a primeira delas é que, apesar de podermos mesclar elementos de tipos diferentes, as Series conseguem perceber se todos os elementos são de um mesmo tipo, permitindo uma melhor otimização da armazenação dos dados e, consequentemente, mais eficiência em seus processamentos. Uma outra diferença é que as Series podem possuir **nomes** ou **títulos** que a princípio podem não fazer muito sentido, mas elas serão úteis quando utilizarmos junto aos DataFrames.

</br></br>

```Python
import pandas as pd
import numpy as np

# Criando uma Series do Pandas
g7_pop = pd.Series(
    [38388419, 65584518, 83883596, 60262770, 125584838, 68497907, 334805269], 
    name="POPULAÇÃO G7"
)

print(g7_pop[0])   # -> 38388419
print(g7_pop[2])   # -> 83883596
print(g7_pop[-1])  # -> Erro!
print(g7_pop[2:5]) # -> 83883596, 60262770, 125584838

print(g7_pop.dtype)   # -> int64
print(g7_pop.name)    # -> POPULAÇÃO G7
```

</br></br>

### Acessos

No exemplo anterior, os valores da Serie foram indexados por valores entre $0$ e $n-1$ que é o que acontece por padrão ao criarmos esse tipo de estrutura de dados. Entretanto, é possível determinar quais são os valores dos índices, o que inclui utilizar valores que estão fora desse intervalo, ou até mesmo outros tipos de valores (como strings, por exemplo). Quando isso acontece, podemos acessar um elemento da Serie pelo novo "nome" do seu índice. Dessa forma, as Series começam a se comportar de forma similar aos **dicionários** de Python.

</br></br>

```Python
# Criando uma Series do Pandas
g7_pop = pd.Series(
    [38388419, 65584518, 83883596, 60262770, 125584838, 68497907, 334805269],
    index=['Canada','France','Germany','Italy','Japan','United Kingdom','United States'],
    name="POPULAÇÃO G7"
)

print(g7_pop['Canada']) # -> 38388419
print(g7_pop['Germany']) # -> 83883596
print(g7_pop['Germany':'Japan']) # -> 83883596, 60262770, 125584838
```

</br></br>

Outra forma de acessarmos os elementos de uma Serie é utilizando o atributo `iloc` junto ao operador `[]`. O atributo `iloc` vai funcionar como os acessos de índices que já conhecemos das *listas* em Python ou dos *arrays* em Numpy mesmo que essas posições já possuam algum nome associado. Assim, é possível acessar de forma posicional cada elemento, ou via slicing ou até mesmo via índices negativos.

</br></br>

```Python
print(g7_pop.iloc[0])   # -> 38388419
print(g7_pop.iloc[2])   # -> 83883596
print(g7_pop.iloc[-1])  # -> 334805269
print(g7_pop.iloc[2:5]) # -> 83883596, 60262770, 125584838
```

</br></br>

Por último, nós também podemos escolher acessar apenas **alguns elementos específicos** da nossa Serie. Para isso, podemos passar uma lista com os nomes associados aos elementos que queremos acessar ou as posições dos elementos que queremos acessar via `iloc`.

</br></br>

```Python
print(g7_pop[['Canada', 'Italy', 'United Kingdom']])  # -> 38388419, 60262770, 68497907
print(g7_pop.iloc[[0, 3, 5]])   # -> 38388419, 60262770, 68497907
```

</br></br>

In [1]:
import pandas as pd
import numpy as np

g7_pop = pd.Series(
    [38388419, 65584518, 83883596, 60262770, 125584838, 68497907, 334805269],
    name="POPULAÇÃO G7"
)

g7_pop

0     38388419
1     65584518
2     83883596
3     60262770
4    125584838
5     68497907
6    334805269
Name: POPULAÇÃO G7, dtype: int64

In [5]:
# Acesso aos elementos
g7_pop[1]

65584518

In [6]:
# Acesso via slicing
g7_pop[2:5]

2     83883596
3     60262770
4    125584838
Name: POPULAÇÃO G7, dtype: int64

In [7]:
# Tipo dos elementos - .dtype
g7_pop.dtype

dtype('int64')

In [8]:
# Nome da Serie - .name
g7_pop.name

'POPULAÇÃO G7'

In [32]:
g7_pop = pd.Series(
    [38388419, 65584518, 83883596, 60262770, 125584838, 68497907, 334805269],
    index=['Canada','France','Germany','Italy','Japan','United Kingdom','United States'],
    name="POPULAÇÃO G7"
)

g7_pop

Canada             38388419
France             65584518
Germany            83883596
Italy              60262770
Japan             125584838
United Kingdom     68497907
United States     334805269
Name: POPULAÇÃO G7, dtype: int64

In [11]:
# Acesso via nome
g7_pop['Japan']

125584838

In [12]:
# Acesso via slicing
g7_pop['France':'Japan']

France      65584518
Germany     83883596
Italy       60262770
Japan      125584838
Name: POPULAÇÃO G7, dtype: int64

In [14]:
# Acesso via .iloc[]
g7_pop.iloc[2]

83883596

In [16]:
# Acesso via .iloc[] com índice negativo
g7_pop.iloc[-2]

68497907

In [17]:
# Acesso via iloc[] com slicing
g7_pop.iloc[2:5]

Germany     83883596
Italy       60262770
Japan      125584838
Name: POPULAÇÃO G7, dtype: int64

In [18]:
# Acesso via lista de nomes
g7_pop[['Canada', 'Japan', 'Italy']]

Canada     38388419
Japan     125584838
Italy      60262770
Name: POPULAÇÃO G7, dtype: int64

In [19]:
# Acesso via lista de posições
g7_pop.iloc[[0, 3, 5]]

Canada            38388419
Italy             60262770
United Kingdom    68497907
Name: POPULAÇÃO G7, dtype: int64

### Operações aritméticas e booleanas

Devido as similaridades entre as Series e os arrays Numpy, é possível realizar operações aritméticas e booleanas entre os valores de uma Serie e um valor escalar. A operação será aplicada elemento por elemento, assim como nos arrays Numpy.

</br></br>

```Python
print(g7_pop / 1000000)   # -> 38.388419, 65.584518, 83.883596, 60.262770, 125.584838, 68.497907, 334.805269
print(g7_pop < 70000000)  # -> True, True, False, True, False, True, False

nova_variavel = g7_pop < 70000000

print(g7_pop > 100000000) # -> False, False, False, False, True, False, True
```

</br></br>

É importante destacar que essas operações não modificam a Serie original.

### Filtros

Assim como estudamos nos arrays Numpy, podemos utilizar operações booleanas para filtrar alguns valores da nossa Serie. Além disso, nós também podemos utilizar os operadores `&` (e), `|` (ou), `~` (não) junto aos operadores lógicos para formar expressões mais complexas. Os filtros são de extrema importância para selecionar dados ou para o processo de limpeza de dados, sendo muito utilizado para resolver problemas práticos.

</br></br>

```Python
print(g7_pop[g7_pop < 70000000])  # -> 38388419, 65584518, 60262770, 68497907
print(g7_pop[(g7_pop > 65000000) & (g7_pop < 100000000)]) # -> 65584518, 83883596, 68497907
```

</br></br>

### Modificando elementos

Podemos modificar os elementos de uma Serie fazendo atribuições diretas via os acessos que estudamos anteriormente. Além disso, podemos também modificar os valores resultado de uma filtragem.

</br></br>

```Python
g7_pop['Canada'] =  40388419
g7_pop.iloc[-1] = 340000000
g7_pop[g7_pop > 100000000] = 100000000
g7_pop = g7_pop / 1000000
```

</br></br>

In [22]:
# Aritméticas entre Serie e escalar
g7_pop / 1000000

Canada             38.388419
France             65.584518
Germany            83.883596
Italy              60.262770
Japan             125.584838
United Kingdom     68.497907
United States     334.805269
Name: POPULAÇÃO G7, dtype: float64

In [23]:
# Booleana entre Serie e escalar
g7_pop > 70000000

Canada            False
France            False
Germany            True
Italy             False
Japan              True
United Kingdom    False
United States      True
Name: POPULAÇÃO G7, dtype: bool

In [26]:
# Filtro
g7_pop[g7_pop > 70000000]

Germany           83883596
Japan            125584838
United States    334805269
Name: POPULAÇÃO G7, dtype: int64

In [27]:
# Filtro complexo
g7_pop[(g7_pop > 70000000) & (g7_pop < 200000000)]

Germany     83883596
Japan      125584838
Name: POPULAÇÃO G7, dtype: int64

In [28]:
# Modificação via nome
g7_pop['Canada'] = 40000000
g7_pop

Canada             40000000
France             65584518
Germany            83883596
Italy              60262770
Japan             125584838
United Kingdom     68497907
United States     334805269
Name: POPULAÇÃO G7, dtype: int64

In [29]:
# Modificação via posição
g7_pop.iloc[-1] = 340000000
g7_pop

Canada             40000000
France             65584518
Germany            83883596
Italy              60262770
Japan             125584838
United Kingdom     68497907
United States     340000000
Name: POPULAÇÃO G7, dtype: int64

In [30]:
# Modificação via filtro
g7_pop[g7_pop > 100000000] = 100000000
g7_pop

Canada             40000000
France             65584518
Germany            83883596
Italy              60262770
Japan             100000000
United Kingdom     68497907
United States     100000000
Name: POPULAÇÃO G7, dtype: int64

In [33]:
# Modificação via operação aritimética
g7_pop = g7_pop / 1000000
g7_pop

Canada             38.388419
France             65.584518
Germany            83.883596
Italy              60.262770
Japan             125.584838
United Kingdom     68.497907
United States     334.805269
Name: POPULAÇÃO G7, dtype: float64

## DataFrame

O DataFrame é a estrutura de dados mais importante do Pandas, elas funcionam de forma muito similar às planilhas. 

A maneira mais comum e direta para criar um DataFrame é importando alguma planilha com extensão `.csv`, entretanto, criaremos nosso primeiro DataFrame manualmente, passando informações de cada coluna. Assim, a estrutura receberá um dicionário Python em que cada chave é uma coluna da tabela e o valor de cada chave será uma lista Python contendo os valores referentes às linhas da tabela. Por último, passamos como propriedade `columns` uma lista com os nomes de cada coluna e como propriedade `index` uma lista com os nomes de cada linha da tabela.

In [35]:
# Criando um DataFrame manualmente

df = pd.DataFrame({
    'População': [38388419, 65584518, 83883596, 60262770, 125584838, 68497907, 334805269],
    'PIB': [
        1785387,
        2833687,
        3874437,
        2167744,
        4602367,
        2950039,
        17348075
    ],
    'IDH': [
        0.913,
        0.888,
        0.916,
        0.873,
        0.891,
        0.907,
        0.915
    ],
    'Continente': [
        'America',
        'Europa',
        'Europa',
        'Europa',
        'Asia',
        'Europa',
        'America'
    ]
}, columns=['População', 'PIB', 'IDH', 'Continente'],
index=['Canada','France','Germany','Italy','Japan','United Kingdom','United States'])

df

Unnamed: 0,População,PIB,IDH,Continente
Canada,38388419,1785387,0.913,America
France,65584518,2833687,0.888,Europa
Germany,83883596,3874437,0.916,Europa
Italy,60262770,2167744,0.873,Europa
Japan,125584838,4602367,0.891,Asia
United Kingdom,68497907,2950039,0.907,Europa
United States,334805269,17348075,0.915,America


### Acessos

Para acessarmos uma **coluna** qualquer no nosso DataFrame, basta utilizarmos o nome da coluna entre `[]` e receberemos todas as linhas da coluna escolhida.

É importante destacar que o retorno é uma estrutura do tipo Series, isso significa que podemos acessar cada elemento individualmente pelo seu nome, ou pela sua posição (via `iloc`).

Para acessarmos uma **linha** qualquer no nosso DataFrame, utilizaremos a propriedade `loc` seguida do operador de `[]` onde acessamos pelo nome do índice da linha. Também é possível acessar via propriedade `iloc` passando a posição do índice que se deseja acessar.

É importante destacar que o retorno aqui também é uma estrutura do tipo Series, isso significa que podemos acessar cada elemento individualmente pelo seu nome, ou pela sua posição (via `iloc`).

In [36]:
# Acessando uma coluna
df['População']

Canada             38388419
France             65584518
Germany            83883596
Italy              60262770
Japan             125584838
United Kingdom     68497907
United States     334805269
Name: População, dtype: int64

In [37]:
# Acessando um elemento de uma coluna específica via nome
df['População']['Canada']

38388419

In [38]:
# Acessando um elemento de uma coluna específica via iloc
df['População'].iloc[-1]

334805269

In [39]:
# Acessando elementos de uma coluna específica via slicing
df['População'].iloc[2:5]

Germany     83883596
Italy       60262770
Japan      125584838
Name: População, dtype: int64

In [152]:
# Acessando elementos de uma coluna específica via índices específicos
df['População'][['Japan', 'Canada', 'Italy']]

Japan     125584838
Canada     38388419
Italy      60262770
Name: População, dtype: int64

In [40]:
# Acessando uma linha
df.loc['Japan']

População     125584838
PIB             4602367
IDH               0.891
Continente         Asia
Name: Japan, dtype: object

In [41]:
# Acessando um elemento de uma linha específica via nome
df.loc['Japan']['IDH']

0.891

In [42]:
# Acessando um elemento de uma linha específica via iloc
df.loc['Japan'].iloc[-1]

'Asia'

In [43]:
# Acessando elementos de uma linha específica via slicing
df.loc['Japan'].iloc[1:3]

PIB    4602367
IDH      0.891
Name: Japan, dtype: object

In [44]:
# Acessando elementos de uma linha específica via índices específicos
df.loc['Japan'][['IDH', 'PIB', 'Continente']]

IDH             0.891
PIB           4602367
Continente       Asia
Name: Japan, dtype: object

In [47]:
l1 = [1, 2, 3, 4]
l2 = [6, 7, 8, 9]


for a in zip(l1, l2):
    print(a)

(1, 6)
(2, 7)
(3, 8)
(4, 9)
