# Objetos de Pandas

## Introdução

* As linhas e colunas são identificadas com tags, além de índices inteiros simples.
* É importante entender um pouco das estruturas de Pandas.
* Três estruturas importantes:
    + `Series`
    + `DataFrame`
    + `Index`

## Importando os pacotes necessários

In [1]:
import numpy as np
import pandas as pd

# Objetos `Series`

* Podem ser considerados como um arranjo indexado de uma única dimensão. 
* Podem ser criados a partir de uma lista

## Principais Atributos

In [6]:
lista = [0.25, 0.5, 0.75, 1.0]
data = pd.Series(lista)

print(data)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


* Uma `Series` encapsula uma sequência de valores e uma de índices.
* Podemos acessá-los com os atributos `values` e` index`

In [5]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

* Um `index` é um objeto semelhante a um arranjo.

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

* Podemos acessar uma `Series` através do índice associado de maneira similar aos arranjos de Numpy: com `[]` 


In [8]:
data[1]

0.5

In [10]:
data[1:4]

1    0.50
2    0.75
3    1.00
dtype: float64

## ``Series`` como uma generalização de um arranjo de NumPy

* A diferença essencial em relação a um arranjo de Numpy é que enquanto o arranjo tem um índice inteiro implicitamente definido, uma `Series` de Pandas possui um índice associado aos valores que é explicitamente definido.
* Este índice explícito fornece capacidades adicionais a uma `Series`.
* O índice explícito não precisa ser um número inteiro e nem todos os seus valores devem, necessariamente, ser únicos.
* Podem ser `strings`.

In [11]:
data_0 = pd.Series([0.25, 0.5, 0.75, 1.0])
data_0

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [12]:
data_1 = pd.Series([0.25, 0.5, 0.75, 1.0], index = ['a', 'b', 'c', 'd'])
data_1

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [13]:
print(data_1[0])
print(data_1['a'])

0.25
0.25


In [14]:
print(data_0[0])
print(data_0['a'])

0.25


KeyError: 'a'

* Ou pode ser uma sequência não contígua de `int`s.

In [15]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index = [2, 5, 3, 1])

In [16]:
data[5]

0.5

* Uma `series` contém um atributo 'name', que pode ser especificado, facilitando outros passos que veremos a seguir.

In [17]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index = [2, 5, 3, 1], name='valores')
data

2    0.25
5    0.50
3    0.75
1    1.00
Name: valores, dtype: float64

## ``Series`` como um `dict` especializado

* Um `dict` é uma estrutura que mapeia um conjunto de chaves arbitrárias para um conjunto de valores de um tipo.
* Pode ser feita, então, uma analogia entre uma `Series` e um `dict`

In [19]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict, name='population')
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

* Uma `Series` pode ser criada a partir de um `dict`: o índice é retirado das chaves.
* Desta forma, pode ser acessado de forma análoga a um `dict`.

In [20]:
population['California']
#population[0]

38332521

* Ao contrário de um `dict` uma` Series` suporta algumas operações ao estilo de um arranjo, como, por exemplo, slicing:

In [25]:
#population['California':'New York']
population[0:3]

California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64

* Se criarmos uma `Series` com uma lista de strings, a ordem dos valores é respeitada.

In [28]:
states_list = ['Illinois','Texas','New York', 'Florida', 'California']
states_pop = [12882135, 26448193, 19651127, 19552860, 38332521]
states = pd.Series(states_pop, index = states_list, name='population')
states

Illinois      12882135
Texas         26448193
New York      19651127
Florida       19552860
California    38332521
Name: population, dtype: int64

In [30]:
states['Illinois':'New York']
#states[0:3]

Illinois    12882135
Texas       26448193
New York    19651127
Name: population, dtype: int64

In [31]:
states_list = ['California','Illinois','Texas','New York', 'Florida']
states_pop = [38332521, 12882135, 26448193, 19651127, 19552860]
states = pd.Series(states_pop, index = states_list)

In [32]:
states['Illinois':'New York']
states[1:4]

Illinois    12882135
Texas       26448193
New York    19651127
dtype: int64

## Outras formas de construir uma Series

* Podemos construir `Series` partindo do zero. A forma geral de fazer isso é a seguinte:

```python
pd.Series(data, index = index)
```
* `index` é um argumento opcional e `data` pode ser várias coisas

### Uma lista ou um array de Numpy

In [33]:
pd.Series([2, 4, 6]) 

0    2
1    4
2    6
dtype: int64

### Um escalar repetido ao longo de um índice

In [34]:
pd.Series(5, index = [100, 200, 300]) 

100    5
200    5
300    5
dtype: int64

### Um dicionário

In [35]:
pd.Series({2 : 'a', 1 : 'b', 3 : 'c'}) 

2    a
1    b
3    c
dtype: object

* Em cada caso, se o que se procura for outro resultado, o índice poderá ser usado explicitamente

In [37]:
#pd.Series({2:'a', 1:'b', 3:'c'}, index = [1, 2])
#pd.Series({2:'a', 1:'b', 3:'c'}, index = [2, 2])
#pd.Series({2:'a', 1:'b', 3:'c'}, index = [3, 2])

In [38]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In [37]:
pd.Series({2:'a', 1:'b', 3:'c'}, index = [2, 3])

2    a
3    c
dtype: object

In [39]:
pd.Series([10,15,20],index=['2020-07-12','2020-07-13','2020-07-14'])

2020-07-12    10
2020-07-13    15
2020-07-14    20
dtype: int64

# Objetos `DataFrame`

* Outra estrutura fundamental. 
* Também pode ser pensado como uma generalização de um array de NumPy ou como um tipo especial de dicionário.

* Um `DataFrame` é um tipo análogo a uma `Series` em duas dimensões e, portanto, pode ser pensado como uma generalização de um arranjo de Numpy, ou como um conjunto de `Series` alinhados. Em outras palavras, eles têm o mesmo índice.

* Para demonstrar isso, vamos gerar uma `Series` com a área de alguns estados:

In [41]:
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297,
             'Florida': 170312, 
             'Illinois': 149995}
area = pd.Series(area_dict, name= 'area')
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

* Agora, podemos usar um dicionário para construir um objeto bidimensional contendo toda as informações.

In [57]:
#pd.DataFrame()
temporaria = pd.DataFrame()
type(temporaria)

In [60]:
pd.DataFrame({'a':[1,4],'b':[2,5],'c':[3,6]})

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


In [50]:
states = pd.DataFrame(population)
states

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [51]:
type(states)

pandas.core.frame.DataFrame

In [66]:
states = pd.DataFrame([population,area])
states

Unnamed: 0,California,Texas,New York,Florida,Illinois
population,38332521,26448193,19651127,19552860,12882135
area,423967,695662,141297,170312,149995


In [70]:
states = pd.DataFrame({'population':population,'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [71]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [52]:
states['population']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [53]:
type(states['population'])

In [72]:
type(states)

pandas.core.frame.DataFrame

## Atributos básicos

In [73]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [74]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

* Além do index, ele possui um atributo ``columns``, que é um objeto do tipo ``Index`` atribuído às colunas

In [75]:
states.columns

Index(['population', 'area'], dtype='object')

## DataFrame como um dicionário especializado:

* De forma similar, podemos pensar o `DataFrame` como um dicionário: 
    
    - Um dicionário mapeia uma chave com um valor.
    - Um `DataFrame` mapeia um nome de coluna com uma `Series` de dados.
    
    
* Por exemplo, invocar o atributo `area` do `DataFrame` `states`, isso retorna uma `Series`. 

In [76]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### Construindo objetos `DataFrame`:

#### A partir de uma `Series` simples:

In [77]:
pd.DataFrame(population, columns = ['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### A partir de uma lista de `dicts`.

In [78]:
data = [{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


* Se a informação sobre um determinado valor for inexistente, o Pandas preenche a célula com `NaN`.
* `NaN` significa "not a number" é é uma das possíveis formas de se representar a falta de determinado valor em um `dataframe`. Trataremos o tema em profundidade em outra aula, em breve.

In [79]:
data = [{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'c': 4}]
pd.DataFrame(data)

Unnamed: 0,a,b,c
0,0,0.0,
1,1,2.0,
2,2,,4.0


In [80]:
# clean code (auto identação)
data = [{'a': 0, 'b': 0},
        {'a': 1, 'b': 2},
        {'a': 2, 'c': 4}]
pd.DataFrame(data)

Unnamed: 0,a,b,c
0,0,0.0,
1,1,2.0,
2,2,,4.0


In [82]:
# list compreenshion
data = [{'a': i, 'b': 2 * i} for i in range(5)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8


#### De um `dict` de `Series`.

In [83]:
pd.DataFrame({'population': population,
              'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [87]:
area_2 = pd.Series({'California': 423967, 
                    'Illinois': 149995,
                    'Florida': 170312, 
                    'New York': 141297,
                    'Texas': 695662, 
                    'Alaska':1718000}) # adicionado em relação ao caso anterior
pd.DataFrame({'population': population,
              'area': area_2})

Unnamed: 0,population,area
Alaska,,1718000.0
California,38332521.0,423967.0
Florida,19552860.0,
Illinois,12882135.0,149995.0
New York,19651127.0,141297.0
Texas,26448193.0,695662.0
florida,,170312.0


Perceba no caso acima:
* a ordenação alfabética não solicitada
* o preenchimento com 'NaN' na chave 'Alaska', não existente na Series 'population'

#### A partir de um arranjo Numpy de duas dimensões.

In [92]:
lista = ['a','b']
print(type(lista))
print(type(lista[0]))

<class 'list'>
<class 'str'>


In [88]:
print(type(states))
print(type(states.values))
states.values

<class 'pandas.core.frame.DataFrame'>
<class 'numpy.ndarray'>


array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

In [89]:
pd.DataFrame(states.values)

Unnamed: 0,0,1
0,38332521,423967
1,26448193,695662
2,19651127,141297
3,19552860,170312
4,12882135,149995


In [90]:
pd.DataFrame(states.values, columns = ['population', 'area'], index = ['California', 
                                                                'Texas', 
                                                                'New York', 
                                                                'Florida', 
                                                                'Illinois'])

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


# O objeto `Index`

* Um `Index` pode ser pensado como um _arranjo imutável_ ou como um conjunto ordenado.
* Para ilustrar as implicações deste ponto, vamos pensar sobre o exemplo a seguir, no qual construímos um `Index` a partir de uma lista de inteiros.
* Os `DataFrames` têm um` Index` que descreve as linhas e outro que descreve as colunas. 
* O `Index` das linhas é acessado com `df.index` e o de colunas, com `df.columns`.

## Vamos aplicar o atributo [pd.Index](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html#pandas-index) à lista literal a seguir:

In [93]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

## `Index` como um arranjo imutável.

* Podemos indexar e fazer slicing de forma semelhante a um arranjo.

In [94]:
ind[1]

3

* Contagens invertidas também são permitidas.

In [95]:
print(ind[2])
print(ind[-2])

5
7


## Os `Index` têm atributos semelhantes aos arranjos de Numpy.

In [97]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


In [99]:
states.dtypes

population    int64
area          int64
dtype: object

## Uma diferença entre os ``Index`` e os arranjos de NumPy é que os primeiros são imutáveis.

In [100]:
ind[1] = 0

TypeError: Index does not support mutable operations

## `Index` como um conjunto ordenado.

* Seguindo as convenções de Python, operações de conjuntos podem ser usadas com os `Index`.

In [101]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

## Operações de index
* Intersecção (ou operação condicional 'and')

In [102]:
indA & indB

Int64Index([3, 5, 7], dtype='int64')

* União (ou operação condicional 'or')

In [103]:
indA | indB

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

* Ou Diferença Simétrica (ou operação condicional 'xor')

In [104]:
indA ^ indB # symmetric difference

Int64Index([1, 2, 9, 11], dtype='int64')

### Operações Lógicas
<img src='./operacoes_logicas.png'>