# Objetos de Pandas

## Introdução

* Em [Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html), as linhas e colunas são identificadas com tags, além de índices inteiros simples.
* É importante entender um pouco das estruturas de [Pandas](https://pandas.pydata.org/).
* Três estruturas importantes:
    + [`Series`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html)
    + [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)
    + [`Index`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html)

## Importando os pacotes necessários.

In [52]:
import numpy as np
import pandas as pd

# Objetos `Series`

* Podem ser considerados como um arranjo indexado de uma única dimensão. 
* Podem ser criados a partir de uma lista

## Principais Atributos

In [53]:
lista = [0.25, 0.5, 0.75, 1.0]
data = pd.Series(lista)

print(data)

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64


* Uma [`Series`](https://towardsdatascience.com/pandas-series-a-lightweight-intro-b7963a0d62a2) encapsula uma sequência de valores e uma de índices.
* Podemos acessá-los com os atributos [`values`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.values.html) e [`index`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.index.html).

In [54]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

* Um [`index`](https://realpython.com/pandas-dataframe/) é um objeto semelhante a um arranjo.

In [55]:
data.index

RangeIndex(start=0, stop=4, step=1)

* Podemos acessar uma [`Series`](https://medium.com/swlh/the-mastery-of-pandas-i-50156db42125) através do índice associado de maneira similar aos arranjos de Numpy: com `[]` .

In [56]:
data[1]

0.5

In [57]:
data[1:4]

1    0.50
2    0.75
3    1.00
dtype: float64

## `Series` como uma generalização de um arranjo de `NumPy`

#### Vamos aplicar a função [`.Series()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html), que retorna um [`Ndarray`](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html) unidimensional com rótulos de eixo.

* A diferença essencial em relação a um [arranjo de Numpy](https://www.learnpython.org/en/Numpy_Arrays) é que enquanto o arranjo tem um índice inteiro implicitamente definido, uma `Series` de [Pandas](https://medium.com/data-hackers/uma-introdu%C3%A7%C3%A3o-simples-ao-pandas-1e15eea37fa1) possui um índice associado aos valores que é explicitamente definido.
* Este [índice](https://numpy.org/neps/nep-0021-advanced-indexing.html) explícito fornece capacidades adicionais a uma `Series`.
* O índice explícito não precisa ser um número inteiro e nem todos os seus valores devem, necessariamente, ser únicos.
* Podem ser `strings`.



In [58]:
data_0 = pd.Series([0.25, 0.5, 0.75, 1.0])
data_0

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

#### Podemos definir um rótulo específico para a série com o auxíli odo parâmetro `index`.

In [59]:
data_1 = pd.Series([0.25, 0.5, 0.75, 1.0], 
                   index = ['a', 'b', 'c', 'd']
                  )
data_1

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [60]:
print(data_1[0])
print(data_1['a'])

0.25
0.25


#### Como não definimos índices específicos em `data_0`, não podemos procurar por `data_0['a']`.

In [61]:
print(data_0[0])
print(data_0['a'])

0.25


KeyError: 'a'

* Ou pode ser uma sequência não contígua de `int`s.

In [62]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], 
                 index = [2, 5, 3, 1]
                )

In [63]:
data[5]

0.5

* Uma `series` contém um parâmetro `name`, que pode ser especificado, correspondendo ao nome dado à `series`. Isso facilitará outros passos que veremos a seguir.

In [64]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], 
                 index = [2, 5, 3, 1], 
                 name = 'valores')
data

2    0.25
5    0.50
3    0.75
1    1.00
Name: valores, dtype: float64

## ``Series`` como um `dict` especializado

#### Um [`dict`](https://docs.python.org/pt-br/2.7/c-api/dict.html) é uma estrutura que mapeia um conjunto de chaves arbitrárias para um conjunto de valores de um tipo. Pode ser feita, então, uma [analogia](https://www.geeksforgeeks.org/creating-a-pandas-series-from-dictionary/) entre uma `Series` e um `dict`.

In [65]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}

population = pd.Series(population_dict, 
                       name = 'population')
population
#type(population)

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

* Uma `Series` pode ser criada a partir de um `dict`: o índice é retirado das chaves.
* Desta forma, pode ser acessado de forma análoga a um `dict`.

In [66]:
population['California']
#population[0]

38332521

#### Ao contrário de um `dict` uma` Series` suporta algumas operações ao estilo de um arranjo, como, por exemplo, [`slicing`](https://datacarpentry.org/python-ecology-lesson/03-index-slice-subset/index.html):

In [67]:
#population['California':'New York']
population[0:3]

California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64

#### Se criarmos uma `Series` com uma lista de strings, a ordem dos valores é respeitada.

In [68]:
states_list = ['Illinois', 
               'Texas', 
               'New York', 
               'Florida', 
               'California'
              ]

states_pop = [12882135, 
              26448193, 
              19651127, 
              19552860, 
              38332521
             ]

states = pd.Series(states_pop, 
                   index = states_list, 
                   name = 'population'
                  )
states

Illinois      12882135
Texas         26448193
New York      19651127
Florida       19552860
California    38332521
Name: population, dtype: int64

#### Podemos imprimir alguns dos valores.

In [69]:
states['Illinois': 
       'New York'
      ]

#states[0:3]

Illinois    12882135
Texas       26448193
New York    19651127
Name: population, dtype: int64

#### Podemos trocar as ordens dos pares `key: value`.

In [70]:
states_list = ['California', 
               'Illinois', 
               'Texas', 
               'New York', 
               'Florida'
              ]

states_pop = [38332521, 
              12882135, 
              26448193, 
              19651127, 
              19552860
             ]

states = pd.Series(states_pop, 
                   index = states_list
                  )

In [71]:
states['Illinois':'New York']
states[1:4]

Illinois    12882135
Texas       26448193
New York    19651127
dtype: int64

### Outras formas de construir uma Series.

* Podemos construir `Series` partindo do zero. A forma geral de fazer isso é a seguinte:

```python
pd.Series(data, index = index)
```
* `index` é um argumento opcional e `data` pode ser várias coisas

#### Uma lista ou um arranjo de Numpy.

In [72]:
pd.Series([2, 4, 6]) 

0    2
1    4
2    6
dtype: int64

#### Um escalar repetido ao longo de um índice

In [73]:
pd.Series(5, 
          index = [100, 
                   200, 
                   300
                  ]
         )

100    5
200    5
300    5
dtype: int64

#### Um dicionário.

In [74]:
pd.Series({2 : 'a', 
           1 : 'b', 
           3 : 'c'}
         ) 

2    a
1    b
3    c
dtype: object

#### Em cada caso, se o que se procura for outro resultado, o índice poderá ser usado explicitamente.

In [75]:
pd.Series({2: 'a', 1: 'b', 3: 'c'}, index = [1, 2])
#pd.Series({2: 'a', 1: 'b', 3: 'c'}, index = [2, 2])
#pd.Series({2: 'a', 1: 'b', 3: 'c'}, index = [3, 2])

1    b
2    a
dtype: object

In [76]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

In [77]:
pd.Series({2:'a', 1:'b', 3:'c'}, index = [2, 3])

2    a
3    c
dtype: object

In [78]:
pd.Series([10, 15, 20],index = ['2020-07-12', '2020-07-13', '2020-07-14' ])

2020-07-12    10
2020-07-13    15
2020-07-14    20
dtype: int64

# Objetos `DataFrame`

#### Outra estrutura fundamental da biblioteca `Pandas` é o [`Dataframe`]((https://www.tutorialspoint.com/python_pandas/python_pandas_dataframe.htm)), que também pode ser pensado como uma generalização de um arranjo de `NumPy` ou como um tipo especial de dicionário.

#### Um [`DataFrame`](https://towardsdatascience.com/tagged/pandas-dataframe) é um tipo análogo a uma [`Series`](https://towardsdatascience.com/pandas-series-a-lightweight-intro-b7963a0d62a2#:~:text=What%20is%20a%20Series%3F,of%20holding%20any%20data%20type.&text=So%2C%20in%20terms%20of%20Pandas,belongs%20to%20a%20Pandas%20DataFrame.) em duas dimensões e, portanto, pode ser pensado como uma generalização de um arranjo de Numpy, ou como um conjunto de `Series` alinhados. 

#### Em outras palavras, um [`dataframe`](https://towardsdatascience.com/introduction-to-pandas-dataframes-b1b61d2cec35) pode ser construído com os mesmos de uma série. Para demonstrar isso, vamos gerar uma `Series` com a área de alguns estados:

In [89]:
area_dict = {'California': 423967, 
             'Texas': 695662, 
             'New York': 141297,
             'Florida': 170312, 
             'Illinois': 149995}
area = pd.Series(area_dict, 
                 name = 'area'
                )
area
#type(area)

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

#### Agora, podemos usar um dicionário para construir um objeto bidimensional contendo toda as informações.

In [80]:
#pd.DataFrame()
temporaria = pd.DataFrame()
#type(temporaria)
#print(temporaria)

In [81]:
pd.DataFrame({'a': [1, 4], 
              'b': [2, 5], 
              'c': [3, 6]
             }
            )

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6


#### Podemso transformar a `series` `population` em um dataframe com a função [`.DataFrame()`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html), que gera dados tabulados bidimensionais, com tamanho mutável e potencialmente heterogêneos.

In [82]:
states = pd.DataFrame(population)
states

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


In [83]:
type(states)

pandas.core.frame.DataFrame

In [84]:
states = pd.DataFrame([population,area])
states

Unnamed: 0,California,Texas,New York,Florida,Illinois
population,38332521,26448193,19651127,19552860,12882135
area,423967,695662,141297,170312,149995


#### Podemos converter duas ou mais `series` em um dataframe, para isso podemos fazer uso de um [dicionário](https://www.geeksforgeeks.org/how-to-convert-dictionary-to-pandas-dataframe/).

In [90]:
states = pd.DataFrame({'population':population, 
                       'area':area
                      }
                     )
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### O atributo [`.index`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html) retorna uma lista dos índices do dataframe.

In [92]:
states.index 

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

#### Podemos chamar apenas uma das colunas, ou `series` do dataframe.

In [94]:
states['population']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
Name: population, dtype: int64

In [95]:
type(states['population'])

pandas.core.series.Series

In [96]:
type(states)

pandas.core.frame.DataFrame

## Atributos básicos

#### O atributo [`.index`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html) retorna um objeto básico que armazena rótulos de eixo para todos os objetos `Pandas`.

In [97]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

#### O atributo [`.values`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.values.html) retorna uma representação `Numpy` do `DataFrame`.

In [98]:
states.values

array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

#### Além de `index` e `values`, `dataframes` possuem o atributo [`.columns`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.columns.html), que é um objeto do tipo `Index` atribuído às colunas.

In [99]:
states.columns

Index(['population', 'area'], dtype='object')

## DataFrame como um dicionário especializado:

#### De forma similar, podemos pensar o `DataFrame` como um dicionário: 
    
    - Um dicionário mapeia uma chave com um valor.
    - Um `DataFrame` mapeia um nome de coluna com uma `Series` de dados.
        
* Por exemplo, invocar o acoluna `area` do `DataFrame` `states` retorna uma `Series`. 

In [100]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

####  <span style = "color:red">PAREI AQUI.</span>

### Construindo objetos `DataFrame`:

#### A [partir](https://www.geeksforgeeks.org/creating-a-dataframe-from-pandas-series/) de uma [`Series`](https://datatofish.com/convert-pandas-series-to-dataframe/) simples:

In [85]:
pd.DataFrame(population, 
             columns = ['population']
            )

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


#### A [partir](https://towardsdatascience.com/ultimate-pandas-guide-creating-a-dataframe-9f063e590e78) de uma lista de `dicts`.

In [101]:
data = [{'a': 0, 'b': 0}, 
        {'a': 1, 'b': 2}, 
        {'a': 2, 'b': 4}
       ]

pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


#### Se a informação sobre um determinado valor for inexistente, o Pandas preenche a célula com [`NaN`](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html). O Acrônimo `NaN` significa "not a number" e é uma das possíveis formas de se representar a falta de determinado valor em um `dataframe`.

In [103]:
data = [{'a': 0, 'b': 0}, 
        {'a': 1, 'b': 2}, 
        {'a': 2, 'c': 4}
       ]

pd.DataFrame(data)

Unnamed: 0,a,b,c
0,0,0.0,
1,1,2.0,
2,2,,4.0


#### Um outro [conceito](https://chrisalbon.com/python/data_wrangling/pandas_list_comprehension/) importante para o uso de ferramentas `Pandas` é o de [`list compreenshion`](https://www.listendata.com/2019/07/python-list-comprehension-with-examples.html)

In [105]:
data = [{'a': i, 
         'b': 2 * i
        } for i in range(5)
       ]

pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8


#### De um `dict` de `Series`.

In [106]:
pd.DataFrame({'population': population,
              'area': area
             }
            )

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


In [107]:
area_2 = pd.Series({'California': 423967, 
                    'Illinois': 149995,
                    'Florida': 170312, 
                    'New York': 141297,
                    'Texas': 695662, 
                    'Alaska':1718000
                   }
                  ) # adicionado em relação ao caso anterior

pd.DataFrame({'population': population,
              'area': area_2
             }
            )

Unnamed: 0,population,area
Alaska,,1718000
California,38332521.0,423967
Florida,19552860.0,170312
Illinois,12882135.0,149995
New York,19651127.0,141297
Texas,26448193.0,695662


#### Perceba no caso acima:

* A ordenação alfabética não solicitada.

* O preenchimento com 'NaN' na chave 'Alaska', não existente na Series 'population'.

#### A partir de um arranjo `Numpy` de duas dimensões.

In [109]:
lista = ['a', 'b']
print(type(lista))
print(type(lista[0]))

<class 'list'>
<class 'str'>


In [110]:
print(type(states))
print(type(states.values))
states.values

<class 'pandas.core.frame.DataFrame'>
<class 'numpy.ndarray'>


array([[38332521,   423967],
       [26448193,   695662],
       [19651127,   141297],
       [19552860,   170312],
       [12882135,   149995]])

#### Aplicando o atributo `.values` ao `DataFrame` `states`.

In [113]:
pd.DataFrame(states.values)

Unnamed: 0,0,1
0,38332521,423967
1,26448193,695662
2,19651127,141297
3,19552860,170312
4,12882135,149995


#### E criamos também um `DataFrame` a partir dos lavores de `state`, atribuindo os índices de nossa preferência.

In [114]:
pd.DataFrame(states.values, 
             columns = ['population', 
                        'area'
                       ], 
             index = ['California', 
                      'Texas',
                      'New York', 
                      'Florida', 
                      'Illinois'
                     ]
            )

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


# O objeto `Index`

#### Um [`Index`](https://towardsdatascience.com/pandas-index-explained-b131beaf6f7b) pode ser pensado como um _arranjo imutável_ ou como um conjunto ordenado. Para ilustrar as implicações deste ponto, vamos pensar sobre o exemplo a seguir, no qual construímos um `index` a partir de uma lista de inteiros.

#### Os `DataFrames` têm um [`Index`](https://www.geeksforgeeks.org/dealing-with-rows-and-columns-in-pandas-dataframe/) que descreve as linhas e outro que descreve as colunas. O `Index` das linhas é acessado com `df.index` e o de colunas, com `df.columns`. 

#### Vamos aplicar à lista literal a seguir o método [pd.Index](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Index.html#pandas-index), que cria um arranjo `ndarray` ordenado e fatiável (sliceable), o objeto básico que armazena rótulos de eixo para todos os objetos pandas.

In [124]:
ind = pd.Index([2, 3, 5, 7, 11])
type(ind)
#ind

pandas.core.indexes.numeric.Int64Index

## `Index` como um arranjo imutável.

#### Podemos indexar e fazer `slicing` de forma semelhante a um arranjo.

In [125]:
ind[1]

3

#### Contagens invertidas também são permitidas.

In [126]:
print(ind[2])
print(ind[-2])

5
7


#### Os [`Index`](https://pandas.pydata.org/pandas-docs/stable/reference/indexing.html) têm [atributos](https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.Index.html) semelhantes aos arranjos de `Numpy`.

In [129]:
print(ind.size, 
      ind.shape, 
      ind.ndim, 
      ind.dtype
     )

5 (5,) 1 int64


In [130]:
states.dtypes

population    int64
area          int64
dtype: object

#### Uma diferença entre os ``Index`` e os arranjos de `NumPy` é que os primeiros são imutáveis.

In [132]:
ind[1] = 0

TypeError: Index does not support mutable operations

## `Index` como um conjunto ordenado.

#### Seguindo as convenções de `Python`, operações de conjuntos podem ser usadas com os `Index`.

In [133]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

## Operações de index

#### Intersecção, ou operação condicional `and` ($\&$).

In [134]:
indA & indB

Int64Index([3, 5, 7], dtype='int64')

#### União, ou operação condicional `or`($|$))

In [135]:
indA | indB

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

#### Diferença Simétrica, ou operação condicional `xor` (^)

In [136]:
indA ^ indB

Int64Index([1, 2, 9, 11], dtype='int64')

### Operações Lógicas
<img src='./operacoes_logicas.png'>