# Introdução às estruturas de dados do Pandas

In [None]:
import numpy as np
import pandas as pd

## Séries ``series``

O tipo de estrutura ``series`` é um array com rótulos de 1 dimensão e é capaz de conter qualquer tipo de dado do Python. Os rótulos são chamados de índices (``index``). O método mais básico para criar uma série do pandas é:

```python
>>> s = pd.Series(data=dados, index=indice)
```

O parâmetro ``dados`` pode ser de diferentes tipos:
- Lista do Python
- Dicionário do Python
- ND-Array
- Valor escalar

O indice é um rótulo/nome para cada linha.

Dado essa tabela do IBGE de 2020, vamos construir uma série do pandas:

| Classe | Renda Familiar (Limite inferior)|
|:-------:|:----------------------------:|
| A      | 20.900       |
| B      | 10.450|
| C      | 4.180 |
| D      | 2.090  |
| E      | 0                |

### Série: a partir de uma lista

In [None]:
dados = [20900,10450,4180,2090,0]
classeSocialSemIndex = pd.Series(dados)
classeSocialSemIndex

In [None]:
classeSocialSemIndex = pd.Series([20900,10450,4180,2090,0])
classeSocialSemIndex

In [None]:
classeSocialSemIndex[0]

In [None]:
classeSocialSemIndex.index

In [None]:
classeSocialComIndex = pd.Series([20900, 10450, 4180, 2090, 0],
                                 index=['A', 'B', 'C', 'D', 'E'])
classeSocialComIndex

In [None]:
classeSocialComIndex['A']

In [None]:
classeSocialComIndex.values

In [None]:
# do tipo pd.Index
classeSocialComIndex.index

In [None]:
classeSocialComIndex['A':'C']

In [None]:
classeSocialComIndex = pd.Series([20900, 10450, 4180, 2090, 0],
                                 index=[10, 1, 3, 9, 8])
classeSocialComIndex

In [None]:
classeSocialComIndex[8]

### Série: a partir de um dicionário

| Classe        | Renda Familiar (Limite inferior)|
|:-------:      |:-------------------------------:|
| classe_A       | 20.900                          |
| classe_B       | 10.450                          |
| classe_C       | 4.180                           |
| classe_D       | 2.090                           |
| classe_E       | 0                               |

In [None]:
classeSocialDict = {'classe_A': 20900,
                   'classe_B': 10450,
                   'classe_C': 4180,
                   'classe_D': 2090,
                   'classe_E': 0}
classeSocialSeries = pd.Series(classeSocialDict)
classeSocialSeries

In [None]:
classeSocialSeries['classe_C']

In [None]:
classeSocialSeries['classe_C':'classe_E']

### Série: a partir de um NDArray

In [None]:
pd.Series(np.random.randn(5))

### Série: a partir de um escalar

In [None]:
pd.Series(5, index=[0,1,2,3,4])

## Pandas Dataframe

``DataFrame`` é uma estrutura de dados com rótulos de 2 dimensões, podendo ter  colunas de diferentes tipos. É comparável às tabelas do excel ou de bancos de dados. É a estrutura de dados do pandas mais usada.


### DataFrame: a partir de uma lista

In [None]:
pd.DataFrame([2,4,6,8,10])

In [None]:
pd.DataFrame([2,4,6,8,10],
             columns=['par'])

### DataFrame: a partir de um dicionário com lista

In [None]:
pd.DataFrame({'impar': [1,3,5,7,9]})

### DataFrame: a partir de um dicionário com 2 listas

In [None]:
pd.DataFrame({'impar': [1,3,5,7,9],
              'par': [2,4,6,8,10]})

| Estado           | População |  Área (m2)|
|:----------------:|:---------:|:-------:  |
| **Amazonas**         | 3.938.336 | 1.559.167 |
| **São Paulo**        | 44.396.484| 248.219   |
| **Bahia**            | 15.203.934| 564.760   |
| **Minas Gerais**     | 20.869.101| 586.521   |
| **Roraima**          | 505.665   | 223.644   |
| **Distrito Federal** | 2.914.830 | 5.760     |

### DataFrame: a partir de um dicionário com 1 série do pandas

In [None]:
popBrasilDict = {
    'Amazonas': 3938336,
    'São Paulo': 44396484,
    'Bahia': 15203934,
    'Minas Gerais': 20869101,
    'Roraima': 505665,
    'Distrito Federal': 2914830
}
popBrasilSerie  =  pd.Series(popBrasilDict)
popBrasilSerie

In [None]:
pd.DataFrame({'População': popBrasilSerie})

In [None]:
areaBrasilDict = {
    'Amazonas': 1559167,
    'São Paulo': 248219,
    'Bahia': 564760,
    'Minas Gerais': 586521,
    'Roraima': 223644,
    'Distrito Federal': 5760
}

areaBrasilSerie  =  pd.Series(areaBrasilDict)
areaBrasilSerie

In [None]:
pd.DataFrame({'Área': areaBrasilSerie})

### DataFrame: a partir de um dicionário com 2 séries do pandas 

In [None]:
estadosBrasil = pd.DataFrame({'População': popBrasilSerie,
                       'Área': areaBrasilSerie})
estadosBrasil

In [None]:
estadosBrasil.index

In [None]:
estadosBrasil.columns

In [None]:
estadosBrasil['População']

In [None]:
estadosBrasil['Área']

### Criando uma nova coluna

In [None]:
estadosBrasil['Densidade'] = estadosBrasil['População'] / estadosBrasil['Área']
estadosBrasil

In [None]:
estadosBrasil['População'].plot(kind='bar');

In [None]:
estadosBrasil['Área'].plot(kind='bar');

In [None]:
estadosBrasil['Densidade'].plot(kind='bar');