## Usando Objetos de Pandas
---

In [1]:
import pandas as pd

#### series
---

é uma estrutura de dados de pandas e serve para criar simples vetores de Numpy:

para isso, use `.Series(<array>)` que recebe o vetor desejado:

In [2]:
vtr = pd.Series([0.1, 0.25, 0.40, 0.55, 0.70, 0.85, 1])
vtr

0    0.10
1    0.25
2    0.40
3    0.55
4    0.70
5    0.85
6    1.00
dtype: float64

oq esta função retorna é uma lista contendo os valores e índices: os índices são os valores de 0 a 6 no exemplo e podem ser usados em indexing e slicing, pode ser visto usando `.index`. já os valores são o vetor numpy formado e pode ser visto usando `.values`:

In [3]:
vtr.values

array([0.1 , 0.25, 0.4 , 0.55, 0.7 , 0.85, 1.  ])

In [4]:
vtr.index

RangeIndex(start=0, stop=7, step=1)

assim,

In [5]:
vtr[3]

0.55

In [6]:
vtr[2:5]

2    0.40
3    0.55
4    0.70
dtype: float64

as series em pandas são muito mais flexíveis que os vetores numpy. por exemplo, os índices, assim como em dicionários, podem ser passados pelo usuário e pode ser qualquer tipo de dado através do parâmeetro `index=`:

In [7]:
vtr = pd.Series([0.1, 0.25, 0.40, 0.55, 0.70, 0.85, 1], index=['a', 'b', 'c', 'd', 'e', 'f', 'g'])
vtr

a    0.10
b    0.25
c    0.40
d    0.55
e    0.70
f    0.85
g    1.00
dtype: float64

In [8]:
vtr['c']

0.4

ou, ainda,

In [9]:
vtr = pd.Series([0.1, 0.25, 0.40, 0.55, 0.70, 0.85, 1], index=[i/10 for i in range(0, 7)])
vtr

0.0    0.10
0.1    0.25
0.2    0.40
0.3    0.55
0.4    0.70
0.5    0.85
0.6    1.00
dtype: float64

In [10]:
vtr[0.2]

0.4

neste caso, um dicionário python pode ser usado para criar uma series:

In [11]:
dicio = {'ind1': 0.1, 'ind2': 0.25, 'ind3': 0.40, 'ind4': 0.55, 'ind5': 0.70, 'ind6': 0.85, 'ind7': 1}
vtr = pd.Series(dicio)
vtr

ind1    0.10
ind2    0.25
ind3    0.40
ind4    0.55
ind5    0.70
ind6    0.85
ind7    1.00
dtype: float64

In [12]:
vtr['ind3']

0.4

mesmo como dicionário, series consegue passar por processos de slicing:

In [13]:
vtr['ind3': 'ind6']

ind3    0.40
ind4    0.55
ind5    0.70
ind6    0.85
dtype: float64

neste caso, series também aceitam os atributos de dicionários:

In [14]:
vtr.keys()

Index(['ind1', 'ind2', 'ind3', 'ind4', 'ind5', 'ind6', 'ind7'], dtype='object')

In [15]:
list(vtr.items())

[('ind1', 0.1),
 ('ind2', 0.25),
 ('ind3', 0.4),
 ('ind4', 0.55),
 ('ind5', 0.7),
 ('ind6', 0.85),
 ('ind7', 1.0)]

assim como dicionários, uma serie pode ser extendida ao indexar a uma chave qua ainda não exista:

In [16]:
vtr['FinalInd'] = 0
vtr

ind1        0.10
ind2        0.25
ind3        0.40
ind4        0.55
ind5        0.70
ind6        0.85
ind7        1.00
FinalInd    0.00
dtype: float64

sendo baseado em numpy, independentemente se a serie é como um dicionário ou um vetor, este pode, ainda ser acessado pelos índices inteiros implícitos (0, 1, 2,...), bem como pode passar por processos de slicings que o numpy suporta

In [17]:
print(f'slicing com índices implícitos: {vtr[0: 5]}\n---')
print(f'slicing com índices explícitos: {vtr[0: 5]}\n---')
print(f'masking: {vtr[vtr > 0.5]}\n---')
print(f'fancy indexing: {vtr[["ind1", "ind5"]]}')

slicing com índices implícitos: ind1    0.10
ind2    0.25
ind3    0.40
ind4    0.55
ind5    0.70
dtype: float64
---
slicing com índices explícitos: ind1    0.10
ind2    0.25
ind3    0.40
ind4    0.55
ind5    0.70
dtype: float64
---
masking: ind4    0.55
ind5    0.70
ind6    0.85
ind7    1.00
dtype: float64
---
fancy indexing: ind1    0.1
ind5    0.7
dtype: float64


ou, mesmo, ter apenas alguns resultados armazenados de fato:

In [18]:
vtr = pd.Series({1: 'a', 2: 'b', 3: 'c'}, index=[3, 1])
vtr

3    c
1    a
dtype: object

observe que, se estiver usando índices inteiros, pode haver confusão com indexing e slicing, porque para indexar, geralmente, é usado o índice explícito, passade pelo usuário, mas para slicing, o índice implícito, próprio do python, é usado:

In [19]:
data = pd.Series(['a', 'b', 'c'], index=[1, 3, 5])
print(data)

# explicit index when indexing
print(data[1])

# implicit index when slicing
print(data[1:3])

1    a
3    b
5    c
dtype: object
a
3    b
5    c
dtype: object


para evitar este tipo de erro, pode-se usar os atributos de índices `.loc`, que sempre usará os índices explícitos:

In [20]:
print(data.loc[1])
print(data.loc[1:3])

a
1    a
3    b
dtype: object


o atributo `iloc`, que usa os índices implícitos:

In [21]:
print(data.iloc[1])
print(data.iloc[1:3])

b
3    b
5    c
dtype: object


#### dataframe
---

dataframes podem ser vistos como matrizes de numpy ou dicionários de python especializados, em que há uma grande flexibilização dos índices das linhas e dos nomes das colunas.

por exemplo, é possível passar como valor series inteiras:

In [22]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)



area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)

estados = pd.DataFrame({'população': population, 'área': area})
estados

Unnamed: 0,população,área
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


observe que, em ambas as series `population` e `area`, os índices são os mesmos, mas não há necessidade de estarem nas mesmas posições para que isto funcione. Veja o que ocorre quando um dos valores é trocado:

In [23]:
population_dict = {'California': 38332521,
                   'New York': 26448193,
                   'Texas': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)



area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)

estados = pd.DataFrame({'população': population, 'área': area})
estados

Unnamed: 0,população,área
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,26448193,141297
Texas,19651127,695662


os atributos `.index` e `.columns` podem ser usados para ver as informações deste dataframe:

In [24]:
estados.columns

Index(['população', 'área'], dtype='object')

In [25]:
estados.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

este objeto suporta indexing.

para acessar um valor:

In [26]:
estados['população']['New York']

26448193

para acessar uma coluna:

In [27]:
estados['população']

California    38332521
Florida       19552860
Illinois      12882135
New York      26448193
Texas         19651127
Name: população, dtype: int64

é necessário saber que indexing refere-se a colunas e slicing a linhas. Da mesma forma que masking refere-se a linhas.

da mesma forma, é possível extender o dataframe indexando a uma chave que ainda não existe:

In [28]:
estados['densidade'] = estados['população']/estados['área']
estados

Unnamed: 0,população,área,densidade
California,38332521,423967,90.413926
Florida,19552860,170312,114.806121
Illinois,12882135,149995,85.883763
New York,26448193,141297,187.181561
Texas,19651127,695662,28.248096


é possível ver todos os valores de um dataframe com o atributo `.values`:

In [29]:
estados.values

array([[3.83325210e+07, 4.23967000e+05, 9.04139261e+01],
       [1.95528600e+07, 1.70312000e+05, 1.14806121e+02],
       [1.28821350e+07, 1.49995000e+05, 8.58837628e+01],
       [2.64481930e+07, 1.41297000e+05, 1.87181561e+02],
       [1.96511270e+07, 6.95662000e+05, 2.82480961e+01]])

este atributo pode ser usado para acessar as linhas

In [30]:
estados.values[0]

array([3.83325210e+07, 4.23967000e+05, 9.04139261e+01])

para transpor o dataframe, use o atributo `.T`

In [31]:
estados.T

Unnamed: 0,California,Florida,Illinois,New York,Texas
população,38332520.0,19552860.0,12882140.0,26448190.0,19651130.0
área,423967.0,170312.0,149995.0,141297.0,695662.0
densidade,90.41393,114.8061,85.88376,187.1816,28.2481


como já visto, é possível criar dataframes usando series:

In [32]:
dicio = pd.Series({'a': 1, 'b': 1.5, 'c': 2, 'd': 2.5, 'e': 3, 'f': 3.5})

In [33]:
mtz = pd.DataFrame(dicio, columns=['números'])
mtz

Unnamed: 0,números
a,1.0
b,1.5
c,2.0
d,2.5
e,3.0
f,3.5


neste caso, é preciso passar a serie e o nome das colunas e dos índices como argumento depois. Ou, já passa o nome da coluna junto com a serie em questão num outro dicionário:

In [34]:
mtz = pd.DataFrame({'números': dicio})
mtz

Unnamed: 0,números
a,1.0
b,1.5
c,2.0
d,2.5
e,3.0
f,3.5


ou, ainda, usando listas dentro de dicionários.

In [35]:
pessoas = {'first': ['corey', 'jane-oswald', 'john'],
           'last': ['schafer', 'doe', 'smith'],
           'email': ['schafer_corey@gmail.com', 'janedoe@gmail.com', 'smith.john@gmail.com']}

df = pd.DataFrame(pessoas, index=[i for i in range(1, 4)])
df

Unnamed: 0,first,last,email
1,corey,schafer,schafer_corey@gmail.com
2,jane-oswald,doe,janedoe@gmail.com
3,john,smith,smith.john@gmail.com


neste caso, as colunas receberão os valores das chaves.

lembrando que a serie não necessariamente deve se comportar como um dicionário para isto funcionar. Neste caso, da mesma forma que já ocorre, os índices padrões vão servir como nome de linha:

In [36]:
vtr = pd.Series([0.1, 0.25, 0.40, 0.55, 0.70, 0.85, 1])
mtz = pd.DataFrame(vtr, columns=['números'])
mtz

Unnamed: 0,números
0,0.1
1,0.25
2,0.4
3,0.55
4,0.7
5,0.85
6,1.0


se não houver valores para todas as informações, pandas preenche com `NaN`:

In [37]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


como aceita listas, dataframe também aceita matrizes numpy:

In [38]:
import numpy as np

In [39]:
mtz = np.array([[2, 4], [1, 3], [2, 3]])
pd.DataFrame(mtz, columns=[1, 2], index=['1m', '2m', '3m'])

Unnamed: 0,1,2
1m,2,4
2m,1,3
3m,2,3


para a apresentação das informações em um dataframe, se o arquivo for grande, talves seja necessário usar o seguinte código:

```
pd.set_option('display.max_columns', <número_max_de_colunas>)
pd.set_option('display.max_rows', <número_max_de_linhas>)
```

o primeiro faz com que todas as colunas sejam apresentadas, para isso é necessário passar a quantidade total de colunas presente no documento. Já o segundo faz com que todas as linhas apareçam. Também é necessário passar a quantidade total de linhas.

a quantidade total de linhas e colunas pode ser vista pelo método:

```
df.info()
```

ou, pelo atributo

```
df.shape
```

o método `.head()` pode ser usado se só desejar ver as primeiras 5 linhas. Ou, este mesmo método pode receber um valor de linhas que deve mostrar:

```
df.head()
```

ou

```
df.head(20)
```

se desejar ver as últimas 5 linhas, `.tail()`. Ou, pode passar um valor:

```
df.tail()
```

ou

```
df.tail(20)
```

#### index
---

os índices em pandas são bastante flexíveis, apesar de que, uma vez estabelecidos, são imutáveis, e o fato de estes serem explícitos fica mais fácil trabalhar com eles. Podem ser criado com o método `Index(<array>)`

In [40]:
mtz = pd.Index([2, 3, 5, 7, 11, 13])
mtz

Index([2, 3, 5, 7, 11, 13], dtype='int64')

no geral, `Index` possui os mesmos atributos que os arrays de Numpy:

In [41]:
print(mtz.size, mtz.shape, mtz.ndim, mtz.dtype)

6 (6,) 1 int64


`Index` também aceita operações dos conjuntos (set) de python:

In [42]:
ind1 = pd.Index([1, 2, 3])
ind2 = pd.Index([4, 5, 6])

ind1 & ind2

Index([0, 0, 2], dtype='int64')

In [43]:
ind1 | ind2

Index([5, 7, 7], dtype='int64')

In [44]:
ind2 ^ ind1

Index([5, 7, 5], dtype='int64')

sendo imutável, não pode ser modificao através das formas já conhecidas:

In [45]:
mtz[0] = 0

TypeError: Index does not support mutable operations