## Usando Objetos de Pandas
---

In [1]:
import pandas as pd

#### series
---

é uma estrutura de dados de pandas e serve para criar simples vetores de Numpy:

para isso, use `.Series(<array>)` que recebe o vetor desejado:

In [2]:
vtr = pd.Series([0.1, 0.25, 0.40, 0.55, 0.70, 0.85, 1])
vtr

0    0.10
1    0.25
2    0.40
3    0.55
4    0.70
5    0.85
6    1.00
dtype: float64

oq esta função retorna é uma lista contendo os valores e índices: os índices são os valores de 0 a 6 no exemplo e podem ser usados em indexing e slicing. já os valores são o vetor numpy formado e pode ser visto usando `.values`:

In [3]:
vtr.values

array([0.1 , 0.25, 0.4 , 0.55, 0.7 , 0.85, 1.  ])

#### dataframe
---

dataframes podem ser vistos como matrizes de numpy ou dicionários de python especializados, em que há uma grande flexibilização dos índices das linhas e dos nomes das colunas.

por exemplo, é possível passar como valor series inteiras:

In [22]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)



area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)

estados = pd.DataFrame({'população': population, 'área': area})
estados

Unnamed: 0,população,área
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


observe que, em ambas as series `population` e `area`, os índices são os mesmos, mas não há necessidade de estarem nas mesmas posições para que isto funcione. Veja o que ocorre quando um dos valores é trocado:

In [23]:
population_dict = {'California': 38332521,
                   'New York': 26448193,
                   'Texas': 19651127,
                   'Florida': 19552860,
                   'Illinois': 12882135}
population = pd.Series(population_dict)



area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
             'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)

estados = pd.DataFrame({'população': population, 'área': area})
estados

Unnamed: 0,população,área
California,38332521,423967
Florida,19552860,170312
Illinois,12882135,149995
New York,26448193,141297
Texas,19651127,695662


é possível ver todos os valores de um dataframe com o atributo `.values`:

In [29]:
estados.values

array([[3.83325210e+07, 4.23967000e+05, 9.04139261e+01],
       [1.95528600e+07, 1.70312000e+05, 1.14806121e+02],
       [1.28821350e+07, 1.49995000e+05, 8.58837628e+01],
       [2.64481930e+07, 1.41297000e+05, 1.87181561e+02],
       [1.96511270e+07, 6.95662000e+05, 2.82480961e+01]])

este atributo pode ser usado para acessar as linhas

In [30]:
estados.values[0]

array([3.83325210e+07, 4.23967000e+05, 9.04139261e+01])

para transpor o dataframe, use o atributo `.T`

In [31]:
estados.T

Unnamed: 0,California,Florida,Illinois,New York,Texas
população,38332520.0,19552860.0,12882140.0,26448190.0,19651130.0
área,423967.0,170312.0,149995.0,141297.0,695662.0
densidade,90.41393,114.8061,85.88376,187.1816,28.2481


como já visto, é possível criar dataframes usando series:

In [32]:
dicio = pd.Series({'a': 1, 'b': 1.5, 'c': 2, 'd': 2.5, 'e': 3, 'f': 3.5})

In [33]:
mtz = pd.DataFrame(dicio, columns=['números'])
mtz

Unnamed: 0,números
a,1.0
b,1.5
c,2.0
d,2.5
e,3.0
f,3.5


neste caso, é preciso passar a serie e o nome das colunas e dos índices como argumento depois. Ou, já passa o nome da coluna junto com a serie em questão num outro dicionário:

In [34]:
mtz = pd.DataFrame({'números': dicio})
mtz

Unnamed: 0,números
a,1.0
b,1.5
c,2.0
d,2.5
e,3.0
f,3.5


ou, ainda, usando listas dentro de dicionários.

In [35]:
pessoas = {'first': ['corey', 'jane-oswald', 'john'],
           'last': ['schafer', 'doe', 'smith'],
           'email': ['schafer_corey@gmail.com', 'janedoe@gmail.com', 'smith.john@gmail.com']}

df = pd.DataFrame(pessoas, index=[i for i in range(1, 4)])
df

Unnamed: 0,first,last,email
1,corey,schafer,schafer_corey@gmail.com
2,jane-oswald,doe,janedoe@gmail.com
3,john,smith,smith.john@gmail.com


neste caso, as colunas receberão os valores das chaves.

lembrando que a serie não necessariamente deve se comportar como um dicionário para isto funcionar. Neste caso, da mesma forma que já ocorre, os índices padrões vão servir como nome de linha:

In [36]:
vtr = pd.Series([0.1, 0.25, 0.40, 0.55, 0.70, 0.85, 1])
mtz = pd.DataFrame(vtr, columns=['números'])
mtz

Unnamed: 0,números
0,0.1
1,0.25
2,0.4
3,0.55
4,0.7
5,0.85
6,1.0


se não houver valores para todas as informações, pandas preenche com `NaN`:

In [37]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


como aceita listas, dataframe também aceita matrizes numpy:

In [38]:
import numpy as np

In [39]:
mtz = np.array([[2, 4], [1, 3], [2, 3]])
pd.DataFrame(mtz, columns=[1, 2], index=['1m', '2m', '3m'])

Unnamed: 0,1,2
1m,2,4
2m,1,3
3m,2,3


para a apresentação das informações em um dataframe, se o arquivo for grande, talves seja necessário usar o seguinte código:

```
pd.set_option('display.max_columns', <número_max_de_colunas>)
pd.set_option('display.max_rows', <número_max_de_linhas>)
```

o primeiro faz com que todas as colunas sejam apresentadas, para isso é necessário passar a quantidade total de colunas presente no documento. Já o segundo faz com que todas as linhas apareçam. Também é necessário passar a quantidade total de linhas.

a quantidade total de linhas e colunas pode ser vista pelo método:

```
df.info()
```

ou, pelo atributo

```
df.shape
```

o método `.head()` pode ser usado se só desejar ver as primeiras 5 linhas. Ou, este mesmo método pode receber um valor de linhas que deve mostrar:

```
df.head()
```

ou

```
df.head(20)
```

se desejar ver as últimas 5 linhas, `.tail()`. Ou, pode passar um valor:

```
df.tail()
```

ou

```
df.tail(20)
```