# Pandas

[API](https://pandas.pydata.org/pandas-docs/stable/reference/index.html)


Para importar a biblioteca:

```py
import pandas as pd
```

A bibioteca Pandas é composta por dois tipos de dados principais, as Series e os Dataframes.

## Series

Uma Series opera da mesma maneira que um *array* unidimensional. Cada elemento presente na Series possui um *index* (índice), que funciona como um rótulo para cada elemento.

**Exemplo**  
Utilizaremos como exemplo uma Series para armazenar as alturas de um determinado grupo de pessoas.

```py
alturas = pd.Series([175, 182,160,156])
```

Em seguida, observe o tipo de dado utilizado
```py
type(alturas)
```

Observe os valores armazenados
```py
print(alturas)
```

Observe na saída do comando que a primeira coluna apresenta o *index*, e a segunda coluna os valores inseridos.

Na Series `alturas`, não foi especificado qual seria o *index* utilizado. Por padrão, é utilizado uma sequência de números inteiros positivos crescente, iniciada pelo valor `0`.

Podemos obter essas informações de maneira separada. Para acessar os valores, pode-se utilizar o atributo `values`.

**Exemplo**  
```py
alturas.values
```

E para obter os índices, pode-se utilizar o atributo `index`.

**Exemplo**  
```py
alturas.index
```

Supondo que gostaríamos de adicionar como índice o nome das pessoas a que cada altura corresponde, pode ser utilizado o parâmetro `index` na criação da Series.

```py
alturas = pd.Series([175, 182,160,156], index=["Maria", "José", "Eduarda", "Sergio"])
```

Agora, observe o conteúdo da Series `altura` e os índices utilizados.

Utilizando as Series, é possível que os dados sejam acessados a partir de seu índice.

```py
alturas["Eduarda"]
```

Uma Series possibilita que dados estatísticos básicos sejam calculados a partir de seus dados, diretamente com a chamada de métodos.

- `.count()` - número de elementos
- `.mean()` - média
- `.std()` - desvio padrão
- `.min()` - valor mínimo
- `.max()` - valor máximo


**Atividade**  
- Qual é a altura média das pessoas?

É possível observar todos esses valores de uma única vez, utilizando o método `.describe()`

## Dataframe

O Dataframe é uma das principais estruturas do Pandas. É composto por uma estrutura bidimensional, semelhante a uma planilha. Um Dataframe é formado por diversas Series, que possuem um mesmo índice.

**Exemplo**
```py
pessoas = pd.DataFrame({'Nome': ["Maria", "José", "Eduarda", "Sergio", "Julia"],
                        'Altura': [175, 182,160,156, 180],
                        'Idade': [21, 40, 41, 30, 25], 
                        'Sexo': ['f', 'm', 'f', 'm', 'f']
                        })
```


Para observar o dataframe:
```py
pessoas
```

Cada coluna pode possuir seu tipo de dado, que pode ser visto acessando o atributo `.dtypes`.

As estatísticas de cada coluna, assim como na Series, podem ser obtidas com o método `.describe()`.

**Atividade**
- Por que não aparecem as colunas com os dados de *Nome* e *Sexo*?

A identificação de cada coluna pode ser utilizada para acessar os dados de colunas específicas.

**Exemplo**
```py
pessoas['Nome']
pessoas[['Nome', 'Altura']]
```

Observe que passar obter mais de uma coluna, como índice para o Dataframe é passado uma lista de valores.


Uma outra forma de selecionar elementos é utilizando os índices (linhas) como referência, utilizando o método `.loc[]`

**Exemplo**
```py
pessoas.loc[[2]]
pessoas.loc[[2,4]]
pessoas.loc[2:4]
```
Neste caso, utilizou-o índice como referência. Pode-se também obter a partir da posição, com o método `.iloc[]`. 

```py
pessoas.iloc[[2]]
pessoas.iloc[[2,4]]
pessoas.iloc[2:4]
```

Para este exemplo, como os índices seguem a mesma numeração da posição dos elementos, não há diferença nos resultados.

Os métodos `.head()` e `.tail()` servem para obter as linhas iniciais ou finais de um DataFrame. Tais métodos são úteis para observar amostras dos dados, principalmente quando tratamos de DataFrames com muitas linhas.

**Exemplo**
```py
pessoas.head(2)
```

É possível ordenar os dados por uma coluna específica, utilizando o método `.sort_values()`.

**Exemplo**
```py
pessoas.sort_values('Idade')
```

DataFrames possibilitam que sejam agrupados dados de acordo alguma coluna. O método `.groupby()` realiza este agrupamento.

**Exemplo**
```py
pessoas.groupby('Sexo')
```

**Atividade**
- Qual a altura média de homens e mulheres?
- Quais são os nomes da mulher e homem mais altos?

Outros métodos que também podem ser utilizados são
- `.value_counts()` - Quantidade de valores
- `.unique()` - Valores sem repetição

## Utilizando Series com índices

É possível utilizar series como índices.

**Exemplo**
Observe a saída:
pessoas['Sexo' == m]

Nesta saída o resultado é uma Series composta por valores do tipo *boolean*. Esta Series pode ser utilizada como índice, em que determinada operação será aplicada apenas aos elementos nas posições em que o índice possua valor `True`.

**Exemplo**
```py
listaHomens=pessoas['Sexo'] == 'm'
homens=pessoas[listaHomens]
```

Para estas operações, diversos operadores relacionais como `<`, `<=`, `>`, `>=` ou `==` podem utilizados. Desta forma, estas operações acabam funcionando como um filtro, ou máscara, para as opearações aplicadas.


**Atividade**
- Qual a altura média dos homens?
- Qual a altura média das mulheres?
- Quem são as pessoas que possuem altura acima da média (do conjunto)?

### Exercício

Carregue o DataFrame **rioAptos** com informações sobre apartamentos na cidade do Rio de Janeiro. Para carregar, execute:

```py
rioAptos = pd.read_csv("https://raw.githubusercontent.com/mvinoba/notebooks-for-binder/master/dados.csv")
```

Observe quais são as colunas:

Observe os dados presentes nas primeiras linhas:

- Qual é o valor do apartamento mais barato?
- Qual é o valor do apartamento mais caro?
- Qual é o valor do m2 mais barato?
- Qual é o valor do m2 mais caro?

- Em qual bairro está o apartamento mais barato?

- Em qual bairro está o apartamento mais caro?

- Na base de dados, quantos apartamentos há em cada bairro?

- Quais são os maiores apartamentos em cada bairro?

- Qual é o tamanho médio dos apartamentos em cada bairro?

- Quais são os apartamentos com preços acima da média?

## Referências

- [Data Hackers: Seus primeiros passos como Data Scientist: Introdução ao Pandas](https://medium.com/data-hackers/uma-introdução-simples-ao-pandas-1e15eea37fa1)  
- [Pandas API Reference](https://pandas.pydata.org/pandas-docs/stable/reference/index.html)