**Pandas** é uma das principais ferramentas para preparação, apresentação, limpeza e análise de dados. 

Ela foi desenvolvida por Wesley McKinney enquanto trabalhava na AQR Capital Management. 

A ferramenta foi desenvolvida já visando a análise e manipulação de dados da melhor maneira possível. 

O próprio nome pandas é derivado de *panel data*, um termo para descrever *datasets* multidimensionais, e um jogo com as letras da frase *Python data analysis*. 

Os requisitos entregues ao time de desenvolvimento foi:
* Os dados deviam ser armazenados em uma estrutura com os eixos rotulados;
* Análise e ferramentas para séries temporais
* Facilidade no tratamento de dados faltosos
* Combinação e agrupamento de dados (da mesma forma que bases de dados baseados em SQL) 

Mesmo tendo muitas coisas em comum com o **NumPy**, a principal diferença é que o **pandas** foi desenvolvido para trabalhar com dados tabulares ou dados de diferentes tipos. Enquanto o NumPy é melhor com dados numéricos homogêneos no formato de array.

O pandas tem duas estruturas de dados princiapais: *Series* e *DataFrame*.

Nossa conversa de hoje é sobre as *Series*, que eu vou chamar a partir daqui de série.

Antes de começarmos, precisamos importar o pandas. 

Para escrever eu estou utilizando o **Google Colab** (https://colab.research.google.com/), que é um modo de você escrever texto e código e ver os seus resultados de forma rápida e fácil. Em outro texto podemos falar mais a fundo sobre ele.


In [None]:
import pandas as pd

**Series** 

Uma série é um objeto parecido com um array de uma dimensão, contendo uma sequência de valores e um array contendo os rótulos, chamdo de *index*.

In [None]:
serie = pd.Series([1,2,3,4,5])

serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

Como não definimos os índice, o pandas utiliza o padrão consistindo de inteiros de 0 a N - 1 (N é o tamanho da Série)

In [None]:
serie_2 = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'])

serie_2

a    1
b    2
c    3
d    4
e    5
dtype: int64

Outra forma de adicionar um indice durante a criação da Série é utilizando um *dict* do Python.

In [None]:
serie_3 = pd.Series({
  'RJ': 2000,
  'SP': 3000,
  'MG': 5000
})

serie_3

RJ    2000
SP    3000
MG    5000
dtype: int64

Você também pode enviar uma *list* para escolher a ordem que você quer na Série e adicionar novos indices.

In [None]:
valores = {
  'RJ': 2000,
  'SP': 3000,
  'MG': 5000
}

sequencia_estados = ['MG', 'SP', 'RJ', 'ES']

serie_3 = pd.Series(valores, index=sequencia_estados)

serie_3

MG    5000.0
SP    3000.0
RJ    2000.0
ES       NaN
dtype: float64

Reparem que não existe um valor para o estado ES. Isso é porque não definimos no *dict* `valores`.

O *NaN* (*not a number*) é definido pelo **pandas** como um dado faltante ou *NA values*.

Para selecionar os dados faltantes podemos usar as funções `isnull` e `notnull`.

In [None]:
# isnull retorna um array de booleanos. True quando o valor é nulo ou faltante e False quando não
serie_3.isnull()

MG    False
SP    False
RJ    False
ES     True
dtype: bool

In [None]:
# notnull retorna um array de booleanos e seus valores são o inverso do isnull
serie_3.notnull()

MG     True
SP     True
RJ     True
ES    False
dtype: bool

Para selecionar um ou mais dados dentro de um Série nós podemos usar os valores do índice.

In [None]:
# Apenas um valor
print(serie_2['a'])

# Usando uma lista para selecionar mais de um valor
print(serie_2[['a','e']])

1
a    1
e    5
dtype: int64


Assim como no NumPy, operações matemáticas são vetorizadas e afetam todos os valores da Série de uma forma extremamente eficiente e sem a necessidade de utilizar um *for*.

In [None]:
print(serie_2)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [None]:
# Todos os items da Série foram multiplicados por 2
print(serie_2 * 2)

a     2
b     4
c     6
d     8
e    10
dtype: int64


O mesmo acontece quando utilizamos um dos métodos do **NumPy**.

In [None]:
import numpy as np

# exp calcula o exponecial de todos os items do array.
# https://numpy.org/doc/stable/reference/generated/numpy.exp.html
np.exp(serie_2)

a      2.718282
b      7.389056
c     20.085537
d     54.598150
e    148.413159
dtype: float64

Podemos selecionar valores utilizando filtros de arrays de booleanos diretamente na Série, sem a necessidade de escrever *IF-ELSE*

In [None]:
mascara_de_selecao = serie_2 > 4

mascara_de_selecao

a    False
b    False
c    False
d    False
e     True
dtype: bool

In [None]:
# Seleção dos items da lista utilizando um array de booleanos
serie_2[mascara_de_selecao]

e    5
dtype: int64

Os nomes de uma Série ou do seu índice são acessíveis e podem ser modificados pelos seus atributos.

In [None]:
serie_3.name = 'Estados'
serie_3.index.name = 'Valores'

serie_3

Valores
MG    5000.0
SP    3000.0
RJ    2000.0
ES       NaN
Name: Estados, dtype: float64

Além disso os valores dos índices podem ser atualizados depois de já serem atribuídos.

In [None]:
serie_4 = pd.Series([1,2,3,4,5])

serie_4

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [None]:
# o tamanho da list passada deve ser do mesmo tamanho da Série
serie_4.index = ['a','b','c','d','e']

serie_4

a    1
b    2
c    3
d    4
e    5
dtype: int64

O pandas é uma ferramenta espetacular e vamos utilizá-la na maioria dos projetos! Por isso, precisamos ficar  bem familiarizados com ela!

Não se esqueçam de continuar estudando, questionar tudo e escrever sempre 📚.

A gente se fala! 👋

Fred.