**Pandas** √© uma das principais ferramentas para prepara√ß√£o, apresenta√ß√£o, limpeza e an√°lise de dados. 

Ela foi desenvolvida por Wesley McKinney enquanto trabalhava na AQR Capital Management. 

A ferramenta foi desenvolvida j√° visando a an√°lise e manipula√ß√£o de dados da melhor maneira poss√≠vel. 

O pr√≥prio nome pandas √© derivado de *panel data*, um termo para descrever *datasets* multidimensionais, e um jogo com as letras da frase *Python data analysis*. 

Os requisitos entregues ao time de desenvolvimento foi:
* Os dados deviam ser armazenados em uma estrutura com os eixos rotulados;
* An√°lise e ferramentas para s√©ries temporais
* Facilidade no tratamento de dados faltosos
* Combina√ß√£o e agrupamento de dados (da mesma forma que bases de dados baseados em SQL) 

Mesmo tendo muitas coisas em comum com o **NumPy**, a principal diferen√ßa √© que o **pandas** foi desenvolvido para trabalhar com dados tabulares ou dados de diferentes tipos. Enquanto o NumPy √© melhor com dados num√©ricos homog√™neos no formato de array.

O pandas tem duas estruturas de dados princiapais: *Series* e *DataFrame*.

Nossa conversa de hoje √© sobre as *Series*, que eu vou chamar a partir daqui de s√©rie.

Antes de come√ßarmos, precisamos importar o pandas. 

Para escrever eu estou utilizando o **Google Colab** (https://colab.research.google.com/), que √© um modo de voc√™ escrever texto e c√≥digo e ver os seus resultados de forma r√°pida e f√°cil. Em outro texto podemos falar mais a fundo sobre ele.


In [None]:
import pandas as pd

**Series** 

Uma s√©rie √© um objeto parecido com um array de uma dimens√£o, contendo uma sequ√™ncia de valores e um array contendo os r√≥tulos, chamdo de *index*.

In [None]:
serie = pd.Series([1,2,3,4,5])

serie

0    1
1    2
2    3
3    4
4    5
dtype: int64

Como n√£o definimos os √≠ndice, o pandas utiliza o padr√£o consistindo de inteiros de 0 a N - 1 (N √© o tamanho da S√©rie)

In [None]:
serie_2 = pd.Series([1,2,3,4,5], index=['a','b','c','d','e'])

serie_2

a    1
b    2
c    3
d    4
e    5
dtype: int64

Outra forma de adicionar um indice durante a cria√ß√£o da S√©rie √© utilizando um *dict* do Python.

In [None]:
serie_3 = pd.Series({
  'RJ': 2000,
  'SP': 3000,
  'MG': 5000
})

serie_3

RJ    2000
SP    3000
MG    5000
dtype: int64

Voc√™ tamb√©m pode enviar uma *list* para escolher a ordem que voc√™ quer na S√©rie e adicionar novos indices.

In [None]:
valores = {
  'RJ': 2000,
  'SP': 3000,
  'MG': 5000
}

sequencia_estados = ['MG', 'SP', 'RJ', 'ES']

serie_3 = pd.Series(valores, index=sequencia_estados)

serie_3

MG    5000.0
SP    3000.0
RJ    2000.0
ES       NaN
dtype: float64

Reparem que n√£o existe um valor para o estado ES. Isso √© porque n√£o definimos no *dict* `valores`.

O *NaN* (*not a number*) √© definido pelo **pandas** como um dado faltante ou *NA values*.

Para selecionar os dados faltantes podemos usar as fun√ß√µes `isnull` e `notnull`.

In [None]:
# isnull retorna um array de booleanos. True quando o valor √© nulo ou faltante e False quando n√£o
serie_3.isnull()

MG    False
SP    False
RJ    False
ES     True
dtype: bool

In [None]:
# notnull retorna um array de booleanos e seus valores s√£o o inverso do isnull
serie_3.notnull()

MG     True
SP     True
RJ     True
ES    False
dtype: bool

Para selecionar um ou mais dados dentro de um S√©rie n√≥s podemos usar os valores do √≠ndice.

In [None]:
# Apenas um valor
print(serie_2['a'])

# Usando uma lista para selecionar mais de um valor
print(serie_2[['a','e']])

1
a    1
e    5
dtype: int64


Assim como no NumPy, opera√ß√µes matem√°ticas s√£o vetorizadas e afetam todos os valores da S√©rie de uma forma extremamente eficiente e sem a necessidade de utilizar um *for*.

In [None]:
print(serie_2)

a    1
b    2
c    3
d    4
e    5
dtype: int64


In [None]:
# Todos os items da S√©rie foram multiplicados por 2
print(serie_2 * 2)

a     2
b     4
c     6
d     8
e    10
dtype: int64


O mesmo acontece quando utilizamos um dos m√©todos do **NumPy**.

In [None]:
import numpy as np

# exp calcula o exponecial de todos os items do array.
# https://numpy.org/doc/stable/reference/generated/numpy.exp.html
np.exp(serie_2)

a      2.718282
b      7.389056
c     20.085537
d     54.598150
e    148.413159
dtype: float64

Podemos selecionar valores utilizando filtros de arrays de booleanos diretamente na S√©rie, sem a necessidade de escrever *IF-ELSE*

In [None]:
mascara_de_selecao = serie_2 > 4

mascara_de_selecao

a    False
b    False
c    False
d    False
e     True
dtype: bool

In [None]:
# Sele√ß√£o dos items da lista utilizando um array de booleanos
serie_2[mascara_de_selecao]

e    5
dtype: int64

Os nomes de uma S√©rie ou do seu √≠ndice s√£o acess√≠veis e podem ser modificados pelos seus atributos.

In [None]:
serie_3.name = 'Estados'
serie_3.index.name = 'Valores'

serie_3

Valores
MG    5000.0
SP    3000.0
RJ    2000.0
ES       NaN
Name: Estados, dtype: float64

Al√©m disso os valores dos √≠ndices podem ser atualizados depois de j√° serem atribu√≠dos.

In [None]:
serie_4 = pd.Series([1,2,3,4,5])

serie_4

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [None]:
# o tamanho da list passada deve ser do mesmo tamanho da S√©rie
serie_4.index = ['a','b','c','d','e']

serie_4

a    1
b    2
c    3
d    4
e    5
dtype: int64

O pandas √© uma ferramenta espetacular e vamos utiliz√°-la na maioria dos projetos! Por isso, precisamos ficar  bem familiarizados com ela!

N√£o se esque√ßam de continuar estudando, questionar tudo e escrever sempre üìö.

A gente se fala! üëã

Fred.