# Introdução ao tratamento de dados com PANDAS

<p> O pandas é uma biblioteca de código aberto licenciada sob BSD que fornece estruturas de dados de alto desempenho fácil de usar e ferramentas de análise de dados para a linguagem de programação Python . </p> <br />

(Documentação do Pandas)
https://pandas.pydata.org/

(em português)
https://runebook.dev/pt/docs/pandas/


Para usarmos a biblioteca Pandas precisaremos instalá-la no ambiente de desenvolvimento. No Jupyter Notebook(ANACONDA), por padrão, o pandas vem instalado.

#pip install pandas

A comunidade de desenvolvimento utilizadora do Pandas convencionou o padrão de utlização

import pandas as pd

Então quando for pesquisar sobre essa biblioteca você ira se deparar com a utlização baseada no exemplo

pd.nomeDoMetodo()

Para começar a trabalhar com o pandas, você precisará se sentir à vontade com as duas estruturas de dados que são a sua força de trabalho: Series e DataFrame. Embora não sejam uma solução universal para todos os problemas, eles oferecem uma base sólida e fácil de usar para a maioria das aplicações.

## Series

Uma Series é um objeto do tipo array unidimensional contendo uma
sequência de valores e um array associado de rótulos (labels) de dados, chamado de índice.
A Series mais simples é composta de apenas um array de dados:

In [9]:
import pandas as pd

obj = pd.Series([4, 7, -5, 3])

obj

0    4
1    7
2   -5
3    3
dtype: int64

A representação em string de uma Series exibida interativamente
mostra o índice à esquerda e os valores à direita. Como não
especificamos um índice para os dados, um índice default
constituído dos inteiros de 0 a N - 1 (em que N é o tamanho dos
dados) é criado. Podemos obter a representação do array e o objeto
de índice de Series por meio de seus atributos de valores (values) e
de índice (index), respectivamente:

In [10]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [11]:
obj.index # como range(4)

RangeIndex(start=0, stop=4, step=1)

Com frequência, será desejável criar uma Series com um índice que
identifique cada ponto de dado com um rótulo:

In [18]:
obj2 = pd.Series([4, 7, -5, 3], index=['a', 'b', 'c', 'd'])

obj2

a    4
b    7
c   -5
d    3
dtype: int64

In [20]:
obj2.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [23]:
print(obj2['c'])
print(obj2[0])

-5
4


Você pode pensar em uma série como um dicionário, estrutura de dados também presente no Python que é representada pelo par chave : valor
A série será ordenado de tamanho fixo, como se fosse um mapeamento entre
valores de índices e valores de dados. Ela pode ser utilizada em
muitos contextos em que um dicionário poderia ser usado:

Exemplos:

In [27]:
'b' in obj2

True

In [26]:
'e' in obj2

False

Se você tiver dados contidos em um dicionário Python, uma Series
poderá ser criada a partir dele, passando-lhe o dicionário:

In [30]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Se você passar somente um dicionário, o índice na Series resultante
terá as chaves do dicionário ordenadas. É possível sobrescrever
isso passando as chaves do dicionário na ordem que você quiser
que elas apareçam na Series resultante:

In [31]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

Nesse caso, três valores encontrados em sdata foram colocados nos
locais apropriados, mas, como nenhum valor para 'California' foi
encontrado, ele aparece como NaN (not a number), que é
considerado um marcador de valores ausentes ou NA no pandas.
Como 'Utah' não estava incluído em states, ele foi excluído do objeto
resultante.
Usarei os termos “ausente” ou “NA” indistintamente para me referir
aos dados que estejam faltando. As funções isnull e notnull no pandas
devem ser utilizadas para detectar dados ausentes:

In [33]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [34]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Tanto o próprio objeto Series quanto seu índice têm um atributo name, que se integra com outras áreas essenciais de funcionalidades do pandas:

In [35]:
obj4.name = 'population'
obj4.index.name = 'state'

obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Um índice de Series pode ser alterado in-place por atribuição:

In [36]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [37]:
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64