# Introdução ao pandas
os pandas serão uma das principais ferramentas de interesse em grande parte do restante do livro. isto
contém estruturas de dados e ferramentas de manipulação de dados projetadas para facilitar a limpeza de dados
e análise rápida e fácil em Python. pandas é freqüentemente usado em conjunto com números
ferramentas de computação como NumPy e SciPy, bibliotecas analíticas como statsmodels e
scikit-learn e bibliotecas de visualização de dados como matplotlib. pandas adota significante
partes do estilo idiomático da NumPy de computação baseada em array, especialmente com base em array
funções e uma preferência pelo processamento de dados sem loops.
Enquanto os pandas adotam muitos idiomas de codificação do NumPy, a maior diferença é que
O pandas foi desenvolvido para trabalhar com dados tabulares ou heterogêneos. NumPy, por con-
trast, é mais adequado para trabalhar com dados numéricos homogêneos da matriz.
Desde que se tornou um projeto de código aberto em 2010, os pandas amadureceram
grande biblioteca aplicável a um amplo conjunto de casos de uso do mundo real. O desenvolvedor
comunidade cresceu para mais de 800 colaboradores distintos, que têm ajudado a criar
o projeto como eles o usaram para resolver seus problemas diários de dados.
No restante do livro, uso a seguinte convenção de importação para pandas:

In [1]:
import pandas as pd

## Introdução às estruturas de dados do pandas
Para começar com os pandas, você precisará se sentir confortável com seus dois cavalos de batalha
estruturas de dados: Series e DataFrame. Embora não sejam uma solução universal para
Em qualquer problema, eles fornecem uma base sólida e fácil de usar para a maioria dos aplicativos.
## Series
A Series é um objeto unidimensional do tipo array que contém uma sequência de valores (de
tipos semelhantes aos tipos NumPy) e uma matriz associada de rótulos de dados, denominada índice.
A série mais simples é formada a partir de apenas uma matriz de dados:

In [4]:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

A representação em cadeia de uma série exibida interativamente mostra o índice no
esquerda e os valores à direita. Como não especificamos um índice para os dados, um
o padrão consiste nos números inteiros de 0 a N - 1 (onde N é o comprimento do
dados) é criado. Você pode obter a representação do array e o objeto de índice da série via
seus valores e atributos de índice, respectivamente:

In [7]:
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [8]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Muitas vezes, é desejável criar uma série com um índice que identifique cada ponto de dados
com um rótulo:

In [9]:
obj2 = pd.Series([4,7,-5,3],index = ['d','b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [10]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

Comparado com matrizes NumPy, você pode usar rótulos no índice ao selecionar um
valores ou um conjunto de valores:

Aqui ['c', 'a', 'd'] é interpretado como uma lista de índices, mesmo que contenha
strings em vez de números inteiros.
Usando funções NumPy ou operações semelhantes a NumPy, como filtrar com um valor booleano
matriz, multiplicação escalar ou aplicação de funções matemáticas preservarão o valor do índice
ligação:

In [12]:
obj2[obj2 > 0]

d    4
b    7
c    3
dtype: int64

In [13]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [14]:
import numpy as np

In [15]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Outra maneira de pensar sobre uma série é como um ditado ordenado de comprimento fixo, pois é um mapa
ping de valores de índice para valores de dados. Pode ser usado em muitos contextos onde você pode
use um ditado:

In [16]:
'b' in obj2

True

In [17]:
'e' in obj2

False

Se você tiver dados contidos em um ditado Python, poderá criar uma série a partir dele
passando o ditado:

In [18]:
sdata = {'Ohio':35000,'Texas':75000,'Oregon':16000,'Utah':5000}

In [19]:
obj3 = pd.Series(sdata)

In [20]:
obj3

Ohio      35000
Texas     75000
Oregon    16000
Utah       5000
dtype: int64

Quando você passa apenas um ditado, o índice na série resultante terá o ditado
chaves em ordem classificada. Você pode substituir isso, passando as chaves dict na ordem em que
deseja que eles apareçam na série resultante:

In [21]:
states = {'California','Ohio','Oregon','Texas'}

In [22]:
obj4 = pd.Series(sdata,index = states)
obj4

California        NaN
Ohio          35000.0
Texas         75000.0
Oregon        16000.0
dtype: float64

Aqui, três valores encontrados em sdata foram colocados nos locais apropriados, mas desde
nenhum valor para 'Califórnia' foi encontrado, ele aparece como NaN (não um número), que é con-
considerado em pandas para marcar valores ausentes ou NA. Como 'Utah' não foi incluído no
estados, ele é excluído do objeto resultante.

Usarei os termos "ausente" ou "NA" de forma intercambiável para me referir a dados ausentes. o
As funções isnull e notnull no pandas devem ser usadas para detectar dados ausentes:

In [23]:
pd.isnull(obj4)

California     True
Ohio          False
Texas         False
Oregon        False
dtype: bool

In [24]:
pd.notnull(obj4)

California    False
Ohio           True
Texas          True
Oregon         True
dtype: bool

In [25]:
obj4.isnull()

California     True
Ohio          False
Texas         False
Oregon        False
dtype: bool

Discuto o trabalho com dados ausentes com mais detalhes no Capítulo 7.
Um recurso útil da série para muitos aplicativos é o alinhamento automático por índice
etiqueta em operações aritméticas:

In [26]:
obj3

Ohio      35000
Texas     75000
Oregon    16000
Utah       5000
dtype: int64

In [27]:
obj4

California        NaN
Ohio          35000.0
Texas         75000.0
Oregon        16000.0
dtype: float64

In [28]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         150000.0
Utah               NaN
dtype: float64

Os recursos de alinhamento de dados serão abordados com mais detalhes posteriormente. Se você tem experiência
com bancos de dados, você pode pensar nisso como sendo semelhante a uma operação de junção.

O próprio objeto Series e seu índice têm um atributo name, que se integra ao
outras áreas-chave da funcionalidade dos pandas:

In [29]:
obj4.name = 'population'

In [31]:
obj4.index.name = 'states'

In [32]:
obj4

states
California        NaN
Ohio          35000.0
Texas         75000.0
Oregon        16000.0
Name: population, dtype: float64

O índice de uma série pode ser alterado no local por atribuição:

In [33]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [34]:
obj.index = ['bob','steve','jeff','rian']
obj

bob      4
steve    7
jeff    -5
rian     3
dtype: int64