# Capítulo 5 - Introdução ao pandas

Pode ser mais fácil importar as estruturas de dados *Series* e *DataFrame* para o namespace local já que elas são muito usadas:

In [1]:
from pandas import Series, DataFrame

## 5.1 Introdução às estruturas de dados do pandas

### Series

>É um objeto de tipo array unidimensional que contém uma sequência de valores de mesmo tipo e um array associado com rótulos de dados chamado *índice*.

In [3]:
import pandas as pd

In [4]:
# A Series mais simples é formada a partir de um array de dados:
obj = pd.Series([4,7,-5,3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

Um índice padrão é composto por inteiros de `0 ` a ` N -1` (onde `N` é a extensão dos dados).

Você pode obter a representação do array e o objeto de índice da Series por meio de seus atributos `array` e `index`, respectivamente:

In [5]:
obj.array

<NumpyExtensionArray>
[4, 7, -5, 3]
Length: 4, dtype: int64

In [6]:
obj.index

RangeIndex(start=0, stop=4, step=1)

É recomendável criar uma Series com um índice que identifique cada ponto de dados com rótulo:

In [8]:
obj2 = pd.Series([4,7,-5,3], index=["d","b","a","c"])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [9]:
obj.index

RangeIndex(start=0, stop=4, step=1)

Podemos usar rótulos no índice ao selecionar valores individuais ou um conjunto de valores:

In [11]:
obj2["a"]

np.int64(-5)

In [12]:
obj2["d"] = 6

In [13]:
obj2[["c","a","d"]]

c    3
a   -5
d    6
dtype: int64

Usar funções ou operações com as do Numpy, preservará a ligação entre índice e valor:

In [14]:
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [19]:
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [20]:
import numpy as np
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

Outra maneira de considerar uma Series seria como um dicionário ordenado de tamanho fixo.

In [21]:
"b" in obj2

True

In [22]:
"e" in obj2

False

In [24]:
sdata = {"Ohio": 35000, "Texas": 71000, "Oregon": 16000, "Utah": 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

Uma Series pode ser convertida novamente em um dicionários com seu método **`to_dict`**:

In [25]:
obj3.to_dict()

{'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}

o índice da Series respeitará a ordem das chaves de acordo com o método `keys` do dicionário, que depende da ordem de inserção das chaves.
Você pode sobrescrever esse comportamento passando um índice com as chaves do dicionário na ordem que deseja que elas apareçam na Series resultante:

In [26]:
states = ["California", "Ohio", "Oregon", "Texas"]
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

já que nenhum valor foi encontrado para *California*, ele aparece como `NaN`. 

As funções **`isna`** e **`notna`** do pandas devem ser usadas para detectar dados ausentes:

In [27]:
pd.isna(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [28]:
pd.notna(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

Uma Series tem esses métodos como métodos de instância:

In [29]:
obj4.isna()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

Series fazem alinhamento automático pelo rótulo do índice em operações aritméticas:

In [30]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [31]:
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [32]:
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

Tanto o objeto Series quanto seu índice têm um atributo **`name`**:

In [35]:
obj4.name = "population"
obj4.index.name = "state"
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

Um índice de uma Series pode ser alterado diretamente no local por atribuição:

In [36]:
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [37]:
obj.index = ["Bob","Steve","Jeff","Ryan"]
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### DataFrame

>Representa uma tabela de dados retangular e contém uma coleção ordenada e nomeada de colunas, cada uma podendo ter um tipo de valor diferente (numérico, string, booleano etc...). O Dataframe tem um índice tanto para a linha quanto para a coluna; ele pode ser considerado um dicionário de Series, todas compartilhando o mesmo índice.

Existem muitas maneiras de criar um DataFrame, embora um das mais comuns seja a partir de um dicionário de listas de mesmo tamanho ou de arrays NumPy:

In [44]:
data = {"state": ["Ohio", "Ohio", "Ohio", "Nevada", "Nevada", "Nevada"],
        "year": [2000, 2001, 2002, 2001, 2002, 2003],
        "pop": [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]
       }
frame = pd.DataFrame(data)
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [None]:
#exemplo retirado do chatGPT

data1 = {
    "Nome": ["Ana", "Bruno", "Carlos"],
    "Idade": [23, 31, 19],
    "Cidade": ["SP", "RJ", "MG"]
}

In [None]:
df = pd.DataFrame(data1)
df

Para DataFrames grandes, o método **`head`** só seleciona as cinco primeiras linhas: 

In [48]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


Da mesma forma **`tail`** retorna as cinco últimas linhas:

In [49]:
frame.tail()

Unnamed: 0,state,year,pop
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Se você especificar uma sequência de colunas, as colunas do DataFrame serão organizadas nesta ordem:

In [50]:
pd.DataFrame(data, columns=["year","state","pop"])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


Se passar uma coluna que não esteja contida no dicionário, ela aparecerá com valores ausentes no resultado:

In [51]:
frame2 = pd.DataFrame(data, columns=["year","state","pop","debt"])
frame2

Unnamed: 0,year,state,pop,debt
0,2000,Ohio,1.5,
1,2001,Ohio,1.7,
2,2002,Ohio,3.6,
3,2001,Nevada,2.4,
4,2002,Nevada,2.9,
5,2003,Nevada,3.2,


In [52]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

Uma coluna de um DataFrame pode ser recuperada como uma Series por uma notação, como a do dicionário, ou com o uso da notação de atributo com ponto:

In [53]:
frame2["state"]

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [54]:
frame2.state

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object