# Introdução aos Pandas



Pandas é uma biblioteca de código aberto para Python que fornece estruturas de dados de alto desempenho e fáceis de usar, além de ferramentas de análise de dados. Seu principal objeto é o DataFrame, que permite a manipulação eficiente de dados em formato tabular, semelhante a uma planilha, com linhas e colunas rotuladas. O Pandas também oferece funcionalidades para ler e escrever dados em diversos formatos, como `CSV`, `Excel`, `SQL`, `JSON` entre outros, tornando-o uma ferramenta poderosa para análise e manipulação de dados em Python.

---



# Series

O primeiro tipo de dado que aprenderemos é a Serie. Vamos importar Pandas e explorar tal objeto.

A Serie é muito semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy). O que diferencia a matriz NumPy de uma Série, é que uma Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica. Também não precisa manter dados numéricos, ele pode conter qualquer objeto Python arbitrário.

Uma coisa importante é dizer que uma Serie está para uma coluna e a tabela para o dataFrame


Vamos explorar este conceito através de alguns exemplos:


--- 

### Criando uma Serie

Você pode converter uma lista, numpy array ou dicionário para uma série:

In [11]:
import pandas as pd
import numpy as np


##criando objetos

labels = ['Alberto', 'Bianca' ,'Cristiano']

minha_lista = [10 ,20 ,30]

arr = np.array([10, 20, 30]) #array



---
**instanciando** utilizando `labels`:

*Obs* : Repare que em `dtype: object` ele atribui como o tipo `object` que ocorre quando ele tiver lidando com alguma variável convertida para string

Existem os índices `0`, `1`, `2`. Que são formas de localizar a linha daquela Serie


In [12]:

pd.Series(labels)

0      Alberto
1       Bianca
2    Cristiano
dtype: object

**Mudando o index** ...

In [13]:
pd.Series(labels, index= minha_lista)


10      Alberto
20       Bianca
30    Cristiano
dtype: object

---
Usando **listas**: `minha_lista`

In [14]:
pd.Series(data=minha_lista)

0    10
1    20
2    30
dtype: int64

In [15]:
pd.Series(minha_lista,labels)

Alberto      10
Bianca       20
Cristiano    30
dtype: int64

#### **NumPy Arrays**

In [16]:
pd.Series(arr)

0    10
1    20
2    30
dtype: int64

---
---
### **Dicionários**

Dicionários são objetos que se adequam muito bem com Series e muito além disso, com DataFrames em pandas

Como podemos perceber, as `chaves` serão índices 


In [17]:
dicio = {'a':10, 'b':20, 'c': 30} #dicio

pd.Series(dicio)

a    10
b    20
c    30
dtype: int64

### Exemplo com cotações: ...

In [19]:
import pandas as pd

# Datas dos registros
datas = pd.date_range('2024-04-01', periods=5)

# Cotações das ações
cotacoes = [100.50, 102.00, 98.75, 105.20, 107.80]

# Criando a série de cotações de ações
serie_cotacoes = pd.Series(cotacoes, index=datas)

print(serie_cotacoes)


2024-04-01    100.50
2024-04-02    102.00
2024-04-03     98.75
2024-04-04    105.20
2024-04-05    107.80
Freq: D, dtype: float64


In [20]:
datas

DatetimeIndex(['2024-04-01', '2024-04-02', '2024-04-03', '2024-04-04',
               '2024-04-05'],
              dtype='datetime64[ns]', freq='D')

--- 
---
## Usando um Índice

A chave para usar uma Serie é entender seu índice. O Pandas faz uso desses nomes ou números de índice, permitindo pesquisas rápidas de informações (funciona como uma tabela de hash ou dicionário).

Vamos ver alguns exemplos de como pegar informações de uma Serie. Vamos criar duas Series, ser1 e ser2:

In [23]:
import pandas as pd

# Medalhas de ouro conquistadas por quatro países em duas edições diferentes dos Jogos Olímpicos
ser1 = pd.Series([46, 37, 10, 16], index=['EUA', 'Alemanha', 'USSR', 'Japão'])
ser2 = pd.Series([39, 36, 8, 12], index=['EUA', 'Alemanha', 'Italia', 'Japão'])

print(f'Series s1: \n {ser1} \n \n ')
print(f'Series s2 \n \n{ser2}')
                     

Series s1: 
 EUA         46
Alemanha    37
USSR        10
Japão       16
dtype: int64 
 
 
Series s2 
 
EUA         39
Alemanha    36
Italia       8
Japão       12
dtype: int64



#### Você pode especificar o **Index**...  e puxar o dado

Vamos ver o que acontece

In [31]:
print(f"Chamando s1 índice EUA -->       {ser1['EUA']}")

print(f"Chamando s1 índice Alemanha -->  {ser1['Alemanha'] }")

Chamando s1 índice EUA -->       46
Chamando s1 índice Alemanha -->  37


---
### Múltiplos índices

Se quisermos múltiplos índices, devemos colocar esses índices em uma lista

In [32]:
ser1[['EUA', 'Alemanha']]

EUA         46
Alemanha    37
dtype: int64

As operações também são feitas com base no índice:

Elas somam quem tem índice igual e caso não encontre um par, ela retorna `Nan`

In [33]:
Serie_soma = ser1 + ser2

print(Serie_soma)

Alemanha    73.0
EUA         85.0
Italia       NaN
Japão       28.0
USSR         NaN
dtype: float64


In [36]:


# Medalhas de ouro conquistadas por quatro países em duas edições diferentes dos Jogos Olímpicos
ser1 = pd.Series([46, 37, 10, 16, 20], index=['EUA', 'Alemanha', 'Italia', 'Japão', 'URSS'])
ser2 = pd.Series([39, 36, 8, 12, 50], index=['EUA', 'Alemanha', 'Italia', 'Japão', 'URSS'])

# Soma
print(f"Soma:\n{ser1 + ser2}\n")

# Subtração
print(f"Subtração:\n{ser1 - ser2}\n")

# Divisão
print(f"Divisão:\n{ser1 / ser2}\n")

# Multiplicação
print(f"Multiplicação:\n{ser1 * ser2}\n")


Soma:
EUA         85
Alemanha    73
Italia      18
Japão       28
URSS        70
dtype: int64

Subtração:
EUA          7
Alemanha     1
Italia       2
Japão        4
URSS       -30
dtype: int64

Divisão:
EUA         1.179487
Alemanha    1.027778
Italia      1.250000
Japão       1.333333
URSS        0.400000
dtype: float64

Multiplicação:
EUA         1794
Alemanha    1332
Italia        80
Japão        192
URSS        1000
dtype: int64



Continuamos falando de DataFrames 
