# Introdução ao Pandas

Pandas é uma biblioteca que fornece estruturas de dados e ferramentas de análise de dados de alto desempenho e fáceis de usar para a linguagem de programação Python.

### Importando Pandas

Para começar a usar o Pandas, você precisa importá-lo. A convenção é importá-lo como pd:

In [31]:
import pandas as pd

### Criando DataFrames


Um DataFrame é uma estrutura de dados bidimensional, similar a uma tabela em um banco de dados ou uma planilha Excel.

In [None]:
# Criando um DataFrame a partir de um dicionário
data = {
    'Região': ['RJ', 'SP', 'RS', 'BA'],
    'Latitude': [-23, -24, -32, -13],
    'Longitude': [-43, -46, -51, -38],
    'Temperatura': [27, 25, 14, 30],
    'Salinidade': [36, 34, 32, 37]
}

df1 = pd.DataFrame(data)
print(df1)

### Explorando o DataFrame

Algumas operações básicas que podem ser realizadas com um DataFrame incluem:

In [None]:
# Obtendo informações gerais
print(df1.info())  # Informações sobre o DataFrame
print(df1.describe())  # Estatísticas descritivas
print(df1.shape) # Dimensões do DataFrame
print(df1.keys()) # Colunas do DataFrame

In [None]:
# Visualizando as primeiras e últimas linhas
print(df1.head())  # Primeiras 5 linhas
print(df1.tail())  # Últimas 5 linhas

In [None]:
# Selecionando uma coluna
print(df1['Salinidade'])  # Seleciona a coluna 'Salinidade'

# Selecionando várias colunas
print(df1[['Temperatura', 'Salinidade']])  # Seleciona as colunas 'Temperatura' e 'Salinidade'

In [None]:
# Filtrando linhas
print(df1[df1['Temperatura'] > 25])  # Filtra linhas onde a temperatura é maior que 25

In [None]:
# Adicionando uma nova coluna
df1['Elevação'] = [0.2, 0.5, 0.7, 0.4]
print(df1)

In [None]:
# Adicionando uma nova linha
dados_novos = {'Região': ['RJ', 'SP', 'PR', 'SC'], 'Latitude': [-23, -24, -26, -27],
               'Longitude': [-44, -45, -48, -48], 'Temperatura': [26, 24, 20, 18],
               'Salinidade': [35, 37, 33, float('nan')], 'Elevação': [0.3, 0.4, float('nan'), float('nan')]} # Dicionário com novos dados

df_dados_novos = pd.DataFrame(dados_novos) # Transforma o dicionário em um DataFrame

df2 = pd.concat([df1, df_dados_novos], ignore_index=True) # Concatena os dois DataFrames
print(df2)

### Manipulando dados

Aqui estão algumas operações úteis de manipulação de dados:

In [None]:
# Classificando os dados
df2_sorted = df2.sort_values(by='Temperatura') # Classifica os valores pela coluna de temperatura
print(df2_sorted)

In [None]:
# Agrupando os dados
grouped = df2.groupby('Região').mean()  # Agrupa por região e calcula a média de todas as variáveis
print(grouped)

In [None]:
# Trabalhando com dados ausentes (NaN = Not a Number)
print(df2.dropna())  # Remove linhas com dados ausentes
print(df2.fillna(99999))  # Substitui dados ausentes por um valor específico

### Salvando dados

In [42]:
# Salvando o DataFrame em um arquivo .csv:
df2.to_csv('teste.csv', index=False)

### Lendo arquivos no DataFrame

É possível ler dados de arquivos `.csv`, `.xsl`, `.txt`, entre outros formatos. Aqui está um exemplo de como ler um arquivo `.csv`:

In [None]:
# Fazendo download de um conjunto de dados armazenado no GitHub
!curl -LJO https://raw.githubusercontent.com/labofis/labofis_tutoriais/refs/heads/main/dados_pirata.csv

# Lendo o arquivo
df_pirata = pd.read_csv('dados_pirata.csv')
print(df_pirata)

### Organizando os dados

In [None]:
# Criando uma coluna do tipo datetime a partir da coluna 'datahora'
df_pirata['datetime'] = pd.to_datetime(df_pirata['datahora'], utc=True) # Devido o formato dos dados de tempo (00+00), torna-se necessário o uso do parâmetro 'utc'

# Indexando a coluna 'datetime'
df_pirata.index = df_pirata['datetime']

# Removendo as colunas não utilizadas
df_pirata = df_pirata.drop(['Unnamed: 0', 'datahora', 'datetime'], axis=1)

print(df_pirata)

### Plotando os dados

In [None]:
# Plotando todas as colunas em um único gráfico (index no eixo x e colunas no eixo y)
df_pirata.plot()

In [None]:
# Plotando apenas a coluna de salinidade (index no eixo x e salinidade no eixo y)
df_pirata['s_1'].plot()

Conforme apresentado, a biblioteca Pandas permite a criação de gráficos simples e rápidos, sendo útil para visualizações iniciais dos dados. No entanto, para gráficos mais elaborados e personalizados, é comum recorrer à biblioteca Matplotlib. É possível utilizar ambas as bibliotecas em conjunto, com o Pandas responsável pela plotagem e o Matplotlib pela personalização, ou ainda optar por usar exclusivamente o Matplotlib para um controle mais completo sobre o gráfico.

### Conclusão

Este tutorial apresenta conceitos fundamentais da biblioteca Pandas, uma ferramenta poderosa para manipulação e análise de dados em Python. Com esse conteúdo, você deve ser capaz de criar DataFrames, ler dados de arquivos (como `.csv`) e realizar operações básicas. Para mais informações, recomenda-se consultar a [documentação oficial do Pandas](https://pandas.pydata.org/docs/index.html).