# Aula 05: Introdução à Análise de Dados com Pandas

## O que é o Pandas?

Pandas é uma biblioteca de software livre para a linguagem de programação Python, amplamente utilizada para manipulação e análise de dados. Ela oferece estruturas de dados e operações para manipular tabelas numéricas e séries temporais.

O nome `pandas` tem referência tanto a *Panel Data* (dados em painel), um termo de econometria para conjuntos de dados multidimensionais, quanto a *Python Data Analysis*.

As duas principais estruturas de dados do Pandas são a **Series** (unidimensional) e o **DataFrame** (bidimensional).

### Instalando e importando o Pandas

Primeiro, se você ainda não tiver o pandas instalado, pode instalá-lo com o pip:
```bash
pip install pandas numpy
```
Em seguida, a convenção da comunidade é importar o pandas com o apelido `pd` e o numpy (que é frequentemente usado junto com o pandas) como `np`. 

In [None]:
import pandas as pd
import numpy as np

### Series

Uma `Series` é como um array unidimensional que pode armazenar qualquer tipo de dado (inteiros, strings, floats, objetos Python, etc.), com um índice associado. O índice é o que rotula cada elemento da `Series`. 

In [None]:
# Criando uma Series a partir de uma lista
s = pd.Series([10, 20, 30, np.nan, 50, 60])

print(s)

### DataFrame

Um `DataFrame` é uma estrutura de dados bidimensional, semelhante a uma planilha do Excel ou uma tabela de banco de dados. Ele possui linhas e colunas, e cada coluna pode ter um tipo de dado diferente. 

In [None]:
# Criando um DataFrame a partir de um dicionário de listas
data = {
    'País': ['Brasil', 'Argentina', 'Uruguai', 'Chile'],
    'Capital': ['Brasília', 'Buenos Aires', 'Montevidéu', 'Santiago'],
    'População (milhões)': [214, 45, 3.4, 19]
}

df = pd.DataFrame(data)

print(df)

### Visualizando Dados

Existem várias funções para obter uma visão rápida dos seus dados: 

In [None]:
# Mostra as 5 primeiras linhas
df.head()

In [None]:
# Mostra as 3 últimas linhas
df.tail(3)

In [None]:
# Fornece um resumo estatístico dos dados numéricos
df.describe()

In [None]:
# Fornece informações sobre o DataFrame, como tipos de dados e uso de memória
df.info()

### Seleção de Dados

Você pode selecionar colunas, linhas e células específicas. 

In [None]:
# Selecionando uma única coluna (retorna uma Series)
df['Capital']

In [None]:
# Selecionando múltiplas colunas
df[['País', 'Capital']]

#### Seleção por Rótulo (`.loc`)
Use `.loc` para selecionar dados com base nos rótulos do índice. 

In [None]:
# Selecionando a linha com índice 1
df.loc[1]

#### Seleção por Posição (`.iloc`)
Use `.iloc` para selecionar dados com base na posição inteira (de 0 até o tamanho-1).

In [None]:
# Selecionando a primeira linha (posição 0)
df.iloc[0]

### Filtrando Dados

Podemos filtrar o DataFrame com base em condições. 

In [None]:
# Filtrando países com população maior que 20 milhões
df[df['População (milhões)'] > 20]

### Leitura e Escrita de Arquivos

Pandas pode ler e escrever dados em diversos formatos, como CSV, Excel, JSON, SQL, etc. 

In [None]:
# Salvando o DataFrame em um arquivo CSV
df.to_csv('paises.csv', index=False) # index=False para não salvar o índice no arquivo

print("Arquivo 'paises.csv' salvo com sucesso!")

In [None]:
# Lendo dados de um arquivo CSV
df_lido = pd.read_csv('paises.csv')

print("Conteúdo lido do arquivo:")
print(df_lido)

### Conclusão

Esta foi uma breve introdução ao Pandas. Cobrimos os conceitos básicos de Series e DataFrames, como visualizar, selecionar, filtrar e salvar dados. O Pandas é uma ferramenta extremamente poderosa e versátil, e explorar sua documentação oficial é o melhor caminho para se aprofundar.