# 🐼 Introdução ao Pandas
## 1. O que é o Pandas?
Pandas é uma biblioteca de código aberto do Python, otimizada para a manipulação e análise de dados. Ela é a principal ferramenta para trabalhar com dados estruturados, como planilhas e bancos de dados, oferecendo duas estruturas de dados essenciais:  
- `Series`: Um array unidimensional que armazena dados de qualquer tipo.  
- `DataFrame`: A estrutura mais utilizada, que representa uma tabela bidimensional com linhas e colunas, similar a uma planilha do Excel ou a uma tabela de um banco de dados.  
Vamos começar importando a biblioteca. É uma convenção popular usar o alias `pd`.

In [1]:
import pandas as pd

---
## 2. A Estrutura Series
Um objeto `Series` é uma coluna de um DataFrame. Você pode criar uma Series a partir de uma lista ou de um dicionário.  
Criando a partir de uma lista

In [2]:
# Criando uma Series a partir de uma lista de dados
dados_series = [10, 20, 30, 40, 50]
minha_series = pd.Series(dados_series)

print(minha_series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


**Criando a partir de um dicionário**  
Ao criar a partir de um `dicionário`, as **chaves se tornam o índice da Series**.

In [3]:
# Criando uma Series a partir de um dicionário
dados_dicionario = {
    'A': 100,
    'B': 200,
    'C': 300
}
minha_series_dic = pd.Series(dados_dicionario)

print(minha_series_dic)

A    100
B    200
C    300
dtype: int64


---
## 3. A Estrutura DataFrame
  O `DataFrame` é a estrutura mais poderosa do Pandas. Ele é uma coleção de objetos Series, onde cada Series representa uma coluna.  
**Criando um DataFrame a partir de um dicionário**  
A forma mais comum de criar um `DataFrame` é a partir de um `dicionário`, onde **as chaves são os nomes das colunas** e os **valores são os dados**.

In [4]:
# Criando um DataFrame a partir de um dicionário
dados_dataframe = {
    'Nome': ['João', 'Maria', 'Pedro', 'Ana'],
    'Idade': [25, 30, 35, 28],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'São Paulo']
}

df = pd.DataFrame(dados_dataframe)

# Mostrando o DataFrame
print(df)

    Nome  Idade          Cidade
0   João     25       São Paulo
1  Maria     30  Rio de Janeiro
2  Pedro     35  Belo Horizonte
3    Ana     28       São Paulo


---
## 4. Operações Básicas
Com um DataFrame criado, podemos realizar operações de seleção, visualização e resumo.  
**Visualizando as primeiras linhas**  
Use o método `.head()` para ver as primeiras **5 linhas do DataFrame**.

In [5]:
# Mostra as 5 primeiras linhas do DataFrame
print(df.head())

    Nome  Idade          Cidade
0   João     25       São Paulo
1  Maria     30  Rio de Janeiro
2  Pedro     35  Belo Horizonte
3    Ana     28       São Paulo


**Resumo das informações do DataFrame**  
O método `.info()` fornece um resumo conciso, incluindo os tipos de dados e a contagem de valores não nulos.

In [6]:
# Mostra um resumo do DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    4 non-null      object
 1   Idade   4 non-null      int64 
 2   Cidade  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes
None


**Selecionando colunas**  
Você pode selecionar uma ou mais colunas de forma simples.

In [7]:
# Selecionando uma única coluna
cidades = df['Cidade']
print("Coluna 'Cidade':")
print(cidades)

# Selecionando múltiplas colunas
nomes_e_idades = df[['Nome', 'Idade']]
print("\nColunas 'Nome' e 'Idade':")
print(nomes_e_idades)

Coluna 'Cidade':
0         São Paulo
1    Rio de Janeiro
2    Belo Horizonte
3         São Paulo
Name: Cidade, dtype: object

Colunas 'Nome' e 'Idade':
    Nome  Idade
0   João     25
1  Maria     30
2  Pedro     35
3    Ana     28


**Selecionando linhas**  
O Pandas oferece duas formas principais de selecionar linhas:  
- `.loc[]`: Seleciona com base no nome ou rótulo do índice.  
- `.iloc[]`: Seleciona com base na posição (índice numérico).

In [8]:
# Selecionando a primeira linha usando .iloc[] (índice 0)
primeira_linha = df.iloc[0]
print("Primeira linha do DataFrame:")
print(primeira_linha)

# Selecionando a linha com índice 2 (terceira linha)
terceira_linha = df.iloc[2]
print("\nTerceira linha do DataFrame:")
print(terceira_linha)

Primeira linha do DataFrame:
Nome           João
Idade            25
Cidade    São Paulo
Name: 0, dtype: object

Terceira linha do DataFrame:
Nome               Pedro
Idade                 35
Cidade    Belo Horizonte
Name: 2, dtype: object


**Resumo estatístico**  
O método `.describe()` é perfeito para gerar estatísticas descritivas das colunas numéricas.

In [9]:
# Gerando um resumo estatístico das colunas numéricas
resumo_estatistico = df.describe()
print(resumo_estatistico)

           Idade
count   4.000000
mean   29.500000
std     4.203173
min    25.000000
25%    27.250000
50%    29.000000
75%    31.250000
max    35.000000


---
## 🏁 Conclusão
Neste notebook, cobrimos os **fundamentos essenciais do Pandas**, a biblioteca mais poderosa para **manipulação** e **análise de dados em Python**.  
- Aprender a diferença entre Series e DataFrames é o primeiro e mais importante passo para trabalhar com dados tabulares.  
- Dominar métodos como `.head()`, `.info()` e `.describe()` permite uma exploração rápida e eficiente de qualquer dataset.  
- A seleção de dados com `[]`, `.loc[]` e `.iloc[]` garante a flexibilidade necessária para acessar informações específicas no seu DataFrame.  
- Com essas ferramentas, você tem a base sólida para iniciar qualquer projeto de análise de dados, desde a simples inspeção até a manipulação mais complexa.