# üêº Introdu√ß√£o ao Pandas
## 1. O que √© o Pandas?
Pandas √© uma biblioteca de c√≥digo aberto do Python, otimizada para a manipula√ß√£o e an√°lise de dados. Ela √© a principal ferramenta para trabalhar com dados estruturados, como planilhas e bancos de dados, oferecendo duas estruturas de dados essenciais:  
- `Series`: Um array unidimensional que armazena dados de qualquer tipo.  
- `DataFrame`: A estrutura mais utilizada, que representa uma tabela bidimensional com linhas e colunas, similar a uma planilha do Excel ou a uma tabela de um banco de dados.  
Vamos come√ßar importando a biblioteca. √â uma conven√ß√£o popular usar o alias `pd`.

In [1]:
import pandas as pd

---
## 2. A Estrutura Series
Um objeto `Series` √© uma coluna de um DataFrame. Voc√™ pode criar uma Series a partir de uma lista ou de um dicion√°rio.  
Criando a partir de uma lista

In [2]:
# Criando uma Series a partir de uma lista de dados
dados_series = [10, 20, 30, 40, 50]
minha_series = pd.Series(dados_series)

print(minha_series)

0    10
1    20
2    30
3    40
4    50
dtype: int64


**Criando a partir de um dicion√°rio**  
Ao criar a partir de um `dicion√°rio`, as **chaves se tornam o √≠ndice da Series**.

In [3]:
# Criando uma Series a partir de um dicion√°rio
dados_dicionario = {
    'A': 100,
    'B': 200,
    'C': 300
}
minha_series_dic = pd.Series(dados_dicionario)

print(minha_series_dic)

A    100
B    200
C    300
dtype: int64


---
## 3. A Estrutura DataFrame
  O `DataFrame` √© a estrutura mais poderosa do Pandas. Ele √© uma cole√ß√£o de objetos Series, onde cada Series representa uma coluna.  
**Criando um DataFrame a partir de um dicion√°rio**  
A forma mais comum de criar um `DataFrame` √© a partir de um `dicion√°rio`, onde **as chaves s√£o os nomes das colunas** e os **valores s√£o os dados**.

In [4]:
# Criando um DataFrame a partir de um dicion√°rio
dados_dataframe = {
    'Nome': ['Jo√£o', 'Maria', 'Pedro', 'Ana'],
    'Idade': [25, 30, 35, 28],
    'Cidade': ['S√£o Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'S√£o Paulo']
}

df = pd.DataFrame(dados_dataframe)

# Mostrando o DataFrame
print(df)

    Nome  Idade          Cidade
0   Jo√£o     25       S√£o Paulo
1  Maria     30  Rio de Janeiro
2  Pedro     35  Belo Horizonte
3    Ana     28       S√£o Paulo


---
## 4. Opera√ß√µes B√°sicas
Com um DataFrame criado, podemos realizar opera√ß√µes de sele√ß√£o, visualiza√ß√£o e resumo.  
**Visualizando as primeiras linhas**  
Use o m√©todo `.head()` para ver as primeiras **5 linhas do DataFrame**.

In [5]:
# Mostra as 5 primeiras linhas do DataFrame
print(df.head())

    Nome  Idade          Cidade
0   Jo√£o     25       S√£o Paulo
1  Maria     30  Rio de Janeiro
2  Pedro     35  Belo Horizonte
3    Ana     28       S√£o Paulo


**Resumo das informa√ß√µes do DataFrame**  
O m√©todo `.info()` fornece um resumo conciso, incluindo os tipos de dados e a contagem de valores n√£o nulos.

In [6]:
# Mostra um resumo do DataFrame
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nome    4 non-null      object
 1   Idade   4 non-null      int64 
 2   Cidade  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes
None


**Selecionando colunas**  
Voc√™ pode selecionar uma ou mais colunas de forma simples.

In [7]:
# Selecionando uma √∫nica coluna
cidades = df['Cidade']
print("Coluna 'Cidade':")
print(cidades)

# Selecionando m√∫ltiplas colunas
nomes_e_idades = df[['Nome', 'Idade']]
print("\nColunas 'Nome' e 'Idade':")
print(nomes_e_idades)

Coluna 'Cidade':
0         S√£o Paulo
1    Rio de Janeiro
2    Belo Horizonte
3         S√£o Paulo
Name: Cidade, dtype: object

Colunas 'Nome' e 'Idade':
    Nome  Idade
0   Jo√£o     25
1  Maria     30
2  Pedro     35
3    Ana     28


**Selecionando linhas**  
O Pandas oferece duas formas principais de selecionar linhas:  
- `.loc[]`: Seleciona com base no nome ou r√≥tulo do √≠ndice.  
- `.iloc[]`: Seleciona com base na posi√ß√£o (√≠ndice num√©rico).

In [8]:
# Selecionando a primeira linha usando .iloc[] (√≠ndice 0)
primeira_linha = df.iloc[0]
print("Primeira linha do DataFrame:")
print(primeira_linha)

# Selecionando a linha com √≠ndice 2 (terceira linha)
terceira_linha = df.iloc[2]
print("\nTerceira linha do DataFrame:")
print(terceira_linha)

Primeira linha do DataFrame:
Nome           Jo√£o
Idade            25
Cidade    S√£o Paulo
Name: 0, dtype: object

Terceira linha do DataFrame:
Nome               Pedro
Idade                 35
Cidade    Belo Horizonte
Name: 2, dtype: object


**Resumo estat√≠stico**  
O m√©todo `.describe()` √© perfeito para gerar estat√≠sticas descritivas das colunas num√©ricas.

In [9]:
# Gerando um resumo estat√≠stico das colunas num√©ricas
resumo_estatistico = df.describe()
print(resumo_estatistico)

           Idade
count   4.000000
mean   29.500000
std     4.203173
min    25.000000
25%    27.250000
50%    29.000000
75%    31.250000
max    35.000000


---
## üèÅ Conclus√£o
Neste notebook, cobrimos os **fundamentos essenciais do Pandas**, a biblioteca mais poderosa para **manipula√ß√£o** e **an√°lise de dados em Python**.  
- Aprender a diferen√ßa entre Series e DataFrames √© o primeiro e mais importante passo para trabalhar com dados tabulares.  
- Dominar m√©todos como `.head()`, `.info()` e `.describe()` permite uma explora√ß√£o r√°pida e eficiente de qualquer dataset.  
- A sele√ß√£o de dados com `[]`, `.loc[]` e `.iloc[]` garante a flexibilidade necess√°ria para acessar informa√ß√µes espec√≠ficas no seu DataFrame.  
- Com essas ferramentas, voc√™ tem a base s√≥lida para iniciar qualquer projeto de an√°lise de dados, desde a simples inspe√ß√£o at√© a manipula√ß√£o mais complexa.