# Notebook de Introdução ao Pandas

Este notebook apresenta os conceitos e comandos fundamentais da biblioteca `pandas`, uma ferramenta essencial para manipulação e análise de dados em Python.

Vamos abordar:
1. O que são `Series` e `DataFrames`.
2. Como criar um DataFrame do zero.
3. Os principais comandos para inspecionar e entender a estrutura de um DataFrame.
4. Formas básicas de selecionar e acessar dados.
5. Como renomear colunas.
6. Trabalhando com arquivos.

O conteúdo para intencionalmente **antes** de entrarmos em métodos de consulta e filtragem avançados.

### 1. Instalação e Importação

Primeiro, garantimos que o pandas está instalado e o importamos, seguindo a convenção da comunidade de chamá-lo de `pd`.

In [None]:
# Se o pandas não estiver instalado, a linha abaixo (descomentada) faria a instalação.
# !pip install pandas

# Importando a biblioteca
import pandas as pd

print(f"Pandas importado com sucesso na versão {pd.__version__}")

Pandas importado com sucesso na versão 2.2.2


In [None]:
!pip show pandas

Name: pandas
Version: 2.2.2
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: 
Author-email: The Pandas Development Team <pandas-dev@python.org>
License: BSD 3-Clause License

Copyright (c) 2008-2011, AQR Capital Management, LLC, Lambda Foundry, Inc. and PyData Development Team
All rights reserved.

Copyright (c) 2011-2023, Open source contributors.

Redistribution and use in source and binary forms, with or without
modification, are permitted provided that the following conditions are met:

* Redistributions of source code must retain the above copyright notice, this
  list of conditions and the following disclaimer.

* Redistributions in binary form must reproduce the above copyright notice,
  this list of conditions and the following disclaimer in the documentation
  and/or other materials provided with the distribution.

* Neither the name of the copyright holder nor the names of its
  contributors may be u

---

### 2. As Estruturas de Dados do Pandas

O Pandas possui duas estruturas de dados principais:

#### **`Series` (Série)**
É um array unidimensional, semelhante a uma coluna em uma planilha ou a uma lista em Python. Cada elemento em uma `Series` possui um rótulo (índice).

#### **`DataFrame` (Quadro de Dados)**
É uma estrutura de dados bidimensional, como uma tabela de banco de dados ou uma planilha do Excel. É a estrutura mais utilizada no pandas. Um `DataFrame` é, na prática, um conjunto de `Series` que compartilham o mesmo índice.

In [None]:
# Exemplo de criação de uma Series
nomes = ['Ana', 'Bruno', 'Carla', 'Daniel']
serie_nomes = pd.Series(nomes)

print("Isto é uma Series do Pandas:")
print(serie_nomes)

Isto é uma Series do Pandas:
0       Ana
1     Bruno
2     Carla
3    Daniel
dtype: object


---

### 3. Criando um DataFrame

A forma mais comum de criar um DataFrame do zero é a partir de um **dicionário de listas**, onde as chaves do dicionário se tornam os nomes das colunas e as listas se tornam os dados de cada coluna.

In [None]:
# Criando um dicionário com os dados
dados_funcionarios = {
    'Nome': ['Ana Silva', 'Bruno Costa', 'Carla Dias', 'Daniel Souza', 'Elisa Borges'],
    'Departamento': ['RH', 'TI', 'Vendas', 'TI', 'Vendas'],
    'Salario': [4500, 8200, 6000, 7500, None],
    'Anos_Empresa': [3, 7, 4, 6, 5]
}

# Criando o DataFrame a partir do dicionário
df = pd.DataFrame(dados_funcionarios)

# Exibindo o DataFrame completo
# (Em um notebook, apenas digitar o nome da variável na última linha já a exibe de forma formatada)
df

Unnamed: 0,Nome,Departamento,Salario,Anos_Empresa
0,Ana Silva,RH,4500.0,3
1,Bruno Costa,TI,8200.0,7
2,Carla Dias,Vendas,6000.0,4
3,Daniel Souza,TI,7500.0,6
4,Elisa Borges,Vendas,,5


---

### 4. Inspecionando um DataFrame

Depois de carregar ou criar um DataFrame, o primeiro passo é sempre inspecioná-lo para entender sua estrutura e seus dados. Abaixo estão os comandos mais importantes para essa tarefa.

#### `.head()` - Visualizando as primeiras linhas
Mostra as 5 primeiras linhas por padrão. Você pode passar um número como argumento para ver mais ou menos linhas (ex: `df.head(3)`).

In [None]:
df.head()

Unnamed: 0,Nome,Departamento,Salario,Anos_Empresa
0,Ana Silva,RH,4500,3
1,Bruno Costa,TI,8200,7
2,Carla Dias,Vendas,6000,4
3,Daniel Souza,TI,7500,6
4,Elisa Borges,Vendas,6300,5


#### `.tail()` - Visualizando as últimas linhas
Funciona da mesma forma que o `.head()`, mas para o final do DataFrame.

In [None]:
df.tail(3)

Unnamed: 0,Nome,Departamento,Salario,Anos_Empresa
2,Carla Dias,Vendas,6000,4
3,Daniel Souza,TI,7500,6
4,Elisa Borges,Vendas,6300,5


#### `.info()` - Obtendo um resumo técnico
Este é um dos comandos mais úteis. Ele fornece o número de entradas, colunas, contagem de valores não-nulos, tipo de dado de cada coluna e uso de memória.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Nome          5 non-null      object 
 1   Departamento  5 non-null      object 
 2   Salario       4 non-null      float64
 3   Anos_Empresa  5 non-null      int64  
dtypes: float64(1), int64(1), object(2)
memory usage: 292.0+ bytes


#### `.describe()` - Obtendo um resumo estatístico
Gera estatísticas descritivas para as colunas numéricas, como contagem, média, desvio padrão, mínimo, máximo e os quartis.

In [None]:
df.describe()

Unnamed: 0,Salario,Anos_Empresa
count,4.0,5.0
mean,6550.0,5.0
std,1646.207763,1.581139
min,4500.0,3.0
25%,5625.0,4.0
50%,6750.0,5.0
75%,7675.0,6.0
max,8200.0,7.0


#### `.shape` - Verificando as dimensões
Retorna uma tupla representando as dimensões do DataFrame (linhas, colunas).

In [None]:
print(f"O DataFrame tem {df.shape[0]} linhas e {df.shape[1]} colunas.")

O DataFrame tem 5 linhas e 4 colunas.


---

### 5. Seleção Básica de Colunas

A forma mais simples de selecionar dados é escolher uma ou mais colunas.

#### Selecionando uma única coluna
Para selecionar uma coluna, use colchetes `[]` com o nome da coluna. O resultado será uma `Series`.

In [None]:
# Selecionando a coluna 'Nome'
nomes_funcionarios = df['Nome']

print(type(nomes_funcionarios))
nomes_funcionarios

<class 'pandas.core.series.Series'>


Unnamed: 0,Nome
0,Ana Silva
1,Bruno Costa
2,Carla Dias
3,Daniel Souza
4,Elisa Borges


#### Selecionando múltiplas colunas
Para selecionar várias colunas, passe uma **lista de nomes de colunas** dentro dos colchetes `[[]]`. O resultado será um novo `DataFrame`.

In [None]:
# Selecionando as colunas 'Nome' e 'Salario'
df_nomes_salarios = df[['Nome', 'Salario']]

print(type(df_nomes_salarios))
df_nomes_salarios

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,Nome,Salario
0,Ana Silva,4500.0
1,Bruno Costa,8200.0
2,Carla Dias,6000.0
3,Daniel Souza,7500.0
4,Elisa Borges,


---

### 6. Acessando e Modificando Estruturas

Agora vamos ver outras formas de acessar dados e como modificar os nomes das colunas.

#### Acessando Colunas com Notação de Ponto (`.`)

Quando o nome de uma coluna não tem espaços ou caracteres especiais, você pode acessá-la como um atributo do DataFrame.

**Atenção:** É uma forma conveniente, mas menos segura. Se o nome da coluna for igual a um método do pandas (ex: `count`, `info`), ela não funcionará. **A notação com colchetes `df['Nome']` é sempre a mais recomendada.**

In [None]:
# Acessando a coluna 'Departamento' com notação de ponto
df.Departamento

Unnamed: 0,Departamento
0,RH
1,TI
2,Vendas
3,TI
4,Vendas


#### Acessando um Valor Específico (Célula)

Para pegar o valor de uma célula específica, a forma mais comum é usar `.loc[]`, que acessa dados pelo **rótulo do índice** e pelo **nome da coluna**.

Para acesso otimizado a um único valor, pode-se usar `.at[]`, que tem a mesma sintaxe mas é mais rápido.

In [None]:
# Nosso índice padrão vai de 0 a 4. Vamos pegar o salário do funcionário no índice 1 ('Bruno Costa').
salario_bruno = df.loc[1, 'Salario']
print(f"O salário do funcionário no índice 1 é: {salario_bruno}")

# Fazendo o mesmo com .at[] para performance
nome_elisa = df.at[4, 'Nome']
print(f"O nome do funcionário no índice 4 é: {nome_elisa}")


O salário do funcionário no índice 1 é: 8200.0
O nome do funcionário no índice 4 é: Elisa Borges


#### Renomeando Colunas

Existem duas formas principais de renomear colunas:

**1. Usando o método `.rename()` (Mais flexível)**

O método `.rename()` permite renomear colunas específicas através de um dicionário. Ele não modifica o DataFrame original, a menos que você use o argumento `inplace=True`.

In [None]:
# Renomeando 'Salario' para 'Salario_Bruto' e 'Anos_Empresa' para 'Tempo_de_Casa'
df_renomeado = df.rename(columns={
    'Salario': 'Salario_Bruto',
    'Anos_Empresa': 'Tempo_de_Casa'
})

df_renomeado.head()

**2. Atribuindo uma nova lista a `.columns` (Tudo ou nada)**

Você pode substituir todos os nomes das colunas de uma vez, atribuindo uma nova lista ao atributo `.columns`. A lista deve ter exatamente o mesmo número de elementos que o número de colunas.

In [None]:
# Criando uma cópia para não alterar o df original
df_copia = df.copy()

# A lista precisa ter o mesmo número de colunas do DataFrame (4)
novos_nomes = ['colaborador', 'setor', 'remuneracao', 'antiguidade_anos']
df_copia.columns = novos_nomes

df_copia.head()

### 7. Agrupamentos (`.groupby()`)

`groupby` é talvez a funcionalidade mais importante do pandas para análise de dados. Ela segue o processo "Split-Apply-Combine" (Dividir-Aplicar-Combinar):
1.  **Dividir:** Separa os dados em grupos com base em um critério (ex: por Departamento).
2.  **Aplicar:** Aplica uma função a cada grupo independentemente (ex: calcular a `média` do salário).
3.  **Combinar:** Junta os resultados em uma nova estrutura de dados.

In [None]:
# Qual é o salário médio por departamento?
media_salario_depto = df.groupby('Departamento')['Salario'].mean()
media_salario_depto

Unnamed: 0_level_0,Salario
Departamento,Unnamed: 1_level_1
RH,4500.0
TI,7850.0
Vendas,6000.0


In [None]:
# Agrupando por 'Departamento' e contando o número de nomes
contagem_funcionarios = df.groupby('Departamento')['Nome'].count()

print("Número de funcionários por Departamento:")
print(contagem_funcionarios)

Número de funcionários por Departamento:
Departamento
RH        1
TI        2
Vendas    2
Name: Nome, dtype: int64


### 8. Leitura e Escrita de Arquivos no Pandas: read_* e to_*

In [None]:
# Exemplo de Manipulação de Dados com Pandas: Um Fluxo Completo
dados_vendas = {
    'ID_Vendedor': [101, 102, 101, 103, 102, 101],
    'ID_Produto': [2001, 2002, 2003, 2001, 2004, 2002],
    'Valor_Venda': [1200.50, 550.00, 25.90, 1150.00, 899.99, 580.40]
}
df_vendas = pd.DataFrame(dados_vendas)
df_vendas.to_csv('vendas.csv', index=False)

NameError: name 'pd' is not defined

In [None]:
df_vendas_lido = pd.read_csv('vendas.csv')
df_vendas_lido

Unnamed: 0,ID_Vendedor,ID_Produto,Valor_Venda
0,101,2001,1200.5
1,102,2002,550.0
2,101,2003,25.9
3,103,2001,1150.0
4,102,2004,899.99
5,101,2002,580.4


---

### Fim da Introdução

Até aqui, cobrimos o essencial para começar a trabalhar com pandas
