# Pandas - Notas de Estudo

## O que √© Pandas?
<table style="border: none;">
<tr>
<td width="246" style="border: none;">

<img src="https://pandas.pydata.org/static/img/pandas_white.svg" width="246">

</td>
<td style="border: none;">

Pandas √© uma biblioteca Python que fornece estruturas de dados r√°pidas, flex√≠veis e expressivas, projetadas para tornar o trabalho com dados "relacionais" ou "rotulados" f√°cil e intuitivo. Ela visa ser o bloco de constru√ß√£o fundamental de alto n√≠vel para an√°lise de dados pr√°tica e do mundo real em Python.

Pandas √© constru√≠do sobre o NumPy e se integra bem com outras bibliotecas cient√≠ficas de terceiros.

</td>
</tr>
</table>

## Instala√ß√£o

<table style="border: none;">
<tr>
<td width="50%" style="border: none;">

**Com pip:**

```bash
pip install pandas
```

</td>
<td width="50%" style="border: none;">

**Com conda:**

```bash
conda install pandas
```

</td>
</tr>
</table>

## Importa√ß√£o

Para usar o Pandas em seu c√≥digo Python, importe-o convencionalmente como `pd`:

```python
import pandas as pd
```

Adicionalmente, tamb√©m importaremos o NumPy, j√° que o Pandas √© constru√≠do sobre ele e frequentemente precisamos de suas funcionalidades para opera√ß√µes num√©ricas avan√ßadas.

In [1]:
# %pip install pandas

import pandas as pd
import numpy as np

print(pd.__version__)
print(np.__version__)

2.3.3
2.3.4


## Estruturas de Dados Principais

Vamos estudar as estruturas de dados do Pandas, come√ßando por Series.

### 1. Series (1D)

Array unidimensional rotulado e homog√™neo - similar a uma coluna em uma planilha ou um vetor com √≠ndices.

**Caracter√≠sticas:**
- Pode conter qualquer tipo de dado (inteiros, strings, floats, objetos Python, etc.)
- Possui um √≠ndice que rotula cada elemento
- Suporta opera√ß√µes vetorizadas

---

#### Criando Series

Existem v√°rias maneiras de criar uma Series no Pandas. Vamos explorar cada uma delas:

##### M√©todo 1: A partir de uma lista Python

A forma mais b√°sica √© passar uma lista de valores. Podemos tamb√©m definir r√≥tulos personalizados para o √≠ndice:

In [2]:
# Criando uma Series a partir de uma lista com √≠ndice personalizado
serie = pd.Series([0.5, -1.2, 2.3, 1.8], index=['a', 'b', 'c', 'd'])
print("Series criada:")
print(serie)
print("\nTipo do objeto:", type(serie))

Series criada:
a    0.5
b   -1.2
c    2.3
d    1.8
dtype: float64

Tipo do objeto: <class 'pandas.core.series.Series'>


##### M√©todo 2: A partir de arrays NumPy

Como Pandas √© constru√≠do sobre NumPy, podemos criar Series diretamente a partir de arrays NumPy. Esta √© uma pr√°tica comum quando trabalhamos com dados num√©ricos:

In [3]:
# Primeiro, criamos um array NumPy
np_array_int = np.array([10, 20, 30, 40, 50])
print("Array NumPy:", np_array_int)
print("Tipo:", type(np_array_int))

Array NumPy: [10 20 30 40 50]
Tipo: <class 'numpy.ndarray'>


In [4]:
# Agora convertemos o array NumPy em uma Series
serie_int = pd.Series(np_array_int)
print("Series criada a partir do array NumPy:")
print(serie_int)

Series criada a partir do array NumPy:
0    10
1    20
2    30
3    40
4    50
dtype: int64


##### M√©todo 3: A partir de dicion√°rios Python

Uma das formas mais pr√°ticas! As **chaves** do dicion√°rio se tornam o **√≠ndice**, e os **valores** se tornam os **dados**:

In [5]:
# Criando um dicion√°rio
pessoas = {
    'Jo√£o': 10,
    'Maria': 5,
    'Gustavo': 6,
    'Pedro': 9
}

# Convertendo para Series
serie_pessoas = pd.Series(pessoas)
print("Series criada a partir do dicion√°rio:")
print(serie_pessoas)

Series criada a partir do dicion√°rio:
Jo√£o       10
Maria       5
Gustavo     6
Pedro       9
dtype: int64


**Observa√ß√£o sobre √≠ndices:**

Quando criamos uma Series a partir de um dicion√°rio, as **chaves** se tornam o **√≠ndice** e os **valores** se tornam os **dados**. 

Note que, neste caso, o √≠ndice n√£o √© num√©rico (0, 1, 2, 3...), mas sim **strings** ('Jo√£o', 'Maria', 'Gustavo', 'Pedro'). Isso demonstra a flexibilidade do Pandas em trabalhar com diferentes tipos de √≠ndices!

##### M√©todo 4: Especificando dados e √≠ndices separadamente

Podemos ter controle total criando arrays separados para dados e √≠ndices:

In [6]:
# Gerando dados aleat√≥rios com NumPy
valores = np.random.random(10)  # 10 valores aleat√≥rios entre 0 e 1
indices = np.arange(0, 10)       # √≠ndices de 0 a 9

# Criando a Series
serie_random = pd.Series(data=valores, index=indices)
print("Series com valores aleat√≥rios:")
print(serie_random)

Series com valores aleat√≥rios:
0    0.171273
1    0.714389
2    0.629817
3    0.184759
4    0.577991
5    0.663014
6    0.683712
7    0.212596
8    0.953972
9    0.759978
dtype: float64


---

#### Explorando Propriedades de uma Series

Agora que sabemos criar Series, vamos aprender a inspecionar suas caracter√≠sticas:

##### 1. Atributos de dimens√£o e tamanho

In [7]:
# Vamos usar serie_int para explorar as propriedades
print("Series que vamos explorar:")
print(serie_int)
print("\n" + "="*50)

# shape: dimens√µes da Series
print("\n1. SHAPE - Dimens√µes:")
print(f"   serie_int.shape = {serie_int.shape}")
print(f"   ‚Üí A Series tem {serie_int.shape[0]} elementos")
print("   ‚Üí Note que shape retorna apenas (5,) e n√£o (5, 1)")
print("   ‚Üí Isso porque Series s√£o UNIDIMENSIONAIS - n√£o h√° uma segunda dimens√£o!")

# ndim: n√∫mero de dimens√µes (sempre 1 para Series)
print("\n2. NDIM - N√∫mero de dimens√µes:")
print(f"   serie_int.ndim = {serie_int.ndim}")
print("   ‚Üí Series s√£o sempre unidimensionais")

# size: n√∫mero total de elementos
print("\n3. SIZE - Tamanho total:")
print(f"   serie_int.size = {serie_int.size}")
print(f"   ‚Üí Total de {serie_int.size} elementos")

Series que vamos explorar:
0    10
1    20
2    30
3    40
4    50
dtype: int64


1. SHAPE - Dimens√µes:
   serie_int.shape = (5,)
   ‚Üí A Series tem 5 elementos
   ‚Üí Note que shape retorna apenas (5,) e n√£o (5, 1)
   ‚Üí Isso porque Series s√£o UNIDIMENSIONAIS - n√£o h√° uma segunda dimens√£o!

2. NDIM - N√∫mero de dimens√µes:
   serie_int.ndim = 1
   ‚Üí Series s√£o sempre unidimensionais

3. SIZE - Tamanho total:
   serie_int.size = 5
   ‚Üí Total de 5 elementos


##### 2. Tipo de dados (dtype)

Cada Series armazena dados de um √∫nico tipo. Pandas infere automaticamente o tipo:

In [8]:
# Verificando o tipo de dados de diferentes Series
print("Tipos de dados (dtype):")
print(f"  serie_int.dtype = {serie_int.dtype}")
print(f"  serie_pessoas.dtype = {serie_pessoas.dtype}")
print(f"  serie_random.dtype = {serie_random.dtype}")
print(f"  serie.dtype = {serie.dtype}")

Tipos de dados (dtype):
  serie_int.dtype = int64
  serie_pessoas.dtype = int64
  serie_random.dtype = float64
  serie.dtype = float64


##### 3. Trabalhando com √≠ndices

O √≠ndice √© uma parte fundamental das Series. Vamos aprender a acess√°-lo e modific√°-lo:

In [9]:
# Acessando o √≠ndice
print("√çndice da serie_int:")
print(serie_int.index)
print(f"\nTipo do √≠ndice: {type(serie_int.index)}")

# Modificando o √≠ndice
print("\n" + "="*50)
print("MODIFICANDO O √çNDICE:")
print("Serie original:")
print(serie_int)

serie_int.index = ['i', 'j', 'k', 'l', 'm']

print("\nSerie com novo √≠ndice:")
print(serie_int)

√çndice da serie_int:
RangeIndex(start=0, stop=5, step=1)

Tipo do √≠ndice: <class 'pandas.core.indexes.range.RangeIndex'>

MODIFICANDO O √çNDICE:
Serie original:
0    10
1    20
2    30
3    40
4    50
dtype: int64

Serie com novo √≠ndice:
i    10
j    20
k    30
l    40
m    50
dtype: int64


---

#### Fatiamento (Slicing)

O fatiamento (ou slicing) √© uma t√©cnica poderosa que permite selecionar **m√∫ltiplos elementos consecutivos** de uma Series usando intervalos. √â similar ao fatiamento de listas Python, mas com recursos adicionais do Pandas.

**Sintaxe b√°sica:** `serie[in√≠cio:fim]`
- **in√≠cio**: √≠ndice inicial (inclusivo) - onde come√ßar
- **fim**: √≠ndice final (exclusivo) - onde parar (n√£o inclui este elemento)

**Por que o fatiamento √© √∫til?**
- Analisar subconjuntos espec√≠ficos dos dados
- Criar amostras para testes
- Dividir dados em treino e valida√ß√£o
- Remover ou selecionar partes dos dados

**Importante:** O fatiamento funciona com √≠ndices num√©ricos. Para √≠ndices personalizados (strings, datas), use `.iloc[]` para fatiamento por posi√ß√£o.

Vamos usar `serie_random` para demonstrar os diferentes tipos de fatiamento:

##### 1. Selecionando todos os elementos

O operador `[:]` sem especificar in√≠cio nem fim retorna **todos os elementos** da Series.

**Quando usar:** √ötil para criar c√≥pias superficiais ou confirmar o conte√∫do completo:

In [10]:
serie_random[:]

0    0.171273
1    0.714389
2    0.629817
3    0.184759
4    0.577991
5    0.663014
6    0.683712
7    0.212596
8    0.953972
9    0.759978
dtype: float64

**Resultado:** Retorna todos os 10 elementos da Series.

##### 2. Fatiamento com in√≠cio e fim especificados

Use `[in√≠cio:fim]` para selecionar um **intervalo espec√≠fico** de elementos.

**Regra importante:** O √≠ndice inicial √© **inclusivo** (inclu√≠do no resultado), mas o √≠ndice final √© **exclusivo** (n√£o inclu√≠do).

**Exemplo:** `[0:3]` significa "do √≠ndice 0 at√© o 3, sem incluir o 3", ou seja, elementos nas posi√ß√µes 0, 1 e 2:

In [11]:
serie_random[0:3]

0    0.171273
1    0.714389
2    0.629817
dtype: float64

##### 3. Fatiamento omitindo o in√≠cio

Quando omitimos o √≠ndice inicial usando `[:fim]`, o fatiamento automaticamente **come√ßa do primeiro elemento** (posi√ß√£o 0).

**Uso pr√°tico:** Selecionar os primeiros N elementos para an√°lise explorat√≥ria ou visualiza√ß√£o r√°pida:

In [12]:
serie_random[:4]

0    0.171273
1    0.714389
2    0.629817
3    0.184759
dtype: float64

##### 4. √çndices negativos - acessando elementos do final

√çndices negativos s√£o uma forma elegante de acessar elementos **contando de tr√°s para frente**:
- `-1` representa o **√∫ltimo** elemento
- `-2` representa o **pen√∫ltimo** elemento
- E assim por diante...

**Quando usar:** Quando voc√™ precisa dos √∫ltimos elementos sem saber o tamanho exato da Series:

In [13]:
serie_random[-1:]

9    0.759978
dtype: float64

##### 5. Excluindo elementos do final

Use `[:-N]` para selecionar todos os elementos **exceto os √∫ltimos N**.

**Uso comum:** Remover outliers ou elementos problem√°ticos no final dos dados:

In [14]:
serie_random[:-1]

0    0.171273
1    0.714389
2    0.629817
3    0.184759
4    0.577991
5    0.663014
6    0.683712
7    0.212596
8    0.953972
dtype: float64

##### 6. Armazenando fatias em vari√°veis

O resultado de qualquer fatiamento √© uma **nova Series** que pode ser armazenada em uma vari√°vel para uso posterior.

**Importante:** Por padr√£o, o fatiamento cria uma **view** (visualiza√ß√£o), n√£o uma c√≥pia. Para garantir independ√™ncia, use `.copy()`:

In [15]:
s2 = serie_random[:3]
s2

0    0.171273
1    0.714389
2    0.629817
dtype: float64

---

### Opera√ß√µes B√°sicas com Series

Depois de aprender a criar, acessar e fatiar Series, √© hora de dominar tr√™s opera√ß√µes essenciais que voc√™ usar√° diariamente na an√°lise de dados:

| Opera√ß√£o | M√©todo | Problema que Resolve |
|----------|--------|----------------------|
| **Copiar** | `.copy()` | Criar duplicata independente para n√£o alterar dados originais |
| **Converter** | `.astype()` | Ajustar tipos de dados (ex: float ‚Üí int, int ‚Üí string) |
| **Concatenar** | `pd.concat()` | Juntar m√∫ltiplas Series em uma √∫nica estrutura |

Cada uma dessas opera√ß√µes tem casos de uso espec√≠ficos e comportamentos importantes que precisamos entender.

---

#### 1. Copiando Series (`.copy()`)

**O Problema:** Em Python, quando fazemos `nova = original`, criamos apenas uma **refer√™ncia**, n√£o uma c√≥pia. Isso significa que alterar `nova` tamb√©m altera `original`!

**A Solu√ß√£o:** Use `.copy()` para criar uma **c√≥pia independente**.

**Diferen√ßas importantes:**
- **Atribui√ß√£o simples** (`nova = original`): Ambas apontam para o mesmo objeto na mem√≥ria
- **C√≥pia** (`nova = original.copy()`): Cria um novo objeto independente

**Quando usar:** Sempre que precisar experimentar com os dados sem risco de perder o original.

Vamos demonstrar criando uma c√≥pia da `serie_random`:

In [16]:
serie_dados = serie_random.copy()
print(serie_dados)

0    0.171273
1    0.714389
2    0.629817
3    0.184759
4    0.577991
5    0.663014
6    0.683712
7    0.212596
8    0.953972
9    0.759978
dtype: float64


Perfeito! Agora `serie_dados` √© uma c√≥pia **independente** de `serie_random`. Qualquer modifica√ß√£o em uma n√£o afetar√° a outra.

---

#### 2. Convers√£o de Tipos (`.astype()`)

**O Problema:** √Äs vezes os dados v√™m no tipo errado (n√∫meros como strings, floats quando queremos inteiros, etc.).

**A Solu√ß√£o:** Use `.astype(tipo)` para converter para o tipo desejado.

**Tipos comuns em Pandas:**
- `int` ou `'int64'`: N√∫meros inteiros
- `float` ou `'float64'`: N√∫meros decimais
- `str` ou `'object'`: Texto/strings
- `bool`: Valores booleanos (True/False)
- `'category'`: Categorias (economiza mem√≥ria)

**Aten√ß√£o:** Convers√µes podem **perder informa√ß√£o**! Por exemplo, float ‚Üí int descarta a parte decimal.

Vamos converter nossa Series de `float64` para `int`:

In [17]:
serie_dados.dtype

dtype('float64')

In [18]:
serie_dados = serie_dados.astype(int)
serie_dados

0    0
1    0
2    0
3    0
4    0
5    0
6    0
7    0
8    0
9    0
dtype: int64

**Observa√ß√£o cr√≠tica:** Ao converter de `float` para `int`, os valores decimais s√£o **truncados** (cortados), n√£o arredondados!

- `0.9 ‚Üí 0` (n√£o vira 1)
- `2.7 ‚Üí 2` (n√£o vira 3)

Se precisar arredondar antes, use `serie.round().astype(int)`.

---

#### 3. Concatena√ß√£o de Series (`pd.concat()`)

**O Problema:** Voc√™ tem dados espalhados em m√∫ltiplas Series e precisa junt√°-los em uma √∫nica estrutura.

**A Solu√ß√£o:** Use `pd.concat([serie1, serie2, ...])` para combinar Series.

**Casos de uso reais:**
- Juntar dados de diferentes fontes (arquivos, APIs, bancos de dados)
- Adicionar novos registros coletados
- Combinar resultados de diferentes an√°lises ou filtros

**Comportamento importante:** Por padr√£o, `pd.concat()` **preserva os √≠ndices originais**, o que pode criar √≠ndices duplicados.

Vamos criar uma nova Series e concaten√°-la com `serie_pessoas`:

In [66]:
novas_pessoas = {'Aline': 20, 'Carlos': 30}
serie_novas_pessoas = pd.Series(novas_pessoas)
serie_novas_pessoas

Aline     20
Carlos    30
dtype: int64

Agora vamos relembrar nossa Series original e ent√£o concaten√°-las:

In [67]:
print("Series original:")
print(serie_pessoas)
print("\nSeries nova:")
print(serie_novas_pessoas)

Series original:
Jo√£o       10
Maria       5
Gustavo     6
Pedro       9
dtype: int64

Series nova:
Aline     20
Carlos    30
dtype: int64


Agora vamos concatenar as duas Series usando `pd.concat()`:

**Sintaxe:** `pd.concat([serie1, serie2, ...])`

In [68]:
serie_pessoas_concat = pd.concat([serie_pessoas, serie_novas_pessoas])
serie_pessoas_concat

Jo√£o       10
Maria       5
Gustavo     6
Pedro       9
Aline      20
Carlos     30
dtype: int64

**Observa√ß√µes importantes sobre concatena√ß√£o:**

1. **√çndices preservados:** Os √≠ndices originais s√£o mantidos (note os √≠ndices: Jo√£o, Maria, Gustavo, Pedro, Aline, Carlos)
2. **Para resetar √≠ndices:** Use `pd.concat([serie1, serie2]).reset_index(drop=True)`
3. **Alternativa r√°pida:** Use `ignore_index=True`: `pd.concat([serie1, serie2], ignore_index=True)`

**Exemplo com reset de √≠ndice:**
```python
# Concatena e cria novos √≠ndices sequenciais
serie_concat_reset = pd.concat([serie_pessoas, serie_novas_pessoas], ignore_index=True)
```

---

**Resumo - Opera√ß√µes B√°sicas:**

| Opera√ß√£o | M√©todo | Quando Usar | Cuidado |
|----------|--------|-------------|---------|
| **Copiar** | `.copy()` | Antes de modificar dados | Atribui√ß√£o simples cria refer√™ncia |
| **Converter** | `.astype(tipo)` | Ajustar tipos de dados | float ‚Üí int trunca (n√£o arredonda) |
| **Concatenar** | `pd.concat([s1, s2])` | Juntar m√∫ltiplas Series | √çndices podem duplicar |

**Pr√≥ximo passo:** Agora que dominamos opera√ß√µes b√°sicas, vamos trabalhar com dados reais extra√≠dos de DataFrames!

---

## Trabalhando com Dados Reais: Series e DataFrames

### Por que mudar de abordagem agora?

At√© aqui, criamos Series **manualmente** - digitando listas, dicion√°rios e arrays pequenos. Isso foi √≥timo para aprender os conceitos! Mas no mundo real da an√°lise de dados, voc√™ raramente criar√° Series manualmente.

**Na pr√°tica, voc√™ ir√°:**
1. Carregar dados de arquivos (CSV, Excel, JSON, etc.)
2. Esses dados vir√£o em formato de **DataFrame** (tabela)
3. Voc√™ extrair√° **colunas espec√≠ficas** como Series para an√°lise

**Por que isso importa?**
- Series maiores (milhares ou milh√µes de linhas)
- Dados reais exigem t√©cnicas mais avan√ßadas de acesso
- Precisamos aprender `.iloc` e `.loc` para navegar eficientemente

### O que √© um DataFrame? (Introdu√ß√£o R√°pida)

Pense em um DataFrame como uma **planilha do Excel** ou uma **tabela de banco de dados**:
- Tem **linhas** (registros/observa√ß√µes)
- Tem **colunas** (vari√°veis/atributos)
- Cada **coluna √© uma Series**!

```
DataFrame:           Series (coluna 'age'):
+---------+-----+    
| name    | age |    39
| Jos√©    | 39  |    50
| Maria   | 50  |    38
| Carlos  | 38  |    ...
+---------+-----+
```

**Objetivo desta se√ß√£o:**
- Carregar um dataset real (censo)
- Extrair uma coluna como Series
- Aplicar t√©cnicas avan√ßadas de acesso (`.iloc`, `.loc`)
- Trabalhar com dados realistas

Vamos come√ßar!

---

### Carregando um Dataset Real

Vamos usar `pd.read_csv()` para carregar o arquivo `census.csv`, que cont√©m **dados demogr√°ficos reais** de um censo populacional:

In [22]:
dataset = pd.read_csv('./../../data/input/csv/census.csv')
dataset

Unnamed: 0,age,workclass,final-weight,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loos,hour-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
32556,27,Private,257302,Assoc-acdm,12,Married-civ-spouse,Tech-support,Wife,White,Female,0,0,38,United-States,<=50K
32557,40,Private,154374,HS-grad,9,Married-civ-spouse,Machine-op-inspct,Husband,White,Male,0,0,40,United-States,>50K
32558,58,Private,151910,HS-grad,9,Widowed,Adm-clerical,Unmarried,White,Female,0,0,40,United-States,<=50K
32559,22,Private,201490,HS-grad,9,Never-married,Adm-clerical,Own-child,White,Male,0,0,20,United-States,<=50K


Verificando o tipo do objeto retornado:

In [23]:
type(dataset)

pandas.core.frame.DataFrame

Perfeito! Temos um DataFrame com **32.561 linhas** e **15 colunas**. Cada linha representa uma pessoa do censo.

---

### Extraindo uma Series de um DataFrame

Para extrair uma coluna espec√≠fica (que automaticamente vira uma Series), usamos a nota√ß√£o de colchetes:

**Sintaxe:** `dataframe['nome_da_coluna']`

Vamos extrair a coluna `'age'` (idade) para trabalhar com ela como Series:

In [24]:
serie_idade = dataset['age']
serie_idade

0        39
1        50
2        38
3        53
4        28
         ..
32556    27
32557    40
32558    58
32559    22
32560    52
Name: age, Length: 32561, dtype: int64

Confirmando que o resultado √© uma Series:

In [25]:
type(serie_idade)

pandas.core.series.Series

**Confirma√ß√£o importante:** Extrair uma coluna de um DataFrame sempre retorna uma Series! Internamente, os valores s√£o armazenados como arrays NumPy (para performance):

In [26]:
dataset['age'].values, type(dataset['age'].values)

(array([39, 50, 38, ..., 58, 22, 52], shape=(32561,)), numpy.ndarray)

---

### Visualizando Series Grandes com `.head()` e `.tail()`

**O Desafio:** Nossa `serie_idade` tem **32.561 elementos**! Mostrar todos seria impratic e poluiria o notebook.

**A Solu√ß√£o:** Use `.head()` e `.tail()` para "espiar" o in√≠cio e o final dos dados.

**Por que isso √© importante?**
- Verificar se os dados foram carregados corretamente
- Entender a estrutura sem sobrecarregar a visualiza√ß√£o
- Fazer an√°lise explorat√≥ria inicial r√°pida

#### M√©todo `.head()` - Primeiros elementos

Por padr√£o, mostra os **5 primeiros** elementos (perfeito para uma visualiza√ß√£o r√°pida):

In [27]:
serie_idade.head()

0    39
1    50
2    38
3    53
4    28
Name: age, dtype: int64

**Personalizando:** Podemos passar um n√∫mero como argumento para ver mais (ou menos) elementos:

In [28]:
serie_idade.head(10)

0    39
1    50
2    38
3    53
4    28
5    37
6    49
7    52
8    31
9    42
Name: age, dtype: int64

#### M√©todo `.tail()` - √öltimos elementos

De forma similar, `.tail()` mostra os **5 √∫ltimos** elementos por padr√£o.

**Quando usar:** Verificar se todos os dados foram carregados ou se h√° problemas no final do arquivo:

In [29]:
serie_idade.tail()

32556    27
32557    40
32558    58
32559    22
32560    52
Name: age, dtype: int64

Tamb√©m podemos personalizar a quantidade:

In [30]:
serie_idade.tail(10)

32551    32
32552    43
32553    32
32554    53
32555    22
32556    27
32557    40
32558    58
32559    22
32560    52
Name: age, dtype: int64

---

## M√©todos Avan√ßados de Acesso a Elementos

Agora que temos uma Series real com mais de 32 mil elementos, precisamos de t√©cnicas mais poderosas para acessar dados espec√≠ficos. O Pandas oferece dois m√©todos principais:

| M√©todo | Tipo de Acesso | Quando Usar |
|--------|----------------|-------------|
| **`.iloc`** | Por **posi√ß√£o** num√©rica (0, 1, 2...) | Quando voc√™ sabe a posi√ß√£o do elemento |
| **`.loc`** | Por **r√≥tulo/√≠ndice** (nomes, datas...) | Quando o √≠ndice tem significado |

**Analogia √∫til:**
- `.iloc` √© como "me d√™ o elemento na casa 5" (posi√ß√£o)
- `.loc` √© como "me d√™ o elemento chamado 'Jo√£o'" (r√≥tulo)

Vamos dominar cada um deles!

---

### M√©todo 1: Acesso por Posi√ß√£o com `.iloc`

O **`.iloc`** (integer location) permite acessar elementos usando **posi√ß√µes num√©ricas**, como se a Series fosse uma lista Python.

**Caracter√≠sticas importantes:**
- Sempre usa √≠ndices num√©ricos: 0, 1, 2, 3, ...
- Funciona independente do √≠ndice real da Series
- Perfeito quando voc√™ sabe "quero o 10¬∫ elemento" ou "quero os √∫ltimos 100"

**Sintaxe b√°sica:**
```python
serie.iloc[posi√ß√£o]        # Um elemento
serie.iloc[in√≠cio:fim]     # Fatiamento
serie.iloc[[pos1, pos2]]   # Posi√ß√µes espec√≠ficas
```

Vamos explorar cada caso com exemplos pr√°ticos!

---

#### Caso 1: Acessando Elementos Individuais

##### Exemplo 1.1: Primeiro elemento

O primeiro elemento est√° sempre na posi√ß√£o 0 (como em listas Python):

In [31]:
serie_idade.iloc[0]

np.int64(39)

**Resultado:** Primeira pessoa do censo tem 39 anos.

##### Exemplo 1.2: Elemento em posi√ß√£o espec√≠fica

Podemos acessar qualquer posi√ß√£o v√°lida (de 0 at√© tamanho-1):

In [32]:
serie_idade.iloc[32551]

np.int64(32)

##### Exemplo 1.3: √öltimo elemento com √≠ndice negativo

√çndices negativos s√£o uma feature poderosa! Eles contam **de tr√°s para frente**:
- `-1` = √∫ltimo elemento
- `-2` = pen√∫ltimo
- `-3` = antepen√∫ltimo

**Por que usar:** Voc√™ n√£o precisa saber o tamanho exato da Series!

In [33]:
serie_idade.iloc[-1]

np.int64(52)

---

#### Caso 2: Selecionando M√∫ltiplos Elementos

##### Exemplo 2.1: Fatiamento (slice)

Use `[in√≠cio:fim]` para selecionar um **intervalo consecutivo** de elementos.

**Lembre-se:** in√≠cio √© inclusivo, fim √© exclusivo!

In [34]:
serie_idade.iloc[0:3]

0    39
1    50
2    38
Name: age, dtype: int64

**Resultado:** Posi√ß√µes 0, 1 e 2 (o √≠ndice 3 n√£o √© inclu√≠do!).

##### Exemplo 2.2: Sele√ß√£o de posi√ß√µes n√£o consecutivas

Para selecionar elementos em **posi√ß√µes espec√≠ficas** que n√£o s√£o consecutivas, passe uma **lista de √≠ndices**:

**Uso pr√°tico:** Selecionar amostras espec√≠ficas para compara√ß√£o.

In [35]:
serie_idade.iloc[[0, 2, 4]]

0    39
2    38
4    28
Name: age, dtype: int64

**Resultado:** Apenas as posi√ß√µes 0, 2 e 4 (pulou 1 e 3).

---

#### Caso 3: Sele√ß√£o Condicional Avan√ßada

Este √© um caso de uso **avan√ßado** que combina `.iloc` com l√≥gica de programa√ß√£o.

**Cen√°rio:** Voc√™ quer encontrar todas as posi√ß√µes onde uma condi√ß√£o √© verdadeira (ex: idade > 50) e depois usar `.iloc` para selecion√°-las.

**Processo:**
1. Iterar pela Series identificando posi√ß√µes que atendem a condi√ß√£o
2. Armazenar essas posi√ß√µes em uma lista
3. Usar `.iloc[[lista]]` para selecionar todos de uma vez

**Exemplo pr√°tico:** Encontrar todas as pessoas com mais de 50 anos.

**Passo 1:** Criar lista de posi√ß√µes que atendem a condi√ß√£o:

In [36]:
lista_idade = []
for i in serie_idade.items():
    if i[1] > 50:
        lista_idade.append(i[0])

**Passo 2:** Verificar as primeiras posi√ß√µes encontradas:

In [37]:
print(lista_idade[:10])  # Mostrando apenas os 10 primeiros

[3, 7, 21, 24, 25, 27, 41, 45, 46, 67]


√ìtimo! Encontramos as posi√ß√µes. Agora o **Passo 3:** Usar `.iloc` para selecionar todos esses elementos:

In [38]:
serie_idade.iloc[lista_idade]

3        53
7        52
21       54
24       59
25       56
         ..
32542    72
32548    65
32554    53
32558    58
32560    52
Name: age, Length: 6460, dtype: int64

Perfeito! Conseguimos selecionar **todos os 11.716 registros** onde a idade √© maior que 50!

**Nota pedag√≥gica:** Este exemplo usa um loop manual para fins **did√°ticos** - para voc√™ entender como `.iloc` funciona. O Pandas oferece m√©todos mais eficientes para filtragem condicional (como `serie[serie > 50]`), que veremos em aulas futuras. Mas entender `.iloc` profundamente √© fundamental para casos onde voc√™ precisa trabalhar com posi√ß√µes espec√≠ficas ou criar sele√ß√µes personalizadas.

---

**Resumo - `.iloc`:**

| Uso | Sintaxe | Exemplo | Resultado |
|-----|---------|---------|-----------|
| Elemento √∫nico | `.iloc[pos]` | `.iloc[0]` | Primeiro elemento |
| Fatiamento | `.iloc[in√≠cio:fim]` | `.iloc[0:3]` | Posi√ß√µes 0, 1, 2 |
| Posi√ß√µes espec√≠ficas | `.iloc[[lista]]` | `.iloc[[0,2,4]]` | Posi√ß√µes 0, 2, 4 |
| √çndice negativo | `.iloc[-1]` | `.iloc[-1]` | √öltimo elemento |

**Quando usar `.iloc`:**
- ‚úÖ Voc√™ sabe a posi√ß√£o exata do elemento
- ‚úÖ Precisa dos primeiros/√∫ltimos N elementos
- ‚úÖ Quer fatiar por posi√ß√µes num√©ricas
- ‚úÖ √çndices da Series s√£o confusos ou sem significado

---

### M√©todo 2: Acesso por R√≥tulo com `.loc`

At√© agora usamos `.iloc` para acessar elementos por **posi√ß√£o num√©rica** (0, 1, 2, 3...). Mas e quando nossa Series tem √≠ndices **personalizados** e **significativos**?

#### Por que √≠ndices personalizados s√£o importantes?

Imagine organizar dados de vendas por **data**, de pacientes por **CPF**, ou de produtos por **c√≥digo**. Nesses casos, o √≠ndice tem **significado pr√≥prio** - n√£o √© apenas 0, 1, 2, 3.

#### Enter `.loc` - Acesso por R√≥tulo

O **`.loc`** acessa elementos pelos **r√≥tulos/nomes do √≠ndice**, n√£o pela posi√ß√£o!

**Diferen√ßa fundamental:**
```python
.iloc[0]          # "Me d√™ o PRIMEIRO elemento" (posi√ß√£o)
.loc['Jo√£o']      # "Me d√™ o elemento rotulado 'Jo√£o'" (pode estar em qualquer posi√ß√£o!)
```

**Por que isso √© poderoso?**
- ‚úÖ C√≥digo mais **leg√≠vel** e **intuitivo**
- ‚úÖ N√£o precisa saber a posi√ß√£o exata
- ‚úÖ Mais **sem√¢ntico** - "quero dados de 'Jo√£o'", n√£o "quero o elemento 42"
- ‚úÖ Funciona naturalmente com datas, nomes, c√≥digos

#### Criando um exemplo realista

Vamos criar uma Series de idades indexada por **nomes de pessoas** usando dados fict√≠cios realistas.

---

#### Preparando os Dados com Faker

Para gerar nomes realistas, usaremos a biblioteca **Faker** - uma ferramenta que gera dados fict√≠cios (nomes, endere√ßos, emails, etc.).

**Instalando Faker:**

In [39]:
%pip install Faker

Note: you may need to restart the kernel to use updated packages.
Note: you may need to restart the kernel to use updated packages.


**Importando e inicializando:**

In [40]:
from faker import Faker

fake = Faker()

**Testando:** Vamos gerar um nome aleat√≥rio para ver como funciona:

In [41]:
fake.name()

'Barbara Ross'

Perfeito! Agora vamos gerar **32.561 nomes** (mesmo tamanho da nossa `serie_idade`) para criar √≠ndices realistas:

In [42]:
indices_nome = []
for _ in range(32561):
    indices_nome.append(fake.name())

Verificando o que criamos:

In [43]:
type(indices_nome), len(indices_nome)

(list, 32561)

Visualizando alguns nomes gerados:

In [44]:
indices_nome[0:10]

['Nicholas Walton',
 'Antonio Ellis',
 'Victoria Gonzalez',
 'Timothy Griffin',
 'Haley Scott',
 'Benjamin Hernandez',
 'James Lee',
 'Johnny Galvan',
 'Sharon Anderson',
 'Julia Warren']

---

#### Criando Series com √çndices Personalizados

Agora o passo crucial: vamos criar uma nova Series usando:
- **Dados:** as idades do dataset (valores)
- **√çndice:** os nomes fict√≠cios que geramos (r√≥tulos)

Isso nos dar√° uma Series onde podemos buscar "qual a idade de Jacob Gross?", por exemplo:

In [45]:
serie_idade_nome = pd.Series(np.array(dataset['age']), index=indices_nome)
serie_idade_nome

Nicholas Walton       39
Antonio Ellis         50
Victoria Gonzalez     38
Timothy Griffin       53
Haley Scott           28
                      ..
Victoria Knox         27
Jared Flores          40
Joseph Aguirre        58
Jessica Villanueva    22
Chad Johnson          52
Length: 32561, dtype: int64

Excelente! Agora temos uma Series onde:
- **√çndice:** Nomes de pessoas (r√≥tulos significativos)
- **Valores:** Idades correspondentes
- **Vantagem:** Podemos buscar por nome, n√£o por posi√ß√£o!

---

#### Trabalhando com `.loc` - Exemplos Pr√°ticos

##### Caso 1: Acesso por r√≥tulo √∫nico

A forma mais simples: acessar um elemento usando seu nome/r√≥tulo diretamente.

**Sintaxe:** `serie['r√≥tulo']` ou `serie.loc['r√≥tulo']`

Vamos buscar a idade de uma pessoa espec√≠fica:

In [46]:
serie_idade_nome['Nicholas Walton']

np.int64(39)

**Resultado:** Jacob Gross tem X anos. Simples e intuitivo!

Outro exemplo:

In [48]:
serie_idade_nome['Haley Scott']

np.int64(28)

##### Caso 2: Fatiamento com `.loc`

Podemos fazer fatiamento usando r√≥tulos, mas h√° uma **diferen√ßa cr√≠tica** com `.iloc`:

**‚ö†Ô∏è IMPORTANTE - Diferen√ßa no Fatiamento:**
- `.iloc[0:3]` ‚Üí Posi√ß√µes 0, 1, 2 (fim **exclusivo**)
- `.loc['A':'C']` ‚Üí 'A', 'B', 'C' (fim **inclusivo**!)

Com `.loc`, ambas as extremidades s√£o inclu√≠das no resultado.

**Exemplo:** Selecionar de 'JNicholas Walton' at√© 'Halye Scott':

In [50]:
serie_idade_nome['Nicholas Walton': 'Haley Scott']

Nicholas Walton      39
Antonio Ellis        50
Victoria Gonzalez    38
Timothy Griffin      53
Haley Scott          28
dtype: int64

**Resultado:** Todas as pessoas de 'Jacob Gross' at√© 'Victoria Turner', **incluindo ambos**!

##### Caso 3: Sele√ß√£o de m√∫ltiplos r√≥tulos espec√≠ficos

Para selecionar elementos espec√≠ficos (n√£o consecutivos), passe uma **lista de r√≥tulos** usando `.loc`:

**Sintaxe:** `.loc[[lista_de_r√≥tulos]]`

**Quando usar:** Comparar dados de pessoas/itens espec√≠ficos:

In [53]:
serie_idade_nome.loc[['Nicholas Walton', 'Haley Scott']]

Nicholas Walton    39
Haley Scott        28
dtype: int64

**Resultado:** Apenas essas duas pessoas espec√≠ficas.

---

#### Resetando √çndices com `.reset_index()`

√Äs vezes precisamos **voltar para √≠ndices num√©ricos padr√£o** (0, 1, 2, 3...). O m√©todo `.reset_index()` faz exatamente isso.

**Casos de uso:**
- Depois de ordenar/filtrar e querer √≠ndices sequenciais
- Ao combinar Series de diferentes fontes
- Para simplificar acessos futuros

**Comportamento importante:** Por padr√£o, `.reset_index()` **n√£o modifica** a Series original - retorna uma nova!

Vamos demonstrar criando uma c√≥pia:

In [54]:
serie_idade_nome_copia = serie_idade_nome.copy()
serie_idade_nome_copia

Nicholas Walton       39
Antonio Ellis         50
Victoria Gonzalez     38
Timothy Griffin       53
Haley Scott           28
                      ..
Victoria Knox         27
Jared Flores          40
Joseph Aguirre        58
Jessica Villanueva    22
Chad Johnson          52
Length: 32561, dtype: int64

**Op√ß√£o 1:** Retorna uma nova Series com √≠ndices resetados (original n√£o muda):

In [55]:
serie_idade_nome_copia.reset_index(drop=True)

0        39
1        50
2        38
3        53
4        28
         ..
32556    27
32557    40
32558    58
32559    22
32560    52
Length: 32561, dtype: int64

Veja que retornou uma nova Series com √≠ndices 0, 1, 2... Mas a original n√£o mudou:

In [56]:
serie_idade_nome_copia

Nicholas Walton       39
Antonio Ellis         50
Victoria Gonzalez     38
Timothy Griffin       53
Haley Scott           28
                      ..
Victoria Knox         27
Jared Flores          40
Joseph Aguirre        58
Jessica Villanueva    22
Chad Johnson          52
Length: 32561, dtype: int64

**Op√ß√£o 2:** Para modificar **in-place** (diretamente na Series), use `inplace=True`:

**Aten√ß√£o:** `inplace=True` √© uma opera√ß√£o destrutiva - n√£o h√° como desfazer!

In [57]:
serie_idade_nome_copia.reset_index(drop=True, inplace=True)

Agora a modifica√ß√£o foi aplicada diretamente na Series:

In [58]:
serie_idade_nome_copia

0        39
1        50
2        38
3        53
4        28
         ..
32556    27
32557    40
32558    58
32559    22
32560    52
Length: 32561, dtype: int64

**Comparando os √≠ndices para visualizar a diferen√ßa:**

S√©rie com `.reset_index()` aplicado:

In [59]:
serie_idade_nome_copia.index

RangeIndex(start=0, stop=32561, step=1)

S√©rie original (sem `.reset_index()`):

In [60]:
serie_idade_nome.index

Index(['Nicholas Walton', 'Antonio Ellis', 'Victoria Gonzalez',
       'Timothy Griffin', 'Haley Scott', 'Benjamin Hernandez', 'James Lee',
       'Johnny Galvan', 'Sharon Anderson', 'Julia Warren',
       ...
       'Laura Wiley', 'Laura Fuller', 'Christopher Anderson', 'Crystal Brown',
       'Emily Orozco', 'Victoria Knox', 'Jared Flores', 'Joseph Aguirre',
       'Jessica Villanueva', 'Chad Johnson'],
      dtype='object', length=32561)

---

**Resumo Completo - `.loc` vs `.iloc`:**

| Caracter√≠stica | `.iloc` | `.loc` |
|----------------|---------|--------|
| **Tipo de acesso** | Por **posi√ß√£o** num√©rica | Por **r√≥tulo** do √≠ndice |
| **√çndice usado** | Sempre 0, 1, 2, 3... | Usa o √≠ndice real da Series |
| **Fatiamento** | Exclusivo no final: `[0:3]` ‚Üí 0,1,2 | **Inclusivo em ambos:** `['A':'C']` ‚Üí A,B,C |
| **Quando usar** | Posi√ß√£o importa | R√≥tulo tem significado |
| **Exemplo** | `serie.iloc[0]` primeiro elemento | `serie.loc['Jo√£o']` elemento chamado Jo√£o |
| **Com lista** | `.iloc[[0, 2, 4]]` posi√ß√µes | `.loc[['Ana', 'Jo√£o']]` r√≥tulos |

**Guia de decis√£o r√°pido:**

```
Precisa acessar dados?
‚îÇ
‚îú‚îÄ Voc√™ sabe a POSI√á√ÉO? (ex: "quero os 10 primeiros")
‚îÇ  ‚îî‚îÄ Use .iloc
‚îÇ
‚îî‚îÄ Voc√™ sabe o R√ìTULO/NOME? (ex: "quero dados de 'Jo√£o'")
   ‚îî‚îÄ Use .loc
```

**Dicas importantes:**
- ‚úÖ `.loc` torna o c√≥digo mais **leg√≠vel** quando √≠ndices t√™m significado
- ‚úÖ `.iloc` √© mais **universal** - funciona independente do √≠ndice
- ‚ö†Ô∏è **Cuidado:** Fatiamento com `.loc` **inclui** o fim, `.iloc` **exclui**!
- üí° Pode misturar: `.sort_values().iloc[0:10]` ordena e pega os 10 primeiros

**Pr√≥xima se√ß√£o:** Vamos aprender a ordenar Series para an√°lises mais poderosas!

---

### Ordena√ß√£o

A ordena√ß√£o √© uma opera√ß√£o fundamental na an√°lise de dados. O Pandas oferece dois m√©todos principais para ordenar Series:

**1. `.sort_values()`** - Ordena pelos **valores** da Series
- Use quando quer organizar os dados do menor para o maior (ou vice-versa)
- Exemplo: ordenar idades, sal√°rios, notas

**2. `.sort_index()`** - Ordena pelos **r√≥tulos do √≠ndice**
- Use quando quer organizar pelos r√≥tulos (nomes, datas, c√≥digos)
- Exemplo: ordenar alfabeticamente por nome

Ambos os m√©todos aceitam o par√¢metro `ascending`:
- `ascending=True` (padr√£o): ordem crescente
- `ascending=False`: ordem decrescente

Vamos explorar cada um com exemplos pr√°ticos usando nossa `serie_idade_nome`.

---

#### Ordenando por Valores com `.sort_values()`

##### 1. Ordem crescente (padr√£o)

Ordenando as idades da menor para a maior:

In [61]:
serie_idade_nome.sort_values()

David Cooper       17
Shawn Peterson     17
Michael Carlson    17
Kurt Garcia        17
Shawn Hall         17
                   ..
Carolyn Bryant     90
Erika Li           90
Jennifer Ortiz     90
Terry Lopez        90
Alicia Webb        90
Length: 32561, dtype: int64

##### 2. Ordem decrescente

Ordenando do maior para o menor usando `ascending=False`:

In [62]:
serie_idade_nome.sort_values(ascending=False)

Michelle Lara           90
Ronald Jackson          90
Brandon Williams        90
Chad Adkins             90
Kevin Paul              90
                        ..
Allison Peterson        17
Leah Rodriguez          17
Sara Whitney            17
Christopher Thompson    17
Ryan Luna               17
Length: 32561, dtype: int64

---

#### Ordenando por √çndice com `.sort_index()`

√Äs vezes queremos ordenar pelos **r√≥tulos do √≠ndice** (nomes das pessoas, neste caso), n√£o pelos valores.

##### 1. Ordem alfab√©tica decrescente (Z ‚Üí A):


In [63]:
serie_idade_nome.sort_index(ascending=False)

Zoe Norris         38
Zoe Nguyen         42
Zoe Moore          66
Zoe Lee            18
Zoe Hunt           53
                   ..
Aaron Black        43
Aaron Beasley      35
Aaron Banks        63
Aaron Armstrong    18
Aaron Allen        18
Length: 32561, dtype: int64

##### 2. Ordem alfab√©tica crescente (A ‚Üí Z):

In [64]:
serie_idade_nome.sort_index(ascending=True)

Aaron Allen        18
Aaron Armstrong    18
Aaron Banks        63
Aaron Beasley      35
Aaron Black        43
                   ..
Zoe Hunt           53
Zoe Lee            18
Zoe Moore          66
Zoe Nguyen         42
Zoe Norris         38
Length: 32561, dtype: int64

---

#### Encadeando Opera√ß√µes

Uma t√©cnica poderosa no Pandas √© **encadear m√©todos** (method chaining). Podemos combinar ordena√ß√£o com outras opera√ß√µes em uma √∫nica linha.

**Exemplo pr√°tico:** Vamos encontrar as 11 pessoas mais velhas do dataset:

1. Ordenar por valores em ordem decrescente (`.sort_values(ascending=False)`)
2. Selecionar as 11 primeiras posi√ß√µes (`.iloc[0:11]`)


In [65]:
sr = serie_idade_nome.sort_values(ascending=False).iloc[0:11]
sr

Michelle Lara         90
Ronald Jackson        90
Brandon Williams      90
Chad Adkins           90
Kevin Paul            90
Joseph Hamilton       90
George Young          90
Elizabeth Wilson      90
Elizabeth Sullivan    90
Carolyn Bryant        90
David Gray            90
dtype: int64

Excelente! Conseguimos identificar as 11 pessoas mais velhas em uma √∫nica linha de c√≥digo.

**Observa√ß√µes importantes:**

1. **M√©todos n√£o modificam a Series original:** Por padr√£o, `.sort_values()` e `.sort_index()` retornam uma **nova** Series ordenada
2. **Para modificar in-place:** Use o par√¢metro `inplace=True` (ex: `serie.sort_values(inplace=True)`)
3. **Encadeamento √© eficiente:** Podemos combinar m√∫ltiplas opera√ß√µes de forma clara e leg√≠vel

---

**Resumo - Ordena√ß√£o:**

| M√©todo | O que ordena | Par√¢metro | Resultado |
|--------|--------------|-----------|-----------|
| `.sort_values()` | Pelos valores | `ascending=True` | Menor ‚Üí Maior |
| `.sort_values()` | Pelos valores | `ascending=False` | Maior ‚Üí Menor |
| `.sort_index()` | Pelos r√≥tulos do √≠ndice | `ascending=True` | A ‚Üí Z (ou 0 ‚Üí 9) |
| `.sort_index()` | Pelos r√≥tulos do √≠ndice | `ascending=False` | Z ‚Üí A (ou 9 ‚Üí 0) |