# Pandas - Notas de Estudo

## O que é Pandas?
<table style="border: none;">
<tr>
<td width="246" style="border: none;">

<img src="https://pandas.pydata.org/static/img/pandas_white.svg" width="246">

</td>
<td style="border: none;">

Pandas é uma biblioteca Python que fornece estruturas de dados rápidas, flexíveis e expressivas, projetadas para tornar o trabalho com dados "relacionais" ou "rotulados" fácil e intuitivo. Ela visa ser o bloco de construção fundamental de alto nível para análise de dados prática e do mundo real em Python.

Pandas é construído sobre o NumPy e se integra bem com outras bibliotecas científicas de terceiros.

</td>
</tr>
</table>

## Instalação

<table style="border: none;">
<tr>
<td width="50%" style="border: none;">

**Com pip:**

```bash
pip install pandas
```

</td>
<td width="50%" style="border: none;">

**Com conda:**

```bash
conda install pandas
```

</td>
</tr>
</table>

## Importação

Para usar o Pandas em seu código Python, importe-o convencionalmente como `pd`:

```python
import pandas as pd
```

In [3]:
# %pip install pandas

import pandas as pd

## Estruturas de Dados Principais

Pandas possui duas estruturas de dados primárias:

### 1. Series (1D)

Array unidimensional rotulado e homogêneo - similar a uma coluna em uma planilha ou um vetor com índices.

**Características:**
- Pode conter qualquer tipo de dado (inteiros, strings, floats, objetos Python, etc.)
- Possui um índice que rotula cada elemento
- Suporta operações vetorizadas

In [4]:
# Exemplo de criação de uma Series
serie = pd.Series([0.5, -1.2, 2.3, 1.8], index=['a', 'b', 'c', 'd'])
print("Series:")
print(serie)
print("\nTipo:", type(serie))

Series:
a    0.5
b   -1.2
c    2.3
d    1.8
dtype: float64

Tipo: <class 'pandas.core.series.Series'>


### 2. DataFrame (2D)

Estrutura tabular bidimensional rotulada e mutável em tamanho, com colunas potencialmente heterogêneas - similar a uma planilha Excel ou tabela SQL.

**Características:**
- Cada coluna é uma Series
- Colunas podem ter tipos de dados diferentes
- Possui índices para linhas e colunas
- Permite manipulação, filtragem e análise de dados complexos

In [5]:
# Exemplo de criação de um DataFrame
dados = {
    'Col_A': [1.0, 2.5, 3.2, 4.1],
    'Col_B': ['A', 'B', 'C', 'D'],
    'Col_C': [True, False, True, False]
}
df = pd.DataFrame(dados)
print("\n" + "="*40)
print("DataFrame:")
print(df)
print("\nTipo:", type(df))


DataFrame:
   Col_A Col_B  Col_C
0    1.0     A   True
1    2.5     B  False
2    3.2     C   True
3    4.1     D  False

Tipo: <class 'pandas.core.frame.DataFrame'>


## Principais Funcionalidades

Pandas é adequado para muitos tipos diferentes de dados:

- Dados tabulares com colunas de tipos heterogêneos (como tabelas SQL ou planilhas Excel)
- Dados de séries temporais ordenados e não ordenados
- Dados de matriz arbitrários com rótulos de linha e coluna
- Qualquer outro conjunto de dados observacionais/estatísticos

### Recursos que Pandas faz bem:

1. **Manipulação de dados ausentes**: Fácil tratamento de dados ausentes (NaN)
2. **Mutabilidade de tamanho**: Colunas podem ser inseridas e excluídas de DataFrames
3. **Alinhamento automático de dados**: Objetos podem ser alinhados automaticamente em computações
4. **GroupBy poderoso**: Funcionalidade para realizar operações split-apply-combine
5. **Fatiamento inteligente**: Fatiamento baseado em rótulos, indexação avançada e subconjuntos de grandes conjuntos de dados
6. **Mesclagem e junção**: Merge e join intuitivos de conjuntos de dados
7. **Remodelagem flexível**: Reshaping e pivoting de conjuntos de dados
8. **Ferramentas de I/O robustas**: Carregamento de dados de arquivos CSV, Excel, bancos de dados e formato HDF5
9. **Funcionalidade específica para séries temporais**: Geração de intervalos de datas, conversão de frequências, estatísticas de janelas móveis

## Casos de Uso

Pandas é ideal para todas as etapas do trabalho com dados:
- Limpeza e preparação de dados (data munging)
- Análise e modelagem de dados
- Organização de resultados para visualização ou exibição tabular