# Do ponto de vista da estrutura de dados, o que é um DataFrame?

Em ciência da computação, um DataFrame é uma estrutura de dados composta, que pode ser descrita como:

- Uma tabela bidimensional baseada em uma coleção ordenada de colunas nomeadas, onde cada coluna é uma sequência homogênea (tipo único) e as colunas podem ter tipos heterogêneos entre si.

## Em termos técnicos:

Um DataFrame é equivalente a:

1. Um vetor de registros (tuplas) → se pensarmos linha por linha.
2. Ou um dicionário de vetores (listas/arrays) → se pensarmos por colunas.

## Estrutura interna (em Pandas, por exemplo):

Internamente, o Pandas implementa um DataFrame como:
```python
DataFrame ≈ OrderedDict<str, Series>

```
- Cada coluna é uma Series (um array unidimensional com índice).
- O DataFrame é um mapeamento de nomes de colunas para essas Series.
- Todas as Series compartilham o mesmo índice (linha por linha).

## Comparação com estruturas clássicas:
| Conceito clássico	| Equivalente no DataFrame
| ----------------------|--------------------------
| Tabela	| DataFrame
| Registro/Tupla	| Linha (Row)
| Campo/Campo nomeado	| Coluna
| Vetor homogêneo	| Série (Series)
| Lista de tuplas	| DataFrame por linha
| Dicionário de listas	| DataFrame por coluna
| Array 2D com rótulos	| DataFrame (com index e columns)

## Propriedades formais

-    Bidimensionalidade: dados indexados por duas chaves: linha (index) e coluna (column).

-    Heterogeneidade por coluna: cada coluna pode ter um tipo distinto, ao contrário de um numpy.ndarray, que é homogêneo.

-    Rótulos nomeados: permite acesso eficiente por nomes (label-based), além de posições (position-based).

🏗️ Estrutura conceitual (modelo de dados):
```plaintext
DataFrame
├── Index (índice das linhas)
├── Columns (rótulos das colunas)
└── Data (valores em células, organizados por coluna)

```
## Em resumo:
Um `DataFrame`, em ciência da computação, é uma estrutura de dados composta e rotulada, que combina características de `arrays`, `listas`, `dicionários` e `tabelas relacionais` — permitindo representação, acesso e manipulação eficiente de dados tabulares heterogêneos.

## Exemplo prático

In [1]:
import pandas as pd

In [4]:
# Criando um DataFrame simples
df = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos'],
    'idade': [25, 30, 28],
    'cidade': ['SP', 'RJ', 'BH']
})
df

Unnamed: 0,nome,idade,cidade
0,Ana,25,SP
1,Bruno,30,RJ
2,Carlos,28,BH


In [7]:
# Explorando a estrutura interna
# colunas
df.columns

Index(['nome', 'idade', 'cidade'], dtype='object')

In [6]:
# index - linhas
df.index

RangeIndex(start=0, stop=3, step=1)

> → O índice das linhas também é uma estrutura (Index), que pode ser um RangeIndex, DatetimeIndex, etc.

In [9]:
# Dados do DataFrame (valores crus)
df.values

array([['Ana', 25, 'SP'],
       ['Bruno', 30, 'RJ'],
       ['Carlos', 28, 'BH']], dtype=object)

> → Um numpy.ndarray 2D com os dados (menos eficiente para tipos mistos).

In [10]:
# Coluna isolada é uma Series (estrutura unidimensional)
type(df['idade'])

pandas.core.series.Series

> → Cada coluna é uma Series, que é um array com índice associado.

In [11]:
# Representação como dict de colunas
df.to_dict()

{'nome': {0: 'Ana', 1: 'Bruno', 2: 'Carlos'},
 'idade': {0: 25, 1: 30, 2: 28},
 'cidade': {0: 'SP', 1: 'RJ', 2: 'BH'}}

> → Um DataFrame pode ser visto como um dicionário de colunas, onde cada valor é um dicionário de índice → valor.

## Estrutura conceitual
``` plaintext
DataFrame df
│
├── .columns ──> ['nome', 'idade', 'cidade']
├── .index   ──> [0, 1, 2]
└── .data (colunas como Series):
    ├── df['nome']   → ['Ana', 'Bruno', 'Carlos']
    ├── df['idade']  → [25, 30, 28]
    └── df['cidade'] → ['SP', 'RJ', 'BH']

```
## Conclusão técnica:

    Internamente, o DataFrame é um mapeamento de nomes de colunas para Series, e todas as Series compartilham o mesmo índice.

    Essa estrutura permite realizar operações vetorizadas, filtragem, agrupamento, merge, etc., de forma eficiente.