# Do ponto de vista da estrutura de dados, o que √© um DataFrame?

Em ci√™ncia da computa√ß√£o, um DataFrame √© uma estrutura de dados composta, que pode ser descrita como:

- Uma tabela bidimensional baseada em uma cole√ß√£o ordenada de colunas nomeadas, onde cada coluna √© uma sequ√™ncia homog√™nea (tipo √∫nico) e as colunas podem ter tipos heterog√™neos entre si.

## Em termos t√©cnicos:

Um DataFrame √© equivalente a:

1. Um vetor de registros (tuplas) ‚Üí se pensarmos linha por linha.
2. Ou um dicion√°rio de vetores (listas/arrays) ‚Üí se pensarmos por colunas.

## Estrutura interna (em Pandas, por exemplo):

Internamente, o Pandas implementa um DataFrame como:
```python
DataFrame ‚âà OrderedDict<str, Series>

```
- Cada coluna √© uma Series (um array unidimensional com √≠ndice).
- O DataFrame √© um mapeamento de nomes de colunas para essas Series.
- Todas as Series compartilham o mesmo √≠ndice (linha por linha).

## Compara√ß√£o com estruturas cl√°ssicas:
| Conceito cl√°ssico	| Equivalente no DataFrame
| ----------------------|--------------------------
| Tabela	| DataFrame
| Registro/Tupla	| Linha (Row)
| Campo/Campo nomeado	| Coluna
| Vetor homog√™neo	| S√©rie (Series)
| Lista de tuplas	| DataFrame por linha
| Dicion√°rio de listas	| DataFrame por coluna
| Array 2D com r√≥tulos	| DataFrame (com index e columns)

## Propriedades formais

-    Bidimensionalidade: dados indexados por duas chaves: linha (index) e coluna (column).

-    Heterogeneidade por coluna: cada coluna pode ter um tipo distinto, ao contr√°rio de um numpy.ndarray, que √© homog√™neo.

-    R√≥tulos nomeados: permite acesso eficiente por nomes (label-based), al√©m de posi√ß√µes (position-based).

üèóÔ∏è Estrutura conceitual (modelo de dados):
```plaintext
DataFrame
‚îú‚îÄ‚îÄ Index (√≠ndice das linhas)
‚îú‚îÄ‚îÄ Columns (r√≥tulos das colunas)
‚îî‚îÄ‚îÄ Data (valores em c√©lulas, organizados por coluna)

```
## Em resumo:
Um `DataFrame`, em ci√™ncia da computa√ß√£o, √© uma estrutura de dados composta e rotulada, que combina caracter√≠sticas de `arrays`, `listas`, `dicion√°rios` e `tabelas relacionais` ‚Äî permitindo representa√ß√£o, acesso e manipula√ß√£o eficiente de dados tabulares heterog√™neos.

## Exemplo pr√°tico

In [1]:
import pandas as pd

In [4]:
# Criando um DataFrame simples
df = pd.DataFrame({
    'nome': ['Ana', 'Bruno', 'Carlos'],
    'idade': [25, 30, 28],
    'cidade': ['SP', 'RJ', 'BH']
})
df

Unnamed: 0,nome,idade,cidade
0,Ana,25,SP
1,Bruno,30,RJ
2,Carlos,28,BH


In [7]:
# Explorando a estrutura interna
# colunas
df.columns

Index(['nome', 'idade', 'cidade'], dtype='object')

In [6]:
# index - linhas
df.index

RangeIndex(start=0, stop=3, step=1)

> ‚Üí O √≠ndice das linhas tamb√©m √© uma estrutura (Index), que pode ser um RangeIndex, DatetimeIndex, etc.

In [9]:
# Dados do DataFrame (valores crus)
df.values

array([['Ana', 25, 'SP'],
       ['Bruno', 30, 'RJ'],
       ['Carlos', 28, 'BH']], dtype=object)

> ‚Üí Um numpy.ndarray 2D com os dados (menos eficiente para tipos mistos).

In [10]:
# Coluna isolada √© uma Series (estrutura unidimensional)
type(df['idade'])

pandas.core.series.Series

> ‚Üí Cada coluna √© uma Series, que √© um array com √≠ndice associado.

In [11]:
# Representa√ß√£o como dict de colunas
df.to_dict()

{'nome': {0: 'Ana', 1: 'Bruno', 2: 'Carlos'},
 'idade': {0: 25, 1: 30, 2: 28},
 'cidade': {0: 'SP', 1: 'RJ', 2: 'BH'}}

> ‚Üí Um DataFrame pode ser visto como um dicion√°rio de colunas, onde cada valor √© um dicion√°rio de √≠ndice ‚Üí valor.

## Estrutura conceitual
``` plaintext
DataFrame df
‚îÇ
‚îú‚îÄ‚îÄ .columns ‚îÄ‚îÄ> ['nome', 'idade', 'cidade']
‚îú‚îÄ‚îÄ .index   ‚îÄ‚îÄ> [0, 1, 2]
‚îî‚îÄ‚îÄ .data (colunas como Series):
    ‚îú‚îÄ‚îÄ df['nome']   ‚Üí ['Ana', 'Bruno', 'Carlos']
    ‚îú‚îÄ‚îÄ df['idade']  ‚Üí [25, 30, 28]
    ‚îî‚îÄ‚îÄ df['cidade'] ‚Üí ['SP', 'RJ', 'BH']

```
## Conclus√£o t√©cnica:

    Internamente, o DataFrame √© um mapeamento de nomes de colunas para Series, e todas as Series compartilham o mesmo √≠ndice.

    Essa estrutura permite realizar opera√ß√µes vetorizadas, filtragem, agrupamento, merge, etc., de forma eficiente.