# Pandas - DataFrames e Series 

Ao trabalhar com dados tabulares, como dados armazenados em planilhas ou bancos de dados, o Pandas é a ferramenta certa. O Pandas ajudará você a **explorar**, **limpar** e **processar** seus dados. No Pandas, uma tabela de dados é chamada de **DataFrame**.

### DataFrame 

Vamos primeiro criar um dicionário, para a partir dele, criar um DataFrame.

#### Criando um dicionário em Pandas

In [2]:
import pandas as pd
alunos = {'Nomes':['Ricardo', 'Pedro', 'Caio', 'Gabriel'],
         'Nota':[4, 7, 5.5, 9],
         'Aprovado':['Não', 'Sim', 'Não', 'Sim']}  # criando dicionário, que recebe lista como valores.

#### Transformando o dicionário em um DataFrame a partir da função DataFrame():

(dicionários também podem se tornar series e não apenas dataframes)

In [3]:
dataframe = pd.DataFrame(alunos) # a função DataFrame() transforma um dicionário em um dataframe / tabela. 
print(dataframe) 

     Nomes  Nota Aprovado
0  Ricardo   4.0      Não
1    Pedro   7.0      Sim
2     Caio   5.5      Não
3  Gabriel   9.0      Sim


Principais características de um DataFrame:
* É a estrutura de dados mais utilizada no Pandas para análise de dados tabulares. É como uma planilha com várias colunas e linhas rotuladas.

* Bidimensional: Possui linhas e colunas.
* Rotulado: Tanto as linhas quanto as colunas possuem rótulos (índices para as linhas e nomes para as colunas).
* Heterogêneo: As colunas podem conter dados de diferentes tipos (inteiros, floats, strings, booleanos, etc.).
* Mutável em tamanho: Você pode adicionar ou remover colunas e linhas após a criação do DataFrame.


#### Agora, aplicando a função head() para exibir o dataframe em formatação especial.

In [8]:
dataframe.head() # retorna as primeiras linhas. 

Unnamed: 0,Nomes,Nota,Aprovado
0,Ricardo,4.0,Não
1,Pedro,7.0,Sim
2,Caio,5.5,Não
3,Gabriel,9.0,Sim


* A função **head()** no Pandas é utilizada para visualizar as primeiras n linhas de um DataFrame ou de uma Series. Por padrão, se você não especificar o valor de n, ela exibirá as 5 primeiras linhas.
* Em resumo, head() é uma função essencial para uma primeira inspeção rápida dos seus dados no Pandas, permitindo que você verifique a estrutura, os nomes das colunas (no caso de DataFrames) e alguns dos primeiros valores para ter uma ideia do conteúdo do seu conjunto de dados.

### Series 

Cada **coluna** em um DataFrame é um Series.

In [6]:
objeto1 = pd.Series([3, 76, 9, 11, 8])  # Series() cria vetores exclusivamente unidimensionais;
print(objeto1)                          # aqui ele transformou uma lista em colunas com índices.

0     3
1    76
2     9
3    11
4     8
dtype: int64


* Como podemos obervar acima, cada valor em uma Serie é associado a um índice, que por padrão é uma sequencia numérica; mas é possivel definir rótulos personalizados (strings, datas, etc.).<br>
* Imutável em tamanho: Uma vez criada, o tamanho de uma Series não pode ser alterado.

### DataFrames e Series


Você pode pensar nos **DataFrames** como sendo coleções de objetos **Series**, onde cada coluna do DataFrame é uma Series individual. E sim, a ideia de trabalhar com Series separadamente para depois combiná-las ou analisar cada uma individualmente se assemelha muito à técnica de **"dividir para conquistar"**.<br>

Aqui está o porquê essa analogia funciona tão bem:

* **Decomposição:** Um DataFrame complexo pode ser "decomposto" em suas Series constituintes (as colunas). Isso permite focar em uma variável específica por vez para realizar análises, limpezas ou transformações.
* **Trabalho Individual:** Cada Series pode ser manipulada individualmente usando os diversos métodos e funcionalidades que o Pandas oferece para essa estrutura (filtragem, cálculos estatísticos, transformações, etc.).
* **Recombinação (Implícita):** Embora você trabalhe com as Series individualmente, elas mantêm o mesmo índice (as linhas do DataFrame). Isso permite que, ao realizar operações em diferentes Series do mesmo DataFrame, os dados se alinhem corretamente com base nesse índice, como se fossem "recombinados" implicitamente para a análise contextual.
* **"Dividir para Conquistar":** Ao invés de tentar manipular um DataFrame inteiro de uma vez (o que pode ser complexo), você divide o problema em tarefas menores e mais gerenciáveis, trabalhando com cada coluna (Series) separadamente para atingir um objetivo maior (a análise completa do DataFrame).