<a href="https://colab.research.google.com/github/humbertozanetti/estruturadedados/blob/main/Notebooks/Estrutura_de_Dados_Aula_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **ESTRUTURA DE DADOS - AULA 04**
# **Prof. Dr. Humberto A. P. Zanetti**
# Fatec Deputado Ary Fossen - Jundiaí


---

**Conteúdo da aula:**
+ Pandas
  - Series
  - Dataframe



## **O que é Pandas?**
O Pandas é uma biblioteca de código aberto para manipulação e análise de dados em Python. Ele fornece estruturas de dados flexíveis e eficientes, especialmente projetadas para lidar com grandes volumes de dados de forma organizada.

Principais Características:   
+ Fácil manipulação de tabelas e planilhas (semelhante ao Excel).
+ Suporte para importação e exportação de arquivos CSV, Excel, JSON e SQL.
+ Ferramentas poderosas para filtragem, agregação, ordenação e limpeza de dados.
+ Compatível com outras bibliotecas populares, como NumPy e Matplotlib.

## **O que é um Series?**

Um *Series* é uma estrutura de dados unidimensional da biblioteca Pandas, semelhante a um vetor ou uma lista em Python, mas com funcionalidades adicionais.
É composta por:
+ **Valores**: os dados propriamente ditos.
+ **Índices**: os rótulos associados a cada valor, similar às chaves de um dicionário.

**Quando Usar uma Series?**
+ Quando precisamos armazenar e manipular uma única sequência de valores.
+ Quando queremos realizar cálculos estatísticos rápidos.
+ Quando precisamos de um **dicionário avançado**, já que a Series combina chaves e valores.

## **O que é um DataFrame?**
Um DataFrame é uma estrutura de dados bidimensional da biblioteca Pandas, semelhante a uma tabela do Excel, um banco de dados ou uma planilha. Ele organiza os dados em linhas e colunas, permitindo a manipulação e análise de forma eficiente.  
Características principais de um DataFrame:  
+ **É bidimensional**: contém linhas e colunas organizadas.
+ **Cada coluna pode ter um tipo de dado diferente** (exemplo: números, textos, datas).
+ **Indexação flexível**: pode ter rótulos personalizados para linhas e colunas.
+ **Métodos poderosos para manipulação de dados**: filtragem, agregação, ordenação, estatísticas descritivas e muito mais.

**Series x Dataframes**

| Característica	| Series |	DataFrame |
| :----:  | :----:  | :----:  |
| Estrutura |	Unidimensional |	Bidimensional |
| Semelhante a |	Vetor/Lista	| Tabela |
| Índices |	Sim	| Sim |
| Colunas	| 1	| Múltiplas |

**Se o DataFrame é uma tabela, a Series é uma única coluna dessa tabela!**

## **Utilizando Series e Dataframe**

**Criando uma Series**

In [None]:
import pandas as pd

dados = [10, 20, 30, 40]
serie = pd.Series(dados)

print(serie)

0    10
1    20
2    30
3    40
dtype: int64


**Observações**:
+ Notem que assim como em NumPy, nossa "base" acaba sendo uma lista para a transformação.
+ É associado uma metadado dado chamado `dtype` com o valor `int64`, indicando que os valores são do tipo inteiro de 64 bits.

| Tipo Pandas   | Descrição                          | Tipo NumPy equivalente |
| :-----------: | :--------------------------------: | :--------------------: |
| `int64`     | Números inteiros                | `np.int64`       |
| `float64`   | Números de ponto flutuante      | `np.float64`     |
| `bool`      | Valores booleanos (`True`/`False`) | `np.bool_`   |
| `object`    | Texto ou valores mistos         | `np.object_`     |
| `category`  | Categorias otimizadas para memória | `np.object_` |
| `datetime64` | Datas e horários       | `np.timedelta64` |


O Pandas definie automaticamente o tipo pelo contexto.

In [None]:
import pandas as pd

s1 = pd.Series([1, 2, 3, 4])  # Inferido como int64
s2 = pd.Series([1.5, 2.7, 3.9])  # Inferido como float64
s3 = pd.Series(['a', 'b', 'c'])  # Inferido como object (texto)
s4 = pd.Series([True, False, True])  # Inferido como bool

print(s1.dtype)
print(s2.dtype)
print(s3.dtype)
print(s4.dtype)


Mas também podemos redefinir, caso necessário:


In [None]:
s = pd.Series([1, 2, 3], dtype='int32')
print(s.dtype)

Se o `dtype` estiver incorreto ou precisar de otimização, podemos convertê-lo usando `.astype()`:

In [None]:
s = pd.Series([1, 2, 3])
s = s.astype('float32')  # Convertendo para float32
print(s.dtype)

**Trabalhando com tipos especiais (`datetime`, `category`)**  

**Datas**

In [None]:
s = pd.Series(['2024-03-01', '2024-03-02'])
s = pd.to_datetime(s)
print(s.dtype)

**Category** (economiza memória e acelera operações em dados repetitivos)

In [None]:
s = pd.Series(['alto', 'médio', 'baixo', 'alto', 'médio'], dtype='category')
print(s.dtype)

## **Índices e Acessos em Series**

Como vimos, os índices são gerados automaticamente, mas podemos definir índices personalizados para os elementos:

In [None]:
serie = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(serie)

Se criarmos uma Series a partir de um dicionário, as chaves se tornam os índices automaticamente:

In [None]:
dados = {'Betina': 6, 'Carlos': 25, 'Ana': 30}
serie = pd.Series(dados)

print(serie)

Acessamos valores pelos índices:

In [None]:
dados = {'Betina': 6, 'Carlos': 25, 'Ana': 30}
serie = pd.Series(dados)

# acessando apenas um valor
print('Valor do índice "Betina":', serie['Betina'])

# acessando vários valores
print(serie[['Carlos', 'Ana']])

# e podemos usar filtros
print(serie[serie > 10])

**Operações**

In [None]:
# dobrar os valores dentro da série
serie_dobro = serie * 2
print(serie_dobro)

print(serie.mean())   # Média
print(serie.sum())    # Soma
print(serie.max())    # Maior valor
print(serie.min())    # Menor valor

Veremos mais operações vetorizadas a seguir com Dataframes!

## **Trabalhando com DataFrame**

Podemos criar um DataFrame manualmente informando as colunas:

In [None]:
dados = [['Betina', 6, 'Itatiba'], ['Carlos', 25, 'Rio de Janeiro'], ['Ana', 30, 'Belo Horizonte']]
df = pd.DataFrame(dados, columns=['Nome', 'Idade', 'Cidade'])
print(df)

Cada **chave do dicionário** se torna um nome de coluna, e os **valores** são as linhas da tabela.

In [None]:
dados = {
    'Nome': ['Betina', 'Carlos', 'Ana'],
    'Idade': [6, 25, 30],
    'Cidade': ['Itatiba', 'Rio de Janeiro', 'Belo Horizonte']
}

df = pd.DataFrame(dados)
print(df)

Criando um DataFrame a partir de uma lista de listas:

In [None]:
dados = [['Betina', 6, 'Itatiba'], ['Carlos', 25, 'Rio de Janeiro'], ['Ana', 30, 'Belo Horizonte']]
df = pd.DataFrame(dados, columns=['Nome', 'Idade', 'Cidade'])
print(df)

## **Acessando os dados em DataFrames**

Selecionando uma coluna (que é uma Series):

In [None]:
print(df['Nome'])  # Retorna a coluna 'Nome' como uma Series

Selecionando várias colunas:

In [None]:
print(df[['Nome', 'Idade']])  # Retorna um DataFrame com as colunas escolhidas

Selecionando uma linha específica pelo índice:

In [None]:
print(df.loc[0])  # Acessa a primeira linha pelo índice
print(df.loc[1])  # Acessa a segunda linha pelo número da posição

E filtros:

In [None]:
df_maiores = df[df['Idade'] > 18]  # Retorna apenas as linhas onde a idade é maior que 18
print(df_maiores)

## **Modificando e adicionando dados**

Adicionando uma coluna nova:

In [None]:
df['Profissão'] = ['Estudante', 'Engenheiro', 'Médico']
print(df)

Modificar valores:

In [None]:
df.loc[df['Nome'] == 'Carlos', 'Idade'] = 26  # Altera a idade de Carlos para 26
print(df)

Remover uma coluna:

In [None]:
df = df.drop(columns=['Profissão'])
print(df)

Remover uma linha:

In [None]:
df = df.drop(index=1) # ou apenas `df.drop(1)`
print(df)

## **Iterando valores em Series e Dataframes**

É possível utilizar laços para acessar os dados em Series ou Dataframes, mas sempre será **mais lento** que ações vetorizadas (como visto em NumPy).

**Percorrendo Series com `for`**

In [4]:
import pandas as pd

s = pd.Series([10, 20, 30, 40])

for valor in s:
    print(valor)


10
20
30
40


**Percorrendo DataFrame com `for`**

O `for` por padrão, irá percorrer os **nomes das colunas** e não os valores.

In [5]:
df = pd.DataFrame({
    'Nome': ['Ana', 'Carlos', 'Beatriz'],
    'Idade': [25, 30, 22]
})

for coluna in df:
    print(coluna)


Nome
Idade


**Percorrendo Linhas com `iterrows()`**  

Retorna cada linha como um par `(índice, Series)`, permitindo acessar os valores.

In [6]:
for indice, linha in df.iterrows():
    print(f"Nome: {linha['Nome']}, Idade: {linha['Idade']}")

Nome: Ana, Idade: 25
Nome: Carlos, Idade: 30
Nome: Beatriz, Idade: 22


**Percorrendo Linhas com `itertuples()` (Mais Eficiente!)**  

Cria tuplas nomeadas, preservando tipos e sendo mais rápido que `iterrows()`:

In [7]:
for linha in df.itertuples(index=False):
    print(f"Nome: {linha.Nome}, Idade: {linha.Idade}")

Nome: Ana, Idade: 25
Nome: Carlos, Idade: 30
Nome: Beatriz, Idade: 22


**Percorrendo Valores com `apply()`**

É a melhor abordagem para percorrer colunas e aplicar funções, se comparado ao `for`.

In [None]:
df['Idade'].apply(lambda x: print(f"Idade: {x}"))

## **Algumas operações vetorizadas**

Uma das vantagens de usar Pandas (assim como NumPy) é o uso de oprações vetorizadas, que produzem um trabalho mais rápido que no uso de laços de repetições e em armazenamento de memória.


**Operações matemáticas diretas**

As operações básicas são aplicadas diretamente sobre Series ou colunas de DataFrame (inclusive usando NumPy):

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [10, 20, 30],
    'B': [5, 10, 15]
})

df['Soma'] = df['A'] + df['B']
df['Produto'] = df['A'] * df['B']
df['Raiz_A'] = np.sqrt(df['A'])


**Operações estatísticas**

In [None]:
print(df['A'].mean())   # Média
print(df['A'].sum())    # Soma total
print(df['A'].std())    # Desvio padrão
print(df['A'].min())    # Mínimo
print(df['A'].max())    # Máximo

**Filtros**

In [None]:
df_filtrado = df[df['A'] > 15]
print(df_filtrado)

**Aplicação de funções lambdas (`apply()`)**  

A função `apply()` permite aplicar funções a colunas ou linhas:

In [None]:
df['Dobro_A'] = df['A'].apply(lambda x: x * 2)

Caso precise trabalhar linha por linha, pode-se usa o parâmetro `axis`:

In [None]:
df['Soma_Linhas'] = df.apply(lambda row: row['A'] + row['B'], axis=1)

**Transformação e substituição de valores**

In [None]:
df['B'] = df['B'].replace({5: 50, 10: 100})  # Substitui valores específicos
df['A'] = df['A'].map(lambda x: x * 2)  # Multiplica por 2 cada valor de 'A'

**Manipulação de strings**  

Colunas com textos também suportam trabalos com vetorização

In [None]:
df_nomes = pd.DataFrame({'Nome': ['ana', 'CARLOS', 'Beatriz']})
df_nomes['Nome'] = df_nomes['Nome'].str.capitalize()  # Capitaliza os nomes