<a href="https://colab.research.google.com/github/humbertozanetti/estruturadedados/blob/main/Notebooks/Estrutura_de_Dados_Aula_04.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **ESTRUTURA DE DADOS - AULA 04**
# **Prof. Dr. Humberto A. P. Zanetti**
# Fatec Deputado Ary Fossen - Jundia√≠


---

**Conte√∫do da aula:**
+ Pandas
  - Series
  - Dataframe



## **O que √© Pandas?**
O Pandas √© uma biblioteca de c√≥digo aberto para manipula√ß√£o e an√°lise de dados em Python. Ele fornece estruturas de dados flex√≠veis e eficientes, especialmente projetadas para lidar com grandes volumes de dados de forma organizada.

Principais Caracter√≠sticas:   
+ F√°cil manipula√ß√£o de tabelas e planilhas (semelhante ao Excel).
+ Suporte para importa√ß√£o e exporta√ß√£o de arquivos CSV, Excel, JSON e SQL.
+ Ferramentas poderosas para filtragem, agrega√ß√£o, ordena√ß√£o e limpeza de dados.
+ Compat√≠vel com outras bibliotecas populares, como NumPy e Matplotlib.

## **O que √© um Series?**

Um *Series* √© uma estrutura de dados unidimensional da biblioteca Pandas, semelhante a um vetor ou uma lista em Python, mas com funcionalidades adicionais.
√â composta por:
+ **Valores**: os dados propriamente ditos.
+ **√çndices**: os r√≥tulos associados a cada valor, similar √†s chaves de um dicion√°rio.

**Quando Usar uma Series?**
+ Quando precisamos armazenar e manipular uma √∫nica sequ√™ncia de valores.
+ Quando queremos realizar c√°lculos estat√≠sticos r√°pidos.
+ Quando precisamos de um **dicion√°rio avan√ßado**, j√° que a Series combina chaves e valores.

## **O que √© um DataFrame?**
Um DataFrame √© uma estrutura de dados bidimensional da biblioteca Pandas, semelhante a uma tabela do Excel, um banco de dados ou uma planilha. Ele organiza os dados em linhas e colunas, permitindo a manipula√ß√£o e an√°lise de forma eficiente.  
Caracter√≠sticas principais de um DataFrame:  
+ **√â bidimensional**: cont√©m linhas e colunas organizadas.
+ **Cada coluna pode ter um tipo de dado diferente** (exemplo: n√∫meros, textos, datas).
+ **Indexa√ß√£o flex√≠vel**: pode ter r√≥tulos personalizados para linhas e colunas.
+ **M√©todos poderosos para manipula√ß√£o de dados**: filtragem, agrega√ß√£o, ordena√ß√£o, estat√≠sticas descritivas e muito mais.

**Series x Dataframes**

| Caracter√≠stica	| Series |	DataFrame |
| :----:  | :----:  | :----:  |
| Estrutura |	Unidimensional |	Bidimensional |
| Semelhante a |	Vetor/Lista	| Tabela |
| √çndices |	Sim	| Sim |
| Colunas	| 1	| M√∫ltiplas |

**Se o DataFrame √© uma tabela, a Series √© uma √∫nica coluna dessa tabela!**

## **Utilizando Series e Dataframe**

**Criando uma Series**

In [None]:
import pandas as pd

dados = [10, 20, 30, 40]
serie = pd.Series(dados)

print(serie)

0    10
1    20
2    30
3    40
dtype: int64


**Observa√ß√µes**:
+ Notem que assim como em NumPy, nossa "base" acaba sendo uma lista para a transforma√ß√£o.
+ √â associado uma metadado dado chamado `dtype` com o valor `int64`, indicando que os valores s√£o do tipo inteiro de 64 bits.

| Tipo Pandas   | Descri√ß√£o                          | Tipo NumPy equivalente |
| :-----------: | :--------------------------------: | :--------------------: |
| `int64`     | N√∫meros inteiros                | `np.int64`       |
| `float64`   | N√∫meros de ponto flutuante      | `np.float64`     |
| `bool`      | Valores booleanos (`True`/`False`) | `np.bool_`   |
| `object`    | Texto ou valores mistos         | `np.object_`     |
| `category`  | Categorias otimizadas para mem√≥ria | `np.object_` |
| `datetime64` | Datas e hor√°rios       | `np.timedelta64` |


O Pandas definie automaticamente o tipo pelo contexto.

In [None]:
import pandas as pd

s1 = pd.Series([1, 2, 3, 4])  # Inferido como int64
s2 = pd.Series([1.5, 2.7, 3.9])  # Inferido como float64
s3 = pd.Series(['a', 'b', 'c'])  # Inferido como object (texto)
s4 = pd.Series([True, False, True])  # Inferido como bool

print(s1.dtype)
print(s2.dtype)
print(s3.dtype)
print(s4.dtype)


Mas tamb√©m podemos redefinir, caso necess√°rio:


In [None]:
s = pd.Series([1, 2, 3], dtype='int32')
print(s.dtype)

Se o `dtype` estiver incorreto ou precisar de otimiza√ß√£o, podemos convert√™-lo usando `.astype()`:

In [None]:
s = pd.Series([1, 2, 3])
s = s.astype('float32')  # Convertendo para float32
print(s.dtype)

**Trabalhando com tipos especiais (`datetime`, `category`)**  

**Datas**

In [None]:
s = pd.Series(['2024-03-01', '2024-03-02'])
s = pd.to_datetime(s)
print(s.dtype)

**Category** (economiza mem√≥ria e acelera opera√ß√µes em dados repetitivos)

In [None]:
s = pd.Series(['alto', 'm√©dio', 'baixo', 'alto', 'm√©dio'], dtype='category')
print(s.dtype)

## **√çndices e Acessos em Series**

Como vimos, os √≠ndices s√£o gerados automaticamente, mas podemos definir √≠ndices personalizados para os elementos:

In [None]:
serie = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print(serie)

Se criarmos uma Series a partir de um dicion√°rio, as chaves se tornam os √≠ndices automaticamente:

In [None]:
dados = {'Betina': 6, 'Carlos': 25, 'Ana': 30}
serie = pd.Series(dados)

print(serie)

Acessamos valores pelos √≠ndices:

In [None]:
dados = {'Betina': 6, 'Carlos': 25, 'Ana': 30}
serie = pd.Series(dados)

# acessando apenas um valor
print('Valor do √≠ndice "Betina":', serie['Betina'])

# acessando v√°rios valores
print(serie[['Carlos', 'Ana']])

# e podemos usar filtros
print(serie[serie > 10])

**Opera√ß√µes**

In [None]:
# dobrar os valores dentro da s√©rie
serie_dobro = serie * 2
print(serie_dobro)

print(serie.mean())   # M√©dia
print(serie.sum())    # Soma
print(serie.max())    # Maior valor
print(serie.min())    # Menor valor

Veremos mais opera√ß√µes vetorizadas a seguir com Dataframes!

## **Trabalhando com DataFrame**

Podemos criar um DataFrame manualmente informando as colunas:

In [None]:
dados = [['Betina', 6, 'Itatiba'], ['Carlos', 25, 'Rio de Janeiro'], ['Ana', 30, 'Belo Horizonte']]
df = pd.DataFrame(dados, columns=['Nome', 'Idade', 'Cidade'])
print(df)

Cada **chave do dicion√°rio** se torna um nome de coluna, e os **valores** s√£o as linhas da tabela.

In [None]:
dados = {
    'Nome': ['Betina', 'Carlos', 'Ana'],
    'Idade': [6, 25, 30],
    'Cidade': ['Itatiba', 'Rio de Janeiro', 'Belo Horizonte']
}

df = pd.DataFrame(dados)
print(df)

Criando um DataFrame a partir de uma lista de listas:

In [None]:
dados = [['Betina', 6, 'Itatiba'], ['Carlos', 25, 'Rio de Janeiro'], ['Ana', 30, 'Belo Horizonte']]
df = pd.DataFrame(dados, columns=['Nome', 'Idade', 'Cidade'])
print(df)

## **Acessando os dados em DataFrames**

Selecionando uma coluna (que √© uma Series):

In [None]:
print(df['Nome'])  # Retorna a coluna 'Nome' como uma Series

Selecionando v√°rias colunas:

In [None]:
print(df[['Nome', 'Idade']])  # Retorna um DataFrame com as colunas escolhidas

Selecionando uma linha espec√≠fica pelo √≠ndice:

In [None]:
print(df.loc[0])  # Acessa a primeira linha pelo √≠ndice
print(df.loc[1])  # Acessa a segunda linha pelo n√∫mero da posi√ß√£o

E filtros:

In [None]:
df_maiores = df[df['Idade'] > 18]  # Retorna apenas as linhas onde a idade √© maior que 18
print(df_maiores)

## **Modificando e adicionando dados**

Adicionando uma coluna nova:

In [None]:
df['Profiss√£o'] = ['Estudante', 'Engenheiro', 'M√©dico']
print(df)

Modificar valores:

In [None]:
df.loc[df['Nome'] == 'Carlos', 'Idade'] = 26  # Altera a idade de Carlos para 26
print(df)

Remover uma coluna:

In [None]:
df = df.drop(columns=['Profiss√£o'])
print(df)

Remover uma linha:

In [None]:
df = df.drop(index=1) # ou apenas `df.drop(1)`
print(df)

## **Iterando valores em Series e Dataframes**

√â poss√≠vel utilizar la√ßos para acessar os dados em Series ou Dataframes, mas sempre ser√° **mais lento** que a√ß√µes vetorizadas (como visto em NumPy).

**Percorrendo Series com `for`**

In [4]:
import pandas as pd

s = pd.Series([10, 20, 30, 40])

for valor in s:
    print(valor)


10
20
30
40


**Percorrendo DataFrame com `for`**

O `for` por padr√£o, ir√° percorrer os **nomes das colunas** e n√£o os valores.

In [5]:
df = pd.DataFrame({
    'Nome': ['Ana', 'Carlos', 'Beatriz'],
    'Idade': [25, 30, 22]
})

for coluna in df:
    print(coluna)


Nome
Idade


**Percorrendo Linhas com `iterrows()`**  

Retorna cada linha como um par `(√≠ndice, Series)`, permitindo acessar os valores.

In [6]:
for indice, linha in df.iterrows():
    print(f"Nome: {linha['Nome']}, Idade: {linha['Idade']}")

Nome: Ana, Idade: 25
Nome: Carlos, Idade: 30
Nome: Beatriz, Idade: 22


**Percorrendo Linhas com `itertuples()` (Mais Eficiente!)**  

Cria tuplas nomeadas, preservando tipos e sendo mais r√°pido que `iterrows()`:

In [7]:
for linha in df.itertuples(index=False):
    print(f"Nome: {linha.Nome}, Idade: {linha.Idade}")

Nome: Ana, Idade: 25
Nome: Carlos, Idade: 30
Nome: Beatriz, Idade: 22


**Percorrendo Valores com `apply()`**

√â a melhor abordagem para percorrer colunas e aplicar fun√ß√µes, se comparado ao `for`.

In [None]:
df['Idade'].apply(lambda x: print(f"Idade: {x}"))

## **Algumas opera√ß√µes vetorizadas**

Uma das vantagens de usar Pandas (assim como NumPy) √© o uso de opra√ß√µes vetorizadas, que produzem um trabalho mais r√°pido que no uso de la√ßos de repeti√ß√µes e em armazenamento de mem√≥ria.


**Opera√ß√µes matem√°ticas diretas**

As opera√ß√µes b√°sicas s√£o aplicadas diretamente sobre Series ou colunas de DataFrame (inclusive usando NumPy):

In [None]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'A': [10, 20, 30],
    'B': [5, 10, 15]
})

df['Soma'] = df['A'] + df['B']
df['Produto'] = df['A'] * df['B']
df['Raiz_A'] = np.sqrt(df['A'])


**Opera√ß√µes estat√≠sticas**

In [None]:
print(df['A'].mean())   # M√©dia
print(df['A'].sum())    # Soma total
print(df['A'].std())    # Desvio padr√£o
print(df['A'].min())    # M√≠nimo
print(df['A'].max())    # M√°ximo

**Filtros**

In [None]:
df_filtrado = df[df['A'] > 15]
print(df_filtrado)

**Aplica√ß√£o de fun√ß√µes lambdas (`apply()`)**  

A fun√ß√£o `apply()` permite aplicar fun√ß√µes a colunas ou linhas:

In [None]:
df['Dobro_A'] = df['A'].apply(lambda x: x * 2)

Caso precise trabalhar linha por linha, pode-se usa o par√¢metro `axis`:

In [None]:
df['Soma_Linhas'] = df.apply(lambda row: row['A'] + row['B'], axis=1)

**Transforma√ß√£o e substitui√ß√£o de valores**

In [None]:
df['B'] = df['B'].replace({5: 50, 10: 100})  # Substitui valores espec√≠ficos
df['A'] = df['A'].map(lambda x: x * 2)  # Multiplica por 2 cada valor de 'A'

**Manipula√ß√£o de strings**  

Colunas com textos tamb√©m suportam trabalos com vetoriza√ß√£o

In [None]:
df_nomes = pd.DataFrame({'Nome': ['ana', 'CARLOS', 'Beatriz']})
df_nomes['Nome'] = df_nomes['Nome'].str.capitalize()  # Capitaliza os nomes

# **Exemplo pr√°tico!**  

Vamos imaginar uma planilha com 4 notas, a qual gostar√≠amos de analisar algumas informa√ß√µes, como m√©dia da sala, maior nota, taxa de aprova√ß√£o, etc.

Primeiro, vamos criar um arquivo .csv para manipular:

In [None]:
import pandas as pd

# Dicion√°rio com os dados dos alunos
dados = {
    'Aluno': ['Ana', 'Carlos', 'Beatriz', 'Daniel', 'Eduarda'],
    'Nota1': [8.0, 5.5, 7.5, 9.0, 4.5],
    'Nota2': [7.5, 6.0, 8.5, 9.5, 5.0],
    'Nota3': [9.0, 5.0, 7.0, 8.0, 4.0],
    'Nota4': [6.5, 4.5, 8.0, 9.0, 3.5]
}

# criando um DataFrame
df = pd.DataFrame(dados)

# salvando como CSV
df.to_csv('notas_alunos.csv', index=False)
print('Arquivo CSV criado com sucesso!')


Depois, vamos "consumir" esses dados e calcular m√©dia das notas, maior e menor nota, verificar quantos alunos foram aprovados e exibir as informa√ß√µes:

In [None]:
import pandas as pd

# lendo o arquivo
df = pd.read_csv('notas_alunos.csv')

# m√©dia de cada aluno
df['M√©dia'] = df[['Nota1', 'Nota2', 'Nota3', 'Nota4']].mean(axis=1)

# Aprova√ß√£o (m√©dia >= 6.0)
df['Situa√ß√£o'] = df['M√©dia'].apply(lambda x: 'Aprovado' if x >= 6 else 'Reprovado')

# m√©dia geral da turma
media_geral = df['M√©dia'].mean()

# maior e menor nota
maior_nota = df['M√©dia'].max()
menor_nota = df['M√©dia'].min()

# Nome dos alunos com maior e menor nota
aluno_maior_nota = df[df['M√©dia'] == maior_nota]['Aluno'].values[0]
aluno_menor_nota = df[df['M√©dia'] == menor_nota]['Aluno'].values[0]

# percentual de aprova√ß√£o
percentual_aprovacao = (df[df['Situa√ß√£o'] == 'Aprovado'].shape[0] / df.shape[0]) * 100


print(df)
print('\nüîπ M√©dia geral da turma:', round(media_geral, 2))
print(f'üîπ Maior nota: {maior_nota} - Aluno: {aluno_maior_nota}')
print(f'üîπ Menor nota: {menor_nota} - Aluno: {aluno_menor_nota}')
print(f'üîπ Percentual de aprova√ß√£o: {percentual_aprovacao:.2f}%')


## **Exerc√≠cio**

Imagien que voc√™ recebeu um arquivo .csv com dados de vendas de uma pequena loja, e que necessita analisar esses dados para tomar algumas decis√µes. Dentre essas informa√ß√µes √© preciso:
+ M√©dia das vendas (valor m√©dio de Total_Venda).
+ Maior e menor venda, incluindo qual produto teve essas vendas.
+ Percentual de produtos que venderam acima da m√©dia geral.

Para teste, use o seguinte dicion√°rio para gerar o arquivo. csv:

```
dados_vendas = {
    'Produto': ['Notebook', 'Celular', 'Tablet', 'Monitor', 'Teclado'],
    'Quantidade': [10, 50, 30, 15, 40],
    'Preco_Unitario': [3000, 1500, 1200, 800, 200]
}
```
