<a href="https://colab.research.google.com/github/matheusvazdata/dados-lab/blob/main/Loop_data_structures.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📌 Aprofundamento de "Loop Data Structures"
O uso de estruturas de dados em loops é um conceito fundamental em Engenharia de Dados e Analytics. Isso permite iterar eficientemente sobre dicionários, arrays NumPy e DataFrames pandas, otimizando manipulações e transformações de dados.

## Iterando sobre Dicionários (`dict`)

#### Exemplo 1: Iterando apenas sobre as chaves

In [1]:
world = {"afghanistan": 30.55, "albania": 2.77, "algeria": 39.21}

for key in world:
    print(f"País: {key}")

País: afghanistan
País: albania
País: algeria


#### Exemplo 2: Iterando sobre valores

In [2]:
for value in world.values():
    print(f"População (em milhões): {value}")

População (em milhões): 30.55
População (em milhões): 2.77
População (em milhões): 39.21


#### Exemplo 3: Iterando sobre chaves e valores

In [3]:
for key, value in world.items():
    print(f"{key.title()} tem uma população de {value} milhões.")

Afghanistan tem uma população de 30.55 milhões.
Albania tem uma população de 2.77 milhões.
Algeria tem uma população de 39.21 milhões.


## Iterando sobre Arrays NumPy (`ndarray`)

#### Exemplo 4: Iteração Simples sobre um Array

In [4]:
import numpy as np

np_height = np.array([1.73, 1.68, 1.71, 1.89, 1.79])

for altura in np_height:
    print(f"Altura: {altura}m")

Altura: 1.73m
Altura: 1.68m
Altura: 1.71m
Altura: 1.89m
Altura: 1.79m


## Iterando sobre Arrays 2D NumPy

#### Exemplo 5: Iteração Linha por Linha

In [5]:
np_weight = np.array([65.4, 59.2, 63.6, 88.4, 68.7])
meas = np.array([np_height, np_weight])

# Cada iteração imprime 1 linha da matriz
for linha in meas:
    print(f"Valores: {linha}")

Valores: [1.73 1.68 1.71 1.89 1.79]
Valores: [65.4 59.2 63.6 88.4 68.7]


#### Exemplo 6: Iteração Elemento por Elemento (`np.nditer`)

In [6]:
# Se quisermos imprimir cada elemento, precisamos usar np.nditer
for val in np.nditer(meas):
    print(val)

1.73
1.68
1.71
1.89
1.79
65.4
59.2
63.6
88.4
68.7


## Iterando sobre DataFrames pandas
Os DataFrames são amplamente usados em Engenharia de Dados e Análises, pois estruturam dados de forma tabular.

#### Exemplo 7: Iterando sobre as colunas

In [7]:
import pandas as pd

brics = pd.DataFrame({
    "country": ["Brazil", "Russia", "India", "China", "South Africa"],
    "capital": ["Brasilia", "Moscow", "New Delhi", "Beijing", "Pretoria"],
    "area": [8.516, 17.1, 3.286, 9.597, 1.221],
    "population": [200.4, 143.5, 1252.0, 1357.0, 52.98]
})

# Quando iteramos pelo o dataframe em si, o que nos é retornado são os nomes das colunas
for col in brics:
    print(f"Coluna: {col}")

Coluna: country
Coluna: capital
Coluna: area
Coluna: population


#### Exemplo 8: Iterando sobre Linhas (`iterrows()`)

In [8]:
for index, row in brics.iterrows():
    print(f"{index}: {row['capital']}")

0: Brasilia
1: Moscow
2: New Delhi
3: Beijing
4: Pretoria


### Criando Novas Colunas com Loops
Podemos modificar o DataFrame durante a iteração, mas isso pode ser ineficiente se houver muitos dados

#### Exemplo 9: Adicionando o Tamanho do Nome do País

In [9]:
for index, row in brics.iterrows():
    brics.loc[index, "name_length"] = len(row["country"])

brics

Unnamed: 0,country,capital,area,population,name_length
0,Brazil,Brasilia,8.516,200.4,6.0
1,Russia,Moscow,17.1,143.5,6.0
2,India,New Delhi,3.286,1252.0,5.0
3,China,Beijing,9.597,1357.0,5.0
4,South Africa,Pretoria,1.221,52.98,12.0


##### Melhor Alternativa: Usando `.apply()`

In [10]:
# A melhor alternativa é usar o
brics["name_length_2"] = brics["country"].apply(len)

brics

Unnamed: 0,country,capital,area,population,name_length,name_length_2
0,Brazil,Brasilia,8.516,200.4,6.0,6
1,Russia,Moscow,17.1,143.5,6.0,6
2,India,New Delhi,3.286,1252.0,5.0,5
3,China,Beijing,9.597,1357.0,5.0,5
4,South Africa,Pretoria,1.221,52.98,12.0,12
