## Secção 1 – Visualização Inicial de Dados - Resoluções

### Exercício
Lê o ficheiro `produtos.csv` com `;` como separador usando Pandas.

In [1]:
import pandas as pd
df_pandas = pd.read_csv(r'C:\Users\HP\Desktop\Formação\Eisnt\UFCD 10808 - Limpeza e transformação de dados em Python\produtos.csv', sep=";")
df_pandas.head()

Unnamed: 0,Produto,Preço,Stock,Categoria
0,Caneta,0.5,100.0,Escritório
1,Lápis,0.3,150.0,Escritório
2,Caderno,1.2,80.0,Papelaria
3,Borracha,0.25,200.0,Escritório
4,Marcador,0.8,75.0,Marcadores


### Exercício
Mostra as 5 primeiras e as 3 últimas linhas com `head()` e `tail()`.

In [44]:
print("Head (5 linhas):")
print(df_pandas.head())
print("\nTail (3 linhas):")
print(df_pandas.tail(3))

Head (5 linhas):
    Produto  Preço  Stock   Categoria
0    Caneta   0.50    100  Escritório
1     Lápis   0.30    150  Escritório
2   Caderno   1.20     80   Papelaria
3  Borracha   0.25    200  Escritório
4  Marcador   0.80     75  Marcadores

Tail (3 linhas):
    Produto  Preço  Stock   Categoria
2   Caderno   1.20     80   Papelaria
3  Borracha   0.25    200  Escritório
4  Marcador   0.80     75  Marcadores


### Exercício
Lê apenas as colunas `Produto` e `Preço`.

In [45]:
df_pandas_subset = pd.read_csv('produtos.csv', sep=';', usecols=['Produto', 'Preço'])
print("\nColunas Produto e Preço:")
print(df_pandas_subset.head())


Colunas Produto e Preço:
    Produto  Preço
0    Caneta   0.50
1     Lápis   0.30
2   Caderno   1.20
3  Borracha   0.25
4  Marcador   0.80


### Exercício
Lê o ficheiro `produtos.csv` com `;` usando Polars, ignorando a primeira linha.

In [None]:
import polars as pl

df_polars = pl.read_csv('produtos.csv', separator=';', skip_rows=1, has_header=True)

print(df_polars)

shape: (4, 4)
┌──────────┬──────┬─────┬────────────┐
│ Caneta   ┆ 0.5  ┆ 100 ┆ Escritório │
│ ---      ┆ ---  ┆ --- ┆ ---        │
│ str      ┆ f64  ┆ i64 ┆ str        │
╞══════════╪══════╪═════╪════════════╡
│ Lápis    ┆ 0.3  ┆ 150 ┆ Escritório │
│ Caderno  ┆ 1.2  ┆ 80  ┆ Papelaria  │
│ Borracha ┆ 0.25 ┆ 200 ┆ Escritório │
│ Marcador ┆ 0.8  ┆ 75  ┆ Marcadores │
└──────────┴──────┴─────┴────────────┘


### Exercício
Lê apenas as colunas `Produto` e `Preço` com Polars.

In [88]:
df_polars_subset = pl.read_csv('produtos.csv', separator=';', has_header=True, columns=['Produto', 'Preço'])
print("\nColunas Produto e Preço com Polars:")
print(df_polars_subset)


Colunas Produto e Preço com Polars:
shape: (5, 2)
┌──────────┬───────┐
│ Produto  ┆ Preço │
│ ---      ┆ ---   │
│ str      ┆ f64   │
╞══════════╪═══════╡
│ Caneta   ┆ 0.5   │
│ Lápis    ┆ 0.3   │
│ Caderno  ┆ 1.2   │
│ Borracha ┆ 0.25  │
│ Marcador ┆ 0.8   │
└──────────┴───────┘


### Exercício
Mostra o número de linhas e colunas.

In [89]:
# Pandas
print(f"\nPandas - Número de linhas: {df_pandas.shape[0]}, colunas: {df_pandas.shape[1]}")

# Polars
print(f"Polars - Número de linhas: {df_polars.shape[0]}, colunas: {df_polars.shape[1]}")


Pandas - Número de linhas: 8, colunas: 4
Polars - Número de linhas: 8, colunas: 4


### Exercício
Mostra os nomes das colunas.

In [90]:
print("\nPandas - Nomes das colunas:")
print(df_pandas.columns.tolist())

print("\nPolars - Nomes das colunas:")
print(df_polars.columns)


Pandas - Nomes das colunas:
['Produto', 'Preço', 'Stock', 'Categoria']

Polars - Nomes das colunas:
['Produto', 'Preço', 'Stock', 'Categoria']


### Exercício
Mostra os tipos de dados com Pandas e com Polars.

In [50]:
print("\nPandas - Tipos de dados:")
print(df_pandas.dtypes)

print("\nPolars - Tipos de dados:")
print(df_polars.dtypes)


Pandas - Tipos de dados:
Produto       object
Preço        float64
Stock          int64
Categoria     object
dtype: object

Polars - Tipos de dados:
[String, Float64, Int64, String]


### Exercício
Apresenta as estatísticas descritivas com `describe()`.

In [51]:
print("\nPandas - Estatísticas descritivas:")
print(df_pandas.describe())


Pandas - Estatísticas descritivas:
          Preço       Stock
count  5.000000    5.000000
mean   0.610000  121.000000
std    0.394335   53.197744
min    0.250000   75.000000
25%    0.300000   80.000000
50%    0.500000  100.000000
75%    0.800000  150.000000
max    1.200000  200.000000


## Secção 2 – Dados Ausentes e Qualidade de Dados - Resoluções

### Exercício
Adiciona valores “N/D” ao ficheiro `produtos.csv` e lê-o tratando-os como nulos.

In [91]:
df_pandas_nulos = pd.read_csv("produtos_com_nulos.csv", sep=';', na_values='N/D')
df_polars_nulos = pl.read_csv("produtos_com_nulos.csv", separator=';', null_values='N/D')
df_pandas_nulos.head()

Unnamed: 0,Produto,Preço,Stock,Categoria
0,Caneta,0.5,100,Escritório
1,Lápis,0.3,150,Escritório
2,Caderno,1.2,80,Papelaria
3,Borracha,0.25,200,Escritório
4,Marcador,0.8,75,Marcadores


### Exercício
Conta os valores nulos por coluna com Pandas.

In [67]:
df_pandas_nulos.isnull().sum()

Produto      0
Preço        1
Stock        0
Categoria    2
dtype: int64

### Exercício
Conta os valores nulos por coluna com Polars.

In [69]:
df_polars.null_count()

Produto,Preço,Stock,Categoria
u32,u32,u32,u32
0,1,0,2


### Exercício
Filtra as linhas com valores nulos na coluna `Preço`.

In [93]:
filtro_nulos_preco_pandas = df_pandas_nulos[df_pandas['Preço'].isnull()]
filtro_nulos_preco_polars = df_polars_nulos.filter(df_polars['Preço'].is_null())

filtro_nulos_preco_pandas.head(7)
#filtro_nulos_preco_polars.head()

Unnamed: 0,Produto,Preço,Stock,Categoria
5,Cartolina,,75,Marcadores


### Exercício
Redefine a coluna `Produto` como índice.

In [94]:
df_pandas_indexed = df_pandas.set_index('Produto')



df_pandas_indexed.head(7)

#print(df_pandas_indexed.loc['Caneta'])

df_pandas_indexed = df_pandas_indexed.reset_index()


print(df_pandas_indexed.iloc[1:3])
                             

   Produto  Preço  Stock   Categoria
1    Lápis    0.3    150  Escritório
2  Caderno    1.2     80   Papelaria


## Secção 3 – Detecção de Anomalias - Resoluções

### Exercício
Filtra os produtos com `Preço` inferior a 0.

In [96]:
df_pandas[df_pandas["Preço"] < 0]

Unnamed: 0,Produto,Preço,Stock,Categoria


### Exercício
Verifica se todos os valores da coluna `Preço` são do tipo float.

In [107]:
todos_float = df_pandas['Preço'].dropna().map(type).eq(float).all()
print(f"\nTodos os preços são float: {todos_float}")


df_pandas['Preço'] = df_pandas['Preço'].astype(float)


Todos os preços são float: True


### Exercício
Apresenta os valores únicos da coluna `Categoria`.

In [None]:
df_pandas['Categoria'].dropna().unique()

array(['Escritório', 'Papelaria', 'Marcadores', nan], dtype=object)

### Exercício
Conta a frequência de cada valor da coluna `Categoria`.

In [105]:
df_pandas["Categoria"].value_counts()

categoria_counts = (
    df_polars
    .group_by("Categoria")
    .len()
    .sort("len", descending=True)
    .rename({"len": "Frequência"})
)

print(categoria_counts)

shape: (4, 2)
┌────────────┬────────────┐
│ Categoria  ┆ Frequência │
│ ---        ┆ ---        │
│ str        ┆ u32        │
╞════════════╪════════════╡
│ Escritório ┆ 3          │
│ Marcadores ┆ 2          │
│ null       ┆ 2          │
│ Papelaria  ┆ 1          │
└────────────┴────────────┘


## Secção 4 – Junção de Dados - Resoluções

### Exercício
Cria um `DataFrame` com `produto_id` e `Produto`.

In [98]:
# Dicionário com produtos
dados_produtos = {
    'produto_id': [1, 2, 3, 4, 5],
    'Produto': ['Caneta', 'Lápis', 'Caderno', 'Borracha', 'Marcador']
}
df_produtos = pd.DataFrame(dados_produtos)

### Exercício
Cria um `DataFrame` com `produto_id` e `Preço`.

In [99]:
dados_precos = {
    'produto_id': [1, 2, 3, 4, 5],
    'Preço': [0.50, 0.30, 1.20, 0.25, 0.80]
}
df_precos = pd.DataFrame(dados_precos)

### Exercício
Faz um `merge` entre os dois DataFrames com base em `produto_id`.

In [110]:
import pandas as pd

df_merged = pd.merge(df_produtos, df_precos, on='produto_id')
df_merged

Unnamed: 0,produto_id,Produto,Preço
0,1,Caneta,0.5
1,2,Lápis,0.3
2,3,Caderno,1.2
3,4,Borracha,0.25
4,5,Marcador,0.8


### Exercício
Repete a junção com os métodos `inner`, `left` e `outer`.

In [111]:
merge_inner = pd.merge(df_produtos, df_precos, on='produto_id', how='inner')
merge_left = pd.merge(df_produtos, df_precos, on='produto_id', how='left')
merge_outer = pd.merge(df_produtos, df_precos, on='produto_id', how='outer')

### Exercício
Realiza a mesma junção com Polars.

In [115]:

# DataFrames base
df_produtos = pl.DataFrame({
    'produto_id': [1, 2, 3, 4, 5],
    'Produto': ['Caneta', 'Lápis', 'Caderno', 'Borracha', 'Marcador']
})

df_precos = pl.DataFrame({
    'produto_id': [1, 2, 3, 4, 5],
    'Preço': [0.50, 0.30, 1.20, 0.25, 0.80]
})

# merge_inner
merge_inner = df_produtos.join(df_precos, on='produto_id', how='inner')

# merge_left
merge_left = df_produtos.join(df_precos, on='produto_id', how='left')

# merge_outer
merge_outer = df_produtos.join(df_precos, on='produto_id', how='outer')

# Mostrar resultados
print("INNER JOIN:\n", merge_inner)
print("\nLEFT JOIN:\n", merge_left)
print("\nOUTER JOIN:\n", merge_outer)


INNER JOIN:
 shape: (5, 3)
┌────────────┬──────────┬───────┐
│ produto_id ┆ Produto  ┆ Preço │
│ ---        ┆ ---      ┆ ---   │
│ i64        ┆ str      ┆ f64   │
╞════════════╪══════════╪═══════╡
│ 1          ┆ Caneta   ┆ 0.5   │
│ 2          ┆ Lápis    ┆ 0.3   │
│ 3          ┆ Caderno  ┆ 1.2   │
│ 4          ┆ Borracha ┆ 0.25  │
│ 5          ┆ Marcador ┆ 0.8   │
└────────────┴──────────┴───────┘

LEFT JOIN:
 shape: (5, 3)
┌────────────┬──────────┬───────┐
│ produto_id ┆ Produto  ┆ Preço │
│ ---        ┆ ---      ┆ ---   │
│ i64        ┆ str      ┆ f64   │
╞════════════╪══════════╪═══════╡
│ 1          ┆ Caneta   ┆ 0.5   │
│ 2          ┆ Lápis    ┆ 0.3   │
│ 3          ┆ Caderno  ┆ 1.2   │
│ 4          ┆ Borracha ┆ 0.25  │
│ 5          ┆ Marcador ┆ 0.8   │
└────────────┴──────────┴───────┘

OUTER JOIN:
 shape: (5, 4)
┌────────────┬──────────┬──────────────────┬───────┐
│ produto_id ┆ Produto  ┆ produto_id_right ┆ Preço │
│ ---        ┆ ---      ┆ ---              ┆ ---   │
│ i64      

  merge_outer = df_produtos.join(df_precos, on='produto_id', how='outer')


## Secção 5 – Concatenação de Dados - Resoluções

### Exercício
Cria dois `DataFrames` com produtos diferentes e concatena-os verticalmente.

In [116]:
import pandas as pd
df1 = pd.DataFrame({'Produto': ['Caneta'], 'Preço': [0.5]})
df2 = pd.DataFrame({'Produto': ['Lápis'], 'Preço': [0.3]})
df_concat = pd.concat([df1, df2], ignore_index=True)
df_concat

Unnamed: 0,Produto,Preço
0,Caneta,0.5
1,Lápis,0.3


### Exercício
Junta dois `DataFrames` com colunas complementares horizontalmente.

In [113]:
df_esq = pd.DataFrame({'Produto': ['Caneta', 'Lápis']})
df_dir = pd.DataFrame({'Preço': [0.50, 0.30]})
concat_horizontal = pd.concat([df_esq, df_dir], axis=1)
concat_horizontal

Unnamed: 0,Produto,Preço
0,Caneta,0.5
1,Lápis,0.3


### Exercício
Realiza a concatenação equivalente com Polars.

In [114]:
import pandas as pd
df1 = pd.DataFrame({'Produto': ['Caneta'], 'Preço': [0.5]})
df2 = pd.DataFrame({'Produto': ['Lápis'], 'Preço': [0.3]})
df_concat = pd.concat([df1, df2], ignore_index=True)
df_concat

Unnamed: 0,Produto,Preço
0,Caneta,0.5
1,Lápis,0.3


## Secção 6 – Leitura de Ficheiros Excel - Resoluções

### Exercício
Lê apenas a folha `Janeiro` do ficheiro `vendas.xlsx`.

In [None]:
import pandas as pd
df = pd.read_excel("vendas.xlsx", sheet_name="Janeiro")
df.head()

Unnamed: 0,Produto,Quantidade,Preço Unitário
0,Caneta,20,0.5
1,Lápis,35,0.3
2,Caderno,15,1.2


### Exercício
Lê apenas as colunas `Produto` e `Quantidade` da folha `Fevereiro`.

In [117]:

df_fevereiro = pd.read_excel("vendas.xlsx", sheet_name="Fevereiro", usecols=["Produto", "Quantidade"])
print(df_fevereiro)

    Produto  Quantidade
0    Caneta          18
1  Marcador          12
2  Borracha          25


### Exercício
Lê apenas as primeiras 2 linhas da folha `Março`.

In [118]:
df_marco = pd.read_excel("vendas.xlsx", sheet_name="Março", nrows=2)
print(df_marco)

   Produto  Quantidade  Preço Unitário
0  Caderno          10             1.2
1    Lápis          40             0.3


### Exercício
Lê todas as folhas do ficheiro `vendas.xlsx` e concatena os dados num único `DataFrame`.

In [119]:
excel_dict = pd.read_excel("vendas.xlsx", sheet_name=None)  # Lê todas as folhas
dfs_com_mes = []

for nome_folha, df in excel_dict.items():
    df['Mês'] = nome_folha  # Adiciona nome da folha como coluna
    dfs_com_mes.append(df)

df_todos = pd.concat(dfs_com_mes, ignore_index=True)
print(df_todos)

    Produto  Quantidade  Preço Unitário        Mês
0    Caneta          20            0.50    Janeiro
1     Lápis          35            0.30    Janeiro
2   Caderno          15            1.20    Janeiro
3    Caneta          18            0.50  Fevereiro
4  Marcador          12            0.80  Fevereiro
5  Borracha          25            0.25  Fevereiro
6   Caderno          10            1.20      Março
7     Lápis          40            0.30      Março
8  Marcador          20            0.80      Março


### Exercício
Adiciona uma coluna `Mês` com o nome da folha de origem.

In [120]:
excel_dict = pd.read_excel("vendas.xlsx", sheet_name=None)  # Lê todas as folhas
dfs_com_mes = []

for nome_folha, df in excel_dict.items():
    df['Mês'] = nome_folha  # Adiciona nome da folha como coluna
    dfs_com_mes.append(df)

df_todos = pd.concat(dfs_com_mes, ignore_index=True)
print(df_todos)

    Produto  Quantidade  Preço Unitário        Mês
0    Caneta          20            0.50    Janeiro
1     Lápis          35            0.30    Janeiro
2   Caderno          15            1.20    Janeiro
3    Caneta          18            0.50  Fevereiro
4  Marcador          12            0.80  Fevereiro
5  Borracha          25            0.25  Fevereiro
6   Caderno          10            1.20      Março
7     Lápis          40            0.30      Março
8  Marcador          20            0.80      Março


### Exercício
Converte a folha `Janeiro` para `Polars`.

In [121]:
df_janeiro_pd = pd.read_excel("vendas.xlsx", sheet_name="Janeiro")
df_janeiro_pl = pl.from_pandas(df_janeiro_pd)

print(df_janeiro_pl)

shape: (3, 3)
┌─────────┬────────────┬────────────────┐
│ Produto ┆ Quantidade ┆ Preço Unitário │
│ ---     ┆ ---        ┆ ---            │
│ str     ┆ i64        ┆ f64            │
╞═════════╪════════════╪════════════════╡
│ Caneta  ┆ 20         ┆ 0.5            │
│ Lápis   ┆ 35         ┆ 0.3            │
│ Caderno ┆ 15         ┆ 1.2            │
└─────────┴────────────┴────────────────┘


### Exercício
Verifica os tipos de dados das colunas da folha `Janeiro`.

In [122]:
df_janeiro = pd.read_excel("vendas.xlsx", sheet_name="Janeiro")

# Verificar os tipos de dados das colunas
tipos_dados_janeiro = df_janeiro.dtypes

tipos_dados_janeiro

Produto            object
Quantidade          int64
Preço Unitário    float64
dtype: object

#open the exceel file and count the number of sheets in the excel file
import openpyxl
workbook = openpyxl.load_workbook(filename='vendas.xlsx')
sheet_count = len(workbook.sheetnames)


#loop through the sheets and print the name of each sheet
for sheet in workbook.sheetnames:
    
    df = pd.read_excel(r'vendas.xlsx', sheet_name=sheet)
    df['Month'] = sheet  # Add a new column with the sheet name
    df_new = pd.concat([df_new, df], ignore_index=True)