# 01_data_raw: Loading Raw Wine Production Data

## Loading raw wine production data

In this notebook, we will:

1. Load the raw wine production data per municipality (Excel file).
2. Inspect the first few rows to verify correctness.
3. Save the dataset as CSV for easier processing in later steps.


In [25]:
import pandas as pd

file_path = r"C:\Users\islec\climate-wine-project\data_raw\wine_production_raw.xlsx"

# Carregar aba 22 sem header
df = pd.read_excel(file_path, sheet_name=21, header=None)

# Definir colunas manualmente
df.columns = ['Distrito', 'Concelho', 'Vinho_Tinto', 'Vinho_Rosado', 'Vinho_Branco', 'Vinho_Total',
              'IndCasta_Tinto', 'IndCasta_Rosado', 'IndCasta_Branco', 'IndCasta_Total',
              'IGP_Tinto', 'IGP_Rosado', 'IGP_Branco', 'IGP_Total',
              'LicorosoDOP_Tinto', 'LicorosoDOP_Rosado', 'LicorosoDOP_Branco', 'LicorosoDOP_Total',
              'DOP_Tinto', 'DOP_Rosado', 'DOP_Branco', 'DOP_Total',
              'TotalGeral_Tinto', 'TotalGeral_Rosado', 'TotalGeral_Branco', 'TotalGeral_Total']

# Selecionar apenas produção de vinho
df_clean = df[['Distrito', 'Concelho', 'Vinho_Tinto', 'Vinho_Rosado', 'Vinho_Branco', 'Vinho_Total']]

# Remover linhas onde 'Concelho' está vazio ou 'Distrito' contém título/total
df_clean = df_clean[df_clean['Concelho'].notna()]
df_clean = df_clean[~df_clean['Distrito'].str.contains('Total|Distrito|Produção', na=False)]

# Preencher nomes de distrito
df_clean['Distrito'] = df_clean['Distrito'].ffill()

# Converter valores para numérico
for col in ['Vinho_Tinto', 'Vinho_Rosado', 'Vinho_Branco', 'Vinho_Total']:
    df_clean[col] = pd.to_numeric(df_clean[col], errors='coerce').fillna(0)

# Resetar índice
df_clean.reset_index(drop=True, inplace=True)

# Salvar CSV final
df_clean.to_csv(r"C:\Users\islec\climate-wine-project\data_clean\wine_production_clean.csv", index=False)

print("CSV limpo final gerado com sucesso!")
print(df_clean.head(20))




CSV limpo final gerado com sucesso!
   Distrito              Concelho  Vinho_Tinto  Vinho_Rosado  Vinho_Branco  \
0    Aveiro                Águeda       324.00        660.00        389.50   
1    Aveiro    Albergaria-a-Velha        29.40          0.00          0.34   
2    Aveiro                Anadia     15377.55       8440.12       5908.01   
3    Aveiro                Arouca         4.00          0.00          0.00   
4    Aveiro                Aveiro        80.00          0.00         23.00   
5    Aveiro      Castelo de Paiva        40.00          0.00        179.00   
6    Aveiro             Estarreja        16.00          0.00          6.00   
7    Aveiro                Ílhavo         7.50          4.00          0.00   
8    Aveiro              Mealhada      3286.90          5.00        473.35   
9    Aveiro   Oliveira de Azeméis         2.06          0.00          0.00   
10   Aveiro    Oliveira do Bairro      4895.35         35.50        900.85   
11   Aveiro  Santa Maria da 

In [23]:
# Agrupar concelhos por distrito
resumo_concelhos = df_clean.groupby('Distrito')['Concelho'].apply(list)

# Mostrar resumo
for distrito, concelhos in resumo_concelhos.items():
    print(f"{distrito} ({len(concelhos)} concelhos): {concelhos}\n")


Aveiro (15 concelhos): ['Águeda', 'Albergaria-a-Velha', 'Anadia', 'Arouca', 'Aveiro', 'Castelo de Paiva', 'Estarreja', 'Ílhavo', 'Mealhada', 'Oliveira de Azeméis', 'Oliveira do Bairro', 'Santa Maria da Feira', 'Sever do Vouga', 'Vagos', 'Vale de Cambra']

Aveiro - Total (1 concelhos): [nan]

Açores (13 concelhos): ['Angra do Heroísmo', 'Praia da Vitória', 'Santa Cruz da Graciosa', 'Vila do Porto', 'Horta', 'Lajes do Pico', 'Madalena', 'São Roque do Pico', 'Calheta (São Jorge)', 'Velas', 'Ponta Delgada', 'Povoação', 'Vila Franca do Campo']

Beja (12 concelhos): ['Aljustrel', 'Alvito', 'Beja', 'Castro Verde', 'Cuba', 'Ferreira do Alentejo', 'Mértola', 'Moura', 'Odemira', 'Ourique', 'Serpa', 'Vidigueira']

Beja - Total (1 concelhos): [nan]

Braga (14 concelhos): ['Amares', 'Barcelos', 'Braga', 'Cabeceiras de Basto', 'Celorico de Basto', 'Esposende', 'Fafe', 'Guimarães', 'Póvoa de Lanhoso', 'Terras de Bouro', 'Vieira do Minho', 'Vila Nova de Famalicão', 'Vila Verde', 'Vizela']

Braga - Tot