In [None]:
import os
import pandas as pd

In [99]:
folderPathPorData = '..\\..\\Bases\\PorData\\'

def read_csv_files_from_folders(folder_path):
    dataframes = []
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            print(f'Processing file: {root} {file}')
            if file.endswith('.csv'):
                file_path = os.path.join(root, file)
                df = pd.read_csv(file_path, sep=',', encoding='utf-8', low_memory=False)
                dataframes.append({
                    'df_folder': os.path.basename(root),
                    'df_name': os.path.splitext(file)[0],
                    'df': df,
                })
    return dataframes

def trata_df_cultura_cinemas(df_cultura_cinemas):

    df_cultura_cinemas = (
        df_cultura_cinemas[(df_cultura_cinemas['03. Âmbito Geográfico'].notnull())]
        .reset_index(drop=True)
    )
    # filter last year
    last_year = df_cultura_cinemas['01. Ano'].max()
    df_cultura_cinemas = df_cultura_cinemas[df_cultura_cinemas['01. Ano'] == last_year].reset_index(drop=True)

    df_cultura_cinemas = df_cultura_cinemas[['01. Ano','02. Nome Região (Portugal)','03. Âmbito Geográfico','09. Valor']]

    #rename columns and datatypes
    cultura_columns = {
        '01. Ano': 'Ano',
        '02. Nome Região (Portugal)': 'Região',
        '03. Âmbito Geográfico': 'Âmbito Geográfico',
        '09. Valor': 'Valor'
    }
    cultura_columns_types = {
        'Ano': 'int',
        'Região': 'string',
        'Âmbito Geográfico': 'string',
        'Valor': 'int'
    }
    df_cultura_cinemas = df_cultura_cinemas.rename(columns=cultura_columns).astype(cultura_columns_types)
    df_cultura_cinemas = df_cultura_cinemas.reset_index(drop=True)
    return df_cultura_cinemas

# Fix the typo in the DataFrame name and handle missing DataFrame gracefully
def find_df_by_name(dataframes, df_name):
    for df_info in dataframes:
        if df_info['df_name'] == df_name:
            return df_info['df']
    raise ValueError(f"DataFrame with name '{df_name}' not found.")

def lista_cidades_cinemas(df_cultura_cinemas):
    df_cultura_cinemas = df_cultura_cinemas.groupby(['Região', 'Âmbito Geográfico']).agg({'Valor': 'sum'}).reset_index()
    df_cultura_cinemas = df_cultura_cinemas.sort_values(by='Valor', ascending=False).reset_index(drop=True) 
    # poderia lista de forma mais bonita e ordenad 
    print("Cidades com mais cinemas:")
    for index, row in df_cultura_cinemas.iterrows():
        print(f"{row['Região']}: {row['Valor']} cinemas")

In [None]:
dataframes = read_csv_files_from_folders(folderPathPorData)

In [97]:
df_cultura_cinemas = find_df_by_name(dataframes, '623-recintos-de-cinema')

In [98]:
df_cultura_cinemas = trata_df_cultura_cinemas(df_cultura_cinemas)

In [100]:
lista_cidades_cinemas(df_cultura_cinemas)

Cidades com mais cinemas:
Lisboa: 16 cinemas
Porto: 7 cinemas
Coimbra: 5 cinemas
Vila Nova de Gaia: 4 cinemas
Braga: 4 cinemas
Leiria: 4 cinemas
Viseu: 3 cinemas
Barreiro: 3 cinemas
Maia: 3 cinemas
Cascais: 3 cinemas
Oeiras: 3 cinemas
Almada: 3 cinemas
Guimarães: 3 cinemas
Funchal: 3 cinemas
Setúbal: 2 cinemas
Viana do Castelo: 2 cinemas
Matosinhos: 2 cinemas
Estarreja: 2 cinemas
Santarém: 2 cinemas
Vila Franca de Xira: 2 cinemas
Faro: 2 cinemas
São João da Madeira: 2 cinemas
Seixal: 2 cinemas
Caldas da Rainha: 2 cinemas
Castelo Branco: 2 cinemas
Loulé: 2 cinemas
Torres Novas: 2 cinemas
Torres Vedras: 2 cinemas
Guarda: 2 cinemas
Aveiro: 2 cinemas
Figueira da Foz: 2 cinemas
Espinho: 2 cinemas
Odivelas: 2 cinemas
Ponta Delgada: 2 cinemas
Angra do Heroísmo: 2 cinemas
Montijo: 2 cinemas
Portimão: 2 cinemas
Évora: 2 cinemas
Vila Real: 2 cinemas
Horta: 1 cinemas
Gondomar: 1 cinemas
Oliveira do Bairro: 1 cinemas
Portel: 1 cinemas
Portalegre: 1 cinemas
Grândola: 1 cinemas
Sesimbra: 1 cinemas
S