In [26]:
# Read files
import os
import sys

# This function returns each line of a file as a list
def read_file(file_name):
    with open(file_name, 'r') as file:
        return file.readlines()

# Extract the value after "//" in a line
def extract_value(line):
    stripped = line.split('\\\\')  # Corrected to split by '//'
    if len(stripped) > 1:
        return stripped[1].strip()
    else:
        print(line)
        return None

# Save values in list of lists
def get_values(file_name):
    values = []
    # Map of values
    map_values = {}
    counter = 0
    for line in read_file(file_name):
        if line.strip():  # Skip empty lines
            if line[:4] not in map_values:
                map_values[line[:4]] = counter
                values.append([])
                counter += 1
            add_value = extract_value(line)
            if add_value is not None:
                try:
                    values[map_values[line[:4]]].append(float(add_value))
                except:
                    print("Error in line: ", line)
    return values, list(map_values.keys())

In [27]:
import numpy as np
from scipy.stats import t

def calculate_statistics(data, confidence_level=0.95):
    """
    Calcula la desviación estándar, la media, el error estándar y los intervalos de confianza
    de una lista de datos, manejando adecuadamente los valores cero.
    
    Parámetros:
    data (list): Una lista de números.
    confidence_level (float): El nivel de confianza deseado (por defecto, 0.95).
    
    Retorna:
    dict: Un diccionario con los siguientes valores:
         - 'mean': La media de los datos.
         - 'std_dev': La desviación estándar de los datos.
         - 'std_error': El error estándar de la media.
         - 'confidence_interval': Una tupla con los límites inferior y superior del intervalo de confianza.
    """
    n = len(data)
    
    # Manejar valores 0 en la lista de datos
    data_no_zeros = [x for x in data if x != 0]
    n_no_zeros = len(data_no_zeros)
    
    if n_no_zeros == 0:
        return {
            "mean": 0,
            "std_dev": 0,
            "std_error": 0,
            "confidence_interval": 0
        }
    
    mean = np.mean(data_no_zeros)
    std_dev = np.std(data_no_zeros, ddof=1)  # ddof=1 para la desviación estándar de la muestra
    std_error = std_dev / np.sqrt(n_no_zeros)
    
    # Calcular los intervalos de confianza usando la distribución t de Student
    t_critical = t.ppf((1 + confidence_level) / 2, df=n_no_zeros - 1)
    margin_of_error = t_critical * std_error
    lower_bound = mean - margin_of_error
    upper_bound = mean + margin_of_error
    
    return {
        "mean": mean,
        "std_dev": std_dev,
        "std_error": std_error,
        "confidence_interval": margin_of_error
    }

In [28]:
# Get all files in the directory
files = os.listdir()
# Sort by name
files.sort()
files

['EuroCore_CLE_BestFit.csv',
 'EuroCore_CLE_FirstFit.csv',
 'EuroCore_CLS_BestFit.csv',
 'EuroCore_CLS_FirstFit.csv',
 'EuroCore_CL_125_BestFit.csv',
 'EuroCore_CL_125_FirstFit.csv',
 'EuroCore_CL_50_BestFit.csv',
 'EuroCore_CL_50_FirstFit.csv',
 'EuroCore_CL_625_BestFit.csv',
 'EuroCore_CL_625_FirstFit.csv',
 'NSFNet_CLE_BestFit.csv',
 'NSFNet_CLE_FirstFit.csv',
 'NSFNet_CLS_BestFit.csv',
 'NSFNet_CLS_FirstFit.csv',
 'NSFNet_CL_125_BestFit.csv',
 'NSFNet_CL_125_FirstFit.csv',
 'NSFNet_CL_50_BestFit.csv',
 'NSFNet_CL_50_FirstFit.csv',
 'NSFNet_CL_625_BestFit.csv',
 'NSFNet_CL_625_FirstFit.csv',
 'UKNet_CLE_BestFit.csv',
 'UKNet_CLE_FirstFit.csv',
 'UKNet_CLS_BestFit.csv',
 'UKNet_CLS_FirstFit.csv',
 'UKNet_CL_125_BestFit.csv',
 'UKNet_CL_125_FirstFit.csv',
 'UKNet_CL_50_BestFit.csv',
 'UKNet_CL_50_FirstFit.csv',
 'UKNet_CL_625_BestFit.csv',
 'UKNet_CL_625_FirstFit.csv',
 'compute_BBP.ipynb',
 'results_INCREMENTAL.csv']

In [29]:
def divide(values, grid):
    if grid == '125':
        divide = 1.97875
    elif grid == '625':
        divide = 2.093125
    else:
        divide = 3.875
    
    return [x/divide for x in values]

In [30]:
# Iterate over the files
for i,file in enumerate(files):
    print(file)
    if file == 'compute_BBP.ipynb' or file == 'results_INCREMENTAL.csv':
        continue
    values, map_values = get_values(file)
    bands = file.split('_')
    for j, value in enumerate(values):
        #value = divide(value, bands[1])
        statistics = calculate_statistics(value)
        with open(file, 'a') as filee:
            filee.write(f"{map_values[j]}\t{statistics['mean']}\t{float(statistics['confidence_interval'])}\t{float(statistics['confidence_interval'])}\\\\\n")

EuroCore_CLE_BestFit.csv
EuroCore_CLE_FirstFit.csv
EuroCore_CLS_BestFit.csv
EuroCore_CLS_FirstFit.csv
EuroCore_CL_125_BestFit.csv
EuroCore_CL_125_FirstFit.csv
EuroCore_CL_50_BestFit.csv
EuroCore_CL_50_FirstFit.csv
EuroCore_CL_625_BestFit.csv
EuroCore_CL_625_FirstFit.csv
NSFNet_CLE_BestFit.csv
NSFNet_CLE_FirstFit.csv
NSFNet_CLS_BestFit.csv
NSFNet_CLS_FirstFit.csv
NSFNet_CL_125_BestFit.csv
NSFNet_CL_125_FirstFit.csv
NSFNet_CL_50_BestFit.csv
NSFNet_CL_50_FirstFit.csv
NSFNet_CL_625_BestFit.csv
NSFNet_CL_625_FirstFit.csv
UKNet_CLE_BestFit.csv
UKNet_CLE_FirstFit.csv
UKNet_CLS_BestFit.csv
UKNet_CLS_FirstFit.csv
UKNet_CL_125_BestFit.csv
UKNet_CL_125_FirstFit.csv
UKNet_CL_50_BestFit.csv
UKNet_CL_50_FirstFit.csv
UKNet_CL_625_BestFit.csv
UKNet_CL_625_FirstFit.csv
compute_BBP.ipynb
results_INCREMENTAL.csv


  ret = _var(a, axis=axis, dtype=dtype, out=out, ddof=ddof,
  ret = ret.dtype.type(ret / rcount)
