### Tabel r, r^2, p-value

In [4]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from scipy import stats

def calculate_correlation_statistics(file_path, sheet1_name, sheet2_name):
    # Define the range of rows you want to read
    start_row = 10  # Starting row (inclusive)
    end_row = 35   # Ending row (inclusive)

    # Read the specific rows from the Excel file
    df_emissions = pd.read_excel(file_path, sheet_name=sheet1_name, index_col=0, skiprows=range(1, start_row), nrows=(end_row - start_row + 1))
    df_expenditure = pd.read_excel(file_path, sheet_name=sheet2_name, index_col=0, skiprows=range(1, start_row), nrows=(end_row - start_row + 1))


    # Înlocuirea valorilor ":" cu NaN în tabelul de cheltuieli
    df_expenditure.replace(":", np.nan, inplace=True)
    df_emissions.replace(":", np.nan, inplace=True)

    # Gestionarea valorilor lipsă în tabelul de cheltuieli prin completarea cu cea mai apropiată valoare
    df_expenditure = df_expenditure.fillna(method='bfill')
    df_emissions = df_emissions.fillna(method='bfill')

    # Conversia valorilor în float
    df_expenditure = df_expenditure.astype(float)
    df_emissions = df_emissions.astype(float)

    # Crearea unui nou DataFrame pentru rezultate
    result_df = pd.DataFrame(columns=['r', 'r^2', 'p-value'])

    # Parcurgerea țărilor care se găsesc în ambele tabele
    common_countries = df_emissions.index.intersection(df_expenditure.index)
    for country in common_countries:
        X = df_expenditure.loc[country].values
        y = df_emissions.loc[country].values

        # Verificăm dacă cele două variabile sunt constante (toate valorile sunt aceleași)
        if np.all(X == X[0]) or np.all(y == y[0]):
            r = 0         # Setăm coeficientul de corelație la 0 în acest caz
            r_squared = 0  # Setăm coeficientul de determinare la 0 în acest caz
            p_value = 1    # Setăm p-value la 1 (nu este semnificativ)
        else:
            r, _ = stats.pearsonr(X, y)
            r_squared = r**2
            _, p_value = stats.pearsonr(X, y)

        result_df.loc[country] = [r, r_squared, p_value]

    return result_df

# Încărcarea fișierului Excel și specificarea numelor celor două foi de lucru
file_path = r'C:\Users\Ricardo Milos\Documents\practica\Indicatori pt coef corelat, coef determinare si pvalue.xlsx'  # Schimbă calea cu locația reală a fișierului
sheet1_name = 'ERL'
sheet2_name = 'GHGLT'

# Calcularea statisticilor de corelație și crearea DataFrame-ului cu rezultate
correlation_stats_df = calculate_correlation_statistics(file_path, sheet1_name, sheet2_name)

# Afișarea rezultatelor
print(correlation_stats_df)



# Calcularea statisticilor de corelație și crearea DataFrame-ului cu rezultate
correlation_stats_df = calculate_correlation_statistics(file_path, sheet1_name, sheet2_name)

# Sortăm țările în funcție de p-value în ordine crescătoare
sorted_countries = correlation_stats_df.sort_values(by='p-value')

# Identificăm primele trei țări cu cele mai mari coeficienți de determinare și p-valori mici
top_3_countries = sorted_countries[(sorted_countries['r^2'] > 0.4) & (sorted_countries['p-value'] < 0.05)].head(3)

# Identificăm ultimele trei țări cu cele mai mici coeficienți de determinare și p-valori mari
bottom_3_countries = sorted_countries.tail(3)

# Identificăm poziția României în clasament
rank_of_romania = sorted_countries.index.get_loc('Romania') + 1 if 'Romania' in sorted_countries.index else None

# Afișarea primele trei țări cu cele mai mari coeficienți de determinare și p-valori mici
print("\n\nPrimele trei țări cu cele mai mari coeficienți de determinare și corelatie mare:")
for i, (country, values) in enumerate(top_3_countries.iterrows()):
    print(f"{i + 1}. {country}: Corelatie: {1 - values['p-value']:.4f}, Coeficient de determinare (R^2): {values['r^2']:.2f}")

# Afișarea ultimele trei țări cu cele mai mici coeficienți de determinare și p-valori mari
print("\nUltimele trei țări cu cele mai mici coeficienți de determinare și corelatie mica:")
for i, (country, values) in enumerate(bottom_3_countries.iterrows()):
    print(f"{len(sorted_countries) - 2 + i}. {country}: Corelatie: {1 - values['p-value']:.4f}, Coeficient de determinare (R^2): {values['r^2']:.2f}")

# Afișăm poziția României în clasament
if rank_of_romania is not None:
    print(f"\nRomânia se află pe poziția {rank_of_romania} în clasament.")
else:
    print("\nRomânia nu a fost găsită în clasament.")




                    r       r^2   p-value
Belgium      0.227912  0.051944  0.526542
Bulgaria     0.381978  0.145907  0.276037
Croatia     -0.350780  0.123047  0.320319
Czechia      0.785569  0.617119  0.007076
Denmark      0.172772  0.029850  0.633143
Estonia      0.215494  0.046438  0.549894
Finland     -0.485587  0.235794  0.154799
France      -0.113382  0.012855  0.755141
Germany     -0.625973  0.391842  0.052862
Greece       0.849195  0.721132  0.001878
Hungary     -0.820937  0.673938  0.003602
Ireland     -0.262584  0.068950  0.463591
Italy       -0.100679  0.010136  0.781983
Latvia       0.474333  0.224992  0.166022
Lithuania    0.864265  0.746954  0.001257
Luxembourg   0.715581  0.512056  0.019969
Netherlands -0.612783  0.375502  0.059619
Poland      -0.461671  0.213140  0.179216
Portugal    -0.762073  0.580756  0.010401
Romania      0.581524  0.338170  0.077840
Slovakia     0.434104  0.188447  0.210021
Slovenia     0.899504  0.809108  0.000395
Spain        0.759387  0.576668  0