# WDI Data

### 1. Configuratii si setup

Mai jos am definit variabilele cu care vom lucra si cum au fost alese acestea, definite intr-o perioada de timp si pe anumite tari:

**`WDI_INDICATORS`**: Am definit cei 3 indicatori principali pe care i-am urmarit pentru ca, impreuna cu datele din EIA, sa ne explice tema dorita. Am preluat si 5 indicatori secundari care ajuta la explicatii legate de dezvoltarea tarilor si ar putea fi folositi de colegii mei mai departe:
* `EG.ELC.ACCS.ZS`: Aceasta este o variabila independenta primara, cauza, cercetarii. Masurand procentaul care acces la electricitate din totalul polulatiei putem cuantifica direct cat de bine inchegata este aceasta infrastructura in tarile din Africa. Fara o metrica clara legata de accesul la electricitate, studiul nu ar putea testa relatia dintre reusitele dezvoltarii tarilor respective. Prin aceasta variabila raspundem la prima intrebare de cercetare, oare s-a imbunatatit accesul la electricitate in ultimele doua decenii?
* `NY.GDP.PCAP.KD`: Aceasta variabila masoara primordial dezvoltarea tarilor, efectul unei retele electrice bune (GDP per capita ajustat la USD in 2015). Acesta este un proxy acceptat universal pentru sanatatea unei tari si bunastarea materiala a populatiei acestora. Indicatorul testeaza legatura cauzala dintre accesul la electricitate si cresterea productivitatii si a rezultatelor economice. Prin acest indicator, raspundem la "Tarile cu mai mult acces la electricitate au GDP mai mare?"
* `SP.URB.TOTL.IN.ZS`: Aceasta variabila este cheia intermediara dintre ceilalti indicatori care contextualizeaza legatura dintre cele trei variabile alese de mine. Pe de-o parte ne punem intrebarea daca accesul la electricitate este concentrat pe langa orase, adica daca guvernele pun accentul pe orase si bunastarea acestora, oferind o discrepanta de avantaje si dezavantaje sociale. Pe de alta parte, oare exista vreo corelatie intre accesul la electricitate si urbanizarea? Oare beneficiile electricatii sunt distribuite unitar geografic sau sunt concentrate in zonele urbane?
* `RQ.EST`: Capacitatea guvernului de a formula si implementa politici si reglementari care sa sustina dezvoltarea sectorului privat. Acesta include masurarea poverii reglementare si a controalelor de preturi.
* `RL.EST`: Gradul de incredere in regulile societatii, in special calitatea aplicarii contractelor, functionarea politiei si a instantelor, si probabilitatea comiterii de infractiuni si violente.
* `CC.EST`: Extinderea in care puterea publica este exercitata pentru castig privat (coruptia la nivel inalt si mic).
* `GE.EST`: Calitatea serviciilor publice, competenta functionarilor si independenta acestora fata de presiuni politice, credibilitatea angajamentelor guvernului si calitatea formularii politicilor.
* `SI.POV.GINI`: Gradul de inegalitate in distributia veniturilor sau a bogatiei in cadrul unei natiuni. Un scor de 0% inseamna egalitate perfecta, iar 100% inseamna inegalitate maxima.

**`YEARS`**: Am setat perioada de timp din **2000 pana in 2023** pentru ca campurile de valori pe care ni le dadea WDI erau destul de golase in anul 2024, avand in vedere ca dureaza ceva pana cand se completeaza anii cei mai recenti. 

**`AFRICA_COUNTRY_CODES`**: Am luat toata Africa la nivel de tara, in total 54 de tari pe care le-am scris de mana pentru ca nu mai aveam rabdare sau posibilitati de a ma certa cu agregarile pe care WDI le face si cu link-ul API care refuza sa functioneze.

### 2. Configuratii
Aceasta sectiune initiala defineste toti parametrii si indicatorii utilizati in analiza.

In [5]:
import wbgapi as wb
import pandas as pd

WDI_INDICATORS = {
    "access_electricity": "EG.ELC.ACCS.ZS", 
    "urban_population": "SP.URB.TOTL.IN.ZS",
    "gdp_per_capita": "NY.GDP.PCAP.KD",
    "gov_effectiveness": "GE.EST", 
    "regulatory_quality": "RQ.EST", 
    "rule_of_law": "RL.EST", 
    "control_corruption": "CC.EST", 
    "gini_coefficient": "SI.POV.GINI"
}
YEARS = range(2000, 2024)
output_filename = "african_wdi_governance_data_2000_2023_complete.csv"

AFRICA_COUNTRY_CODES = [
    'DZA', 'AGO', 'BEN', 'BWA', 'BFA', 'BDI', 'CPV', 'CMR', 'CAF', 'TCD', 'COM', 
    'COG', 'CIV', 'COD', 'ERI', 'ETH', 'GAB', 'GMB', 'GHA', 'GIN', 'GNB', 'GNQ', 
    'KEN', 'LSO', 'LBR', 'LBY', 'MDG', 'MWI', 'MLI', 'MRT', 'MUS', 'MAR', 'MOZ', 
    'NAM', 'NER', 'NGA', 'RWA', 'STP', 'SEN', 'SYC', 'SLE', 'SOM', 'ZAF', 'SSD', 
    'SDN', 'SWZ', 'TGO', 'TUN', 'UGA', 'TZA', 'ZMB', 'ZWE', 'EGY', 'DJI'
]

### 3. Obtinerea de date
Aceasta sectiune executa operatiunea de preluare a datelor utilizand biblioteca wbgapi, care este un wrapper (interfata) specializata pentru API-ul Bancii Mondiale. (Pentru ca nu am putut de fel sa deslusesc linkul API standard cum am facut la cursuri fara sa imi dea eroare)

In [6]:
try:
    df_raw = wb.data.DataFrame(
        series=list(WDI_INDICATORS.values()),
        economy=AFRICA_COUNTRY_CODES,
        time=YEARS,
        labels=True,
        skipAggs=True
    )
    
    print(f"Raw DataFrame Shape: {df_raw.shape}")
    print("\nRaw Data Head (Indexed by Country Code and WDI Code, Years are columns):")
    print(df_raw.head())
    
except Exception as e:
    print(f"An error occurred while fetching data: {e}")
    df_raw = pd.DataFrame()

Raw DataFrame Shape: (432, 26)

Raw Data Head (Indexed by Country Code and WDI Code, Years are columns):
                                 Country  \
economy series                             
DJI     EG.ELC.ACCS.ZS          Djibouti   
EGY     EG.ELC.ACCS.ZS  Egypt, Arab Rep.   
ZWE     EG.ELC.ACCS.ZS          Zimbabwe   
ZMB     EG.ELC.ACCS.ZS            Zambia   
TZA     EG.ELC.ACCS.ZS          Tanzania   

                                                         Series  YR2000  \
economy series                                                            
DJI     EG.ELC.ACCS.ZS  Access to electricity (% of population)    56.0   
EGY     EG.ELC.ACCS.ZS  Access to electricity (% of population)    97.7   
ZWE     EG.ELC.ACCS.ZS  Access to electricity (% of population)    33.7   
ZMB     EG.ELC.ACCS.ZS  Access to electricity (% of population)    16.7   
TZA     EG.ELC.ACCS.ZS  Access to electricity (% of population)     8.7   

                        YR2001  YR2002  YR2003  YR2004  YR20

### 4. Curatam putin datele
Datele in format "wide" sunt convertite intr-un format structurat, "long", facandu-le gata pentru analiza sau pentru combinarea cu alte seturi de date (cum ar fi datele EIA).

In [7]:
if not df_raw.empty:
    df = df_raw.reset_index()
    id_vars = ['economy', 'series', 'Country', 'Series'] 
    value_vars = [col for col in df.columns if col.startswith('YR')]
    
    if not value_vars:
        print("Error: Could not identify year columns (starting with 'YR').")
        df_final = pd.DataFrame() 
    else:
        df_long = df.melt(
            id_vars=id_vars,
            value_vars=value_vars,
            var_name='Year_Code',
            value_name='Value'
        ) 

        df_long['Year'] = df_long['Year_Code'].str.replace('YR', '').astype(int)
        
        indicator_rename_map = {v: k for k, v in WDI_INDICATORS.items()}

        df_final = df_long.rename(columns={
            'economy': 'Country_Code', 
            'Country': 'Country_Name', 
            'series': 'Indicator_Code'
        }).drop(columns=['Year_Code', 'Series']) 

        df_final['Indicator_Name'] = df_final['Indicator_Code'].map(indicator_rename_map)
        
        df_final = df_final[['Country_Name', 'Country_Code', 'Year', 'Indicator_Name', 'Indicator_Code', 'Value']]

    print(f"Final Row Count: {len(df_final)}")

Final Row Count: 10368


### 5. Salvam totul in CSV
Ultimul pas salveaza datele curatate.

In [8]:

if 'df_final' in locals() and not df_final.empty:
    df_final.to_csv(output_filename, index=False)
    print(f"The data has been saved to: **{output_filename}**")

The data has been saved to: **african_wdi_governance_data_2000_2023_complete.csv**
