In [46]:
import pandas as pd
import numpy as np
#Load common functions
# %run common.ipynb
import ipynb.fs.full.common as common

## NOTA IMPORTANTE:
- MML habla de GNP (Gross National Product) == PNB (Producto Bruto Nacional)

Sin embargo, no encontramos existencia de datos de GNP año a año desde 1960 hasta al menos 2000, país por país, para todos los países.
Consultado con Igal, corroboró que no se suele trabajar con GNP.

- El set de datos a comparar entonces es GDP (Gross Domestic Product) == PIB (Producto Interno Bruto)

- La comparación no es directa. Sin embargo, podemos asumir que la diferencia entre GNP y GDP de cada pais es NO significativa.

Luego, la conversion de unidades tambien trae problemas y es propensa a errores ya que debe hacerse manualmente para cada pais, obteniendo sus respectivas series de ppp, sus respectivos tipos de cambio, etc

En esta notebook vamos a explorar la posibilidad de analizar las variaciones de GDP. Es decir:
- Si de un año a otro en una región el GDP de MML creció un 15% respecto del año pasado, entonces para la misma region en el mismo año deberíamos ver un crecimiento similar en el dataset de comparación, más allá de que en unidad se compare.

El desafío está en dado un set de datos calcular las variaciones de todos los países de la región y luego agruparlos bajo algún criterio.
El criterio principal es el de influencia del país en la región. Intuitivamente, que China marque un crecimiento de su propio GDP en un 15% de un año al otro, no tiene el mismo impacto en la región que un crecimiento del 15% de un año a otro de Taiwán.

El primer criterio de ponderación que voy a tomar es el de la cantidad de población. Ya que estamos midiendo GDPxC, a mayor población mayor tamaño economico, mayor injerencia en la región.

In [47]:
MML_VARIABLE_ANALYZED = 'GNPXC'
REGION = 'LAM' 
COUNTRY_COL_NAME = 'Country Name'


In [48]:
df = pd.read_excel(f"data/{REGION}/GM-GDP per capita - Dataset - v28.xlsx", sheet_name='data-GDP-per-capita-in-columns')
df[0:5]

Unnamed: 0,geo,Country Name,1800,1801,1802,1803,1804,1805,1806,1807,...,2041,2042,2043,2044,2045,2046,2047,2048,2049,2050
0,afg,Afghanistan,683.0,683.0,683.0,683.0,683.0,683.0,683.0,683.0,...,2689.0,2747.0,2806.0,2866.0,2928.0,2991.0,3056.0,3122.0,3189.0,3257.0
1,alb,Albania,755.0,755.0,755.0,755.0,755.0,756.0,756.0,756.0,...,25066.0,25606.0,26157.0,26721.0,27296.0,27884.0,28485.0,29098.0,29725.0,30365.0
2,dza,Algeria,796.0,796.0,796.0,796.0,796.0,796.0,796.0,796.0,...,14527.0,14840.0,15159.0,15486.0,15819.0,16160.0,16508.0,16864.0,17227.0,17598.0
3,and,Andorra,1355.0,1357.0,1360.0,1363.0,1365.0,1368.0,1370.0,1372.0,...,68876.0,70359.0,71874.0,73422.0,75004.0,76619.0,78269.0,79955.0,81677.0,83436.0
4,ago,Angola,700.0,702.0,705.0,709.0,711.0,714.0,718.0,721.0,...,7998.0,8170.0,8346.0,8526.0,8709.0,8897.0,9089.0,9284.0,9484.0,9689.0


In [49]:
del df['geo']

df.columns = df.columns.astype(str)

In [50]:
def fix_countries_for_region(df, region=REGION):
    '''Match country column name in dataset with MML dict of country names for region.
    Unfortunately, it's a manual job. We know which names are missing according to MML, but we don't how the truth dataset named that country (if exists at all).
    
    '''
    if region == 'DEVELOPED':
        fix_countries_for_developed(df)
    if region == 'LAM':
        fix_countries_for_lam(df)
def fix_countries_for_lam(df):
    common.replace_value_in_column(df,COUNTRY_COL_NAME, 'Brazil', 'Brasil')
    common.replace_value_in_column(df,COUNTRY_COL_NAME, 'Trinidad and Tobago', 'Trinidad y Tobago')
    common.replace_value_in_column(df,COUNTRY_COL_NAME, 'Dominican Republic', 'Republica Dominicana')
def fix_countries_for_developed(df):
    common.replace_value_in_column(df,COUNTRY_COL_NAME, 'Ukraine', 'Ucrania')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Bosnia and Herzegovina','Bosnia y Herzegovina')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Kyrgyz Republic','Kirguistan')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Germany','Alemania')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'France','Francia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Macedonia, FYR','Macedonia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Slovenia','Eslovenia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Slovak Republic','Eslovaquia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Switzerland','Suiza')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Denmark','Dinamarca')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'United Kingdom','Reino Unido')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'New Zealand','Nueva Zelanda')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Spain','España')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Poland','Polonia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Ireland','Irlanda')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Romania','Rumania')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Finland','Finlandia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Moldova','Moldavia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Sweden','Suecia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Kazakhstan','Kazajistan')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Russia','Rusia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Latvia','Letonia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Norway','Noruega')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Lebanon','Libano')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Czech Republic','Republica Checa')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Hungary','Hungria')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Azerbaijan','Azerbaiyan')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Japan','Japon')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'United States','EEUU')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Greece','Grecia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Italy','Italia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Belgium','Belgica')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Belarus','Bielorrusia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Tajikistan','Tayikistan')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Croatia','Croacia')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Lithuania','Lituania')
    common.replace_value_in_column(df,COUNTRY_COL_NAME,'Netherlands','Paises Bajos')
  
    

In [51]:
print(f"Missing countries for region {REGION}")
missing_countries = common.get_missing_countries_for_region(df, COUNTRY_COL_NAME, REGION)
print(missing_countries)
fix_countries_for_region(df)
missing_countries = common.get_missing_countries_for_region(df, COUNTRY_COL_NAME, REGION)
print("Missing countries for region after fix")
print(missing_countries)

Missing countries for region LAM
{'Republica Dominicana', 'Brasil', 'Trinidad y Tobago'}
Missing countries for region after fix
set()


In [52]:
df_truth = common.get_countries_for_region(df, COUNTRY_COL_NAME, REGION)
assert len(df_truth) == len(common.regions[REGION]['countries']), 'MISSING COUNTRIES FOR REGION'

In [53]:
years_filtered = np.arange(1970,2001,1)
columns_filter = np.append([COUNTRY_COL_NAME],years_filtered)

df_truth = df_truth[columns_filter]
assert 0 == df_truth.isna().sum().sum(), "MISSING VALUES. CONSIDER FILL STRATEGY" #If 0, then we don't have missing values.
assert not (df_truth == 0).any().any(), "CELLS WITH 0" 

### Now, MML

In [54]:
df_mml = common.get_mml_data(REGION)
df_mml = df_mml[['Year',MML_VARIABLE_ANALYZED]]
df_mml = df_mml[df_mml.Year >= 1970]
df_mml = df_mml[df_mml.Year <= 2000]
df_mml = df_mml.reset_index(drop=True)
df_mml[0:3]

Unnamed: 0,Year,GNPXC
0,1970,445.5
1,1971,448.9
2,1972,452.8


In [55]:
previous_value = 0
df_mml['variation_rate'] = 0
for i, row in df_mml.iterrows():
    if i == 0:
        previous_value = row[MML_VARIABLE_ANALYZED]
        continue
    #que proporcion del valor anterior, representa la variacion del valor actual respecto del anterior
    dif_with_prev = row[MML_VARIABLE_ANALYZED] - previous_value
    df_mml.at[i, 'variation_rate'] = dif_with_prev / previous_value
    previous_value = row[MML_VARIABLE_ANALYZED]
    
df_mml

Unnamed: 0,Year,GNPXC,variation_rate
0,1970,445.5,0.0
1,1971,448.9,0.007632
2,1972,452.8,0.008688
3,1973,457.2,0.009717
4,1974,462.0,0.010499
5,1975,467.3,0.011472
6,1976,473.1,0.012412
7,1977,479.4,0.013316
8,1978,486.2,0.014184
9,1979,493.6,0.01522


In [56]:
df_mml['variation_rate'].describe()

count    31.000000
mean      0.019995
std       0.008597
min       0.000000
25%       0.013750
50%       0.020219
75%       0.026344
max       0.040106
Name: variation_rate, dtype: float64

Observamos una variacion no mayor al 4%, y un promedio del 2% con baja dispersion
Tomemos un par de paises arbitrarios como referencia y hagamos lo mismo

In [77]:
def get_values_for_country(df, country):
    df_filtered = df[df[COUNTRY_COL_NAME] == country]
    df_T = df_filtered.copy().set_index(COUNTRY_COL_NAME).T
    df_T = df_T.reset_index().rename(columns={'index': "Year"})
    
    return df_T[['Year', country]]

df_argentina = get_values_for_country(df_truth.copy(), 'Argentina')
df_brasil = get_values_for_country(df_truth.copy(), 'Brasil')

Country Name,Year,Argentina
0,1970,14372.0
1,1971,14908.0
2,1972,15203.0
3,1973,15946.0
4,1974,16787.0
5,1975,16454.0
6,1976,16228.0
7,1977,17014.0
8,1978,16086.0
9,1979,17047.0


We need to group by some condition

df_comparison = pd.merge(df_mml,df_truth_aggs,on='Year').rename(columns={MML_VARIABLE_ANALYZED: "mml_value", "mean":"truth_mean"})
df_comparison[0:15]

### Error visualization