# **Patrones de la Economía Mundial 2019-2020**

"Nuestra representación mental del mundo se ha anclado a una cierta forma al mapa mundial, donde la separación de los dos países constituyentes se basa en las fronteras geográficas. Si bien dos países pueden estar cerca por distancia física, las características que definen sus respectivos sistemas económicos en un momento determinado pueden ser drásticamente diferentes"

El siguiente trabajo se enfoca en realizar un análisis exploratorio y descriptivo de los datos, de los principales indicadores Macroeconómicos de los países. y a través de análisis de reducción de dimensionalidad encontrar las variables más relevantes con respecto a sus economías y además por medio de algoritmos de agrupación encontrar esos grupos similares de países con respecto a las variables económicas.

Nos basamos en un artículo del autor.

Mike M, quien utiliza modelos de clúster jerárquico y utilizando R, en este espacio vamos a usar otras técnicas y adicionamos la variable continente, para realizar nuestros propios análisis en cuanto a análisis exploratorio y entendimiento de la economía mundial por medio de Python.

Articulo de Mike-M https://towardsdatascience.com/understanding-patterns-in-the-global-economy-with-machine-learning-120a6900194f



<a id="ref7"></a>

## Tabla de contenido

* <p><a href="#ref1"> 1) Descripción de Datos </a></p>
* <p><a href="#ref2"> 2) Preparacion de Datos </a></p>
* <p><a href="#ref3"> 3) Analisis Exploratorio y Descriptivo </a></p>
* <p><a href="#ref4"> 4) Algoritmos de agrupación o cluster </a></p>
* <p><a href="#ref5"> 5) Conclusiones </a></p>


<a id="ref1"></a>
# 1) Descripción de Datos
<p><a href="#ref7"><font color = red size = 3> Inicio</font> </a></p>


Para comprender las economías, tomamos un vector de variables macroeconómicas importantes que definen el estado de cada economía. Las variables incluyen datos macroeconómicos importantes como el crecimiento, la inflación, el desempleo, la producción industrial, la inflación y el equilibrio presupuestario.

Fuente: https://www.economist.com/economic-and-financial-indicators/2018/03/20/economic-and-financial-indicators


Tenemos tres  Base de datos:
econ2019: información de las principales variables macroeconómicas a corte de febrero del 2019.
econ2020: Información de las principales variables macroeconomías a corte de febrero del 2020
continentes: información de los continentes correspondientes a los países.


descargar los datos aqui: https://drive.google.com/drive/folders/13AUdi9d2pP3Xyqe5Jo51QJpTSbzd2mZE


<a id="ref2"></a>
# 2) Preparacion de los datos
<p><a href="#ref7"><font color = red size = 3> Inicio</font> </a></p>


**Librerias**

In [1]:
# Importar Librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
%matplotlib inline

**Importar datos**

In [2]:
print(os.getcwd()) # comando para conocer el directorio actual

D:\Usuarios\oscagaal\Documents\Introduccion a la Ciencia de Datos


In [3]:
# Importamos datos
cont = pd.read_excel(r"D:\Usuarios\oscagaal\Documents\Introduccion a la Ciencia de Datos\Insumos\continentes.xlsx")
df_19 = pd.read_csv(r"D:\Usuarios\oscagaal\Documents\Introduccion a la Ciencia de Datos\Insumos\econ2019.csv")
df_20 = pd.read_csv(r"D:\Usuarios\oscagaal\Documents\Introduccion a la Ciencia de Datos\Insumos\econ2020.csv")


In [4]:
# Visualizamos los primeros 5 datos de la data economia 2019
df_19.head(5)

Unnamed: 0.1,Unnamed: 0,GDP_Latest,Industrial Product,CPI,Unemployment,Trade Balance,current_account,budget balance,short rates,long rates
0,United States,3.0,4.0,1.9,4.0,-874.0,-2.4,-3.8,2.7,2.66
1,China,6.4,5.7,1.9,3.8,351.8,0.3,-3.9,2.9,2.91
2,Japan,0.0,-1.9,0.3,2.4,10.8,3.7,-3.5,0.0,0.0
3,Britain,1.3,-0.8,2.1,4.0,-185.2,-3.9,-1.3,0.88,1.23
4,Canada,2.1,1.8,2.0,5.8,-17.0,-2.8,-2.2,2.1,1.88


**Se puede ver que la variable países esta indeterminada, debemos renombrar esta variable por verdadero nombre**

In [5]:
# Visualizamos los primeros 5 datos de la data economia 2020
df_20.head(5)

Unnamed: 0,Country,GDP_Latest,Industrial Product,CPI,Unemployment,current_account,budget balance,short rates,long rates
0,United States,2.3,-5.5,1.5,4.4,-2.1,-12.3,1.11,0.65
1,China,-6.8,-1.1,4.3,3.6,1.8,-5.5,1.39,2.0
2,Japan,-0.7,-5.7,0.5,2.4,3.2,-5.4,0.0,0.0
3,Britain,1.1,-2.8,1.7,3.9,-2.2,-14.8,0.66,0.34
4,Canada,1.5,-0.8,2.2,7.8,-3.7,-4.2,0.62,0.65


In [6]:
# Visualizamos los primeros 5 datos de la data continentes
cont.head(5)

Unnamed: 0,Country,Continente
0,United States,Norte America
1,China,Asia
2,Japan,Asia
3,Britain,Europa
4,Canada,Norte America


**Dimensiones de las bases de datos**

In [7]:
print(df_19.shape)
print(df_20.shape)
print(cont.shape)

(47, 10)
(46, 9)
(46, 2)


**Renombrar una variable Country en econ 2019**

In [8]:
df_19.rename(columns={"Unnamed: 0":"Country"},inplace=True)

**Validamos calidad de datos, comparamos que los países sean iguales en las dos bases de datos**

In [9]:
paises = pd.DataFrame([df_19["Country"],df_20["Country"]])

In [10]:
pd.set_option("display.max_columns",47)## Comando para expandir la vista
paises.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46
Country,United States,China,Japan,Britain,Canada,Euro area,Austria,Belgium,Finland,France,Germany,Greece,Ireland,Italy,Lithuania,Netherlands,Portugal,Slovakia,Spain,Czech Republic,Denmark,Hungary,Norway,Poland,Russia,Sweden,Switzerland,Turkey,Australia,Hong Kong,India,Indonesia,Malaysia,New Zealand,Philippines,Singapore,South Korea,Thailand,Vietnam,Argentina,Brazil,Chile,Colombia,Mexico,Peru,Israel,South Africa
Country,United States,China,Japan,Britain,Canada,Euro area,Austria,Belgium,Finland,France,Germany,Greece,Ireland,Italy,Netherlands,Portugal,Slovakia,Spain,Czech Republic,Denmark,Hungary,Norway,Poland,Russia,Sweden,Switzerland,Turkey,Australia,Hong Kong,India,Indonesia,Malaysia,New Zealand,Philippines,Singapore,South Korea,Thailand,Vietnam,Argentina,Brazil,Chile,Colombia,Mexico,Peru,Israel,South Africa,


**Borramos la Variable Zona euro, esta no corresponde a un país como tal, si no a un grupo de países**

In [11]:
df_19.drop(5,inplace=True) # eliminamos señalando la posicion en python
df_20.drop(5,inplace=True)
df_19 = df_19.reset_index() # Reasignamos los indices
df_20 = df_20.reset_index()


**Volvemos a comparar los países**

In [12]:
paises = pd.DataFrame([df_19["Country"],df_20["Country"]])
pd.set_option("display.max_columns",47)
paises.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45
Country,United States,China,Japan,Britain,Canada,Austria,Belgium,Finland,France,Germany,Greece,Ireland,Italy,Lithuania,Netherlands,Portugal,Slovakia,Spain,Czech Republic,Denmark,Hungary,Norway,Poland,Russia,Sweden,Switzerland,Turkey,Australia,Hong Kong,India,Indonesia,Malaysia,New Zealand,Philippines,Singapore,South Korea,Thailand,Vietnam,Argentina,Brazil,Chile,Colombia,Mexico,Peru,Israel,South Africa
Country,United States,China,Japan,Britain,Canada,Austria,Belgium,Finland,France,Germany,Greece,Ireland,Italy,Netherlands,Portugal,Slovakia,Spain,Czech Republic,Denmark,Hungary,Norway,Poland,Russia,Sweden,Switzerland,Turkey,Australia,Hong Kong,India,Indonesia,Malaysia,New Zealand,Philippines,Singapore,South Korea,Thailand,Vietnam,Argentina,Brazil,Chile,Colombia,Mexico,Peru,Israel,South Africa,


In [13]:
df_19.drop(13,inplace=True) ## Borramos Lithuania porque no esta en 2020
df_19 = df_19.reset_index()

In [14]:
paises = pd.DataFrame([df_19["Country"],df_20["Country"]])
pd.set_option("display.max_columns",47)
paises.head(5)

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44
Country,United States,China,Japan,Britain,Canada,Austria,Belgium,Finland,France,Germany,Greece,Ireland,Italy,Netherlands,Portugal,Slovakia,Spain,Czech Republic,Denmark,Hungary,Norway,Poland,Russia,Sweden,Switzerland,Turkey,Australia,Hong Kong,India,Indonesia,Malaysia,New Zealand,Philippines,Singapore,South Korea,Thailand,Vietnam,Argentina,Brazil,Chile,Colombia,Mexico,Peru,Israel,South Africa
Country,United States,China,Japan,Britain,Canada,Austria,Belgium,Finland,France,Germany,Greece,Ireland,Italy,Netherlands,Portugal,Slovakia,Spain,Czech Republic,Denmark,Hungary,Norway,Poland,Russia,Sweden,Switzerland,Turkey,Australia,Hong Kong,India,Indonesia,Malaysia,New Zealand,Philippines,Singapore,South Korea,Thailand,Vietnam,Argentina,Brazil,Chile,Colombia,Mexico,Peru,Israel,South Africa


**Finalmente tenemos los mismos países en ambas bases de datos**

**Ahora validamos sin los países tienen el mismo formato de escritura**

In [15]:
validacion = df_19["Country"]== df_20["Country"]
validacion

0     True
1     True
2     True
3     True
4     True
5     True
6     True
7     True
8     True
9     True
10    True
11    True
12    True
13    True
14    True
15    True
16    True
17    True
18    True
19    True
20    True
21    True
22    True
23    True
24    True
25    True
26    True
27    True
28    True
29    True
30    True
31    True
32    True
33    True
34    True
35    True
36    True
37    True
38    True
39    True
40    True
41    True
42    True
43    True
44    True
Name: Country, dtype: bool

**Se logra evidenciar que todos los países están escritos en el mismo formato**

**Revisamos como interpreta Python las variables**

In [16]:
df_19.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 12 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   level_0             45 non-null     int64  
 1   index               45 non-null     int64  
 2   Country             45 non-null     object 
 3   GDP_Latest          45 non-null     float64
 4   Industrial Product  45 non-null     float64
 5   CPI                 45 non-null     float64
 6   Unemployment        45 non-null     float64
 7   Trade Balance       45 non-null     float64
 8   current_account     45 non-null     float64
 9   budget balance      45 non-null     float64
 10  short rates         45 non-null     float64
 11  long rates          45 non-null     float64
dtypes: float64(9), int64(2), object(1)
memory usage: 4.3+ KB


In [17]:
df_20.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   index               45 non-null     int64  
 1   Country             45 non-null     object 
 2   GDP_Latest          45 non-null     float64
 3   Industrial Product  45 non-null     float64
 4   CPI                 45 non-null     float64
 5   Unemployment        45 non-null     float64
 6   current_account     45 non-null     float64
 7   budget balance      45 non-null     float64
 8   short rates         45 non-null     float64
 9   long rates          45 non-null     float64
dtypes: float64(8), int64(1), object(1)
memory usage: 3.6+ KB


Todas las variables son numéricas excepto País que debe ser interpretada como Categórica, en este caso Python la lee como Object, es este caso la interpreta bien ya que es la forma de identificarlas, por otra lado Python interpreta las variables numéricas como Int o float;  float para decimales y int para enteros, en este caso hace una buena interpretación de las variables, por ahora no es necesario recodificar.

**Dimensiones de datas depuradas**

In [18]:
df_19.shape

(45, 12)

In [19]:
df_20.shape

(45, 10)

**Seleccionamos las variables que únicamente están en las dos bases de datos**

In [20]:
# Seleciionar Variable 2019
df_19=df_19.iloc[:,2:13]
df_19.head(5)

Unnamed: 0,Country,GDP_Latest,Industrial Product,CPI,Unemployment,Trade Balance,current_account,budget balance,short rates,long rates
0,United States,3.0,4.0,1.9,4.0,-874.0,-2.4,-3.8,2.7,2.66
1,China,6.4,5.7,1.9,3.8,351.8,0.3,-3.9,2.9,2.91
2,Japan,0.0,-1.9,0.3,2.4,10.8,3.7,-3.5,0.0,0.0
3,Britain,1.3,-0.8,2.1,4.0,-185.2,-3.9,-1.3,0.88,1.23
4,Canada,2.1,1.8,2.0,5.8,-17.0,-2.8,-2.2,2.1,1.88


In [21]:
# Seleciionar Variable 2020
df_20=df_20.iloc[:,1:11]
df_20.head(5)

Unnamed: 0,Country,GDP_Latest,Industrial Product,CPI,Unemployment,current_account,budget balance,short rates,long rates
0,United States,2.3,-5.5,1.5,4.4,-2.1,-12.3,1.11,0.65
1,China,-6.8,-1.1,4.3,3.6,1.8,-5.5,1.39,2.0
2,Japan,-0.7,-5.7,0.5,2.4,3.2,-5.4,0.0,0.0
3,Britain,1.1,-2.8,1.7,3.9,-2.2,-14.8,0.66,0.34
4,Canada,1.5,-0.8,2.2,7.8,-3.7,-4.2,0.62,0.65


In [22]:
columnas_2020 = list(df_20.columns)
columnas_2020

['Country',
 'GDP_Latest',
 'Industrial Product',
 'CPI',
 'Unemployment',
 'current_account',
 'budget balance',
 'short rates',
 'long rates']

In [23]:
df_19 = df_19[columnas_2020]

In [24]:
print(df_19.shape)
print(df_20.shape)
print(cont.shape)

(45, 9)
(45, 9)
(46, 2)


**Creamos la variable año en cada base, para poder filtrar en los informes**

In [25]:
# Craer Varible año
df_19["Año"]=2019
df_20["Año"]=2020


In [26]:
df_19.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Country             45 non-null     object 
 1   GDP_Latest          45 non-null     float64
 2   Industrial Product  45 non-null     float64
 3   CPI                 45 non-null     float64
 4   Unemployment        45 non-null     float64
 5   current_account     45 non-null     float64
 6   budget balance      45 non-null     float64
 7   short rates         45 non-null     float64
 8   long rates          45 non-null     float64
 9   Año                 45 non-null     int64  
dtypes: float64(8), int64(1), object(1)
memory usage: 3.6+ KB


**Evidenciamos que año lo lee como números, en este caso tenemos que renombrar ya que la necesitamos en formato categórica**

In [27]:
df_19["Año"] = df_19["Año"].astype(int).astype(str)
df_20["Año"] = df_20["Año"].astype(int).astype(str)


In [28]:
df_19.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Country             45 non-null     object 
 1   GDP_Latest          45 non-null     float64
 2   Industrial Product  45 non-null     float64
 3   CPI                 45 non-null     float64
 4   Unemployment        45 non-null     float64
 5   current_account     45 non-null     float64
 6   budget balance      45 non-null     float64
 7   short rates         45 non-null     float64
 8   long rates          45 non-null     float64
 9   Año                 45 non-null     object 
dtypes: float64(8), object(2)
memory usage: 3.6+ KB


Una vez las bases depuradas y corregidas procedemos a unir las dos bases,
Hay dos formas de unir bases una de forma horizontal y otra de forma horizontal,
En Python cuando es horizontal necesitamos una llave y se hace por medio de merge, y cuando es de forma vertical usamos una concatenación y debemos tener las mismas estructuras.


In [29]:
## Unir horizontal
df = pd.concat([df_19,df_20],ignore_index=True)

In [30]:
df.shape

(90, 10)

In [31]:
df.head(8)

Unnamed: 0,Country,GDP_Latest,Industrial Product,CPI,Unemployment,current_account,budget balance,short rates,long rates,Año
0,United States,3.0,4.0,1.9,4.0,-2.4,-3.8,2.7,2.66,2019
1,China,6.4,5.7,1.9,3.8,0.3,-3.9,2.9,2.91,2019
2,Japan,0.0,-1.9,0.3,2.4,3.7,-3.5,0.0,0.0,2019
3,Britain,1.3,-0.8,2.1,4.0,-3.9,-1.3,0.88,1.23,2019
4,Canada,2.1,1.8,2.0,5.8,-2.8,-2.2,2.1,1.88,2019
5,Austria,2.2,1.0,1.9,4.7,2.1,-0.2,0.0,0.33,2019
6,Belgium,1.2,2.5,2.0,5.5,0.5,-1.0,0.0,0.66,2019
7,Finland,2.3,3.3,1.2,5.4,-1.3,-0.8,0.0,0.35,2019


**Agregamos el continente**

In [32]:
## Intregacion continente de forma Vertical
df = pd.merge(df,cont, how="inner",left_on="Country",right_on='Country')

In [33]:
df.shape

(90, 11)

In [34]:
df.head(5)

Unnamed: 0,Country,GDP_Latest,Industrial Product,CPI,Unemployment,current_account,budget balance,short rates,long rates,Año,Continente
0,United States,3.0,4.0,1.9,4.0,-2.4,-3.8,2.7,2.66,2019,Norte America
1,United States,2.3,-5.5,1.5,4.4,-2.1,-12.3,1.11,0.65,2020,Norte America
2,China,6.4,5.7,1.9,3.8,0.3,-3.9,2.9,2.91,2019,Asia
3,China,-6.8,-1.1,4.3,3.6,1.8,-5.5,1.39,2.0,2020,Asia
4,Japan,0.0,-1.9,0.3,2.4,3.7,-3.5,0.0,0.0,2019,Asia


**Detectamos Valores perdidos**

In [35]:
df.isnull().sum()

Country               0
GDP_Latest            0
Industrial Product    0
CPI                   0
Unemployment          0
current_account       0
budget balance        0
short rates           0
long rates            0
Año                   0
Continente            0
dtype: int64

**Nuestra base esta depurada y sin valores perdidos lista para empezar el análisis estadístico.**

In [36]:
df[df["Año"]=="2019"].describe()

Unnamed: 0,GDP_Latest,Industrial Product,CPI,Unemployment,current_account,budget balance,short rates,long rates
count,45.0,45.0,45.0,45.0,45.0,45.0,45.0,45.0
mean,2.713778,0.402222,3.317778,5.475556,1.284444,-1.397778,3.425778,3.349556
std,1.96924,5.308719,7.294964,3.40128,4.869009,2.496132,7.06155,3.275968
min,-3.5,-18.0,0.2,0.0,-6.0,-7.1,0.0,0.0
25%,1.7,-1.9,1.0,3.6,-2.4,-2.8,0.0,0.88
50%,2.4,1.1,1.9,4.8,0.3,-1.9,1.52,2.13
75%,3.2,2.7,2.6,6.0,3.0,-0.1,3.72,4.87
max,7.12,15.0,47.1,18.0,17.9,7.0,41.0,14.0


<a id="ref3"></a>
# 3) Análisis estadístico
<p><a href="#ref7"><font color = red size = 3> Inicio</font> </a></p>

**¡Próximamente!**
