# Proyecto individual de DA: Gaming

## Objetivo de negocio:
Grupo inversor está dispuesto a invertir en el desarrollo de nuevos productos, para ello, nos solicitar lo siguietne:
* Analizar el mercado de videojuegos.
* Identificar posibles nichos para desarrollar nuevos productos.
* Encontrar los insights y presentarlos.

### Preguntas a considerar y responder

* ¿Qué análisis podemos hacer del mercado actual?
* ¿Qué lineamientos generales deberá tener en cuenta el grupo inversor a la hora de determinar el primer juego de la empresa, para lograr aprovechar al máximo las tendencias del mercado, y así lograr el objetivo planteado?
* ¿Qué diferencias encontramos entre las distintas plataformas?
* ¿Qué relación podemos considerar en cuanto a la población e ingresos per cápita de los países? 
* ¿En qué regiones conviene enfocarse?
* ¿Podemos determinar algo con respecto a los rangos etarios u otras características demográficas?
* ¿Podemos estimar las ventas de los juegos actuales o al menos de una categoría? Shooters por ejemplo.

### Dataset a utilizar
| Archivos:
| ------ 
| Indicadores_del_desarrollo_humano_mundial Banco Mundial Indicadores de desarrollo humano. 
| Console_sales Reporte de ventas anuales de consolas. por marca y modelo. 
| Juegos en steam. Reporte con estadísticas de uso de juegos en Steam. Incluye recomendaciones  tiempo de uso, etc. 
| Video Games Sales Reporte de ventas por Video Juego y Plataforma. Incluye ranking y apertura por mercados (NA, EU, Japón y Global). 

## Fases de trabajo
1. Análisis exploratorio de datos para determinar las transformaciones de variables apropiadas, identificar patrones, y conclusiones.
2. Construir KPIs que se integren con el dashboard:
   1.  *Aumentar en un 10% las ventas por sector para el próximo trimestre.*
   2.  *Aumentar en un 10% la plataforma Steam.*
3. Construir un dashboard interactivo, funcional utilizando filtros adecuados.
4. Generar un readme.md que describa el desarrollo del proyecto y sus correspondientes conclusiones.
5. Narrar un storytelling en 10'.

> ## 1. Análisis exploratorio de los datos

#### Procesos a realizar:
1. Búsqueda de valores faltantes
2. Valores atípicos u outliers
3. Análisis univariado y bivariado
4. Registros duplicados
5. Conclusiones

#### 1.1. Importar Librería

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go
from math import ceil

from scipy import stats

%matplotlib inline
plt.style.use('ggplot')

import warnings
warnings.filterwarnings('ignore')

#### 1.2. Creación del DataFrame 1_Indicadores_desarollo_humano_mundial

##### 1.2.1. Hoja: Data

In [None]:
df_1_1 = pd.read_excel('dataset/1_Indicadores_desarrollo_humano_mundial.xlsx', sheet_name='Data')

In [None]:
df_1_1

In [None]:
unique_series_name = df_1_1['Series Name'].unique()
unique_series_name 

**Consideraciones:**
Para este análisis se trabajará con los siguientes valores de Series Name:
* 'INB per cápita, PPA (a $ internacionales actuales)'
* 'Tasa de fertilidad, total (nacimientos por cada mujer)'
* 'Área selvática  (kilómetros cuadrados)'
* 'Crecimiento del PIB (% anual)'
* 'Tiempo necesario para iniciar un negocio (días)'
* 'Crédito interno proporcionado por el sector financiero (% del PIB)'
* 'Recaudación impositiva (% del PIB)'
* 'Índice de términos netos de intercambio (2000 = 100)'
* 'Deuda externa acumulada, total (DOD, US$ a precios actuales)'
* 'Migración neta'
* 'Inversión extranjera directa, entrada neta de capital (balanza de pagos, US$ a precios actuales)'
* 'Desempleo, total (% de la población activa total) (estimación modelado OIT)'
* 'Población activa, total'
* 'Población de 65 años de edad y más, total'
* 'Población entre 0 y 14 años de edad, total'
* 'Población entre 15 y 64 años de edad, total'

In [None]:
df_1_1.info()

In [None]:
df_1_1 = df_1_1.dropna()

In [None]:
df_1_1.info()

##### 1.2.2. Hoja: Series - Metadata

In [None]:
df_1_2 = pd.read_excel('dataset/1_Indicadores_desarrollo_humano_mundial.xlsx', sheet_name='Series - Metadata')

In [None]:
df_1_2

In [None]:
df_1_2 = df_1_2.dropna(axis=1)


In [None]:
df_1_2.columns

In [None]:
df_1_2.info()

Lo mismo se hace con df_1_2

In [None]:
df_1_2.columns = df_1_2.columns.str.replace('_', ' ').str.title().str.replace(' ', '_')
df_1_2.columns

Y similar con df_1_1

In [None]:
# Crear una función para limpiar los nombres de las columnas
def limpiar_nombre_columna(nombre):
    nombre_limpio = nombre.split(' [')[0]  # Eliminar corchetes y lo que está dentro
    nombre_limpio = nombre_limpio.replace(' ', '_')  # Reemplazar espacios por guiones
    return nombre_limpio

# Aplicar la función a los nombres de las columnas
df_1_1.columns = [limpiar_nombre_columna(col) for col in df_1_1.columns]

# Mostrar los nuevos nombres de las columnas
print(df_1_1.columns)

#### 1.6. Observaciones

* Los tamaños de los DataFrame son pequeños y probablemente no existan problemas al trabarlos en un tablero de control.
* Se han eliminado algunas columnas por datos faltantes. Pero se resolverá en análisis posteriores si se eliminan más por irrelevancia.
* Se observa que el dataframe df_1_1 tiene una estructura rara. Se resolverá más adelante si se normaliza o se deja como está.
* Se ha observado cambiar los nombres de las columnas del df_3 para que queden todos iguales.

#### 2.1. Análisis de nulos

In [None]:
df_1_1.isnull().sum()

In [None]:
df_1_2.isnull().sum()

#### 2.2. Normalizacion de valores

##### 2.2.1. Se eliminan columnas innecesarias

In [None]:
df_1_1 = df_1_1.drop(columns=["Series_Code", "Country_Name"])

##### 2.2.2. Normalización de valores dentro de la columna Series_Name en df_1_1

In [None]:
unique_country = df_1_1['Country_Code'].unique()

In [None]:
unique_country

In [None]:
# Supongamos que df_1_1 es tu DataFrame
df_1_1['Country_Code'] = df_1_1['Country_Code'].replace('EUU', 'EU')

# Mostrar el DataFrame actualizado
print(unique_country)

#### 2.3. Observaciones:
* No se observan nulos.

#### 3. Búsqueda de valores atípicos o outliers

Para ello, se procederá a graficar valores en histogramas y boxplots.

**Consideraciones**: existe la problemática de la línea del tiempo en el dataframe df_1_1. 

##### 3.1. Distribución de los valores en columnas numéricas

##### 3.1.1. df_1_1

**Consideraciones:**
Para este análisis se trabajará con los siguientes valores de Series Name:
* 'INB per cápita, PPA (a $ internacionales actuales)'
* 'Tasa de fertilidad, total (nacimientos por cada mujer)'
* 'Área selvática  (kilómetros cuadrados)'
* 'Crecimiento del PIB (% anual)'
* 'Tiempo necesario para iniciar un negocio (días)'
* 'Crédito interno proporcionado por el sector financiero (% del PIB)'
* 'Recaudación impositiva (% del PIB)'
* 'Índice de términos netos de intercambio (2000 = 100)'
* 'Migración neta'
* 'Inversión extranjera directa, entrada neta de capital (balanza de pagos, US$ a precios actuales)'
* 'Desempleo, total (% de la población activa total) (estimación modelado OIT)'
* 'Población activa, total'
* 'Población de 65 años de edad y más, total'
* 'Población entre 0 y 14 años de edad, total'
* 'Población entre 15 y 64 años de edad, total'

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "INB per cápita, PPA (a $ internacionales actuales)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('INB per cápita, PPA (a $ internacionales actuales) para 2018')
plt.xlabel('Regiones')
plt.ylabel('INB per cápita, PPA')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Tasa de fertilidad, total (nacimientos por cada mujer)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Tasa de fertilidad, total (nacimientos por cada mujer), para 2018')
plt.xlabel('Regiones')
plt.ylabel('Tasa de fertilidad')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Área selvática  (kilómetros cuadrados)"]

# Seleccionar los primeros 4 valores de la columna "2016"
columna = filtro["2016"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Área selvática  (kilómetros cuadrados) en 2016')
plt.xlabel('Regiones')
plt.ylabel('Área selvática en km2')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Crecimiento del PIB (% anual)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Crecimiento del PIB (% anual) para 2018')
plt.xlabel('Regiones')
plt.ylabel('Crecimiento del PIB (%)')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Tiempo necesario para iniciar un negocio (días)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Tiempo necesario para iniciar un negocio (días) para 2018')
plt.xlabel('Regiones')
plt.ylabel('Dias para iniciar un negocio')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Crédito interno proporcionado por el sector financiero (% del PIB)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Crédito interno proporcionado por el sector financiero (% del PIB) para 2018')
plt.xlabel('Regiones')
plt.ylabel('Acceso al crédito (% del PIB)')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Recaudación impositiva (% del PIB)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Recaudación impositiva (% del PIB) para 2018')
plt.xlabel('Regiones')
plt.ylabel('Recaudación impositiva (% del PIB)')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Índice de términos netos de intercambio (2000 = 100)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[[0,2,3]]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Índice de términos netos de intercambio (2000 = 100) en 2018')
plt.xlabel('Regiones')
plt.ylabel('Índice de términos netos')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Migración neta"]

# Seleccionar los primeros 4 valores de la columna "2017"
columna = filtro["2017"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Migración neta en 2017')
plt.xlabel('Regiones')
plt.ylabel('Migración neta')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Inversión extranjera directa, entrada neta de capital (balanza de pagos, US$ a precios actuales)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Inversión extranjera directa, entrada neta de capital (balanza de pagos, US$ a precios actuales) para 2018')
plt.xlabel('Regiones')
plt.ylabel('Inversión extranjera')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Desempleo, total (% de la población activa total) (estimación modelado OIT)"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Desempleo, total (% de la población activa total) (estimación modelado OIT) para 2018')
plt.xlabel('Regiones')
plt.ylabel('Desempleo (% de la población activa)')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Población activa, total"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Población activa, total')
plt.xlabel('Regiones')
plt.ylabel('Población activa')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Población de 65 años de edad y más, total"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Población igual o superior a 65 años de edad')
plt.xlabel('Regiones')
plt.ylabel('Población >= 65')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Población entre 0 y 14 años de edad, total"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Población entre 0 a 14 años en 2018')
plt.xlabel('Países')
plt.ylabel('Población entre 0 y 14 años')
plt.show()

In [None]:
# Filtrar el DataFrame por la columna "Series_Name"
filtro = df_1_1[df_1_1["Series_Name"] == "Población entre 15 y 64 años de edad, total"]

# Seleccionar los primeros 4 valores de la columna "2018"
columna = filtro["2018"].iloc[:4]

# Convertir los valores a tipo numérico, ignorando los errores
columna = pd.to_numeric(columna, errors='coerce')

# Eliminar valores NaN (resultantes de la conversión de texto no numérico)
columna = columna.dropna()

# Crear el gráfico de barras
plt.figure(figsize=(10, 6))
plt.bar(["USA", "EU", "JPN", "WLD"], columna, color='skyblue', edgecolor='black')
plt.title('Población entre 15 y 64 años en 2018')
plt.xlabel('Regiones')
plt.ylabel('Población entre 15 y 64 años')
plt.show()

Observaciones: 
* No se encuentran valores atípicos, outliers o anómalos.
* WLD parece atractivo por el lado de la población, tasa de natalidad y superficie a explotar (área selvática).
* USA es atractivo por el lado del tiempo necesario para montar un negocio (5 días), recaudación respecto al PIB, acceso al crédito, crecimiento del PIB, superficie a explotar, e inversión extranjera.
* Tanto EU como JPN están rezagados, y por lo visto, no son tan atractivos como los primeros dos.
* Pero como WLD es muy amplio, USA resultaría ser el más favorecido a la hora de invertir.

#### 4. Análisis de tendencia

**Consideraciones**: se seguirá el modelo del análisis de outliers pero analizando por tiempo.

##### 4.1. df_1_1

In [None]:
df_1_1.head(4)

In [None]:
df_1_1 = df_1_1.iloc[:, :-1]

In [None]:
# Transponer el DataFrame para el análisis
df_1_1_t = df_1_1.transpose()
df_1_1_t

In [None]:
# Renombrar columnas
df_1_1_t.columns = df_1_1_t.iloc[0]
df_1_1_t = df_1_1_t[1:]

In [None]:
columnas_unicas = df_1_1_t.columns[~df_1_1_t.columns.duplicated()]
columnas_unicas 

In [None]:
data = {
    'Country_Code': list(range(2000, 2019)),
    'USA': [36800, 37700, 38430, 39740, 42060, 44570, 47160, 48280, 48290, 46940, 48900, 50820, 53120, 54360, 56730, 58340, 58970, 61020, 63780],
    'EU': [22012.948826, 23059.884679, 24006.003789, 24521.622477, 25728.18648, 26735.436558, 29062.612128, 30845.392794, 32254.830183, 31789.879375, 32834.353589, 34449.881934, 34979.579658, 36172.123569, 37016.970997, 38104.813471, 40524.533564, 42793.872309, 44417.770857],
    'JPN': [27220, 27890, 28560, 29380, 30920, 32350, 33960, 35540, 35710, 34010, 35890, 36790, 38190, 40280, 40590, 41950, 41350, 42290, 43010],
    'WLD': [7942.251914, 8224.350834, 8503.933328, 8863.303582, 9468.130636, 10074.38831, 10952.568348, 11690.168249, 11967.755001, 12161.703592, 12814.761796, 13509.828595, 14092.987024, 14575.533169, 14994.405558, 15122.018719, 15494.415878, 16145.100293, 16884.819555]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Crear un gráfico de tendencia
plt.figure(figsize=(12, 6))
plt.plot(df['Country_Code'], df['USA'], marker='o', label='USA')
plt.plot(df['Country_Code'], df['EU'], marker='o', label='EU')
plt.plot(df['Country_Code'], df['JPN'], marker='o', label='JPN')
plt.plot(df['Country_Code'], df['WLD'], marker='o', label='WLD')

# Añadir etiquetas y título
plt.xlabel('Año')
plt.ylabel('INB per cápita, PPA (a $ internacionales actuales)')
plt.title('Tendencia de INB per cápita, PPA (a $ internacionales actuales) 2000-2018')
plt.legend()

# Mostrar el gráfico
plt.grid(True)
plt.show()

In [None]:
data = {
    'Year': list(range(2000, 2019)),
    'USA': [2.056, 2.0305, 2.0205, 2.0475, 2.0515, 2.057, 2.108, 2.12, 2.072, 2.002, 1.931, 1.8945, 1.8805, 1.8575, 1.8625, 1.8435, 1.8205, 1.7655, 1.7295],
    'EU': [1.441287, 1.422973, 1.421157, 1.432437, 1.455969, 1.467913, 1.494461, 1.516472, 1.567082, 1.559628, 1.56731, 1.533534, 1.53327, 1.507338, 1.535283, 1.537246, 1.566146, 1.557486, 1.543452],
    'JPN': [1.359, 1.33, 1.32, 1.29, 1.29, 1.26, 1.32, 1.34, 1.37, 1.37, 1.39, 1.39, 1.41, 1.43, 1.42, 1.45, 1.44, 1.43, 1.42],
    'WLD': [2.696021, 2.66631, 2.643704, 2.624844, 2.608569, 2.588012, 2.577129, 2.567128, 2.555065, 2.534292, 2.516408, 2.498808, 2.489385, 2.473019, 2.465648, 2.456264, 2.445576, 2.428196, 2.415032]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Crear un gráfico de tendencia
plt.figure(figsize=(12, 6))
plt.plot(df['Year'], df['USA'], marker='o', label='USA')
plt.plot(df['Year'], df['EU'], marker='o', label='EU')
plt.plot(df['Year'], df['JPN'], marker='o', label='JPN')
plt.plot(df['Year'], df['WLD'], marker='o', label='WLD')

# Añadir etiquetas y título
plt.xlabel('Año')
plt.ylabel('Tasa de fertilidad, total (nacimientos por cada mujer)')
plt.title('Tendencia de Tasa de fertilidad, total (nacimientos por cada mujer) 2000-2018')
plt.legend()

# Mostrar el gráfico
plt.grid(True)
plt.show()

In [None]:
data = {
    'Country_Code': list(range(2000, 2019)),
    'USA': [
        10252345464000, 10581821399900, 10936419054000, 11458243878000, 12213729147000, 
        13036640229000, 13814614140000, 14451885650000, 14712844084000, 14489330520000, 
        14990252727000, 15542581040000, 16197007349000, 16784489190000, 17521746534000, 
        18219297584000, 18707188235000, 19485393853000, 20544343456936
    ],
    'EU': [
        7258060812953, 7385944125907, 8047699909021, 9909170158133, 11396119066042, 
        11902181715509, 12699806876309, 14707134757359, 16234436573911, 14707389453532, 
        14540122378882, 15740251081656, 14634470770544, 15291337809935, 15631241536377, 
        13545202459222, 13882044553929, 14701144884801, 15912779344835,
    ],
    'JPN': [
        4887519660744, 4303544259842, 4115116279069, 4445658071221, 4815148854362, 
        4755410630912, 4530377224970, 4515264514430, 5037908465114, 5231382674593, 
        5700098114744, 6157459594823, 6203213121334, 5155717056270, 4850413536087, 
        4389475622588, 4926667087367, 4859950558538, 4971323079771, 
        
    ],
    'WLD': [
        33588568226721, 33397674717513, 34674985562160, 38903667053120, 43871512446338, 
        47457731188389, 51447884999567, 57968090589081, 63610422341569, 60334303773856, 
        66049248793368, 73391477748703, 75082688938148, 77236184877355, 79334438915146, 
        75051787690892, 76166454624306, 80963190912336, 85930754374373
        
    ]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Crear un gráfico de tendencia
plt.figure(figsize=(12, 6))
plt.plot(df['Country_Code'], df['USA'], marker='o', label='USA')
plt.plot(df['Country_Code'], df['EU'], marker='o', label='EU')
plt.plot(df['Country_Code'], df['JPN'], marker='o', label='JPN')
plt.plot(df['Country_Code'], df['WLD'], marker='o', label='WLD')

# Añadir etiquetas y título
plt.xlabel('Año')
plt.ylabel('PIB (US$ a precios actuales)')
plt.title('PIB (US$ a precios actuales) 2000-2018')
plt.legend()

# Mostrar el gráfico
plt.grid(True)
plt.show()

In [None]:
data = {
    'Año': list(range(2000, 2019)),
    'USA': [4.127484, 0.998341, 1.741695, 2.861211, 3.798891, 3.513214, 2.854972, 1.876171, -0.13658, -2.536757, 2.563767, 1.550836, 2.249546, 1.842081, 2.451973, 2.88091, 1.567215, 2.21701, 2.927323],
    'EU': [3.906817, 2.189414, 1.122726, 0.925509, 2.602437, 1.931168, 3.493369, 3.156144, 0.652746, -4.32698, 2.205425, 1.833849, -0.745619, -0.060616, 1.159401, 2.352356, 2.060907, 2.723967, 2.12651],
    'JPN': [2.779633, 0.406336, 0.117993, 1.52822, 2.204688, 1.66267, 1.420007, 1.654481, -1.093541, -5.416413, 4.191739, -0.115421, 1.49509, 2.000268, 0.374717, 1.222921, 0.600993, 1.928757, 0.788456],
    'WLD': [4.38356, 1.949645, 2.176793, 2.956953, 4.401295, 3.913302, 4.377542, 3.419068, 1.850115, -1.678389, 4.299175, 3.132457, 2.507626, 2.655492, 2.8305, 2.857257, 2.585116, 3.196562, 3.058395]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Crear un gráfico de tendencia
plt.figure(figsize=(12, 6))
plt.plot(df['Año'], df['USA'], marker='o', label='USA')
plt.plot(df['Año'], df['EU'], marker='o', label='EU')
plt.plot(df['Año'], df['JPN'], marker='o', label='JPN')
plt.plot(df['Año'], df['WLD'], marker='o', label='WLD')

# Añadir etiquetas y título
plt.xlabel('Año')
plt.ylabel('Crecimiento del PIB (% anual)')
plt.title('Tendencia de Crecimiento del PIB (% anual) 2000-2018')
plt.legend()

# Mostrar el gráfico
plt.grid(True)
plt.show()


In [None]:
data = {
    'Año': list(range(2000, 2019)),
    'USA': [100, 102.797928, 104.357067, 102.889577, 101.270772, 97.181818, 95.92721, 96.589018, 91.797166, 98.988196, 97.082019, 94.594595, 94.680851, 95.340502, 95.869565, 100, 100.083472, 99.594485, 99.842644],
    'JPN': [100, 100.555556, 100.987306, 97.676624, 92.405639, 83.232811, 75.423729, 71.658456, 62.008469, 74.374152, 67.726069, 61.598029, 60.458554, 59.019426, 58.444247, 66.666667, 72.328549, 68.680331, 64.727516],
    'WLD': [100, 98.255923, 100.395695, 108.969031, 113.976816, 115.001611, 115.866333, 120.21576, 123.794177, 121.306427, 119.557344, 122.401602, 118.847093, 120.316171, 120.325203, 113.977055, 113.63034, 114.910264, 117.018084]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Crear un gráfico de tendencia
plt.figure(figsize=(12, 6))
plt.plot(df['Año'], df['USA'], marker='o', label='USA')
plt.plot(df['Año'], df['JPN'], marker='o', label='JPN')
plt.plot(df['Año'], df['WLD'], marker='o', label='WLD')

# Añadir etiquetas y título
plt.xlabel('Año')
plt.ylabel('Índice de términos netos de intercambio (2000 = 100)')
plt.title('Tendencia del Índice de términos netos de intercambio (2000 = 100) 2000-2018')
plt.legend()

# Mostrar el gráfico
plt.grid(True)
plt.show()

In [None]:
data = {
    'Country_Code': list(range(2000, 2019)),
    'USA': [349125000000, 172496000000, 111055000000, 117106000000, 213641000000, 
            142344000000, 298463000000, 346613000000, 341109200000, 161080000000, 
            264039000000, 263497000000, 250345000000, 288131000000, 251850000000, 
            509087000000, 494439000000, 354649000000, 258390000000],
    'EU': [633986714307, 366252770235, 295343566624, 293507610674, 313828153578,
           731279136851, 911860029116, 1477512472583, 828461316788, 478999079206, 
           539435820325, 877921989824, 570884522816, 588631025536, 419824382135, 
           769422777295, 714186136297, 428328143491, 71905793705],
    'JPN': [10688168325, 4926033619, 11557378373, 8771535612, 7527948175, 
            5459618342, -2396909736, 21631204453, 24624845329, 12226471578, 
            7440979284, -85071035, 546962692, 10648441636, 19742239442, 
            5252218412, 40954181468, 18802251820, 24605910854],
    'WLD': [1569118768884, 895499916623, 755583230625, 737213330829, 101040393064, 
            1563481637733, 2202604164398, 3135872889182, 2478032194712, 1446872840778, 
            1916740277757, 236569453985, 2062556890039, 2184451618089, 1942599797497,
            267512601680, 267290396795, 206603013320, 1349946364281]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Crear un gráfico de tendencia
plt.figure(figsize=(12, 6))
plt.plot(df['Country_Code'], df['USA'], marker='o', label='USA')
plt.plot(df['Country_Code'], df['EU'], marker='o', label='EU')
plt.plot(df['Country_Code'], df['JPN'], marker='o', label='JPN')
plt.plot(df['Country_Code'], df['WLD'], marker='o', label='WLD')

# Añadir etiquetas y título
plt.xlabel('Año')
plt.ylabel('Inversiones extranjeras directas netas (US$ corrientes)')
plt.title('Tendencia de Inversiones extranjeras directas netas (US$ corrientes) 2000-2018')
plt.legend()

# Mostrar el gráfico
plt.grid(True)
plt.show()

In [None]:
data = {
    'Country_Code': list(range(2000, 2019)),
    'USA': [146729576, 147698388, 148526037, 149140813, 150211571, 152071960, 153931108, 155224880, 157006864, 157109264, 156903447, 156975333, 158636184, 158755710, 159532026, 160596354, 162547573, 164268059, 165483017],
    'EU': [199217046, 199487250, 200144636, 201933394, 203395227, 203565646, 206996811, 208540629, 210215521, 210743587, 211354253, 210739030, 212039861, 212597037, 213265528, 214360167, 216148613, 215671511, 216488451],
    'JPN': [67652881, 67601019, 67173003, 67065336, 66725257, 66734012, 66802058, 67143470, 67100796, 66914282, 66663144, 66043052, 65639408, 65970039, 65766157, 66363530, 66850743, 67288838, 68358370],
    'WLD': [2760410612, 2797040580, 2838919269, 2883821977, 2932247001, 2978118240, 3014743223, 3054910730, 3090361014, 3123387038, 3152655443, 3183946265, 3218914484, 3250959724, 3283333012, 3319710285, 3354403108, 3396147862, 3427448140]
}

# Crear el DataFrame
df = pd.DataFrame(data)

# Crear un gráfico de tendencia
plt.figure(figsize=(12, 6))
plt.plot(df['Country_Code'], df['USA'], marker='o', label='USA')
plt.plot(df['Country_Code'], df['EU'], marker='o', label='EU')
plt.plot(df['Country_Code'], df['JPN'], marker='o', label='JPN')
plt.plot(df['Country_Code'], df['WLD'], marker='o', label='WLD')

# Añadir etiquetas y título
plt.xlabel('Año')
plt.ylabel('Población activa, total')
plt.title('Tendencia de la Población activa, total 2000-2018')
plt.legend()

# Mostrar el gráfico
plt.grid(True)
plt.show()

* Observaciones (tendencia):
  * INB per cápita: todos crecen parecido pero Japón es el más retrasado. Por ello, EU supera a Japón. USA siempre es el más alto con bastante diferencia.
  * Tasa de fertilidad: los que tenían tasa de fertilidad más alta que son WLD y luego USA estan descendiendo consistentemente. Lo sano es que sea superior a 2 y tanto USA, como JPN y EU tiene riesgo de población activa, y por lo tanto, dependen de la migración de WLD.
  * PIB: es notorio el crecimiento de WLD respecto a la otras regiones. USA se diferencia de EU y JPN.
  * Tasa de crecimiento de PIB: este gráfico explica el anterior, pues es la derivada. Es notorio que WLD siempre tiene la tasa de crecimiento más alta, mientras JPN la más baja. USA supera a EU a partir del 2008.
  * Índice de terminos netos de intercambio: lo más saludable para un pai es que sea superior a 100. Todos comienzan de forma equilibrada, WLD logra superar el 100, USA se mantiene mientras que JPN decae fuertemente.
  * Inversiones extranjeras directas netas: WLD es con diferencia el más elevado pero habría que también dividirlo por la población quizás. Pero lo cierto que es un indicador de una posible causa para incrementar el PIB.
  * Población activa: este es el resultado de la tasa de fertilidad. El único que incrementa la población activa es WLD y cada vez menos. Los demás se mantienen estables quizás por las migraciones.

#### Análisis de correlación entre variables

df_1

Consideraciones:
* Como son 4 paises, y no tiene sentidad destacar la correlación entre los distintos paises porque ya se efectuó ese análisis, entonces, se analizará las distintas variables considerando a USA.

In [None]:
columnas_unicas

In [None]:
df_1_1_c = df_1_1_t.iloc[:1]

In [None]:
# Calcular la matriz de correlación incluyendo la columna   
df_1_1_corr = df_1_1_c[['INB per cápita, PPA (a $ internacionales actuales)', 'Tasa de fertilidad, total (nacimientos por cada mujer)', 'Positive_Ratings', 'Negative_Ratings', 'Average_Playtime', 'Median_Playtime', 'Price']].corr()

# Visualizar la matriz de correlación
sns.heatmap(df_1_1_corr, annot=True, cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.show()

Observaciones:
* Se observan correlaciones positivas pero no existe multicolinealidad 

#### Análisis de duplicados

#### Exportación de los DataFrames

#### Conclusiones