In [None]:
#1. Importación de Librerias y Configuración

# Importación de librerías esenciales
import pandas as pd      # Para la manipulación y análisis de datos
import numpy as np       # Para operaciones numéricas
import matplotlib.pyplot as plt  # Para la generación de gráficos
import seaborn as sns    # Para visualización de datos con estilos predefinidos
import statsmodels.api as sm
# Configuración de estilo para gráficos
sns.set(style="whitegrid", palette="muted", color_codes=True)
plt.rcParams['figure.figsize'] = (10, 6)  # Tamaño predeterminado de las figuras

# Configuración de opciones de Pandas
pd.set_option('display.max_columns', 50)
pd.set_option('display.max_rows', 100)

PIB_OTRAS='PIB VS OTRAS VARIABLES (2).xlsx'
df=pd.read_excel(PIB_OTRAS)
df.head()

In [None]:


# Convertir la columna Year a tipo object (string)
df['Year'] = df['Year'].astype(str)

# Verificar el tipo de dato de la columna Year
print(df['Year'].dtype)

#TIPO DE VARIABLE DE TODAS
df.dtypes


In [None]:

#columnas numéricas excluyendo 'PIB per capita (Moneda Local Constante)'
numeric_cols = df.select_dtypes(include=np.number).columns
numeric_cols = numeric_cols.drop('PIB per capita (Moneda Local Constante)')

# Crear el mapa de correlación
correlation_matrix = df[numeric_cols].corr()

# Mostrar el mapa de correlación usando Seaborn
plt.figure(figsize=(12, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Mapa de Correlación entre Variables Numéricas (Excluyendo PIB per capita)')
plt.show()


El PIB per cápita está altamente correlacionado con el consumo de energía eléctrica, lo que indica que el desarrollo económico y la disponibilidad de electricidad están fuertemente ligados.

La correlación entre el acceso urbano/rural a la electricidad y otras variables muestra cómo las zonas rurales suelen quedarse atrás en términos de desarrollo energético.

In [None]:
print(correlation_matrix.to_string()) #Matriz de correlación en string

In [None]:

# Seleccionar solo columnas numéricas
df_numeric = df.select_dtypes(include=np.number)

# Excluir 'PIB per capita (Moneda Local Constante)'
df_numeric = df_numeric.drop(columns=['PIB per capita (Moneda Local Constante)'], errors='ignore')

# Estadísticas descriptivas para variables numéricas
descriptive_stats = df_numeric.describe()
print(descriptive_stats)

# Análisis de distribución para variables numéricas
for col in df_numeric.columns:
    plt.figure(figsize=(8, 6))
    sns.histplot(df_numeric[col], kde=True)
    plt.title(f'Distribución de {col}')
    plt.show()


# Análisis de la distribución de la variable PIB per capita
plt.figure(figsize=(8, 6))
sns.boxplot(x=df['PIB per cápita (US$ a precios constantes de 2015)'])
plt.title('Distribución del PIB per capita USD')
plt.show()


#diagramas de dispersión entre PIB per capita y otras variables
# como el consumo de energía eléctrica.
plt.figure(figsize=(8, 6))
sns.scatterplot(x='PIB per cápita (US$ a precios constantes de 2015)', y='Consumo de energía eléctrica(kWh per capita)', data=df)
plt.title('Relación entre PIB per cápita  y Consumo de Energía Eléctrica')
plt.show()

# gráfico de línea para observar la tendencia del PIB per capita a lo largo del tiempo.
plt.figure(figsize=(10, 6))
sns.lineplot(x='Year', y='PIB per cápita (US$ a precios constantes de 2015)', data=df)
plt.title('Tendencia del PIB per capita a lo largo del tiempo')
plt.show()




In [None]:


# Seleccionar solo columnas numéricas
df_numeric = df.select_dtypes(include=np.number)

# Excluir 'PIB per capita (Moneda Local Constante)'
df_numeric = df_numeric.drop(columns=['PIB per capita (Moneda Local Constante)'], errors='ignore')

# Definir variables que son porcentajes (%)
percentage_cols = [
    'Acceso a electricidad (% de la población)',
    'Producción de electricidad a partir de fuentes renovables, excluída hidroeléctrica (% del total)',
    'Producción de electricidad a partir de fuentes de petróleo, gas y carbón (% del total)',
    'Consumo de energía renovable (% del consumo final total de energía)',
    'Acceso a la electricidad, urbana (% de la población urbana)',
    'Acceso a la electricidad, rural (% de la población rural)'
]

# Definir variables que son valores en dólares (USD)
usd_cols = [
    'PIB per cápita (US$ a precios constantes de 2015)',
    'PIB por unidad de uso de energía (constant 2021 PPP $ per kg of oil equivalent)'
]

# Formatear los datos para mayor legibilidad
descriptive_stats = df_numeric.describe()
# Aplicar formato a porcentajes y valores en dólares
for col in descriptive_stats.columns:
    if col in percentage_cols:
        descriptive_stats.loc[['mean', 'std', 'min', '25%', '50%', '75%', 'max'], col] = descriptive_stats.loc[['mean', 'std', 'min', '25%', '50%', '75%', 'max'], col].apply(lambda x: f"{x:.2f}%")
    elif col in usd_cols:
        descriptive_stats.loc[['mean', 'std', 'min', '25%', '50%', '75%', 'max'], col] = descriptive_stats.loc[['mean', 'std', 'min', '25%', '50%', '75%', 'max'], col].apply(lambda x: f"${x:,.2f}")
    else:
        descriptive_stats.loc[['mean', 'std', 'min', '25%', '50%', '75%', 'max'], col] = descriptive_stats.loc[['mean', 'std', 'min', '25%', '50%', '75%', 'max'], col].apply(lambda x: f"{x:,.2f}")

# Asegurar que 'count' no tenga unidades
descriptive_stats.loc['count'] = descriptive_stats.loc['count'].astype(int)

# Mostrar tabla mejorada
print(descriptive_stats)



In [None]:
#dejar solo las siguientes variables: 'Country Name', 'Country Code', 'Year',
#        'Acceso a electricidad (% de la población)',
#        'Acceso a la electricidad, urbana (% de la población urbana)',
#        'Acceso a la electricidad, rural (% de la población rural)',
#        'PIB per cápita (US$ a precios constantes de 2015)'


df = df[[
    'Country Name', 'Country Code', 'Year',
    'Acceso a electricidad (% de la población)',
    'Acceso a la electricidad, urbana (% de la población urbana)',
    'Acceso a la electricidad, rural (% de la población rural)',
    'PIB per cápita (US$ a precios constantes de 2015)'
]]
df.head()

In [None]:

# gráfico de línea para observar la tendencia del PIB per capita a lo largo del tiempo.

usd_cols = [
    'PIB per cápita (US$ a precios constantes de 2015)'
]
plt.figure(figsize=(12, 6))
sns.lineplot(x='Year', y='PIB per cápita (US$ a precios constantes de 2015)', hue='Country Name', data=df)



try:
    sns.lineplot(x='Year', y='PIB per cápita (US$ a precios constantes de 2015)', hue='Country Name', data=df)
except NameError:
    plt.plot(df['Year'], df['PIB per cápita (US$ a precios constantes de 2015)'])
plt.title('Tendencia del PIB Per Cápita a lo largo del tiempo por país')
plt.xlabel('Año')
plt.ylabel('PIB per capita (USD)')
plt.xticks(rotation=45, ha='right')  # Rotar las etiquetas del eje x para una mejor legibilidad
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')  # Mover la leyenda fuera del gráfico
plt.tight_layout()
plt.show()


plt.tight_layout()
plt.show()


In [None]:
# GRAFICO DE PIB PERCAPITA VS  Acceso a la electricidad, urbana (% de la población urbana),  Acceso a la electricidad, rural (% de la población rural )


# Gráfico de dispersión PIB per cápita vs Acceso a la electricidad urbana y rural

plt.figure(figsize=(12, 6))

# Gráfico de dispersión para acceso a electricidad urbana
sns.scatterplot(x='PIB per cápita (US$ a precios constantes de 2015)', y='Acceso a la electricidad, urbana (% de la población urbana)', data=df, label='Urbana', alpha=0.7)

# Gráfico de dispersión para acceso a electricidad rural
sns.scatterplot(x='PIB per cápita (US$ a precios constantes de 2015)', y='Acceso a la electricidad, rural (% de la población rural)', data=df, label='Rural', alpha=0.7)

plt.title('PIB per cápita vs Acceso a la electricidad (Urbana y Rural)')
plt.xlabel('PIB per cápita (US$ a precios constantes de 2015)')
plt.ylabel('Acceso a la electricidad (% de la población)')
plt.legend()
plt.show()


In [None]:
#  grafico de dispersion  'PIB per cápita (US$ a precios constantes de 2015)' vs 'Acceso a la electricidad, urbana (% de la población urbana)'

# Gráfico de dispersión PIB per cápita vs Acceso a la electricidad, urbana
plt.figure(figsize=(10, 6))
sns.scatterplot(x='PIB per cápita (US$ a precios constantes de 2015)',
                y='Acceso a la electricidad, urbana (% de la población urbana)',
                data=df)
plt.title('PIB per cápita vs Acceso a la electricidad, urbana')
plt.xlabel('PIB per cápita (US$ a precios constantes de 2015)')
plt.ylabel('Acceso a la electricidad, urbana (% de la población urbana)')
plt.show()


In [None]:

# Seleccionar las variables para el mapa de calor
variables_mapa_calor = [
    'Acceso a electricidad (% de la población)',
    'Acceso a la electricidad, urbana (% de la población urbana)',
    'Acceso a la electricidad, rural (% de la población rural)',
    'PIB per cápita (US$ a precios constantes de 2015)'
]

# matriz de correlación solo con las variables seleccionadas
correlation_matrix = df[variables_mapa_calor].corr()

# Generar el mapa de calor
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de correlación entre variables de acceso a la electricidad y PIB per cápita de países seleccionados (2000-2014)')
plt.show()


In [None]:

# Filtrar solo Colombia
df_colombia = df[df["Country Name"] == "Colombia"]

# Gráfico de líneas
fig, ax1 = plt.subplots(figsize=(10,5))

# Acceso a electricidad
ax1.set_xlabel("Año")
ax1.set_ylabel("Acceso a electricidad (%)", color="tab:blue")
sns.lineplot(data=df_colombia, x="Year", y="Acceso a electricidad (% de la población)", ax=ax1, color="tab:blue", label="Total")
sns.lineplot(data=df_colombia, x="Year", y="Acceso a la electricidad, urbana (% de la población urbana)", ax=ax1, color="tab:green", label="Urbana")
sns.lineplot(data=df_colombia, x="Year", y="Acceso a la electricidad, rural (% de la población rural)", ax=ax1, color="tab:red", label="Rural")

# PIB per cápita en eje secundario
ax2 = ax1.twinx()
ax2.set_ylabel("PIB per cápita (US$ constantes 2015)", color="tab:orange")
sns.lineplot(data=df_colombia, x="Year", y="PIB per cápita (US$ a precios constantes de 2015)", ax=ax2, color="tab:orange", label="PIB")

ax1.legend(loc="upper left")
ax2.legend(loc="upper right")
plt.title("Acceso a la Electricidad y PIB per Cápita en Colombia (2000-2014)")
plt.savefig("Acceso a la Electricidad y PIB per Cápita en Colombia (2000-2014).png", bbox_inches="tight", dpi=300)
plt.show()


In [None]:
#resto del mundo
# Filtrar todos los países excepto Colombia
df_sin_colombia = df[df["Country Name"] != "Colombia"]

# Agrupar por año y calcular el promedio
df_promedio = df_sin_colombia.groupby("Year").agg({
    "Acceso a electricidad (% de la población)": "mean",
    "Acceso a la electricidad, urbana (% de la población urbana)": "mean",
    "Acceso a la electricidad, rural (% de la población rural)": "mean",
    "PIB per cápita (US$ a precios constantes de 2015)": "mean"
})

# Gráfico de líneas
fig, ax1 = plt.subplots(figsize=(10,5))

# Acceso a electricidad
ax1.set_xlabel("Año")
ax1.set_ylabel("Acceso a electricidad (%)", color="tab:blue")
sns.lineplot(data=df_promedio, x="Year", y="Acceso a electricidad (% de la población)", ax=ax1, color="tab:blue", label="Total")
sns.lineplot(data=df_promedio, x="Year", y="Acceso a la electricidad, urbana (% de la población urbana)", ax=ax1, color="tab:green", label="Urbana")
sns.lineplot(data=df_promedio, x="Year", y="Acceso a la electricidad, rural (% de la población rural)", ax=ax1, color="tab:red", label="Rural")

# PIB per cápita en eje secundario
ax2 = ax1.twinx()
ax2.set_ylabel("PIB per cápita (US$ constantes 2015)", color="tab:orange")
sns.lineplot(data=df_promedio, x="Year", y="PIB per cápita (US$ a precios constantes de 2015)", ax=ax2, color="tab:orange", label="PIB")

ax1.legend(loc="upper left")
ax2.legend(loc="upper right")
plt.title("Acceso promedio a la Electricidad y PIB per Cápita Países seleccionados (Excluyendo Colombia, 2000-2014)")
plt.show()




In [None]:

# Filtrar solo Colombia
df_colombia = df[df["Country Name"] == "Colombia"]

# Seleccionar las variables para el mapa de calor
variables_mapa_calor = [
    'Acceso a electricidad (% de la población)',
    'Acceso a la electricidad, urbana (% de la población urbana)',
    'Acceso a la electricidad, rural (% de la población rural)',
    'PIB per cápita (US$ a precios constantes de 2015)'
]

# matriz de correlación solo con las variables seleccionadas para Colombia
correlation_matrix_colombia = df_colombia[variables_mapa_calor].corr()

# Generar el mapa de calor solo para Colombia
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix_colombia, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Matriz de correlación entre variables de acceso a la electricidad y PIB Per cápita para Colombia (2000-2014)')
plt.show()


In [None]:

# Filtrar solo Colombia
df_colombia = df[df["Country Name"] == "Colombia"]

# Crear un gráfico de barras para el acceso a la electricidad en Colombia
plt.figure(figsize=(10, 6))
plt.bar(df_colombia['Year'], df_colombia['Acceso a electricidad (% de la población)'])
plt.title('Acceso a la electricidad en Colombia (2000-2014)')
plt.xlabel('Año')
plt.ylabel('Acceso a la electricidad (%)')
plt.xticks(rotation=45)
plt.show()


In [None]:
#Acceso a la electricidad
plt.figure(figsize=(12,8))
df_pivot = df.pivot(index="Country Name", columns="Year", values="Acceso a electricidad (% de la población)").fillna(0)
sns.heatmap(df_pivot, cmap="coolwarm", linewidths=0.5, annot=False)
plt.title("Acceso a la electricidad países seleccionados (2000-2014)")
plt.xlabel("Año")
plt.ylabel("País")
plt.show()


In [None]:


# lista de países únicos
paises = df['Country Name'].unique()

# Imprimir la lista de países
paises


In [None]:
#visualizaciones por continente
continent_dict = {
    "Africa": ["Algeria", "Egypt, Arab Rep.", "Ethiopia", "Morocco", "Nigeria"],
    "Asia": ["India", "Indonesia", "Iran, Islamic Rep.", "Iraq", "Japan",
             "Saudi Arabia", "United Arab Emirates"],
    "Europe": ["France", "Germany", "Italy", "Netherlands", "Norway", "Poland",
               "Romania", "Russian Federation", "Spain", "United Kingdom"],
    "North America": ["Canada", "Mexico", "United States"],
    "South America": ["Argentina", "Bolivia", "Brazil", "Chile", "Colombia",
                      "Ecuador", "Peru"],
    "Oceania": ["Australia", "New Zealand"]
}

# diccionario inverso para asignación rápida
country_to_continent = {country: continent for continent, countries in continent_dict.items() for country in countries}

# Agregar la columna de continente al DataFrame
df["Continent"] = df["Country Name"].map(country_to_continent)


In [None]:
#Tendencia Promedio de Acceso a Electricidad por Continente

# Calcular el promedio de acceso a electricidad por continente y año
df_continent_electricity = df.groupby(["Year", "Continent"])["Acceso a electricidad (% de la población)"].mean().reset_index()

# Gráfico de líneas
plt.figure(figsize=(10,6))
sns.lineplot(data=df_continent_electricity, x="Year", y="Acceso a electricidad (% de la población)", hue="Continent", marker="o")
plt.xlabel("Año")
plt.ylabel("Acceso a electricidad (%)")
plt.title("Evolución del Acceso a la Electricidad por Continente")
plt.legend(title="Continente", bbox_to_anchor=(0.5, -0.15), loc="upper center", ncol=3)
plt.show()


In [None]:
#Comparación del PIB Per Cápita entre continentes
# Calcular el promedio del PIB per cápita por continente y año
df_continent_gdp = df.groupby(["Year", "Continent"])["PIB per cápita (US$ a precios constantes de 2015)"].mean().reset_index()

# Gráfico de líneas
plt.figure(figsize=(10,6))
sns.lineplot(data=df_continent_gdp, x="Year", y="PIB per cápita (US$ a precios constantes de 2015)", hue="Continent", marker="o")
plt.xlabel("Año")
plt.ylabel("PIB per cápita (US$ constantes 2015)")
plt.title("Evolución del PIB per Cápita por Continente")
plt.legend(title="Continente", bbox_to_anchor=(0.5, -0.15), loc="upper center", ncol=3)

plt.show()


In [None]:

# Agrupar por año y país, y calcular el promedio del PIB per cápita
df_avg_gdp_per_country_year = df.groupby(['Year', 'Country Name'])['PIB per cápita (US$ a precios constantes de 2015)'].mean().reset_index()

# Agrupar por año y continente, y calcular el promedio del PIB per cápita
df_avg_gdp_per_continent_year = df.groupby(['Year', 'Continent'])['PIB per cápita (US$ a precios constantes de 2015)'].mean().reset_index()




# Visualizar el promedio del PIB per cápita por continente y año
plt.figure(figsize=(12, 6))
sns.lineplot(x='Year', y='PIB per cápita (US$ a precios constantes de 2015)', hue='Continent', data=df_avg_gdp_per_continent_year)
plt.title('PIB per cápita promedio por continente por periodo observado')
plt.xlabel('Año')
plt.ylabel('PIB per cápita (USD)')
plt.xticks(rotation=45)

plt.legend(bbox_to_anchor=(0.5, -0.15), loc='upper center')
plt.tight_layout()
plt.show()


In [None]:

# Agrupar los datos por año y continente, calculando la media
df_grouped = df.groupby(['Year', 'Continent'])[['Acceso a electricidad (% de la población)', 'PIB per cápita (US$ a precios constantes de 2015)']].mean().reset_index()

plt.figure(figsize=(14, 7))

# Crear el gráfico de barras para el acceso a la electricidad con colores más vivos
ax1 = sns.barplot(x='Year', y='Acceso a electricidad (% de la población)', hue='Continent', data=df_grouped, alpha=0.8, palette="tab10")

# Crear un segundo eje Y para el PIB per cápita
ax2 = ax1.twinx()
sns.lineplot(x='Year', y='PIB per cápita (US$ a precios constantes de 2015)', hue='Continent', data=df_grouped, marker='o', ax=ax2, legend=False, palette="dark")

# Títulos y etiquetas con colores más destacados
plt.title('Evolución del PIB per cápita y Acceso a la Electricidad por Continente (2000-2014)', fontsize=14, fontweight='bold')
ax1.set_xlabel('Año', fontsize=12)
ax1.set_ylabel('Acceso a Electricidad (%)', color='blue', fontsize=12)
ax2.set_ylabel('PIB per cápita (USD)', color='darkorange', fontsize=12)

# Ajustar las etiquetas del eje X
plt.xticks(rotation=45, ha='right')

# Obtener leyendas separadas para los dos gráficos
handles1, labels1 = ax1.get_legend_handles_labels()  # Leyenda de los continentes (barras)
handles2 = [plt.Line2D([0], [0], color='black', marker='o', linestyle='-', label='PIB per cápita (Línea)')]  # Línea del PIB



# Crear una nueva leyenda combinada y colocarla abajo centrada
ax1.legend(handles=handles1 + handles2, title="Continente", loc='lower center', bbox_to_anchor=(0.5, -0.2), ncol=3)

plt.tight_layout()
plt.subplots_adjust(bottom=-0.2)  # Ajustar el espacio inferior para la leyenda
plt.show()

