In [None]:
from sklearn import preprocessing
import pandas as pd
import numpy as np
import scipy
import matplotlib.pyplot as plt
import seaborn as sns

from scipy import stats
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from mpl_toolkits.mplot3d import Axes3D


In [None]:
df = pd.read_excel("Acceso Internet Fijo Colombia.xlsx"
                )

In [None]:
df

In [None]:
# Informacion de los datos
df.info()

In [None]:
# Resumen estadistico
df.describe()

In [None]:
##### Preparar datos por año
per1 = df[df['AÑO'] == 2016]['INDICE']
per2 = df[df['AÑO'] == 2017]['INDICE']
per3 = df[df['AÑO'] == 2018]['INDICE']
per4 = df[df['AÑO'] == 2019]['INDICE']
per5 = df[df['AÑO'] == 2020]['INDICE']
per6 = df[df['AÑO'] == 2021]['INDICE']
per7 = df[df['AÑO'] == 2022]['INDICE']


# Prueba por periodos con ANOVA
f_statistic, p_value = stats.f_oneway(per1, per2, per3, per4, per5, per6, per7)


# Interpretar resultados
print(f'F-statistic: {f_statistic}')
print(f'p-value: {p_value}')



Con un p-valor muy bajo (4.37e-05 < 0.05), hay diferencias estadísticamente significativas en los índices de penetración de internet entre los años analizados entre 2016 y 2023.
Esto sugiere que el acceso a internet fijo ha cambiado significativamente año tras año, indicando una evolución temporal importante en el acceso a internet fijo en Colombia.
Para identificar específicamente qué años difieren entre sí, sería útil realizar una prueba post-hoc como Tukey HSD.

In [None]:
#Filtrar dataframe para solo mostrar 2016-2023 ya que 2015 solo tiene datos para un trimestre
df_filtrado = df[df["AÑO"] >=2016]

# Realizar prueba Tukey

col = df_filtrado["INDICE"]
grupos = df_filtrado["AÑO"]

tukey = pairwise_tukeyhsd(col, grupos)
print(tukey)

Esto indica un incremento significativo en la penetración de internet entre 2016-2023, con los cambios más notables ocurriendo después de 2021. Los años consecutivos no muestran diferencias significativas, sugiriendo un crecimiento gradual. Dado que la pandemia por COVID-19 empezó en 2021, forzó a que las poblaciones del país se digitalizaran para poder acceder a diversos servicios como la educación, las tiendas en linea o las redes sociales. La emergencia pudo servir como posible impulsor de los cambios positivos en la penetración del servicio de internet fijo en los hogares de Colombia apartir del 2021.

In [None]:
###Clustering con KMeans

# 1. Preparar los datos
# Filtrar solo datos de 2023 y últimos registros por departamento
df_2023 = df[df['AÑO'] == 2023].sort_values('TRIMESTRE', ascending=False)
df_latest = df_2023.drop_duplicates('DEPARTAMENTO')

# Seleccionar variables para clustering y escalar
X = df_latest[['No. ACCESOS FIJOS A INTERNET', 'INDICE']]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
# 3. Encontrar número óptimo de clusters con método del codo
inertias = []
K = range(1, 10)

for k in K:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_scaled)
    inertias.append(kmeans.inertia_)

# Visualizar el método del codo
plt.figure(figsize=(10, 6))
plt.plot(K, inertias, 'bx-')
plt.xlabel('k')
plt.ylabel('Inercia')
plt.title('Método del Codo')
plt.show()

In [None]:
# 1. Preparar los datos para clustering
X = df_latest[['INDICE', 'No. ACCESOS FIJOS A INTERNET']]
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 2. Aplicar K-means
n_clusters = 3
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
df_latest['Cluster'] = kmeans.fit_predict(X_scaled)

# 3. Configurar el estilo
sns.set_style("whitegrid")
sns.set_context("talk")

# 4. Crear la visualización
plt.figure(figsize=(20, 12), dpi=300)

# Definir colores
colors = ['#00B4D8', '#0077B6', '#ffb300']

# Crear el scatter plot
scatter = plt.scatter(df_latest['INDICE'], 
                     df_latest['No. ACCESOS FIJOS A INTERNET'],
                     c=[colors[i] for i in df_latest['Cluster']],
                     s=700,
                     alpha=0.7,
                     edgecolor='white',
                     linewidth=2)

# Añadir etiquetas
for i, txt in enumerate(df_latest['DEPARTAMENTO']):
    plt.annotate(txt, 
                (df_latest['INDICE'].iloc[i], 
                 df_latest['No. ACCESOS FIJOS A INTERNET'].iloc[i]),
                fontsize=12,
                fontweight='bold',
                xytext=(5, 5),
                textcoords='offset points',
                bbox=dict(facecolor='white',
                         alpha=0.7,
                         edgecolor='none',
                         pad=1))

# Configurar ejes y título
plt.xlabel('Índice de Acceso', fontsize=18, fontweight='bold', labelpad=15)
plt.ylabel('Número de Accesos Fijos', fontsize=18, fontweight='bold', labelpad=15)
plt.title('Clusters de Departamentos por Acceso a Internet', 
         fontsize=16, 
         fontweight='bold', 
         pad=20)

# Configurar ticks
plt.xticks(fontsize=12)
plt.yticks(fontsize=12)

# Crear leyenda
legend_elements = []
for i in range(n_clusters):
    legend_elements.append(plt.scatter([], [], 
                                     c=colors[i], 
                                     s=200,
                                     label=f'Cluster {i+1}',
                                     alpha=0.7))

plt.legend(handles=legend_elements,
          fontsize=18,
          title='Clusters',
          title_fontsize=14,
          bbox_to_anchor=(1.15, 1))

# Ajustar márgenes y límites
plt.tight_layout()
x_min, x_max = plt.xlim()
y_min, y_max = plt.ylim()
plt.xlim(x_min - (x_max - x_min)*0.1, x_max + (x_max - x_min)*0.1)
plt.ylim(y_min - (y_max - y_min)*0.1, y_max + (y_max - y_min)*0.1)

# Guardar y mostrar
plt.savefig('clusters_analysis.png', 
            dpi=500, 
            bbox_inches='tight',
            facecolor='white',
            edgecolor='none')

plt.show()

In [None]:
print("\nDETALLE DE DEPARTAMENTOS POR CLUSTER:\n")

for cluster in sorted(df_latest['Cluster'].unique()):
    cluster_data = df_latest[df_latest['Cluster'] == cluster]
    
    print(f"\nCLUSTER {cluster + 1}")
    print("=" * 50)
    print(f"Número de departamentos: {len(cluster_data)}")
    print(f"Índice promedio: {cluster_data['INDICE'].mean():.2f}%")
    print(f"Accesos promedio: {cluster_data['No. ACCESOS FIJOS A INTERNET'].mean():,.0f}")
    print("\nDepartamentos:")
    
    # Mostrar cada departamento con sus métricas
    for _, dept in cluster_data.iterrows():
        print(f"- {dept['DEPARTAMENTO']:<30} "
              f"(Índice: {dept['INDICE']:>6.2f}%, "
              f"Accesos: {dept['No. ACCESOS FIJOS A INTERNET']:,})")
    print("\n" + "-" * 50)

# Resumen estadístico
print("\nRESUMEN ESTADÍSTICO POR CLUSTER:")
summary_stats = df_latest.groupby('Cluster').agg({
    'INDICE': ['mean', 'min', 'max'],
    'No. ACCESOS FIJOS A INTERNET': ['mean', 'min', 'max']
}).round(2)

print("\nEstadísticas de Índice de Penetración:")
print(summary_stats['INDICE'])
print("\nEstadísticas de Número de Accesos:")
print(summary_stats['No. ACCESOS FIJOS A INTERNET'])