El conjunto de datos proporcionado permite explorar distintas áreas del sector de telecomunicaciones y servicios postales, a través de registros estructurados por indicadores, valores temporales y observaciones. Uno de los archivos analizados corresponde al servicio de servicios postales, en el cual se reportan ingresos mensuales clasificados como "Correo oficial + Correos Privados (en Pesos)" para los primeros seis meses del año 2024. Este DataFrame está limpio y bien estructurado, conteniendo columnas como Mes, Año y el valor total de ingresos. Es adecuado para identificar tendencias mensuales en términos económicos y podría reflejar estacionalidad o comportamiento variable en la demanda de este tipo de servicio.

En contraste, los demás DataFrames —como los correspondientes a telefonía fija, telefonía móvil, televisión y portabilidad— contienen una estructura más compleja. Todos ellos comparten un patrón de columnas donde predominan tipo, trimestre, año, indicador, valor, unidad, servicio y observaciones. También presentan un gran número de columnas completamente vacías (Unnamed: 3 a Unnamed: 5, por ejemplo) y un porcentaje significativo de valores nulos (cerca del 99.27% en la mayoría de los campos importantes). Esto sugiere que estos archivos pueden estar estructurados como reportes exportados desde una plataforma oficial o sistema de indicadores que agrupa múltiples servicios y variables en un mismo archivo.

Dado el nivel de nulos y la presencia de columnas irrelevantes o vacías, estos DataFrames requerirán un proceso riguroso de limpieza y transformación antes de poder realizar análisis significativos. A pesar de esto, es posible recuperar y aprovechar datos útiles relacionados con el comportamiento de diferentes servicios (telefonía, TV, portabilidad) una vez filtradas las filas no vacías y los indicadores clave. Estos indicadores probablemente representen cifras como número de líneas, usuarios, cambios de operador, o acceso a tecnologías específicas, lo cual podrá ser determinado con mayor precisión una vez se limpien los datos y se examinen las categorías disponibles.


In [2]:
pip install matplotlib seaborn openpyxl


Collecting matplotlib
  Using cached matplotlib-3.10.1-cp313-cp313-win_amd64.whl.metadata (11 kB)
Collecting seaborn
  Using cached seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Collecting contourpy>=1.0.1 (from matplotlib)
  Using cached contourpy-1.3.1-cp313-cp313-win_amd64.whl.metadata (5.4 kB)
Collecting cycler>=0.10 (from matplotlib)
  Using cached cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting fonttools>=4.22.0 (from matplotlib)
  Downloading fonttools-4.57.0-cp313-cp313-win_amd64.whl.metadata (104 kB)
Collecting kiwisolver>=1.3.1 (from matplotlib)
  Using cached kiwisolver-1.4.8-cp313-cp313-win_amd64.whl.metadata (6.3 kB)
Collecting pyparsing>=2.3.1 (from matplotlib)
  Using cached pyparsing-3.2.3-py3-none-any.whl.metadata (5.0 kB)
Using cached matplotlib-3.10.1-cp313-cp313-win_amd64.whl (8.1 MB)
Using cached seaborn-0.13.2-py3-none-any.whl (294 kB)
Using cached contourpy-1.3.1-cp313-cp313-win_amd64.whl (220 kB)
Using cached cycler-0.12.1-py3-none-any.whl (8.3 k


[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Para evitar warnings
import warnings
warnings.filterwarnings('ignore')

# Estilo general de los gráficos
sns.set(style="whitegrid")


In [6]:
# Definimos las rutas
path_base = "C:/Users/E B M/Documents/proyecto_acceso_internet/DATA/"

files = {
    "internet": path_base + "Internet.xlsx",
    "mapa_conectividad": path_base + "mapa_conectividad.xlsx",
    "portabilidad": path_base + "Portabilidad.xlsx",
    "servicios_postales": path_base + "servicios_postales.xlsx",
    "telefonia_fija": path_base + "telefonia_fija.xlsx",
    "telefonia_movil": path_base + "telefonia_movil.xlsx",
    "television": path_base + "Television.xlsx"
}


In [7]:
# Cargamos los DataFrames
dfs = {}
for key, path in files.items():
    try:
        dfs[key] = pd.read_excel(path)
        print(f"{key}: {dfs[key].shape} filas y columnas cargadas correctamente.")
    except Exception as e:
        print(f"Error al cargar {key}: {e}")


internet: (18864, 6) filas y columnas cargadas correctamente.
mapa_conectividad: (4305, 16) filas y columnas cargadas correctamente.
portabilidad: (148, 3) filas y columnas cargadas correctamente.
servicios_postales: (138, 15) filas y columnas cargadas correctamente.
telefonia_fija: (1008, 8) filas y columnas cargadas correctamente.
telefonia_movil: (46, 4) filas y columnas cargadas correctamente.
television: (1008, 4) filas y columnas cargadas correctamente.


In [10]:
# Mostrar los primeros registros de cada DataFrame
for key, df in dfs.items():
    print(f"\n Mostrando primeras filas de: {key.upper()}")
    display(df.head())



 Mostrando primeras filas de: INTERNET


Unnamed: 0,Partido,Localidad,link Indec,Velocidad (Mbps),Provincia,Accesos
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.0,1.0
1,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.5,2.0
2,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.75,19.0
3,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,3.0,85.0
4,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,3.5,145.0



 Mostrando primeras filas de: MAPA_CONECTIVIDAD


Unnamed: 0,Provincia,Partido,Localidad,Población,ADSL,Cablemódem,Dial Up,Fibra óptica,Satelital,Wireless,Telefonía Fija,3G,4G,Link,Latitud,Longitud
0,BUENOS AIRES,25 de Mayo,25 de Mayo,23408,SI,SI,--,--,SI,SI,SI,SI,SI,6854100.0,-35.433939,-60.173121
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,280,--,--,--,--,--,--,SI,--,--,6854010.0,-35.739217,-60.559063
2,BUENOS AIRES,25 de Mayo,Del Valle,899,SI,--,--,--,SI,--,--,SI,--,6854020.0,-35.897345,-60.731609
3,BUENOS AIRES,25 de Mayo,Ernestina,145,SI,--,--,--,--,--,SI,--,--,6854030.0,-35.270234,-59.557503
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,547,--,--,--,--,--,SI,--,--,--,6854040.0,-35.164397,-60.081358



 Mostrando primeras filas de: PORTABILIDAD


Unnamed: 0,Año,Mes,Total general
0,2024,6,178024
1,2024,5,178256
2,2024,4,155812
3,2024,3,149604
4,2024,2,145787



 Mostrando primeras filas de: SERVICIOS_POSTALES


Unnamed: 0,Año,Mes,Correo oficial + Correos Privados (en Pesos),Unnamed: 3,Unnamed: 4,Unnamed: 5,id,año,trimestre,tipo,servicio,indicador,valor,unidad,observaciones
0,2024,Junio,101694100000.0,,,,,2024.0,2.0,Información Económica,Servicios Postales,Ingresos Postales,499684000000.0,Miles de $,Información acumulada
1,2024,Mayo,102135300000.0,,,,,,,,,,,,
2,2024,Abril,87165870000.0,,,,,,,,,,,,
3,2024,Marzo,76726780000.0,,,,,,,,,,,,
4,2024,Febrero,67014080000.0,,,,,,,,,,,,



 Mostrando primeras filas de: TELEFONIA_FIJA


Unnamed: 0,Año,Trimestre,Provincia,Accesos telefonía fija (total),Accesos telefonía fija (hogares),Accesos telefonía fija (comercial),Accesos telefonía fija (gobierno),Accesos telefonía fija (otros)
0,2024,2,Buenos Aires,3147886,2793773,299661,12436,42016
1,2024,2,Capital Federal,1651854,1466033,157247,6526,22048
2,2024,2,Catamarca,20365,18074,1939,80,272
3,2024,2,Chaco,53967,47897,5137,213,720
4,2024,2,Chubut,54140,48049,5154,214,723



 Mostrando primeras filas de: TELEFONIA_MOVIL


Unnamed: 0,Año,Trimestre,Número de SMS salientes,Periodo
0,2013,1,36430004057,Ene-Mar 2013
1,2013,2,34255065773,Abr-Jun 2013
2,2013,3,33217669903,Jul-Sept 2013
3,2013,4,22547130953,Oct-Dic 2013
4,2014,1,18393198881,Ene-Mar 2013



 Mostrando primeras filas de: TELEVISION


Unnamed: 0,Año,Trimestre,Provincia,Accesos TV por suscripción (Vrf)
0,2024,2,Buenos Aires,2873482
1,2024,2,Capital Federal,693686
2,2024,2,Catamarca,54865
3,2024,2,Chaco,115238
4,2024,2,Chubut,78471


Limpieza: servicios_postales

In [11]:
# Extraemos el DataFrame desde el diccionario
servicios_postales = dfs['servicios_postales']

# Mostramos el porcentaje de valores nulos por columna
null_percentage = servicios_postales.isnull().mean().sort_values(ascending=False) * 100
print("Porcentaje de valores nulos por columna:")
print(null_percentage)

# Seleccionamos solo las columnas con menos del 90% de nulos
cols_validas = null_percentage[null_percentage < 90].index.tolist()

# Creamos un nuevo DataFrame limpio
servicios_postales_clean = servicios_postales[cols_validas]

# Mostramos las primeras filas del DataFrame limpio
servicios_postales_clean.head()


Porcentaje de valores nulos por columna:
Unnamed: 5                                       100.000000
Unnamed: 4                                       100.000000
Unnamed: 3                                       100.000000
id                                               100.000000
tipo                                              99.275362
trimestre                                         99.275362
año                                               99.275362
indicador                                         99.275362
valor                                             99.275362
unidad                                            99.275362
servicio                                          99.275362
observaciones                                     99.275362
Mes                                                0.000000
Correo oficial  + Correos Privados (en Pesos)      0.000000
Año                                                0.000000
dtype: float64


Unnamed: 0,Mes,Correo oficial + Correos Privados (en Pesos),Año
0,Junio,101694100000.0,2024
1,Mayo,102135300000.0,2024
2,Abril,87165870000.0,2024
3,Marzo,76726780000.0,2024
4,Febrero,67014080000.0,2024
