# EDA

In [50]:
import requests
import pandas as pd
import shutil

import warnings

# Ignorar todas las advertencias
#warnings.filterwarnings("ignore")

# Configura Pandas para mostrar todas las columnas completamente
pd.set_option('display.max_colwidth', None)

In [23]:
# Cargar mi API key al notebook.
with open("api_key.txt", "r") as key:
    api_key = key.read()

Vamos a explorar los datasets disponibles en la página de ENACOM.

In [59]:
# URL para visualizar todos los datasets en la página de ENACOM.
url = "https://api.datosabiertos.enacom.gob.ar/api/v2/datasets.json/?auth_key=" + api_key

# Realiza una solicitud GET a la URL y obtiene los datos JSON
response = requests.get(url)
data = response.json()

# Crea un DataFrame de pandas a partir de los datos JSON
ds_enacom = pd.DataFrame(data)

ds_enacom.head(3)


Unnamed: 0,result,status,endpoint,description,parameters,tags,last_revision_id,timestamp,created_at,title,...,category_id,methods,sources,total_revisions,frequency,link,user,status_str,guid,category_name
0,,,file://15121/47231/128155407569270766795550524361492726034,Penetración del servicio de Internet fijo por métrica de población y métrica de hogares,[],"[internet, banda ancha, penetración]",,1698787569000,1698787109,Penetración del servicio de Internet fijo,...,83729,,[],,quarterly,http://datosabiertos.enacom.gob.ar/datasets/176155/penetracion-del-servicio-de-internet-fijo/,nlastra,,PENET-DEL-SERVI-DE-INTER,Acceso a Internet
1,,,file://15121/47231/28196792253101906761686861520261998318,Número de accesos al servicio de Internet fijo por rangos de velocidad de bajada en cada provincia,[],"[internet, banda ancha, provincial, banda angosta]",,1698786817000,1698786763,Accesos a Internet fijo por rangos de velocidad bajada y provincia,...,83729,,[],,quarterly,http://datosabiertos.enacom.gob.ar/datasets/176090/accesos-a-internet-fijo-por-rangos-de-velocidad-bajada-y-provincia/,nlastra,,ACCES-A-INTER-FIJO-51042,Acceso a Internet
2,,,file://15121/47231/162102915514047265168363202259214668147,"Accesos, ingresos, penetración de la televisión por suscripción y satelital",[],"[ingresos, penetración, televisión por suscripción, televisión satelital]",,1698784286000,1698784195,Televisión paga,...,83740,,[],,quarterly,http://datosabiertos.enacom.gob.ar/datasets/176418/television-paga/,nlastra,,TELEV-PAGA,TV paga


Vamos a explorar cuantos datasets hay.

In [60]:
ds_enacom.shape

(48, 21)

En total hay 48 datasets y la metadata ocupa 21 columnas. Veamos cuáles son esas columnas para trabajar solo con aquellas que sean de utilidad.

In [61]:
ds_enacom.columns

Index(['result', 'status', 'endpoint', 'description', 'parameters', 'tags',
       'last_revision_id', 'timestamp', 'created_at', 'title', 'modified_at',
       'category_id', 'methods', 'sources', 'total_revisions', 'frequency',
       'link', 'user', 'status_str', 'guid', 'category_name'],
      dtype='object')

A fin de seleccionar los datasets que nos serán útiles para responder las preguntas de negocio, nos quedaremos con las columnas "description", "tags", "title", "link", "guid" y "category_name".

In [62]:
columnas_seleccionadas = ["title", "description", "tags", "link", "guid", "category_name"]

ds_enacom = ds_enacom[columnas_seleccionadas]

ds_enacom.head(3)

Unnamed: 0,title,description,tags,link,guid,category_name
0,Penetración del servicio de Internet fijo,Penetración del servicio de Internet fijo por métrica de población y métrica de hogares,"[internet, banda ancha, penetración]",http://datosabiertos.enacom.gob.ar/datasets/176155/penetracion-del-servicio-de-internet-fijo/,PENET-DEL-SERVI-DE-INTER,Acceso a Internet
1,Accesos a Internet fijo por rangos de velocidad bajada y provincia,Número de accesos al servicio de Internet fijo por rangos de velocidad de bajada en cada provincia,"[internet, banda ancha, provincial, banda angosta]",http://datosabiertos.enacom.gob.ar/datasets/176090/accesos-a-internet-fijo-por-rangos-de-velocidad-bajada-y-provincia/,ACCES-A-INTER-FIJO-51042,Acceso a Internet
2,Televisión paga,"Accesos, ingresos, penetración de la televisión por suscripción y satelital","[ingresos, penetración, televisión por suscripción, televisión satelital]",http://datosabiertos.enacom.gob.ar/datasets/176418/television-paga/,TELEV-PAGA,TV paga


Vamos a ver cuáles son las categorías en las qué están clasificados los datasets.

In [63]:
ds_enacom.category_name.unique()

array(['Acceso a Internet', 'TV paga', 'FOMECA', 'Denuncias y Reclamos',
       'Servicio Universal', 'Licencias', 'Numeración',
       'Servicios Postales', 'Telefonía móvil', 'Telefonía fija',
       'Espectro Radioelectrico', 'Homologación de Equipos'], dtype=object)

Dado que la principal actividad de la empresa es la de brindar acceso a Internet, haremos una exploración de los datasets con la categoría "Acceso a Internet".

In [64]:
ds_internet = ds_enacom[ds_enacom.category_name == "Acceso a Internet"]

ds_internet

Unnamed: 0,title,description,tags,link,guid,category_name
0,Penetración del servicio de Internet fijo,Penetración del servicio de Internet fijo por métrica de población y métrica de hogares,"[internet, banda ancha, penetración]",http://datosabiertos.enacom.gob.ar/datasets/176155/penetracion-del-servicio-de-internet-fijo/,PENET-DEL-SERVI-DE-INTER,Acceso a Internet
1,Accesos a Internet fijo por rangos de velocidad bajada y provincia,Número de accesos al servicio de Internet fijo por rangos de velocidad de bajada en cada provincia,"[internet, banda ancha, provincial, banda angosta]",http://datosabiertos.enacom.gob.ar/datasets/176090/accesos-a-internet-fijo-por-rangos-de-velocidad-bajada-y-provincia/,ACCES-A-INTER-FIJO-51042,Acceso a Internet
9,Accesos a Internet fijo por velocidad bajada y provincia,Número de accesos al servicio de Internet fijo por velocidad de bajada en cada provincia,[],http://datosabiertos.enacom.gob.ar/datasets/180149/accesos-a-internet-fijo-por-velocidad-bajada-y-provincia/,ACCES-POR-VELOC-DE-DESCA,Acceso a Internet
10,Acceso a Internet fijo por tecnología y provincia,Número de accesos al servicio de Internet fijo por tipo de tecnología en cada provincia,"[internet, banda ancha, provincial]",http://datosabiertos.enacom.gob.ar/datasets/176072/acceso-a-internet-fijo-por-tecnologia-y-provincia/,ACCES-A-INTER-FIJO-POR,Acceso a Internet
11,Ingresos por la operación del servicio de Internet fijo,Ingresos trimestrales de los operadores por el servicio de Internet fijo,"[internet, ingresos, banda ancha]",http://datosabiertos.enacom.gob.ar/datasets/176154/ingresos-por-la-operacion-del-servicio-de-internet-fijo/,INGRE-POR-LA-OPERA-DEL,Acceso a Internet
12,Accesos a Internet fijo por tecnología y localidad,Número de accesos al servicio de Internet fijo por tecnología en cada localidad declarada Categoría,[],http://datosabiertos.enacom.gob.ar/datasets/185537/accesos-a-internet-fijo-por-tecnologia-y-localidad/,ACCES-A-INTER-FIJO-46973,Acceso a Internet
13,Accesos a Internet fijo por velocidad de bajada y localidad,Número de accesos al servicio de Internet fijo por velocidad de bajada en cada localidad declarada,[],http://datosabiertos.enacom.gob.ar/datasets/185426/accesos-a-internet-fijo-por-velocidad-de-bajada-y-localidad/,ACCES-A-INTER-FIJO-86398,Acceso a Internet
14,Velocidad Media de bajada de Internet por provincia y nacional,Serie histórica de la velocidad media de bajada de Internet por provincia y nacional (trimestral),"[internet, velocidad, banda ancha]",http://datosabiertos.enacom.gob.ar/datasets/179805/velocidad-media-de-bajada-de-internet-por-provincia-y-nacional/,VELOC-PROME-DE-BAJAD-DE,Acceso a Internet
15,Acceso a Internet fijo: banda ancha y banda angosta,Número de accesos al servicio de Internet fijo por banda ancha y angosta en cada provincia,"[internet, banda ancha, provincial, banda angosta]",http://datosabiertos.enacom.gob.ar/datasets/176153/acceso-a-internet-fijo-banda-ancha-y-banda-angosta/,ACCES-A-INTER-FIJO-BANDA,Acceso a Internet
19,Conectividad al servicio de Internet,Mapa geolocalizado de las distintas tecnologías disponibles para el acceso a Internet fijo y móvil,"[internet, telefonia movil, banda ancha, provincial]",http://datosabiertos.enacom.gob.ar/datasets/176294/conectividad-al-servicio-de-internet/,CONEC-AL-SERVI-DE-INTER,Acceso a Internet


De los 48 datasets de ENACOM, 12 corresponden a la categoría "Acceso a Internet". Explorándolos un poco mas en profundidas a partir de los links en la columna "link", podemos observar que:
* Los datasets con indices 0, 1, 9, 10, 11, 12, 13, 14, 15 y 19 contienen la información sobre la cuál se construyeron las visualizaciones requeridas con [Datasets principales](https://datosabiertos.enacom.gob.ar/dashboards/20000/acceso-a-internet/).
* Tomaremos nota de los "guid" asociados a estos índices para descargar los datasets haciendo uso de la API.
* El registro con índice 39, no es en realidad un dataset sino una visualización, por lo que fue incluido erróneamente en esta lista. Además el link asociado está desactualizado, aunque se puede acceder a través de este [link](https://indicadores.enacom.gob.ar/mapa-conectividad). Al no estar disponible la base de datos, utilizaremos los otros datasets para obtener dicha información.
* El registro con índice 45 se refiere a "Indicadores macroeconómicos", como indice de precios al consumidor (IPC), tasa de cambio peso-dolar y producto bruto interno (PBI). Estos indicadores no resultan, al menos en este momento, necesarios para el análisis, y si inclusión dentro de la categoría "Acceso a Internet" parece ser un error, por lo que no se trabajará con este dataset.

A partir de lo anterior, haremos una lista con los "guid" de los datasets con los que trabajaremos.

In [66]:
guids_internet = ['PENET-DEL-SERVI-DE-INTER', 'ACCES-A-INTER-FIJO-51042',
       'ACCES-POR-VELOC-DE-DESCA', 'ACCES-A-INTER-FIJO-POR',
       'INGRE-POR-LA-OPERA-DEL', 'ACCES-A-INTER-FIJO-46973',
       'ACCES-A-INTER-FIJO-86398', 'VELOC-PROME-DE-BAJAD-DE',
       'ACCES-A-INTER-FIJO-BANDA', 'CONEC-AL-SERVI-DE-INTER']

Ahora definiremos una función para traer la metadata de cada dataset y almacenarla en forma de diccionario.

In [70]:
def get_metadata_dataset(guid : str):
    # URL de la API.
    url = (
        "https://api.datosabiertos.enacom.gob.ar/api/v2/datasets/" + guid 
        + ".json/?auth_key=" + api_key)
    
    # Realizar una solicitud GET a la URL y obtener los datos JSON.
    response = requests.get(url)
    data = response.json()

    return data


Vamos a hacer una prueba con el primer "guid" de la lista.

In [71]:
get_metadata_dataset('PENET-DEL-SERVI-DE-INTER')

{'result': None,
 'status': 3,
 'endpoint': 'file://15121/47231/128155407569270766795550524361492726034',
 'description': 'Penetración del servicio de Internet fijo por métrica de población y métrica de hogares',
 'parameters': None,
 'tags': ['internet', 'banda ancha', 'penetración'],
 'last_revision_id': 259513,
 'timestamp': None,
 'created_at': '2017-07-17T14:10:42Z',
 'title': 'Penetración del servicio de Internet fijo',
 'modified_at': '2023-10-31T17:26:09Z',
 'category_id': 83729,
 'methods': None,
 'sources': [],
 'total_revisions': 42,
 'frequency': 'quarterly',
 'link': None,
 'user': None,
 'status_str': None,
 'guid': 'PENET-DEL-SERVI-DE-INTER',
 'category_name': 'Acceso a Internet',
 'download_url': 'https://vortex-datasets.s3.amazonaws.com/15121/47231/128155407569270766795550524361492726034?response-content-disposition=attachment%3B%20filename%3D%22Internet_Penetracion.xlsx%22&AWSAccessKeyId=AKIAZN3WFJ75BSAK63MD&Expires=1699552321&Signature=0iUq6Zx9Yr%2B%2FlQ5zVek31c5jMg8

2 cosas interesentantes que podemos ver la metadata son "title" y "download_url". Crearemos una función para descargar los archivos usando el "download_url" y nombrándolos como su "title".

In [77]:
def descargar_archivo(guid):
    # Descargar metadata del archivo
    metadata = get_metadata_dataset(guid)

    # Definir el URL de descarga.
    download_url = metadata.get("download_url")

    # Definir el nombre del archivo.
    nombre = metadata.get("title")

    # Ruta de destino para guardar el archivo descargado
    ruta_destino = "./Datasets/" + nombre + ".xlsx"

    # Realizar la solicitud GET para descargar el archivo.
    response = requests.get(download_url, stream=True)

    # Verificar si la solicitud fue exitosa (código de respuesta 200)
    if response.status_code == 200:
        # Abrir el archivo de destino en modo binario.
        with open(ruta_destino, 'wb') as file:
            # Copiar los datos del archivo descargado en el archivo de destino.
            shutil.copyfileobj(response.raw, file)
        print("Descarga exitosa")
    else:
        print("Error al descargar el archivo. Código de respuesta:", response.status_code)

Ahora procedemos a descargar todos los archivos.

In [78]:
for guid in guids_internet:
    descargar_archivo(guid)

Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa
Descarga exitosa


Ahora podemos empezar el EDA de estos datasets.