In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import expr, col
import pandas as pd

In [41]:
spark = SparkSession.builder.appName("Internet_data").getOrCreate()


In [42]:
df = spark.read.option("header", True) \
                .option("inferSchema", True) \
                .csv("data/Internet_Fijo_Penetraci_n_Municipio.csv")

In [43]:
df.printSchema()

In [44]:
df.columns

In [45]:
# Renombrar columnas para evitar problemas con espacios y caracteres especiales
df = df.withColumnRenamed('No. ACCESOS FIJOS A INTERNET', 'No_ACCESOS_FIJOS_A_INTERNET') \
       .withColumnRenamed('POBLACIÓN DANE', 'POBLACION_DANE')

In [46]:
# Variables a contar (usando los nuevos nombres)
variables = ['AÑO', 'TRIMESTRE', 'COD_DEPARTAMENTO', 'DEPARTAMENTO', 'COD_MUNICIPIO', 'MUNICIPIO', 
             'No_ACCESOS_FIJOS_A_INTERNET', 'POBLACION_DANE', 'INDICE']

In [47]:
# Contar registros por cada variable
for variable in variables:
    count = df.select(variable).distinct().count()
    print(f"Cantidad de registros únicos en {variable}: {count}")

In [48]:
filas = df.count()
filas

In [49]:
years = df.select('AÑO').distinct().orderBy('AÑO').collect()
years

In [50]:
df_regiones = pd.read_excel("data/subregiones.xls")

In [51]:
df_regiones

In [52]:
# Eliminar filas que contengan 'Total' en la columna 'NOMBRE_DEPTO'
df_regiones = df_regiones[~df_regiones['NOMBRE_DEPTO'].str.contains("Total", na=False)]
# Rellenar los valores faltantes en 'NOMBRE_DEPTO' y 'PROVINCIA' con los valores anteriores
df_regiones['NOMBRE_DEPTO'] = df_regiones['NOMBRE_DEPTO'].fillna(method='ffill')
df_regiones['PROVINCIA'] = df_regiones['PROVINCIA'].fillna(method='ffill')
# Eliminar la columna 'Total' si no es necesaria
df_regiones = df_regiones.drop(columns=['Total'])


In [53]:
df_regiones

Unnamed: 0,NOMBRE_DEPTO,PROVINCIA,CODIGO_MUNICIPIO,NOMBRE_MPIO,Nombre
0,AMAZONAS,AMAZONAS,91263.0,EL ENCANTO,El Encanto
1,AMAZONAS,AMAZONAS,91405.0,LA CHORRERA,La Chorrera
2,AMAZONAS,AMAZONAS,91407.0,LA PEDRERA,La Pedrera
3,AMAZONAS,AMAZONAS,91430.0,LA VICTORIA,La Victoria
4,AMAZONAS,AMAZONAS,91001.0,LETICIA,Leticia
...,...,...,...,...,...
1145,VAUPES,VAUPES,97889.0,YAVARATÉ,Yavaraté
1147,VICHADA,VICHADA,99773.0,CUMARIBO,Cumaribo
1148,VICHADA,VICHADA,99524.0,LA PRIMAVERA,La Primavera
1149,VICHADA,VICHADA,99001.0,PUERTO CARREÑO,Puerto Carreño


In [54]:
df_regiones.to_csv("data/subregiones.csv", index=False)

In [1]:
!pip freeze requirements.txt

anyio==4.4.0
argon2-cffi==23.1.0
argon2-cffi-bindings==21.2.0
arrow==1.3.0
asttokens==2.4.1
async-lru==2.0.4
attrs==24.2.0
babel==2.16.0
beautifulsoup4==4.12.3
bleach==6.1.0
certifi==2024.8.30
cffi==1.17.1
charset-normalizer==3.3.2
comm==0.2.2
debugpy==1.8.5
decorator==5.1.1
defusedxml==0.7.1
exceptiongroup==1.2.2
executing==2.1.0
fastjsonschema==2.20.0
fqdn==1.5.1
h11==0.14.0
httpcore==1.0.5
httpx==0.27.2
idna==3.10
ipykernel==6.29.5
ipython==8.27.0
ipywidgets==8.1.5
isoduration==20.11.0
jedi==0.19.1
Jinja2==3.1.4
json5==0.9.25
jsonpointer==3.0.0
jsonschema==4.23.0
jsonschema-specifications==2023.12.1
jupyter==1.1.1
jupyter-console==6.6.3
jupyter-events==0.10.0
jupyter-lsp==2.2.5
jupyter_client==8.6.3
jupyter_core==5.7.2
jupyter_server==2.14.2
jupyter_server_terminals==0.5.3
jupyterlab==4.2.5
jupyterlab_pygments==0.3.0
jupyterlab_server==2.27.3
jupyterlab_widgets==3.0.13
MarkupSafe==2.1.5
matplotlib-inline==0.1.7
mistune==3.0.2
nbclient==0.10.0
nbconvert==7.16.4
nbformat==5.10.4
nest-