---
### ‚úÖ **AN√ÅLISIS DEL SECTOR DE INTERNET EN ARGENTINA**
#### *La industria de las telecomunicaciones ha desempe√±ado un papel crucial en nuestra sociedad, facilitando la informaci√≥n a escala global y permitiendo la comunicaci√≥n continua. La transferencia de datos y la comunicaci√≥n se realizan principalmente a trav√©s de internet, l√≠neas telef√≥nicas fijas y m√≥viles. Argentina est√° a la vanguardia en el desarrollo de las telecomunicaciones, contando con un total de 62,12 millones de conexiones en 2020. Dada la relevancia del tema para el pa√≠s, he llevado a cabo un an√°lisis exhaustivo que permite identificar el comportamiento de este sector a nivel nacional, enfoc√°ndome en el acceso al servicio de Internet y su relaci√≥n con otros servicios de comunicaciones. El objetivo es generar recomendaciones para ofrecer una buena calidad de servicio, identificar oportunidades de crecimiento y plantear soluciones personalizadas para clientes actuales o potenciales.*
---

### üí° **ETL del Proyecto**
<div style="text-align: justify;">
#### *A partir de fuentes de informaci√≥n como el portal de ENACOM (https://indicadores.enacom.gob.ar/datos-abiertos), se obtienen datos asociados al comportamiento hist√≥rico trimestral desde el a√±o 2014 hasta el tercer trimestre de 2024 a nivel nacional y, en algunos casos, a nivel provincial. Todos estos datos est√°n concentrados en m√∫ltiples hojas dentro de un solo archivo de Excel.*
</div>
### ‚úÖ **Carga de archivos Crudos:**

1. **Se inicializa el proceso con la importacion del archivo "Internet.xlsx" el cual tiene la estructura de diccionario por contener varias hojas con multiples campos cada una.**
2. **Para facilitar el reconocimiento del contenido de cada campo en los dos dataframe macro se ajustan los nombres de los campos por nombres practicos.**
3. **En una primera exploraci√≥n de las hojas se idetifica hay datos desagregados por a√±o y trimestre a nivel nacional y hay otros con a√±o, trimestre y provincia por lo cual podr√≠amos reducir la cantidad de dataframes agrupando gran parte de la informaci√≥n en dos macro dataframes (df_Internet_Nacional, df_Internet_Provincias).**
4. **Aplicamos reduccionalidad al dataset luego de identificar la presencia de campos redundantes como "Trimestre.1" y campos comunes (Provincia, a√±o, trimestre), creamos un campo id_a√±o_trim_nal y id_a√±o_trim_prov para todas las hojas donde aplique respectivamente, para cada hoja validamos dimensionalidad e identificamos si se generaria o no perdida de informaci√≥n evaluando el impacto que generar√≠a unificar las hojas con los nuevos campos id.**
5. **Una vez se han unificado dataframes dejando los campos en comun con una sola ocurrencia, se generan copias de respaldo para seguir operando el ETL con estas.**
6. **Una vez revisado el tipo de informaci√≥n contenida en cada campo de los dataset unificados y simplificados, se crean diccionarios con tipos de datos para aplicar un casting y homogenizar la informaci√≥n previendo y mitigando problemas asociados a formato ya que vienen mas validaciones y analisis que requieren haber depurado estos aspectos**
7. ****

#2. **Con la funcion "split_xls_x_df" creamos un dataframe por cada hoja contenida en el archivo de excel.**


In [None]:
#1. **Se inicializa el proceso con la importacion del archivo "Internet.xlsx" el cual tiene
# la estructura de diccionario por contener varias hojas con multiples campos cada una.**
import pandas as pd
from functions import opciones_impresion, renombrar_campos, opciones_impresion, obtener_hojas_validas, validar_df

# Invocar la funci√≥n para mejorar la impresion:
opciones_impresion()

# Carga las hojas sin cargar datos, solo los nombres
df_internet = pd.read_excel('/Users/usuario/Documents/M7_LABs_PI/mvp_pi2/data_csv/raw/Internet.xlsx', sheet_name=None)
excel_data = pd.ExcelFile('/Users/usuario/Documents/M7_LABs_PI/mvp_pi2/data_csv/raw/Internet.xlsx')

# Ajustar Pandas para que no corte la impresi√≥n en varias filas
pd.set_option('display.expand_frame_repr', False)  # Muestra la tabla en una sola fila si la pantalla es ancha
pd.set_option('display.max_columns', None)         # Asegura que se muestren todas las columnas sin truncarlas
pd.set_option('display.width', 1000)               # Ajusta el ancho m√°ximo permitido para la salida

# Validamos las primeras lineas de cada hoja para identifica su contenido
for hojas in df_internet:
    print(f'La hoja {hojas} contiene:') # Imprime el nombre de la hoja
    print(df_internet[hojas].head(3))
    print('\n')

#2. **Para facilitar el reconocimiento del contenido de cada campo en los dos dataframe macro se 
# **ajustan los nombres de los campos por nombres practicos.**

# Lista de nombres actuales y sus renombramientos para los campos de nivel nacional:
nuevos_nombres_nivel_nacional = {"Totales VMD":{   "Mbps (Media de bajada)": "Tot_Vel_Media_DL"},
                                    "Totales Accesos Por Tecnolog√≠a": { "ADSL": "Tot_Acc_ADSL",
                                                                        "Cablemodem": "Tot_Acc_CaModem",
                                                                        "Fibra √≥ptica": "Tot_Acc_FO",
                                                                        "Wireless": "Tot_Acc_Wireless",
                                                                        "Otros": "Tot_Acc_Otros"},
                                    "Penetracion-totales": {"Accesos por cada 100 hogares": "Tot_pntrcion_x_c100_Hoga",
                                                            "Accesos por cada 100 hab": "Tot_pntrcion_x_c100_Habi"},
                                    "Totales Accesos por rango": {"Hasta 512 kbps": "Tot_Acc_rango_0_512_kbps",
                                                                  "Entre 512 Kbps y 1 Mbps": "Tot_Acc_rango_0.512->1_Mbps",
                                                                  "Entre 1 Mbps y 6 Mbps": "Tot_Acc_rango_1->6_Mbps",
                                                                  "Entre 6 Mbps y 10 Mbps": "Tot_Acc_rango_6->10_Mbps",
                                                                  "Entre 10 Mbps y 20 Mbps": "Tot_Acc_rango_10->20_Mbps",
                                                                  "Entre 20 Mbps y 30 Mbps": "Tot_Acc_rango_20->30_Mbps",
                                                                  "M√°s de 30 Mbps": "Tot_Acc_rango_>30_Mbps",
                                                                  "OTROS": "Tot_Acc_rango_Otros",
                                                                  "Total": "Tot_Acc_rango"},
                                    "Totales Dial-BAf":{"Banda ancha fija": "Tot_B_Ancha_Fija",
                                                        "Dial up": "Tot_DialUp",
                                                        "Total": "Tot_DialUp_+_B_Ancha_Fija"},
                                    "Ingresos ": {"Ingresos": "Total_Ingresos"}
                                }

# Lista de nombres actuales y sus renombramientos para los campos de nivel nacional:
nuevos_nombres_nivel_provincias = { "Velocidad % por prov": {"Mbps (Media de bajada)": "Tot_Vel_Media_DL_Trim_x_Prov"},
                                "Accesos Por Tecnolog√≠a": {"ADSL": "Tot_Acc_ADSL_x_Prov",
                                                           "Cablemodem": "Tot_Acc_CaModem_x_Prov",
                                                           "Fibra √≥ptica": "Tot_Acc_FO_x_Prov",
                                                           "Wireless": "Tot_Acc_Wireless_x_Prov",
                                                           "Otros": "Tot_Acc_Otros_x_Prov",
                                                           "Total": "Tot_Acc_x_Prov"},
                                "Penetraci√≥n-poblacion": {"Accesos por cada 100 hab": "Tot_pntrcion_x_c100_Habi_x_Prov"},
                                "Penetracion-hogares": {"Accesos por cada 100 hogares": "Tot_pntrcion_x_c100_Hoga_x_Prov"},
                                "Accesos por rangos": {"HASTA 512 kbps": "Tot_Acc_rango_0->512_kbps_x_Prov",
                                                       "+ 512 Kbps - 1 Mbps": "Tot_Acc_rango_0.512->1_Mbps_x_Prov",
                                                       "+ 1 Mbps - 6 Mbps": "Tot_Acc_rango_1->6_Mbps_x_Prov",
                                                       "+ 6 Mbps - 10 Mbps": "Tot_Acc_rango_6->10_Mbps_x_Prov",
                                                       "+ 10 Mbps - 20 Mbps": "Tot_Acc_rango_10->20_Mbps_x_Prov",
                                                       "+ 20 Mbps - 30 Mbps": "Tot_Acc_rango_20->30_Mbps_x_Prov",
                                                       "+ 30 Mbps": "Tot_Acc_rango_>30_Mbps_x_Prov",
                                                       "OTROS": "Tot_Acc_rango_Otros_Mbps_x_Prov",
                                                       "Total": "Tot_Acc_rango_Mbps_x_Prov"},
                                "Dial-BAf": {"Banda ancha fija": "Tot_B_Ancha_Fija_x_Prov",
                                             "Dial up": "Tot_DialUp_x_Prov",
                                             "Total": "Tot_DialUp_+_B_Ancha_Fija_x_Prov"}
                                }
# Renombramos los campos de las hojas con data de nivel Nacional.
df_internet = renombrar_campos(df_internet, nuevos_nombres_nivel_nacional)
# SRenombramos los campos de las hojas con data de nivel Provincia.
df_internet = renombrar_campos(df_internet, nuevos_nombres_nivel_provincias)

#**4. Para cada hoja validamos dimensionalidad e identificamos si se generaria o no perdida de 
# informaci√≥n evaluando el impacto que generar√≠a unificar las hojas con los nuevos campos id.**

# Seleccionamos las hojas que contienen los campos A√±o, Trimestre y Provincia
hojas_a_excluir = []
campos_ano_trim_prov = ["A√±o", "Trimestre","Provincia"]
hojas_ano_trim_prov = obtener_hojas_validas(campos_ano_trim_prov, df_internet, hojas_a_excluir)
print("Se encontraron {} hojas que contienen los campos A√±o, Trimestre y Provincia:\n".format(len(hojas_ano_trim_prov)), hojas_ano_trim_prov, "\n")

campos_ano_trim = ["A√±o", "Trimestre"]
hojas_ano_trim = obtener_hojas_validas(campos_ano_trim, df_internet, hojas_ano_trim_prov)
print("Se encontraron {} hojas que contienen los campos A√±o y Trimestre solamente:\n".format(len(hojas_ano_trim)), hojas_ano_trim, "\n")

# Extraemos la lista de hojas que contienen los campos A√±o, Trimestre y Provincia de la tupla obtenida anteriormente
lista_hojas_ano_trim_prov = [nombre for nombre, _ in hojas_ano_trim_prov]
# Se descarta la hoja 'Velocidad_sin_Rangos' por tener una dimension de (18884, 5) a diferencia de las otras hojas que compraten dimensiones similares
lista_hojas_ano_trim_prov = ['Velocidad % por prov', 'Accesos Por Tecnolog√≠a', 'Penetraci√≥n-poblacion', 'Penetracion-hogares', 'Accesos por rangos', 'Dial-BAf']
print(lista_hojas_ano_trim_prov)

# Extraemos la lista de hojas que contienen los campos A√±o y Trimestre solamente de la tupla obtenida anteriormente
lista_hojas_ano_trim = [nombre for nombre, _ in hojas_ano_trim]
print(lista_hojas_ano_trim)

for hojas in df_internet:
    print(f'La hoja {hojas} tiene un tama√±o de {df_internet[hojas].shape} y contiene los campos:')
    print(validar_df(df_internet[hojas]))
    print('\n')

La hoja Acc_vel_loc_sinrangos contiene:
        Partido   Localidad  link Indec Velocidad (Mbps)  Provincia  Accesos
0  BUENOS AIRES  25 de Mayo  25 de Mayo          6854100       0.00      1.0
1  BUENOS AIRES  25 de Mayo  25 de Mayo          6854100       0.50      2.0
2  BUENOS AIRES  25 de Mayo  25 de Mayo          6854100       0.75     19.0


La hoja Velocidad_sin_Rangos contiene:
    A√±o  Trimestre     Provincia  Velocidad  Accesos
0  2024          2  BUENOS AIRES       75.0     1062
1  2024          2  BUENOS AIRES       59.0       59
2  2024          2  BUENOS AIRES      480.0        5


La hoja Accesos_tecnologia_localidad contiene:
      Provincia     Partido   Localidad    Tecnologia Link Indec  Accesos
0  BUENOS AIRES  25 de Mayo  25 de Mayo          ADSL    6854100    755.0
1  BUENOS AIRES  25 de Mayo  25 de Mayo    CABLEMODEM    6854100   4600.0
2  BUENOS AIRES  25 de Mayo  25 de Mayo  FIBRA OPTICA    6854100      2.0


La hoja Velocidad % por prov contiene:
    A√±o  Tr

In [13]:
print(validar_df(df_internet['Accesos por rangos']))

Advertencia: La columna 'Tot_Acc_rango_->_Mbps_x_Prov' aparece duplicada. Se usar√° la primera aparici√≥n.
Advertencia: La columna 'Tot_Acc_rango_->_Mbps_x_Prov' aparece duplicada. Se usar√° la primera aparici√≥n.
Advertencia: La columna 'Tot_Acc_rango_->_Mbps_x_Prov' aparece duplicada. Se usar√° la primera aparici√≥n.
Advertencia: La columna 'Tot_Acc_rango_->_Mbps_x_Prov' aparece duplicada. Se usar√° la primera aparici√≥n.
                                   Tipo de Dato   Int Float Bool DateT   Str Ctgory No_Nulos Nulos √önicos Ceros Vac√≠os (string)        Media      Desvi_Std   M√≠nimo    Q1_25%    Q2_50%     Q3_75%      M√°ximo Negativos
A√±o                                       int64  1000     0    0     0     0    NaN     1000     0     11     0             NaN     2018.824       3.058493     2014    2016.0    2019.0     2021.0        2024         0
Trimestre                                 int64  1000     0    0     0     0    NaN     1000     0      4     0             NaN    

In [3]:
from functions import validar_df
"""
print(lista_hojas_ano_trim)
print(validar_df(df_internet["Totales VMD"]))
print(validar_df(df_internet["Totales Accesos Por Tecnolog√≠a"]))
print(validar_df(df_internet["Penetracion-totales"]))
print(validar_df(df_internet["Totales Accesos por rango"]))
print(validar_df(df_internet["Totales Dial-BAf"]))
print(validar_df(df_internet["Ingresos "]))
print(validar_df(df_internet["Accesos Por Tecnolog√≠a"]))
print(validar_df(df_internet["Accesos por rangos"]))
"""
for hojas in df_internet:
    print(f'La hoja {hojas} tiene un tama√±o de {df_internet[hojas].shape} y contiene los campos:')
    print(validar_df(df_internet[hojas]))
    print('\n')



La hoja Acc_vel_loc_sinrangos tiene un tama√±o de (18864, 6) y contiene los campos:
                 Tipo de Dato    Int  Float Bool DateT    Str Ctgory Val_No_Nulos Val_Nulos Val_√önicos Val_Cero Val_Vac√≠os (string)       Media Desviaci√≥n_Std  M√≠nimo Q1_25% Q2_50% Q3_75%    M√°ximo Negativos
Partido                object      0      0    0     0  18864    NaN        18864         0         24      NaN                   0         NaN            NaN     NaN    NaN    NaN    NaN       NaN       NaN
Localidad              object      0      0    0     0  18864    NaN        18864         0        435      NaN                   0         NaN            NaN     NaN    NaN    NaN    NaN       NaN       NaN
link Indec             object      0      0    0     0  18863    NaN        18863         1       2782      NaN                 NaN         NaN            NaN     NaN    NaN    NaN    NaN       NaN       NaN
Velocidad (Mbps)       object  18726      0    0     0    138    NaN        188

In [3]:
#**Aplicamos reduccionalidad al dataset luego de identificar la presencia de campos redundantes
#como "Trimestre.1" y campos comunes (Provincia, a√±o, trimestre), creamos un campo id_a√±o_trim_nal y
#id_a√±o_trim_prov para todas las hojas donde aplique respectivamente:

def imprimir_info_anio_trimestre(df_dict):
    """
    Recorre cada DataFrame en el diccionario y muestra informaci√≥n detallada
    (head y describe) de las columnas "A√±o" y "Trimestre", si existen en cada hoja.
    
    Par√°metros:
      - df_dict (dict): Diccionario donde la clave es el nombre de la hoja y el valor es el DataFrame.
    """
    for hoja, df in df_dict.items():
        print(f'La hoja {hoja} contiene:')
        # Selecciona las columnas de inter√©s que existan en el DataFrame.
        columnas_interes = [col for col in ["A√±o", "Trimestre"] if col in df.columns]
        if columnas_interes:
            print("Primeras 3 filas:")
            print(df[columnas_interes].head(3))
            print("\nResumen estad√≠stico:")
            print(df[columnas_interes].describe())
        else:
            print("No contiene los campos 'A√±o' y 'Trimestre'.")
        print("\n" + "-"*50 + "\n")

# Ejemplo de uso:
imprimir_info_anio_trimestre(df_internet)



La hoja Acc_vel_loc_sinrangos contiene:
No contiene los campos 'A√±o' y 'Trimestre'.

--------------------------------------------------

La hoja Velocidad_sin_Rangos contiene:
Primeras 3 filas:
    A√±o  Trimestre
0  2024          2
1  2024          2
2  2024          2

Resumen estad√≠stico:
                A√±o     Trimestre
count  18884.000000  18884.000000
mean    2021.017104      2.477653
std        1.919740      1.126947
min     2017.000000      1.000000
25%     2019.000000      1.000000
50%     2021.000000      2.000000
75%     2023.000000      4.000000
max     2024.000000      4.000000

--------------------------------------------------

La hoja Accesos_tecnologia_localidad contiene:
No contiene los campos 'A√±o' y 'Trimestre'.

--------------------------------------------------

La hoja Velocidad % por prov contiene:
Primeras 3 filas:
    A√±o  Trimestre
0  2024          2
1  2024          2
2  2024          2

Resumen estad√≠stico:
               A√±o    Trimestre
count  100

In [15]:
# Crear el DataFrame base con todas las combinaciones √∫nicas de A√±o, Trimestre y Provincia.
# Puedes obtenerlo a partir de una de las hojas que sepas tiene esos campos o
# combinando los valores √∫nicos de todas las hojas.
import pandas as pd
import itertools

# 1. Extraer valores √∫nicos de "A√±o", "Trimestre" y "Provincia" de todas las hojas
valores_ano = set()
valores_trim = set()
valores_prov = set()

for sheet, df in df_internet.items():
    if "A√±o" in df.columns:
        # Convertimos a int para asegurar un tipo uniforme y omitimos NaN
        valores_ano.update([int(x) for x in df["A√±o"].dropna().unique()])
    if "Trimestre" in df.columns:
        # Convertimos a int para asegurar que se ordenen num√©ricamente
        valores_trim.update([int(x) for x in df["Trimestre"].dropna().unique()])
    if "Provincia" in df.columns:
        # Convertimos a str para evitar conflictos de tipo
        valores_prov.update([str(x) for x in df["Provincia"].dropna().unique()])

# 2. Convertir a listas y ordenarlas
valores_ano = sorted(valores_ano)
valores_trim = sorted(valores_trim)
valores_prov = sorted(valores_prov)


ValueError: invalid literal for int() with base 10: '2019 *'

In [None]:

# Se identifica varias hojas tienen en comun los campos "A√±o" y "Trimestre", y otras hojas "A√±o", "Trimestre" y "Provincia"
# Se procede a crear un campo "id_a√±o_trimestre" en cada hoja que contiene esos campos en comun y la ubicamos como primer campo
# Recorremos cada hoja y verificamos si contiene las columnas 'A√±o' y 'Trimestre'
from functions import opciones_impresion
opciones_impresion()
"""
for hoja, df in df_internet.items():
    if 'A√±o' in df.columns and 'Trimestre' in df.columns:
        df['id_Trimestre_A√±o'] = df['Trimestre'].astype(str) + '_' + df['A√±o'].astype(str)
        cols = df.columns.tolist()
        cols.remove('id_Trimestre_A√±o')
        df = df[['id_Trimestre_A√±o'] + cols]
        df_internet[hoja] = df

print(df_internet['Totales Accesos por rango'].head(5))
"""

  id_Trimestre_A√±o   A√±o  Trimestre  Tot_Acc_rango_0_512_kbps  Tot_Acc_rango_0.512->1_Mbps  Tot_Acc_rango_1->6_Mbps  Tot_Acc_rango_6->10_Mbps  Tot_Acc_rango_10->20_Mbps  Tot_Acc_rango_20->30_Mbps  Tot_Acc_rango_>30_Mbps  Tot_Acc_rango_Otros  Tot_Acc_rango
0           2_2024  2024          2                     28151                        67024                   840200                    911374                     662649                     348253                 8357088               341368       11556107
1           1_2024  2024          1                     28801                        69355                   866152                    950930                     672155                     353896                 8363694               328173       11633156
2           4_2023  2023          4                     29708                        71742                   900253                    978108                     697232                     350290                 8224736           

In [3]:
# Validamos las primeras lineas de cada hoja para identifica su contenido
for hojas in df_internet:
    print(f'La hoja {hojas} contiene:') # Imprime el nombre de la hoja
    print(df_internet[hojas].head(3))
    print('\n')

print(hojas_ano_trim_prov)

La hoja Acc_vel_loc_sinrangos contiene:
        Partido   Localidad  link Indec Velocidad (Mbps)  Provincia  Accesos
0  BUENOS AIRES  25 de Mayo  25 de Mayo          6854100       0.00      1.0
1  BUENOS AIRES  25 de Mayo  25 de Mayo          6854100       0.50      2.0
2  BUENOS AIRES  25 de Mayo  25 de Mayo          6854100       0.75     19.0


La hoja Velocidad_sin_Rangos contiene:
    A√±o  Trimestre     Provincia  Velocidad  Accesos
0  2024          2  BUENOS AIRES       75.0     1062
1  2024          2  BUENOS AIRES       59.0       59
2  2024          2  BUENOS AIRES      480.0        5


La hoja Accesos_tecnologia_localidad contiene:
      Provincia     Partido   Localidad    Tecnologia Link Indec  Accesos
0  BUENOS AIRES  25 de Mayo  25 de Mayo          ADSL    6854100    755.0
1  BUENOS AIRES  25 de Mayo  25 de Mayo    CABLEMODEM    6854100   4600.0
2  BUENOS AIRES  25 de Mayo  25 de Mayo  FIBRA OPTICA    6854100      2.0


La hoja Velocidad % por prov contiene:
    A√±o  Tr

In [4]:
from functions import fusionar_por_campos, opciones_impresion
opciones_impresion()

df_internet_provincia = fusionar_por_campos(["A√±o","Trimestre","Provincia"],lista_hojas_ano_trim_prov,df_internet)
print(df_internet_provincia.head(10))


    A√±o Trimestre        Provincia  Tot_Vel_Media_DL_Trim_x_Prov  Tot_Acc_ADSL_x_Prov  Tot_Acc_CaModem_x_Prov  Tot_Acc_FO_x_Prov  Tot_Acc_Wireless_x_Prov  Tot_Acc_Otros_x_Prov  Tot_Acc_x_Prov  Tot_pntrcion_x_c100_Habi_x_Prov  Tot_pntrcion_x_c100_Hoga_x_Prov  Tot_Acc_rango_0_512_kbps_x_Prov  Tot_Acc_rango_0.512->1_Mbps_x_Prov  Tot_Acc_rango_1->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_Otros_Mbps_x_Prov  Tot_Acc_rango_Mbps_x_Prov  Tot_B_Ancha_Fija_x_Prov  Tot_DialUp_x_Prov  Tot_DialUp_+_B_Ancha_Fija_x_Prov
0  2014         1     Buenos Aires                      3.733133            1567685.0               1000879.0           120960.0                  16528.0               33824.0       2739876.0                        16.692346                        54.570073                           8469.0                           171244.48                      2279875.0                     12178

In [9]:
# Para verificar duplicados en las columnas "A√±o", "Trimestre" y "Provincia" en un DataFrame:
duplicados = df_internet["Penetracion-hogares"][df_internet["Penetracion-hogares"].duplicated(subset=["A√±o", "Trimestre", "Provincia"], keep=False)]
print(duplicados)

Empty DataFrame
Columns: [A√±o, Trimestre, Provincia, Tot_pntrcion_x_c100_Hoga_x_Prov]
Index: []


In [16]:
from functions import opciones_impresion
print(df_internet_provincia.head(10))

  id_Trimestre_A√±o   A√±o Trimestre        Provincia  Tot_Vel_Media_DL_Trim_x_Prov id_Trimestre_A√±o_dup  Tot_Acc_ADSL_x_Prov  Tot_Acc_CaModem_x_Prov  Tot_Acc_FO_x_Prov  Tot_Acc_Wireless_x_Prov  Tot_Acc_Otros_x_Prov  Tot_Acc_x_Prov id_Trimestre_A√±o_dup  Tot_pntrcion_x_c100_Habi_x_Prov id_Trimestre_A√±o_dup  Tot_pntrcion_x_c100_Hoga_x_Prov id_Trimestre_A√±o_dup  Tot_Acc_rango_0_512_kbps_x_Prov  Tot_Acc_rango_0.512->1_Mbps_x_Prov  Tot_Acc_rango_1->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_->_Mbps_x_Prov  Tot_Acc_rango_Otros_Mbps_x_Prov  Tot_Acc_rango_Mbps_x_

In [None]:
# Modifico el nombre de los campos para hacerlos mas intuitivos
#df_internet['Internet'].rename(columns={'A√±o':'a√±o', 'Trimestre':'trimestre', 'Provincia':'provincia', 'Hogares con acceso a Internet':'hogares

In [34]:
import pandas as pd
from functions import obtener_hojas_validas

campos_ano_trim_prov = ["A√±o", "Trimestre","Provincia"]
hojas_a_excluir = []

hojas_ano_trim_prov = obtener_hojas_validas(campos_ano_trim_prov, df_internet, hojas_a_excluir)
print("Hojas que contienen los campos a√±o, trimestre y provincia:\n", hojas_ano_trim_prov)
print("\nTotal de hojas encontradas:", len(hojas_ano_trim_prov))

campos_ano_trim = ["A√±o", "Trimestre"]
hojas_ano_trim = obtener_hojas_validas(campos_ano_trim, df_internet, hojas_ano_trim_prov)
print("Hojas que contienen los campos a√±o y trimestre solamente:\n", hojas_ano_trim)
print("\nTotal de hojas encontradas:", len(hojas_ano_trim))

ImportError: cannot import name 'obtener_hojas_validas' from 'functions' (/Users/usuario/Documents/M7_LABs_PI/mvp_pi2/functions.py)

In [None]:
import pandas as pd

def fusionar_por_campo(campo_id, lista_hojas, df_dict):
    """
    Fusiona las hojas indicadas en 'lista_hojas' usando el campo √∫nico 'campo_id' como llave de uni√≥n.
    
    Par√°metros:
      - campo_id (str): Nombre del campo √∫nico que se utilizar√° para fusionar (ej. "id_a√±o_trimestre").
      - lista_hojas (list): Lista de nombres de las hojas a fusionar.
      - df_dict (dict): Diccionario con los DataFrames (clave: nombre de la hoja, valor: DataFrame).
      
    Retorna:
      DataFrame: Resultado de la fusi√≥n externa de los DataFrames indicados.
    """
    df_fusionado = None
    
    for hoja in lista_hojas:
        if hoja not in df_dict:
            print(f"La hoja '{hoja}' no se encuentra en el diccionario. Se omite.")
            continue
        df = df_dict[hoja]
        if campo_id not in df.columns:
            print(f"La hoja '{hoja}' no contiene el campo '{campo_id}'. Se omite.")
            continue
        
        if df_fusionado is None:
            df_fusionado = df.copy()
        else:
            df_fusionado = pd.merge(df_fusionado, df, on=campo_id, how='outer', suffixes=('', '_dup'))
    
    if df_fusionado is None:
        return pd.DataFrame()
    return df_fusionado

# Ejemplo de uso:
# Supongamos que 'df_internet' es el diccionario obtenido con pd.read_excel(..., sheet_name=None)
# Fusionar hojas usando el campo "id_a√±o_trimestre"
df_resultado = fusionar_por_campo("id_a√±o_trimestre", ["Velocidad_sin_Rangos", "Totales VMD", "Ingresos"], df_internet)

In [None]:
"""
import pandas as pd

def unificar_hojas(df_dict):
    
    Unifica hojas de un archivo Excel en dos DataFrames:
    1. "comunes_ano_trimestre": Hojas que tienen los campos "A√±o" y "Trimestre".
    2. "comunes_ano_trimestre_provincia": Hojas que tienen los campos "A√±o", "Trimestre" y "Provincia".
    
    La funci√≥n tambi√©n genera y reordena el identificador (id_a√±o_trimestre o id_a√±o_trimestre_prov)
    para que quede en la primera posici√≥n de cada DataFrame.
    
    Par√°metros:
        df_dict (dict): Diccionario donde la llave es el nombre de la hoja y el valor es el DataFrame.
        
    Retorna:
        dict: Diccionario con dos nuevos DataFrames:
            - "comunes_ano_trimestre"
            - "comunes_ano_trimestre_provincia"
    
    dfs_ano_trimestre = []
    dfs_ano_trimestre_provincia = []
    
    for hoja, df in df_dict.items():
        # Hojas que contienen "A√±o" y "Trimestre"
        if all(col in df.columns for col in ['A√±o', 'Trimestre']):
            # Creamos el identificador si no existe
            if 'id_a√±o_trimestre' not in df.columns:
                df['id_a√±o_trimestre'] = df['A√±o'].astype(str) + '-' + df['Trimestre'].astype(str)
            # Reordenamos para ubicar "id_a√±o_trimestre" en la primera posici√≥n
            cols = df.columns.tolist()
            cols.remove('id_a√±o_trimestre')
            df = df[['id_a√±o_trimestre'] + cols]
            dfs_ano_trimestre.append(df)
        
        # Hojas que contienen "A√±o", "Trimestre" y "Provincia"
        if all(col in df.columns for col in ['A√±o', 'Trimestre', 'Provincia']):
            if 'id_a√±o_trimestre_prov' not in df.columns:
                df['id_a√±o_trimestre_prov'] = (
                    df['A√±o'].astype(str) + '-' + 
                    df['Trimestre'].astype(str) + '-' + 
                    df['Provincia'].astype(str).str.upper()
                )
            # Reordenamos para ubicar "id_a√±o_trimestre_prov" en la primera posici√≥n
            cols = df.columns.tolist()
            cols.remove('id_a√±o_trimestre_prov')
            df = df[['id_a√±o_trimestre_prov'] + cols]
            dfs_ano_trimestre_provincia.append(df)
    
    # Unificamos (concatenamos) los DataFrames encontrados
    comunes_ano_trimestre = pd.concat(dfs_ano_trimestre, ignore_index=True, sort=False) if dfs_ano_trimestre else pd.DataFrame()
    comunes_ano_trimestre_provincia = pd.concat(dfs_ano_trimestre_provincia, ignore_index=True, sort=False) if dfs_ano_trimestre_provincia else pd.DataFrame()
    
    return {
         "comunes_ano_trimestre": comunes_ano_trimestre,
         "comunes_ano_trimestre_provincia": comunes_ano_trimestre_provincia
    }

# Ejemplo de uso:
# Suponiendo que ya tienes el diccionario df_internet con cada hoja cargada:
unificados = unificar_hojas(df_internet)
df_comunes = unificados["comunes_ano_trimestre"]
df_comunes_prov = unificados["comunes_ano_trimestre_provincia"]
df_comunes.info()
"""