# Limpieza de datos - Internet Ingresos

Limpieza y enriquecimiento de datos con pandas.
Este notebook prepara el archivo `Internet.csv` para su análisis posterior.

In [1]:
import pandas as pd
import numpy as np

Unifica las columnas 'Año' y 'Trimestre' en 'Fecha' con formato "2025T1".
Limpia la columna 'Ingresos' manteniendo el formato contable: puntos como separadores de miles y coma como decimal.

In [20]:

# Cargar el archivo CSV
df_ingresos = pd.read_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet Ingresos.csv",
    sep=',',
    encoding='utf-8'
)

# Asegurar que 'Ingresos' sea texto
df_ingresos['Ingresos'] = df_ingresos['Ingresos'].astype(str)

# Limpiar la columna 'Ingresos': eliminar símbolo de pesos y espacios
df_ingresos['Ingresos'] = df_ingresos['Ingresos'].str.replace('$', '', regex=False).str.strip()

# Crear columna 'Fecha' como texto tipo '2025T1'
df_ingresos['Fecha'] = df_ingresos['Año'].astype(str) + 'T' + df_ingresos['Trimestre'].astype(str)

# Reordenar columnas: poner 'Fecha' primero y eliminar 'Año' y 'Trimestre'
columnas_finales = ['Fecha'] + [col for col in df_ingresos.columns if col not in ['Año', 'Trimestre', 'Fecha']]
df_ingresos = df_ingresos[columnas_finales]

# Guardar el archivo transformado sin índice
df_ingresos.to_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet_Ingresos_Final.csv",
    index=False,
    encoding='utf-8'
)


# Verificar resultado
print(df_ingresos.head())



    Fecha        Ingresos
0  2025T1  671.895.963,18
1  2024T4  697.603.364,84
2  2024T3  541.734.583,50
3  2024T2  442.032.166,69
4  2024T1  346.198.986,13


In [None]:
# Limpieza de datos - 

Limpieza y enriquecimiento de datos con pandas.
Preparamos el archivo `Internet Penetración Provincias.csv` para su análisis posterior.

In [21]:

# Cargar el archivo CSV
df_penetracion = pd.read_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet Penetración Provincias.csv",
    sep=',',
    encoding='utf-8'
)


In [None]:
#Lectura de las primeras lineas
df_penetracion.head()

Unnamed: 0,Año,Trimestre,Provincias,Accesos cada 100 Hogares,Accesos cada 100 Habitantes
0,2025,1,Buenos Aires,8346,2890
1,2025,1,CABA,11791,4792
2,2025,1,Catamarca,7202,1832
3,2025,1,Chaco,4990,1334
4,2025,1,Chubut,9052,2774


In [None]:
#Unificar los nombres de provincias (por ejemplo, "Tucuman" y "Tucumán"
import unicodedata


In [24]:

# Normalizar nombres de provincias: quitar tildes y convertir a título
def normalizar(texto):
    texto = unicodedata.normalize('NFKD', texto).encode('ASCII', 'ignore').decode('utf-8')
    return texto.title().strip()

df_penetracion['Provincias'] = df_penetracion['Provincias'].apply(normalizar)



In [25]:

# Crear columna 'Fecha' como texto tipo '2025T1'
df_penetracion['Fecha'] = df_penetracion['Año'].astype(str) + 'T' + df_penetracion['Trimestre'].astype(str)

# Reordenar columnas: poner 'Fecha' primero y eliminar 'Año' y 'Trimestre'
columnas_finales = ['Fecha'] + [col for col in df_penetracion.columns if col not in ['Año', 'Trimestre', 'Fecha']]
df_penetracion = df_penetracion[columnas_finales]


In [None]:
#Visualización del archivo con los datos transformados
df_penetracion.head()

Unnamed: 0,Fecha,Provincias,Accesos cada 100 Hogares,Accesos cada 100 Habitantes
0,2025T1,Buenos Aires,8346,2890
1,2025T1,Caba,11791,4792
2,2025T1,Catamarca,7202,1832
3,2025T1,Chaco,4990,1334
4,2025T1,Chubut,9052,2774


In [27]:

# Guardar el archivo transformado sin índice
df_penetracion.to_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet_Penetracion_Final.csv",
    index=False,
    encoding='utf-8'
)


# Limpieza de datos - 

Limpieza y enriquecimiento de datos con pandas.
Preparamos el archivo `Internet BAF Provincias.csv` para su análisis posterior.

In [29]:

# Cargar el archivo
df_baf_provincias = pd.read_csv(r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet BAF Provincias.csv")


In [30]:
#Lectura de las primeras lineas
df_baf_provincias.head()

Unnamed: 0,Año,Trimestre,Provincia,Banda Ancha Fija,Dial Up,Total
0,2025,1,Buenos Aires,5.285.374,5.522,5.290.896
1,2025,1,CABA,1.476.158,2.778,1.478.936
2,2025,1,Catamarca,79.017,0.0,79.017
3,2025,1,Chaco,167.656,5.0,167.661
4,2025,1,Chubut,183.958,763.0,184.721


In [31]:

# Función para eliminar acentos
def quitar_acentos(texto):
    if isinstance(texto, str):
        texto = unicodedata.normalize('NFKD', texto)
        texto = texto.encode('ASCII', 'ignore').decode('utf-8')
        return texto.title()
    return texto


In [32]:

# Normalizar nombres de provincias
df_baf_provincias["Provincia"] = df_baf_provincias["Provincia"].apply(quitar_acentos)


In [33]:

# Crear columna Fecha
df_baf_provincias["Fecha"] = df_baf_provincias["Año"].astype(str) + "-T" + df_baf_provincias["Trimestre"].astype(str)


In [38]:
# Reordenar columnas: poner 'Fecha' primero y eliminar 'Año' y 'Trimestre'
columnas_finales = ["Fecha"] + [col for col in df_baf_provincias.columns if col not in ["Año", "Trimestre", "Fecha"]]
df_baf_provincias = df_baf_provincias[columnas_finales]


In [39]:

# Convertir valores numéricos
for col in ["Banda Ancha Fija", "Dial Up", "Total"]:
    df_baf_provincias[col] = df_baf_provincias[col].astype(str).str.replace(".", "", regex=False)
    df_baf_provincias[col] = pd.to_numeric(df_baf_provincias[col], errors="coerce")


In [42]:

# Formatear la columna 'Total' con separadores de miles usando puntos
df_baf_provincias["Total"] = df_baf_provincias["Total"].apply(lambda x: f"{int(x):,}".replace(",", "."))


In [43]:
#Visualización del archivo con los datos transformados
df_baf_provincias.head()

Unnamed: 0,Fecha,Provincia,Banda Ancha Fija,Dial Up,Total
0,2025-T1,Buenos Aires,5285374,5522,5.290.896
1,2025-T1,Caba,1476158,2778,1.478.936
2,2025-T1,Catamarca,79017,0,79.017
3,2025-T1,Chaco,167656,50,167.661
4,2025-T1,Chubut,183958,7630,184.721


In [45]:


# Guardar el archivo transformado sin índice
df_baf_provincias.to_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet_BAF_Provincias_Final.csv",
    index=False,
    encoding='utf-8'
)



# Limpieza de datos - 
Limpieza y enriquecimiento de datos con pandas.
Preparamos el archivo `Accesos Tecnologías Provincas.csv` para su análisis posterior..csv` para su análisis posterior.

In [46]:

# Cargar el archivo
df_tecnologias_provincias = pd.read_csv(r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet Accesos Tecnologias Provincias.csv")


In [47]:
#Lectura de las primeras lineas
df_tecnologias_provincias.head()

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra Optica,Wireless,Otros,Total
0,2025,1,Buenos Aires,161.339,2.721.677,2.167.842,141.124,98.914,5.290.896
1,2025,1,CABA,23.684,1.068.665,345.148,4.353,37.086,1.478.936
2,2025,1,Catamarca,3.688,9.070,61.689,1.384,3.186,79.017
3,2025,1,Chaco,5.954,55.663,93.849,7.624,4.571,167.661
4,2025,1,Chubut,11.588,57.374,68.846,30.717,16.196,184.721


In [48]:

# Función para eliminar acentos y capitalizar
def quitar_acentos(texto):
    if isinstance(texto, str):
        texto = unicodedata.normalize('NFKD', texto)
        texto = texto.encode('ASCII', 'ignore').decode('utf-8')
        return texto.title()
    return texto


In [49]:

# Eliminar columna vacía si existe
if df_tecnologias_provincias.columns[0] == "":
    df_tecnologias_provincias.drop(columns=df_tecnologias_provincias.columns[0], inplace=True)


In [50]:

 #Normalizar nombres de provincias
df_tecnologias_provincias["Provincia"] = df_tecnologias_provincias["Provincia"].apply(quitar_acentos)


In [51]:

# Crear columna 'Fecha' como texto tipo '2025T1'
df_tecnologias_provincias["Fecha"] = df_tecnologias_provincias["Año"].astype(str) + "T" + df_tecnologias_provincias["Trimestre"].astype(str)


In [57]:

# Convertir y formatear columnas numéricas con puntos como separadores de miles
columnas_a_formatear = ["ADSL", "Cablemodem", "Fibra Optica", "Wireless", "Otros"]
for col in columnas_a_formatear:
    df_tecnologias_provincias[col] = df_tecnologias_provincias[col].astype(str).str.replace(".", "", regex=False)
    df_tecnologias_provincias[col] = pd.to_numeric(df_tecnologias_provincias[col], errors="coerce")
    df_tecnologias_provincias[col] = df_tecnologias_provincias[col].apply(lambda x: f"{int(x):,}".replace(",", ".") if pd.notnull(x) else "")




In [54]:

# Reordenar columnas: poner 'Fecha' primero y eliminar 'Año' y 'Trimestre'
columnas_finales = ["Fecha"] + [col for col in df_tecnologias_provincias.columns if col not in ["Año", "Trimestre", "Fecha"]]
df_tecnologias_provincias = df_tecnologias_provincias[columnas_finales]


In [55]:

# Formatear la columna 'Total' con separadores de miles usando puntos
df_tecnologias_provincias["Total"] = df_tecnologias_provincias["Total"].apply(lambda x: f"{int(x):,}".replace(",", "."))


In [58]:
#Visualización del archivo con los datos transformados
df_tecnologias_provincias.head()

Unnamed: 0,Fecha,Provincia,ADSL,Cablemodem,Fibra Optica,Wireless,Otros,Total
0,2025T1,Buenos Aires,161.339,2.721.677,2.167.842,141.124,98.914,5.290.896
1,2025T1,Caba,23.684,1.068.665,345.148,4.353,37.086,1.478.936
2,2025T1,Catamarca,3.688,9.070,61.689,1.384,3.186,79.017
3,2025T1,Chaco,5.954,55.663,93.849,7.624,4.571,167.661
4,2025T1,Chubut,11.588,57.374,68.846,30.717,16.196,184.721


In [59]:

# Guardar el archivo transformado sin índice
df_tecnologias_provincias.to_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet_Accesos_Tecnologias_Provincias_Final.csv",
    index=False,
    encoding='utf-8'
)


# Limpieza de datos - 
Limpieza y enriquecimiento de datos con pandas.
Preparamos el archivo `Accesos Velocidad Provincas.csv` para su análisis posterior..csv` para su análisis posterior.

In [64]:

# Cargar el archivo desde la ruta local
df_velocidad_provincias = pd.read_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet Accesos Velocidad Provincias.csv"
)


In [65]:

# Mostrar las primeras líneas del DataFrame
print(df_velocidad_provincias.head())


    Año  Trimestre     Provincia Velocidad Accesos
0  2025          1  Buenos Aires         0  66.998
1  2025          1  Buenos Aires         1  20.172
2  2025          1  Buenos Aires         2  18.797
3  2025          1  Buenos Aires         3  44.330
4  2025          1  Buenos Aires         4  12.110


In [66]:

# Formatear la columna 'Accesos' con puntos como separadores de miles
df_velocidad_provincias["Accesos"] = df_velocidad_provincias["Accesos"].astype(str).str.replace(".", "", regex=False)
df_velocidad_provincias["Accesos"] = pd.to_numeric(df_velocidad_provincias["Accesos"], errors="coerce")
df_velocidad_provincias["Accesos"] = df_velocidad_provincias["Accesos"].apply(
    lambda x: f"{int(x):,}".replace(",", ".") if pd.notnull(x) else ""
)


In [67]:

# Crear la columna 'Fecha' concatenando 'Año' y 'Trimestre'
df_velocidad_provincias["Fecha"] = df_velocidad_provincias["Año"].astype(str) + "T" + df_velocidad_provincias["Trimestre"].astype(str)




In [68]:
# Eliminar las columnas 'Año' y 'Trimestre'
df_velocidad_provincias.drop(columns=["Año", "Trimestre"], inplace=True)



In [69]:
# Reordenar columnas para que 'Fecha' quede primera
columnas = ["Fecha"] + [col for col in df_velocidad_provincias.columns if col != "Fecha"]
df_velocidad_provincias = df_velocidad_provincias[columnas]

In [70]:
#Visualización del archivo con los datos transformados
df_velocidad_provincias.head()

Unnamed: 0,Fecha,Provincia,Velocidad,Accesos
0,2025T1,Buenos Aires,0,66.998
1,2025T1,Buenos Aires,1,20.172
2,2025T1,Buenos Aires,2,18.797
3,2025T1,Buenos Aires,3,44.33
4,2025T1,Buenos Aires,4,12.11


In [71]:
# Guardar el archivo transformado
df_velocidad_provincias.to_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet_Accesos_Velocidad_Provincias_Final.csv",
    index=False,
    encoding="utf-8"
)


# Limpieza de datos - 
Limpieza y enriquecimiento de datos con pandas.
Preparamos el archivo `Velocidad Media Descargas Provincas.csv` para su análisis posterior..csv` para su análisis posterior.

In [72]:

# Cargar el archivo con codificación latin-1 y separador ';'
df_velocidad_media = pd.read_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet Velocidad Media de Descarga Provincias.csv",
    encoding="latin-1",
    sep=";"
)


In [73]:
# Mostrar las primeras líneas del DataFrame
print(df_velocidad_media.head())


    Año  Trimestre     Provincia Mbps (Media de bajada)
0  2025          1  Buenos Aires                 274,51
1  2025          1          CABA                 319,34
2  2025          1     Catamarca                 120,65
3  2025          1         Chaco                 119,48
4  2025          1        Chubut                 106,19


In [74]:

# Limpiar nombres de columnas (eliminar espacios extra)
df_velocidad_media.columns = [col.strip() for col in df_velocidad_media.columns]


In [75]:

# Crear la columna 'Fecha' concatenando 'Año' y 'Trimestre'
df_velocidad_media["Fecha"] = df_velocidad_media["Año"].astype(str) + "T" + df_velocidad_media["Trimestre"].astype(str)


In [77]:

#Eliminar las columnas 'Año' y 'Trimestre'
df_velocidad_media.drop(columns=["Año", "Trimestre"], inplace=True)


In [78]:

# Reordenar columnas para que 'Fecha' quede primera
columnas = ["Fecha"] + [col for col in df_velocidad_media.columns if col != "Fecha"]
df_velocidad_media = df_velocidad_media[columnas]


In [79]:
#Visualización del archivo con los datos transformados
df_velocidad_provincias.head()

Unnamed: 0,Fecha,Provincia,Velocidad,Accesos
0,2025T1,Buenos Aires,0,66.998
1,2025T1,Buenos Aires,1,20.172
2,2025T1,Buenos Aires,2,18.797
3,2025T1,Buenos Aires,3,44.33
4,2025T1,Buenos Aires,4,12.11


In [80]:

 #Guardar el archivo transformado
df_velocidad_media.to_csv(
    r"C:\Users\u601043\OneDrive - Telecom Argentina SA\Desktop\Trabajo Final Henry\Dataset a transformar\Internet_Velocidad_Media_Descarga_Provincias_Final.csv",
    index=False,
    encoding="utf-8"
)
