# **<font color="#ff5653">1_ETL - Extract, transform and load</font>**

En este Notebook se realizara el ETL de los archivos descargados de la pagina del ENACOM (Ente Nacional de Comunicaciones) de la Republica Argentina.

El **objetivo** es llegar a obtener dataframe limpios para realizarles un EDA mas profundo en un notebook aparte y tambien poder relacionar los datos en Power BI donde obtendremos los diferentes KPI solicitados.

- Orden de procesamiento de los archivos:

(*nombre del archivo.csv en nuestro Datasets = nombre de cada archivo que figura en ENACOM = archivo.csv realizado el ETL*)

1.   1_Internet_fijo_por_cada_100_ hogares_por_provincia.csv = Número de accesos al servicio de Internet fijo por cada 100 hogares por provincia = 1_internet_100hogares-por_provincia.csv

2.   11_Velocidades_internet_por_provincia_ultimo_trimestre.csv = Acceso a Internet Fijo por rangos de velocidad de bajada y provincia = 2_internet_rangovelocidades_velocidadm_provincia.csv

3. 15_Internet_fijo_por_tecnologia_por_localidad.csv = Accesos a Internet fijo por tecnología y Localidad = 3_internet_portecnologia_porlocalidad.csv

4. 4_Calendario_Fechas.csv

5. 6_Internet_fijo_por_tecnologia_por_provincia.csv = Acceso a Internet fijo por tecnología y provincia = 5_internet_portecnologia_porprovincia.csv



In [1]:
# Conexion entre Google Colab y Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Libreria
import numpy as np
import pandas as pd
import csv

### **<font color="#ff5653">1. 1_Internet_fijo_por_cada_100_ hogares_por_provincia.csv</font>**

Para el procesamiento del dataframe se llevaran a cabo primero un EDA preliminar y despues el ETL.

- EDA (Exploratory Data Analysis - Análisis Exploratorio de Datos)

In [None]:
# Cargamos el archivo
df_1=pd.read_csv("/content/drive/MyDrive/Datasets/1_Internet_fijo_por_cada_100_ hogares_por_provincia.csv")

In [None]:
# Primeras dos filas del dataframe
df_1.head(2)

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares,Unnamed: 4,Unnamed: 5,Unnamed: 6
0,2022,4,Buenos Aires,7894,,,
1,2022,4,Capital Federal,12273,,,


In [None]:
# Cantidad de valores no nulos, tipos de datos, nombre de columnas.
df_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 7 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           864 non-null    int64  
 1   Trimestre                     864 non-null    int64  
 2   Provincia                     864 non-null    object 
 3   Accesos por cada 100 hogares  864 non-null    object 
 4   Unnamed: 4                    0 non-null      float64
 5   Unnamed: 5                    0 non-null      float64
 6   Unnamed: 6                    0 non-null      float64
dtypes: float64(3), int64(2), object(2)
memory usage: 47.4+ KB


In [None]:
# Cantidad de valores nulos del dataframe
df_1.isna().sum()

Año                               0
Trimestre                         0
Provincia                         0
Accesos por cada 100 hogares      0
Unnamed: 4                      864
Unnamed: 5                      864
Unnamed: 6                      864
dtype: int64

In [None]:
# Cantidad de filas y columnas del dataframe
df_1.shape

(864, 7)

In [None]:
# Funcion: Valores unicos
def valores_unicos_columna(dataframe, columnas_especificas):

    for column in columnas_especificas:
        if column in dataframe.columns:
            valores_unicos = dataframe[column].unique()
            print(f"Valores únicos para la columna '{column}':", valores_unicos)

        else:
            print(f"La columna '{column}' no existe en el DataFrame.")

In [None]:
# Llamamos a la funcion: Valores unicos.
c1 =["Año", "Trimestre", "Provincia"]                          # Solo para estas columnas vemos los valores unicos: Año, Trimestre y Provincia.
valores_unicos_columna(df_1,c1)

Valores únicos para la columna 'Año': [2022 2021 2020 2019 2018 2017 2016 2015 2014]
Valores únicos para la columna 'Trimestre': [4 3 2 1]
Valores únicos para la columna 'Provincia': ['Buenos Aires' 'Capital Federal' 'Catamarca' 'Chaco' 'Chubut' 'Córdoba'
 'Corrientes' 'Entre Ríos' 'Formosa' 'Jujuy' 'La Pampa' 'La Rioja'
 'Mendoza' 'Misiones' 'Neuquén' 'Río Negro' 'Salta' 'San Juan' 'San Luis'
 'Santa Cruz' 'Santa Fe' 'Santiago Del Estero' 'Tierra Del Fuego'
 'Tucumán']


In [None]:
# Llamamos a la funcion: Valores unicos.
c1_1 =["Accesos por cada 100 hogares"]                          # Solo para esta columna vemos los valores unicos: Accesos por cada 100 hogares.
valores_unicos_columna(df_1,c1_1)

Valores únicos para la columna 'Accesos por cada 100 hogares': ['78,94' '122,73' '65,77' '43,62' '85,57' '89,03' '51,64' '64,01' '39,41'
 '58,46' '94,80' '79,86' '51,36' '52,85' '78,67' '68,42' '57,96' '50,88'
 '90,27' '43,53' '78,40' '48,05' '101,44' '61,04' '78,11' '122,28' '65,33'
 '43,86' '84,38' '88,31' '48,21' '63,67' '43,76' '58,91' '96,59' '80,66'
 '51,03' '51,82' '80,37' '67,98' '57,76' '50,80' '81,74' '43,19' '78,55'
 '47,98' '99,51' '61,14' '77,58' '121,31' '62,40' '43,79' '83,19' '87,48'
 '48,35' '63,90' '43,42' '57,32' '92,98' '80,14' '49,39' '51,00' '80,02'
 '67,85' '57,54' '49,46' '81,76' '43,15' '77,90' '47,70' '99,86' '59,31'
 '76,08' '111,80' '58,21' '44,06' '88,05' '85,76' '47,64' '63,70' '34,96'
 '58,06' '91,66' '78,77' '48,74' '49,04' '74,17' '67,04' '56,11' '43,55'
 '80,72' '43,34' '77,30' '47,17' '98,29' '57,39' '75,66' '111,27' '55,25'
 '44,05' '82,57' '84,51' '45,51' '63,16' '34,45' '56,92' '89,57' '77,92'
 '47,51' '49,06' '73,30' '65,69' '56,81' '39,59' '80,30

In [None]:
# Resumen estadistico
df_1.describe()

Unnamed: 0,Año,Trimestre,Unnamed: 4,Unnamed: 5,Unnamed: 6
count,864.0,864.0,0.0,0.0,0.0
mean,2018.0,2.5,,,
std,2.583484,1.118682,,,
min,2014.0,1.0,,,
25%,2016.0,1.75,,,
50%,2018.0,2.5,,,
75%,2020.0,3.25,,,
max,2022.0,4.0,,,


- ETL (Extract, Transform and Load - Extraer, transformar, cargar)

En base a lo anterior se realizara: eliminacion de valores nulos, cambiamos los tipos de datos y agregamos una columna nueva.

In [None]:
# Elimino columnas con valores nulos
df_1_1 = df_1.dropna(axis=1)


In [None]:
# En la columna "Accesos por cada 100 hogares" cambiamos el tipo de dato a "float64"
df_1_1["Accesos por cada 100 hogares"] = df_1_1["Accesos por cada 100 hogares"].str.replace(',', '.').astype("float64")

In [None]:
# Creamos una columna nueva "Año_trimestre" para relacionar los dataframe por esta columna.
df_1_1["Año_trimestre"] = (df_1_1["Trimestre"]*2 + (df_1_1["Trimestre"]-2)).astype(str) + "/" + "1"  + "/" + df_1_1["Año"].astype(str)

In [None]:
# Cambiamos el tipo de dato de la columna "Año_Trimestre" a "datatime64"
df_1_1["Año_trimestre"] = pd.to_datetime(df_1_1["Año_trimestre"], errors="coerce")

In [None]:
df_1_1.head(2)

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares,Año_trimestre
0,2022,4,Buenos Aires,78.94,2022-10-01
1,2022,4,Capital Federal,122.73,2022-10-01


In [None]:
df_1_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype         
---  ------                        --------------  -----         
 0   Año                           864 non-null    int64         
 1   Trimestre                     864 non-null    int64         
 2   Provincia                     864 non-null    object        
 3   Accesos por cada 100 hogares  864 non-null    float64       
 4   Año_trimestre                 864 non-null    datetime64[ns]
dtypes: datetime64[ns](1), float64(1), int64(2), object(1)
memory usage: 33.9+ KB


In [None]:
# Guardamos el dataframe en formato .csv
df_1_1.to_csv("1_internet_100hogares_por_provincia.csv", index=False)

### **<font color="#ff5653">2. 11_Velocidades_internet_por_provincia_ultimo_trimestre.csv</font>**

Para el procesamiento del dataframe se llevaran a cabo primero un EDA preliminar y despues el ETL.

- EDA (Exploratory Data Analysis - Análisis Exploratorio de Datos)

In [None]:
# Cargamos el archivo
df_11=pd.read_csv("/content/drive/MyDrive/Datasets/11_Velocidades_internet_por_provincia_ultimo_trimestre.csv")

In [None]:
# Primeras dos filas del dataframe
df_11.head(2)

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2022,4,Buenos Aires,28.934,23.347,259.866,281.55,244.555,98.67,3.760.109,97.634,4.794.665
1,2022,4,Capital Federal,516.0,5.096,31.32,64.653,36.336,8.116,1.299.117,106.772,1.551.926


In [None]:
# Cantidad de valores no nulos, tipos de datos, nombre de columnas.
df_11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Año                  864 non-null    int64  
 1   Trimestre            864 non-null    int64  
 2   Provincia            864 non-null    object 
 3   HASTA 512 kbps       864 non-null    float64
 4   + 512 Kbps - 1 Mbps  864 non-null    float64
 5   + 1 Mbps - 6 Mbps    864 non-null    object 
 6   + 6 Mbps - 10 Mbps   864 non-null    float64
 7   + 10 Mbps - 20 Mbps  864 non-null    float64
 8   + 20 Mbps - 30 Mbps  864 non-null    float64
 9   + 30 Mbps            864 non-null    object 
 10  OTROS                858 non-null    float64
 11  Total                864 non-null    object 
dtypes: float64(6), int64(2), object(4)
memory usage: 81.1+ KB


In [None]:
# Cantidad de valores nulos del dataframe
df_11.isna().sum()

Año                    0
Trimestre              0
Provincia              0
HASTA 512 kbps         0
+ 512 Kbps - 1 Mbps    0
+ 1 Mbps - 6 Mbps      0
+ 6 Mbps - 10 Mbps     0
+ 10 Mbps - 20 Mbps    0
+ 20 Mbps - 30 Mbps    0
+ 30 Mbps              0
OTROS                  6
Total                  0
dtype: int64

In [None]:
# Cantidad de filas y columnas del dataframe
df_11.shape

(864, 12)

In [None]:
# Resumen estadistico
df_11.describe()

Unnamed: 0,Año,Trimestre,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,OTROS
count,864.0,864.0,864.0,864.0,864.0,864.0,864.0,858.0
mean,2018.0,2.5,126.069829,104.202722,70.717505,78.652155,99.993059,34.439517
std,2.583484,1.118682,186.417712,211.789353,138.831868,168.570068,207.34928,133.288022
min,2014.0,1.0,1.007,0.0,0.0,0.0,0.0,-1.945
25%,2016.0,1.75,11.0,3.31075,5.41025,5.0,2.091,0.0
50%,2018.0,2.5,51.0,8.762,20.208,15.159,11.0425,0.0
75%,2020.0,3.25,133.25,85.5255,61.9345,51.9595,64.28625,7.93975
max,2022.0,4.0,998.0,999.0,917.0,978.0,997.0,989.0


- ETL (Extract, Transform and Load - Extraer, transformar, cargar)

En base a lo anterior se realizara: eliminar valores nulos, eliminamos los puntos de las columnas con datos numericos, cambiamos tipos de datos y creamos una columna "Año_trimestre".

In [None]:
# Eliminamos valores nulos
df_11_1 = df_11.dropna()

In [None]:
# Cambiamos el tipo de datos a string.
df_11_1['HASTA 512 kbps'] = df_11_1['HASTA 512 kbps'].astype(str)
df_11_1['+ 512 Kbps - 1 Mbps'] = df_11_1['+ 512 Kbps - 1 Mbps'].astype(str)
df_11_1['+ 1 Mbps - 6 Mbps'] = df_11_1['+ 1 Mbps - 6 Mbps'].astype(str)
df_11_1['+ 6 Mbps - 10 Mbps'] = df_11_1['+ 6 Mbps - 10 Mbps'].astype(str)
df_11_1['+ 10 Mbps - 20 Mbps'] = df_11_1['+ 10 Mbps - 20 Mbps'].astype(str)
df_11_1['+ 20 Mbps - 30 Mbps'] = df_11_1['+ 20 Mbps - 30 Mbps'].astype(str)
df_11_1['+ 30 Mbps'] = df_11_1['+ 30 Mbps'].astype(str)
df_11_1['OTROS'] = df_11_1['OTROS'].astype(str)
df_11_1['Total'] = df_11_1['Total'].astype(str)

In [None]:
# Eliminamos los "."
df_11_1['HASTA 512 kbps'] = df_11_1['HASTA 512 kbps'].str.replace('.', '')
df_11_1['+ 512 Kbps - 1 Mbps'] = df_11_1['+ 512 Kbps - 1 Mbps'].str.replace('.', '')
df_11_1['+ 1 Mbps - 6 Mbps'] = df_11_1['+ 1 Mbps - 6 Mbps'].str.replace('.', '')
df_11_1['+ 6 Mbps - 10 Mbps'] = df_11_1['+ 6 Mbps - 10 Mbps'].str.replace('.', '')
df_11_1['+ 10 Mbps - 20 Mbps'] = df_11_1['+ 10 Mbps - 20 Mbps'].str.replace('.', '')
df_11_1['+ 20 Mbps - 30 Mbps'] = df_11_1['+ 20 Mbps - 30 Mbps'].str.replace('.', '')
df_11_1['+ 30 Mbps'] = df_11_1['+ 30 Mbps'].str.replace('.', '')
df_11_1['OTROS'] = df_11_1['OTROS'].str.replace('.', '')
df_11_1['Total'] = df_11_1['Total'].str.replace('.', '')

In [None]:
# Cambiamos el tipo de datos a enteros.
df_11_1['HASTA 512 kbps'] = df_11_1['HASTA 512 kbps'].astype(int)
df_11_1['+ 512 Kbps - 1 Mbps'] = df_11_1['+ 512 Kbps - 1 Mbps'].astype(int)
df_11_1['+ 1 Mbps - 6 Mbps'] = df_11_1['+ 1 Mbps - 6 Mbps'].astype(int)
df_11_1['+ 6 Mbps - 10 Mbps'] = df_11_1['+ 6 Mbps - 10 Mbps'].astype(int)
df_11_1['+ 10 Mbps - 20 Mbps'] = df_11_1['+ 10 Mbps - 20 Mbps'].astype(int)
df_11_1['+ 20 Mbps - 30 Mbps'] = df_11_1['+ 20 Mbps - 30 Mbps'].astype(int)
df_11_1['+ 30 Mbps'] = df_11_1['+ 30 Mbps'].astype(int)
df_11_1['OTROS'] = df_11_1['OTROS'].astype(int)
df_11_1['Total'] = df_11_1['Total'].astype(int)

In [None]:
# Creamos una columna nueva "Año_trimestre" para relacionar los dataframe por esta columna.
df_11_1["Año_trimestre"] = (df_11_1["Trimestre"]*2 + (df_11_1["Trimestre"]-2)).astype(str) + "/" + "1"  + "/" + df_11_1["Año"].astype(str)

In [None]:
# Cambiamos el tipo de dato de la columna "Año_Trimestre" a "datatime64"
df_11_1["Año_trimestre"] = pd.to_datetime(df_11_1["Año_trimestre"], errors="coerce")

In [None]:
# Confirmamos los cambios
df_11_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 858 entries, 0 to 863
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Año                  858 non-null    int64         
 1   Trimestre            858 non-null    int64         
 2   Provincia            858 non-null    object        
 3   HASTA 512 kbps       858 non-null    int64         
 4   + 512 Kbps - 1 Mbps  858 non-null    int64         
 5   + 1 Mbps - 6 Mbps    858 non-null    int64         
 6   + 6 Mbps - 10 Mbps   858 non-null    int64         
 7   + 10 Mbps - 20 Mbps  858 non-null    int64         
 8   + 20 Mbps - 30 Mbps  858 non-null    int64         
 9   + 30 Mbps            858 non-null    int64         
 10  OTROS                858 non-null    int64         
 11  Total                858 non-null    int64         
 12  Año_trimestre        858 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(11), ob

In [None]:
# Confirmamos los cambios
df_11_1.head(2)

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total,Año_trimestre
0,2022,4,Buenos Aires,28934,23347,259866,28155,244555,9867,3760109,97634,4794665,2022-10-01
1,2022,4,Capital Federal,5160,5096,31320,64653,36336,8116,1299117,106772,1551926,2022-10-01


La columna "Total" no poseen la suma correctas por lo que hay que agregar una nueva columna llamada "Total y OTROS" que sera la suma de las columnas que representan las velocidades. Y vamos a crear otra columna llamada "Total_accesos" donde estan comprendidas todas las columnas velocidades execpto la columna "OTROS", asi poder usar los datos de la columna "Total_accesos" y poder sacar la velocidad promedio.

- Velocidad Promedio = (0,512*AR1 + 0,7512*AR2 + 3,5*AR3 + 8*AR4 + 15*AR5 + 25*AR6 + 30*AR7)/Total de accesos reportados

Donde AR1 es el total de accesos reportados para el primer rango (Hasta 512 kbps); AR2 es el total de accesos reportados para el segundo rango (Entre 512 kbps y 1 Mbps) y así sucesivamente.

Desde el cuarto trimestre de 2017, VP se calcula como el promedio de las velocidades unitarias en Mbps ponderadas por el número de accesos reportados para cada velocidad.

Rangos de velocidad:

1.	Hasta 512 kbps
2.	Entre 512 kbps y 1 Mbps
3.	Entre 1 Mbps y 6 Mbps
4.	Entre 6 Mbps y 10 Mbps
5.	Entre 10 Mbps y 20 Mbps
6.	Entre 20 Mbps y 30 Mbps
7.	Más de 30 Mbps

Fuente: Ente Nacional de Comunicaciones (ENACOM), Argentina.

In [None]:
# Creamos una columna nueva llamada "Total y OTROS" y sumamos las columnas con las velocidades.
df_11_1["Total y OTROS"] = df_11_1[["HASTA 512 kbps", "+ 512 Kbps - 1 Mbps", "+ 1 Mbps - 6 Mbps", "+ 6 Mbps - 10 Mbps", "+ 10 Mbps - 20 Mbps", "+ 20 Mbps - 30 Mbps", "+ 30 Mbps", "OTROS"]].sum(axis=1)

In [None]:
# Creamos una columna nueva llamada "Total_accesos" y sumamos las columnas con las velocidades.
df_11_1["Total_accesos"] = df_11_1[["HASTA 512 kbps", "+ 512 Kbps - 1 Mbps", "+ 1 Mbps - 6 Mbps", "+ 6 Mbps - 10 Mbps", "+ 10 Mbps - 20 Mbps", "+ 20 Mbps - 30 Mbps", "+ 30 Mbps"]].sum(axis=1)

In [None]:
df_11_1

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total,Año_trimestre,Total y OTROS,Total_accesos
0,2022,4,Buenos Aires,28934,23347,259866,28155,244555,9867,3760109,97634,4794665,2022-10-01,4452467,4354833
1,2022,4,Capital Federal,5160,5096,31320,64653,36336,8116,1299117,106772,1551926,2022-10-01,1556570,1449798
2,2022,4,Catamarca,710,3150,2716,5028,4638,3122,52739,228,70909,2022-10-01,72331,72103
3,2022,4,Chaco,4610,7710,16067,17846,6704,3039,94866,3909,143663,2022-10-01,154751,150842
4,2022,4,Chubut,1090,1614,46457,31007,34728,1577,19048,20026,168759,2022-10-01,155547,135521
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,1610,1625,24972,10,10,0,0,0,26760,2014-01-01,28227,28227
860,2014,1,Santa Fe,8456,124468,345225,20328,6845,230,668,0,506013,2014-01-01,506220,506220
861,2014,1,Santiago Del Estero,1234,10531,22817,2422,1090,0,0,0,37113,2014-01-01,38094,38094
862,2014,1,Tierra Del Fuego,120,6070,30902,60,0,0,0,0,31527,2014-01-01,37152,37152


- Al comprar las columnas "Total" y "Total y OTROS", queda claro las diferencias que hay y el error que tenia el archivo original.

- Con la columna "Total_accesos" vamos a utilizarla para sacar la velocidad media de conexion utilizando la formula proporcionada por el ENACOM.

In [None]:
# Eliminamos la columna "Total general": porque los datos no reflejan la sumatorias de las tecnologias.
df_11_1.drop(columns=["Total"], inplace=True)

In [None]:
df_11_2 = df_11_1

In [None]:
df_11_2

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Año_trimestre,Total y OTROS,Total_accesos
0,2022,4,Buenos Aires,28934,23347,259866,28155,244555,9867,3760109,97634,2022-10-01,4452467,4354833
1,2022,4,Capital Federal,5160,5096,31320,64653,36336,8116,1299117,106772,2022-10-01,1556570,1449798
2,2022,4,Catamarca,710,3150,2716,5028,4638,3122,52739,228,2022-10-01,72331,72103
3,2022,4,Chaco,4610,7710,16067,17846,6704,3039,94866,3909,2022-10-01,154751,150842
4,2022,4,Chubut,1090,1614,46457,31007,34728,1577,19048,20026,2022-10-01,155547,135521
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,1610,1625,24972,10,10,0,0,0,2014-01-01,28227,28227
860,2014,1,Santa Fe,8456,124468,345225,20328,6845,230,668,0,2014-01-01,506220,506220
861,2014,1,Santiago Del Estero,1234,10531,22817,2422,1090,0,0,0,2014-01-01,38094,38094
862,2014,1,Tierra Del Fuego,120,6070,30902,60,0,0,0,0,2014-01-01,37152,37152


In [None]:
# Velocidad media de conexion
df_11_2["velocidad_media_conexion(Mbps)"] = (0.512 * df_11_2["HASTA 512 kbps"] + 0.7512 * df_11_2["+ 512 Kbps - 1 Mbps"] + 3.5 * df_11_2["+ 1 Mbps - 6 Mbps"] + 8 * df_11_2["+ 6 Mbps - 10 Mbps"] + 15 * df_11_2["+ 10 Mbps - 20 Mbps"] + 25 * df_11_2["+ 20 Mbps - 30 Mbps"] + 30 * df_11_2["+ 30 Mbps"]) / df_11_2["Total_accesos"]

In [None]:
df_11_3 = df_11_2

In [None]:
# Redondeamos los valores de "velocidad_media_conexion(Mbps)".
df_11_3["velocidad_media_conexion(Mbps)"] = df_11_3["velocidad_media_conexion(Mbps)"].astype(int)

In [None]:
df_11_3

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Año_trimestre,Total y OTROS,Total_accesos,velocidad_media_conexion(Mbps)
0,2022,4,Buenos Aires,28934,23347,259866,28155,244555,9867,3760109,97634,2022-10-01,4452467,4354833,27
1,2022,4,Capital Federal,5160,5096,31320,64653,36336,8116,1299117,106772,2022-10-01,1556570,1449798,27
2,2022,4,Catamarca,710,3150,2716,5028,4638,3122,52739,228,2022-10-01,72331,72103,24
3,2022,4,Chaco,4610,7710,16067,17846,6704,3039,94866,3909,2022-10-01,154751,150842,21
4,2022,4,Chubut,1090,1614,46457,31007,34728,1577,19048,20026,2022-10-01,155547,135521,11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,1610,1625,24972,10,10,0,0,0,2014-01-01,28227,28227,3
860,2014,1,Santa Fe,8456,124468,345225,20328,6845,230,668,0,2014-01-01,506220,506220,3
861,2014,1,Santiago Del Estero,1234,10531,22817,2422,1090,0,0,0,2014-01-01,38094,38094,3
862,2014,1,Tierra Del Fuego,120,6070,30902,60,0,0,0,0,2014-01-01,37152,37152,3


In [None]:
# Guardamos el dataframe en formato .csv
df_11_3.to_csv("2_internet_rangovelocidad_velocidadm_provincia.csv", index=False)

### **<font color="#ff5653">3. 15_Internet_fijo_por_tecnologia_por_localidad.csv</font>**
Para el procesamiento del dataframe se llevaran a cabo primero un EDA preliminar y despues el ETL.

In [None]:
# Cargamos el archivo
df_15 = pd.read_csv("/content/drive/MyDrive/Datasets/15_Internet_fijo_por_tecnologia_por_localidad.csv")

In [None]:
# P rimeras dos filas del dataframe
df_15.head(2)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general,Unnamed: 13
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,874,454,- 0,3,- 0,852,- 0,706,698,
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,- 0,- 0,- 0,10,1,- 0,- 0,192,


In [None]:
# Cantidad de valores no nulos, tipos de datos, nombre de columnas.
df_15.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3137 entries, 0 to 3136
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Provincia      3137 non-null   object 
 1   Partido        3137 non-null   object 
 2   Localidad      3137 non-null   object 
 3   Link Indec     3137 non-null   object 
 4   ADSL           3137 non-null   object 
 5   CABLEMODEM     3137 non-null   object 
 6   DIAL UP        3137 non-null   object 
 7   FIBRA OPTICA   3137 non-null   object 
 8   OTROS          3137 non-null   object 
 9   SATELITAL      3137 non-null   object 
 10  WIMAX          3137 non-null   object 
 11  WIRELESS       3137 non-null   object 
 12  Total general  3137 non-null   object 
 13  Unnamed: 13    0 non-null      float64
dtypes: float64(1), object(13)
memory usage: 343.2+ KB


In [None]:
# Cantidad de valores nulos del dataframe
df_15.isna().sum()

Provincia           0
Partido             0
Localidad           0
Link Indec          0
ADSL                0
CABLEMODEM          0
DIAL UP             0
FIBRA OPTICA        0
OTROS               0
SATELITAL           0
WIMAX               0
WIRELESS            0
Total general       0
Unnamed: 13      3137
dtype: int64

In [None]:
# Cantidad de filas y columnas del dataframe
df_15.shape

(3137, 14)

In [None]:
# Resumen estadistico
df_15.describe()

Unnamed: 0,Unnamed: 13
count,0.0
mean,
std,
min,
25%,
50%,
75%,
max,


- ETL (Extract, Transform and Load - Extraer, transformar, cargar)

En base a lo anterior se realizara: eliminacion de valores nulos, cambiamos "-0", "," , los tipos de datos y agregamos una columna nueva.

In [None]:
# Eliminamos la columna con valores nulos
df_15_1 = df_15.dropna(axis=1)

In [None]:
# Cambiamos el "- 0" por " 0"

df_15_1['ADSL'] = df_15_1['ADSL'].str.replace('- 0', '0')
df_15_1['CABLEMODEM'] = df_15_1['CABLEMODEM'].str.replace('- 0', '0')
df_15_1['DIAL UP'] = df_15_1['DIAL UP'].str.replace('- 0', '0')
df_15_1['FIBRA OPTICA'] = df_15_1['FIBRA OPTICA'].str.replace('- 0', '0')
df_15_1['OTROS'] = df_15_1['OTROS'].str.replace('- 0', '0')
df_15_1['SATELITAL'] = df_15_1['SATELITAL'].str.replace('- 0', '0')
df_15_1['WIMAX'] = df_15_1['WIMAX'].str.replace('- 0', '0')
df_15_1['WIRELESS'] = df_15_1['WIRELESS'].str.replace('- 0', '0')
df_15_1['Total general'] = df_15_1['Total general'].str.replace('- 0', '0')
df_15_1['Link Indec'] = df_15_1['Link Indec'].str.replace('Sin Datos', '0')        # Reemplazamos 'Sin Datos' por "0". Asi nos permite cambiar el tipo de dato a entero.

In [None]:
# Eliminamos las ","
df_15_1['ADSL'] = df_15_1['ADSL'].str.replace(',', '')
df_15_1['CABLEMODEM'] = df_15_1['CABLEMODEM'].str.replace(',', '')
df_15_1['DIAL UP'] = df_15_1['DIAL UP'].str.replace(',', '')
df_15_1['FIBRA OPTICA'] = df_15_1['FIBRA OPTICA'].str.replace(',', '')
df_15_1['OTROS'] = df_15_1['OTROS'].str.replace(',', '')
df_15_1['SATELITAL'] = df_15_1['SATELITAL'].str.replace(',', '')
df_15_1['WIMAX'] = df_15_1['WIMAX'].str.replace(',', '')
df_15_1['WIRELESS'] = df_15_1['WIRELESS'].str.replace(',', '')
df_15_1['Total general'] = df_15_1['Total general'].str.replace(',', '')
df_15_1['Link Indec'] = df_15_1['Link Indec'].str.replace(',', '')

In [None]:
# Cambiamos el tipo de dato a entero.
df_15_1['ADSL'] = df_15_1['ADSL'].astype(int)
df_15_1['CABLEMODEM'] = df_15_1['CABLEMODEM'].astype(int)
df_15_1['DIAL UP'] = df_15_1['DIAL UP'].astype(int)
df_15_1['FIBRA OPTICA'] = df_15_1['FIBRA OPTICA'].astype(int)
df_15_1['OTROS'] = df_15_1['OTROS'].astype(int)
df_15_1['SATELITAL'] = df_15_1['SATELITAL'].astype(int)
df_15_1['WIMAX'] = df_15_1['WIMAX'].astype(int)
df_15_1['WIRELESS'] = df_15_1['WIRELESS'].astype(int)
df_15_1['Total general'] = df_15_1['Total general'].astype(int)
df_15_1['Link Indec'] = df_15_1['Link Indec'].astype(int)

In [None]:
# Creamos una columna nueva llamada "Total General" y sumamos las columnas con las tecnologias.
df_15_1["Total General"] = df_15_1[["ADSL", "CABLEMODEM", "DIAL UP", "FIBRA OPTICA", "OTROS", "SATELITAL", "WIMAX", "WIRELESS"]].sum(axis=1)

In [None]:
df_15_1.head(2)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general,Total General
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,874,454,0,3,0,852,0,706,698,2889
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,0,0,0,10,1,0,0,192,192


In [None]:
# Eliminamos la columna "Total general": porque los datos no reflejan la sumatorias de las tecnologias.
df_15_1.drop(columns=["Total general"], inplace=True)

In [None]:
df_15_1

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total General
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,874,454,0,3,0,852,0,706,2889
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,0,0,0,10,1,0,0,192
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,0,0,0,0,0,0,181,181
3,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,0,782,0,6,167,0,0,327,1282
4,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,0,0,0,0,0,0,0,6,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3132,TUCUMAN,Tafí Viejo,Villa Mariano Moreno - El Colmenar,90105100,0,31,0,373,0,0,0,0,404
3133,TUCUMAN,Trancas,San Pedro de Colalao,90112020,0,0,0,0,0,0,0,313,313
3134,TUCUMAN,Trancas,Villa de Trancas,90112030,126,0,0,0,33,0,0,101,260
3135,TUCUMAN,Yerba Buena,Villa Carmela,90119020,15,0,0,0,1,0,0,97,113


In [None]:
df_15_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3137 entries, 0 to 3136
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Provincia      3137 non-null   object
 1   Partido        3137 non-null   object
 2   Localidad      3137 non-null   object
 3   Link Indec     3137 non-null   int64 
 4   ADSL           3137 non-null   int64 
 5   CABLEMODEM     3137 non-null   int64 
 6   DIAL UP        3137 non-null   int64 
 7   FIBRA OPTICA   3137 non-null   int64 
 8   OTROS          3137 non-null   int64 
 9   SATELITAL      3137 non-null   int64 
 10  WIMAX          3137 non-null   int64 
 11  WIRELESS       3137 non-null   int64 
 12  Total General  3137 non-null   int64 
dtypes: int64(10), object(3)
memory usage: 318.7+ KB


In [None]:
# Guardamos el dataframe en formato .csv
df_15_1.to_csv("3_internet_portecnologia_porlocalidad.csv", index=False)

### **<font color="#ff5653">4. 4_Calendario_Fechas</font>**

Se creara un calendario de fechas por treimestres desde el año 2014 al 2023.
El objetivo de esta tabla es ser el nexo entre todos los dataframe.

In [None]:
# Generar la secuencia de fechas trimestrales
fechas = pd.date_range(start="01/01/2014", end="31/12/2022")

# Crear el DataFrame vacío
calendario = pd.DataFrame()

# Asignar las fechas a una columna llamada Año_Trimestre
calendario_fechas = calendario.assign(**{"Año_Trimestre": fechas})

  fechas = pd.date_range(start="01/01/2014", end="31/12/2022")


In [None]:
calendario_fechas

Unnamed: 0,Año_Trimestre
0,2014-01-01
1,2014-01-02
2,2014-01-03
3,2014-01-04
4,2014-01-05
...,...
3282,2022-12-27
3283,2022-12-28
3284,2022-12-29
3285,2022-12-30


In [None]:
calendario_fechas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3287 entries, 0 to 3286
Data columns (total 1 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   Año_Trimestre  3287 non-null   datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 25.8 KB


In [None]:
# Crear dos columnas nuevas "Año" y "Trimestre"
calendario_fechas["Año"] = calendario_fechas["Año_Trimestre"].dt.year                    # Toma el dato de año de la columna "Año_Trimestre"
calendario_fechas["Trimestre"] = calendario_fechas["Año_Trimestre"].dt.quarter           # Toma el dato del cuatrimestre de la columna "Año_Trimestre"

In [None]:
calendario_fechas

Unnamed: 0,Año_Trimestre,Año,Trimestre
0,2014-01-01,2014,1
1,2014-01-02,2014,1
2,2014-01-03,2014,1
3,2014-01-04,2014,1
4,2014-01-05,2014,1
...,...,...,...
3282,2022-12-27,2022,4
3283,2022-12-28,2022,4
3284,2022-12-29,2022,4
3285,2022-12-30,2022,4


In [None]:
# Guardamos el dataframe en formato .csv
calendario_fechas.to_csv("4_Calendario_Fechas.csv", index=False)

### **<font color="#ff5653">5. 6_Internet_fijo_por_tecnologia_por_provincia.csv</font>**

Para el procesamiento del dataframe se llevaran a cabo primero un EDA preliminar y despues el ETL.

- EDA (Exploratory Data Analysis - Análisis Exploratorio de Datos)

In [3]:
df_6=pd.read_csv("/content/drive/MyDrive/Datasets/6_Internet_fijo_por_tecnologia_por_provincia.csv")

In [None]:
# Primeras dos filas del dataframe
df_6.head(2)

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,4,Buenos Aires,326.0,3.0,1.0,130.0,72.0,5.0
1,2022,4,Capital Federal,139.0,1.0,139.0,5.0,32.0,2.0


In [None]:
# Cantidad de valores no nulos, tipos de datos, nombre de columnas.
df_6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 865 entries, 0 to 864
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Año           865 non-null    object 
 1   Trimestre     865 non-null    object 
 2   Provincia     864 non-null    object 
 3   ADSL          864 non-null    float64
 4   Cablemodem    864 non-null    float64
 5   Fibra óptica  864 non-null    float64
 6   Wireless      864 non-null    float64
 7   Otros         864 non-null    float64
 8   Total         864 non-null    float64
dtypes: float64(6), object(3)
memory usage: 60.9+ KB


In [None]:
# Cantidad de valores nulos del dataframe
df_6.isna().sum()

Año             0
Trimestre       0
Provincia       1
ADSL            1
Cablemodem      1
Fibra óptica    1
Wireless        1
Otros           1
Total           1
dtype: int64

In [None]:
# Cantidad de filas y columnas del dataframe
df_6.shape

(865, 9)

In [None]:
# Funcion: Valores unicos
def valores_unicos_columna(dataframe, columnas_especificas):

    for column in columnas_especificas:
        if column in dataframe.columns:
            valores_unicos = dataframe[column].unique()
            print(f"Valores únicos para la columna '{column}':", valores_unicos)

        else:
            print(f"La columna '{column}' no existe en el DataFrame.")

In [None]:
# Llamamos a la funcion: Valores unicos.
c5 =["Año", "Trimestre", "Provincia"]                          # Solo para estas columnas vemos los valores unicos: Año, Trimestre y Provincia.
valores_unicos_columna(df_6,c5)

Valores únicos para la columna 'Año': ['2022' '2021' '2020' '2019' '2019 *' '2018' '2017' '2016' '2015' '2014'
 '*']
Valores únicos para la columna 'Trimestre': ['4' '3' '2' '1' '3 *' '2 *' '1 *'
 'Los datos provinciales no coinciden a nivel nacional, ya que se rincorporó información que no contien apertuta a nivel geográfico.']
Valores únicos para la columna 'Provincia': ['Buenos Aires' 'Capital Federal' 'Catamarca' 'Chaco' 'Chubut' 'Córdoba'
 'Corrientes' 'Entre Ríos' 'Formosa' 'Jujuy' 'La Pampa' 'La Rioja'
 'Mendoza' 'Misiones' 'Neuquén' 'Río Negro' 'Salta' 'San Juan' 'San Luis'
 'Santa Cruz' 'Santa Fe' 'Santiago Del Estero' 'Tierra Del Fuego'
 'Tucumán' nan]


In [None]:
# Llamamos a la funcion: Valores unicos
c5_1 = ["ADSL","Cablemodem","Fibra óptica","Wireless","Otros","Total"]
valores_unicos_columna(df_6,c5_1)

Valores únicos para la columna 'ADSL': [326. 139.   9.  25.  45. 152.  34.  56.  14.  18.   8.   6.  38.  33.
  29.  37.  39.  10. 164.  13.  69. 340. 141.  27.  60.  19.   7.  36.
  40. 184.  15.  78. 351. 145.  12.  30. 179.  64.  20.  43. 198.  17.
  86. 392. 102.  32.  44. 196.  67.  16.  21.  49.  28.  11. 213.  93.
 426. 111.  46. 212.  70.  22.  42.  47. 233.  98. 586. 143. 229.  74.
  24.  91.  48. 246. 104. 603. 149. 240.  92.  51. 257. 110. 630. 160.
  26. 260.  84.  55. 277. 147. 636. 163. 267.  50.  57. 287. 654. 170.
 276.  88.  58. 295. 150. 661. 283.  89. 300. 673. 286.  90. 302. 720.
 197.  23. 297.  53.  97.  63.  41. 312.   1. 308.  95.  54.  66.  52.
 319. 151. 310. 315.  68. 325. 153. 328. 323. 101. 159. 329. 336. 334.
  59. 338. 103.  77. 339. 161. 342. 345. 105. 350. 349. 107.  80. 571.
 108.  81. 157. 583. 154. 615. 330.   2. 429. 109. 327. 435. 337.  79.
 448. 348. 113. 335. 451. 454. 144. 455. 354. 114. 352. 453. 333. 140.
 344. 112.  76. 138. 456.  31. 137. 45

In [None]:
# Resumen estadistico
df_6.describe()

Unnamed: 0,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
count,864.0,864.0,864.0,864.0,864.0,864.0
mean,86.363426,103.291667,165.43287,57.777778,102.712963,137.636574
std,116.43149,188.849172,266.807807,156.015038,207.418981,180.798813
min,1.0,0.0,0.0,0.0,1.0,1.0
25%,21.0,9.0,9.0,4.0,3.0,39.75
50%,46.0,35.5,25.0,10.0,15.0,91.0
75%,81.0,72.25,170.75,26.0,47.0,143.25
max,720.0,999.0,998.0,952.0,987.0,987.0


- ETL (Extract, Transform and Load - Extraer, transformar, cargar)

Eliminamos valores nulos, eliminamos asteriscos, cambiamos tipo de datos y creamos una nueva columna.

In [4]:
# Eliminamos valores nulos
df_6_1 = df_6.dropna()

In [None]:
# Cambio tipo de dato.
df_6_1['Año'] = df_6_1['Año'].astype(str)
df_6_1['Trimestre'] = df_6_1['Trimestre'].astype(str)
df_6_1['Provincia'] = df_6_1['Provincia'].astype(str)
df_6_1['ADSL'] = df_6_1['ADSL'].astype(str)
df_6_1['Cablemodem'] = df_6_1['Cablemodem'].astype(str)
df_6_1['Fibra óptica'] = df_6_1['Fibra óptica'].astype(str)
df_6_1['Wireless'] = df_6_1['Wireless'].astype(str)
df_6_1['Otros'] = df_6_1['Otros'].astype(str)
df_6_1['Total'] = df_6_1['Total'].astype(str)

In [None]:
# Elimino los Asteriscos.
df_6_1['Año'] = df_6_1['Año'].str.replace('*', '')
df_6_1['Trimestre'] = df_6_1['Trimestre'].str.replace('*', '')
df_6_1['Provincia'] = df_6_1['Provincia'].str.replace('*', '')
df_6_1['ADSL'] = df_6_1['ADSL'].str.replace('*', '')
df_6_1['Cablemodem'] = df_6_1['Cablemodem'].str.replace('*', '')
df_6_1['Fibra óptica'] = df_6_1['Fibra óptica'].str.replace('*', '')
df_6_1['Wireless'] = df_6_1['Wireless'].str.replace('*', '')
df_6_1['Otros'] = df_6_1['Otros'].str.replace('*', '')
df_6_1['Total'] = df_6_1['Total'].str.replace('*', '')

In [None]:
# Redondeo los valores
df_6_1['ADSL'] = df_6_1['ADSL'].str.split('.').str[0]
df_6_1['Cablemodem'] = df_6_1['Cablemodem'].str.split('.').str[0]
df_6_1['Fibra óptica'] = df_6_1['Fibra óptica'].str.split('.').str[0]
df_6_1['Wireless'] = df_6_1['Wireless'].str.split('.').str[0]
df_6_1['Otros'] = df_6_1['Otros'].str.split('.').str[0]
df_6_1['Total'] = df_6_1['Total'].str.split('.').str[0]

In [None]:
# Cambio tipo de dato
df_6_1['Año'] = df_6_1['Año'].astype(int)
df_6_1['Trimestre'] = df_6_1['Trimestre'].astype(int)
#df_6['Provincia'] = df_6['Provincia'].astype(str)

In [None]:
# Cambio tipo de dato
df_6_1['ADSL'] = df_6_1['ADSL'].astype(int)
df_6_1['Cablemodem'] = df_6_1['Cablemodem'].astype(int)
df_6_1['Fibra óptica'] = df_6_1['Fibra óptica'].astype(int)
df_6_1['Wireless'] = df_6_1['Wireless'].astype(int)
df_6_1['Otros'] = df_6_1['Otros'].astype(int)
df_6_1['Total'] = df_6_1['Total'].astype(int)

In [None]:
# Creamos una columna nueva "Año_trimestre" para relacionar los dataframe por esta columna.
df_6_1["Año_trimestre"] = (df_6_1["Trimestre"]*2 + (df_6_1["Trimestre"]-2)).astype(str) + "/" + "1"  + "/" + df_6_1["Año"].astype(str)

In [None]:
# Cambiamos el tipo de dato de la columna "Año_Trimestre"
df_6_1["Año_trimestre"] = pd.to_datetime(df_6_1["Año_trimestre"], errors="coerce")

In [None]:
# Llamamos a la funcion: Valores unicos.
c5_1 =["Año", "Trimestre", "Provincia"]                          # Solo para estas columnas vemos los valores unicos: Año, Trimestre y Provincia.
valores_unicos_columna(df_6_1,c5_1)

In [None]:
# Creamos una nueva columna "Total_real"
df_6_1["Total_real"] = df_6_1[["ADSL", "Cablemodem", "Fibra óptica", "Wireless", "Otros"]].sum(axis=1)

In [15]:
df_6_1

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Año_trimestre,Total_real
0,2022,4,Buenos Aires,326,3,1,130,72,5,2022-10-01,532
1,2022,4,Capital Federal,139,1,139,5,32,2,2022-10-01,316
2,2022,4,Catamarca,9,11,47,1,2,71,2022-10-01,70
3,2022,4,Chaco,25,61,47,8,3,144,2022-10-01,144
4,2022,4,Chubut,45,74,10,31,9,169,2022-10-01,169
...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,19,100,381,4,3,27,2014-01-01,507
860,2014,1,Santa Fe,323,174,3,6,644,507,2014-01-01,1150
861,2014,1,Santiago Del Estero,33,4,19,915,34,37,2014-01-01,1005
862,2014,1,Tierra Del Fuego,22,3,648,1,3,28,2014-01-01,677


In [None]:
# Eliminamos la columna "Total_real": porque los datos no reflejan la sumatorias de las tecnologias.
df_6_1.drop(columns=["Total"], inplace=True)

In [18]:
df_6_1

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Año_trimestre,Total_real
0,2022,4,Buenos Aires,326,3,1,130,72,2022-10-01,532
1,2022,4,Capital Federal,139,1,139,5,32,2022-10-01,316
2,2022,4,Catamarca,9,11,47,1,2,2022-10-01,70
3,2022,4,Chaco,25,61,47,8,3,2022-10-01,144
4,2022,4,Chubut,45,74,10,31,9,2022-10-01,169
...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,19,100,381,4,3,2014-01-01,507
860,2014,1,Santa Fe,323,174,3,6,644,2014-01-01,1150
861,2014,1,Santiago Del Estero,33,4,19,915,34,2014-01-01,1005
862,2014,1,Tierra Del Fuego,22,3,648,1,3,2014-01-01,677


In [19]:
# Guardamos el dataframe en formato .csv
df_6_1.to_csv("5_internet_portecnologia_porprovincia.csv", index=False)