# **<font color="#ff5653">Extract, transform and load</font>**

En este Notebook se realizara la Extracción, Transformación y Carga (ETL-Extract, Transform and Load) de los archivos descargados de la pagina del ENACOM (Ente Nacional de Comunicaciones) de la República Argentina.

El **objetivo** es llegar a obtener dataframe limpios para realizar un Análisis Exploratorio de Datos (EDA-Exploratory Data Analysis).

- Archivos:

(*nombre del archivo.csv en nuestro Datasets = nombre de cada archivo que figura en ENACOM = archivo.csv realizado el ETL*)

1.   1_Internet_fijo_por_cada_100_ hogares_por_provincia.csv = Número de accesos al servicio de Internet fijo por cada 100 hogares por provincia = 1_internet_100hogares-por_provincia.csv

2.   11_Velocidades_internet_por_provincia_ultimo_trimestre.csv = Acceso a Internet Fijo por rangos de velocidad de bajada y provincia = 2_internet_rangovelocidades_velocidadm_provincia.csv

3. 15_Internet_fijo_por_tecnologia_por_localidad.csv = Accesos a Internet fijo por tecnología y Localidad = 3_internet_portecnologia_porlocalidad.csv

4. 4_Calendario_Fechas.csv

5. 6_Internet_fijo_por_tecnologia_por_provincia.csv = Acceso a Internet fijo por tecnología y provincia = 5_internet_portecnologia_porprovincia.csv



In [1]:
# Conexion entre Google Colab y Drive
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
# Libreria
import numpy as np
import pandas as pd
import csv

### **<font color="#ff5653">1. 1_Internet_fijo_por_cada_100_ hogares_por_provincia.csv</font>**

Para el procesamiento del dataframe se llevaran a cabo primero un EDA preliminar y despues el ETL.

- EDA (Exploratory Data Analysis - Análisis Exploratorio de Datos)

In [None]:
# Cargamos el archivo
df_1=pd.read_csv("/content/drive/MyDrive/Datasets/1_Internet_fijo_por_cada_100_ hogares_por_provincia.csv")

In [None]:
# Primeras dos filas del dataframe
df_1.head(2)

In [None]:
# Cantidad de valores no nulos, tipos de datos, nombre de columnas.
df_1.info()

In [None]:
# Cantidad de valores nulos del dataframe
df_1.isna().sum()

In [None]:
# Cantidad de filas y columnas del dataframe
df_1.shape

(864, 7)

In [None]:
# Funcion: Valores unicos
def valores_unicos_columna(dataframe, columnas_especificas):

    for column in columnas_especificas:
        if column in dataframe.columns:
            valores_unicos = dataframe[column].unique()
            print(f"Valores únicos para la columna '{column}':", valores_unicos)

        else:
            print(f"La columna '{column}' no existe en el DataFrame.")

In [None]:
# Llamamos a la funcion: Valores unicos.
c1 =["Año", "Trimestre", "Provincia"]                          # Solo para estas columnas vemos los valores unicos: Año, Trimestre y Provincia.
valores_unicos_columna(df_1,c1)

In [None]:
# Llamamos a la funcion: Valores unicos.
c1_1 =["Accesos por cada 100 hogares"]                          # Solo para esta columna vemos los valores unicos: Accesos por cada 100 hogares.
valores_unicos_columna(df_1,c1_1)

In [None]:
# Resumen estadistico
df_1.describe()

- ETL (Extract, Transform and Load - Extraer, transformar, cargar)

En base a lo anterior se realizara: eliminacion de valores nulos, cambiamos los tipos de datos y agregamos una columna nueva.

In [None]:
# Elimino columnas con valores nulos
df_1_1 = df_1.dropna(axis=1)

In [None]:
# En la columna "Accesos por cada 100 hogares" cambiamos el tipo de dato a "float64"
df_1_1["Accesos por cada 100 hogares"] = df_1_1["Accesos por cada 100 hogares"].str.replace(',', '.').astype("float64")

In [None]:
# Creamos una columna nueva "Año_trimestre" para relacionar los dataframe por esta columna.
df_1_1["Año_trimestre"] = (df_1_1["Trimestre"]*2 + (df_1_1["Trimestre"]-2)).astype(str) + "/" + "1"  + "/" + df_1_1["Año"].astype(str)

In [None]:
# Cambiamos el tipo de dato de la columna "Año_Trimestre" a "datatime64"
df_1_1["Año_trimestre"] = pd.to_datetime(df_1_1["Año_trimestre"], errors="coerce")

In [None]:
df_1_1.head(2)

In [None]:
df_1_1.info()

In [None]:
# Guardamos el dataframe en formato .csv
df_1_1.to_csv("1_internet_100hogares_por_provincia.csv", index=False)

### **<font color="#ff5653">2. 11_Velocidades_internet_por_provincia_ultimo_trimestre.csv</font>**

Para el procesamiento del dataframe se llevaran a cabo primero un EDA preliminar y despues el ETL.

- EDA (Exploratory Data Analysis - Análisis Exploratorio de Datos)

In [None]:
# Cargamos el archivo
df_11=pd.read_csv("/content/drive/MyDrive/Datasets/11_Velocidades_internet_por_provincia_ultimo_trimestre.csv")

In [None]:
# Primeras dos filas del dataframe
df_11.head(2)

In [None]:
# Cantidad de valores no nulos, tipos de datos, nombre de columnas.
df_11.info()

In [None]:
# Cantidad de valores nulos del dataframe
df_11.isna().sum()

In [None]:
# Cantidad de filas y columnas del dataframe
df_11.shape

(864, 12)

In [None]:
# Resumen estadistico
df_11.describe()

- ETL (Extract, Transform and Load - Extraer, transformar, cargar)

En base a lo anterior se realizara: eliminar valores nulos, eliminamos los puntos de las columnas con datos numericos, cambiamos tipos de datos y creamos una columna "Año_trimestre".

In [None]:
# Eliminamos valores nulos
df_11_1 = df_11.dropna()

In [None]:
# Cambiamos el tipo de datos a string.
df_11_1['HASTA 512 kbps'] = df_11_1['HASTA 512 kbps'].astype(str)
df_11_1['+ 512 Kbps - 1 Mbps'] = df_11_1['+ 512 Kbps - 1 Mbps'].astype(str)
df_11_1['+ 1 Mbps - 6 Mbps'] = df_11_1['+ 1 Mbps - 6 Mbps'].astype(str)
df_11_1['+ 6 Mbps - 10 Mbps'] = df_11_1['+ 6 Mbps - 10 Mbps'].astype(str)
df_11_1['+ 10 Mbps - 20 Mbps'] = df_11_1['+ 10 Mbps - 20 Mbps'].astype(str)
df_11_1['+ 20 Mbps - 30 Mbps'] = df_11_1['+ 20 Mbps - 30 Mbps'].astype(str)
df_11_1['+ 30 Mbps'] = df_11_1['+ 30 Mbps'].astype(str)
df_11_1['OTROS'] = df_11_1['OTROS'].astype(str)
df_11_1['Total'] = df_11_1['Total'].astype(str)

In [None]:
# Eliminamos los "."
df_11_1['HASTA 512 kbps'] = df_11_1['HASTA 512 kbps'].str.replace('.', '')
df_11_1['+ 512 Kbps - 1 Mbps'] = df_11_1['+ 512 Kbps - 1 Mbps'].str.replace('.', '')
df_11_1['+ 1 Mbps - 6 Mbps'] = df_11_1['+ 1 Mbps - 6 Mbps'].str.replace('.', '')
df_11_1['+ 6 Mbps - 10 Mbps'] = df_11_1['+ 6 Mbps - 10 Mbps'].str.replace('.', '')
df_11_1['+ 10 Mbps - 20 Mbps'] = df_11_1['+ 10 Mbps - 20 Mbps'].str.replace('.', '')
df_11_1['+ 20 Mbps - 30 Mbps'] = df_11_1['+ 20 Mbps - 30 Mbps'].str.replace('.', '')
df_11_1['+ 30 Mbps'] = df_11_1['+ 30 Mbps'].str.replace('.', '')
df_11_1['OTROS'] = df_11_1['OTROS'].str.replace('.', '')
df_11_1['Total'] = df_11_1['Total'].str.replace('.', '')

In [None]:
# Cambiamos el tipo de datos a enteros.
df_11_1['HASTA 512 kbps'] = df_11_1['HASTA 512 kbps'].astype(int)
df_11_1['+ 512 Kbps - 1 Mbps'] = df_11_1['+ 512 Kbps - 1 Mbps'].astype(int)
df_11_1['+ 1 Mbps - 6 Mbps'] = df_11_1['+ 1 Mbps - 6 Mbps'].astype(int)
df_11_1['+ 6 Mbps - 10 Mbps'] = df_11_1['+ 6 Mbps - 10 Mbps'].astype(int)
df_11_1['+ 10 Mbps - 20 Mbps'] = df_11_1['+ 10 Mbps - 20 Mbps'].astype(int)
df_11_1['+ 20 Mbps - 30 Mbps'] = df_11_1['+ 20 Mbps - 30 Mbps'].astype(int)
df_11_1['+ 30 Mbps'] = df_11_1['+ 30 Mbps'].astype(int)
df_11_1['OTROS'] = df_11_1['OTROS'].astype(int)
df_11_1['Total'] = df_11_1['Total'].astype(int)

In [None]:
# Creamos una columna nueva "Año_trimestre" para relacionar los dataframe por esta columna.
df_11_1["Año_trimestre"] = (df_11_1["Trimestre"]*2 + (df_11_1["Trimestre"]-2)).astype(str) + "/" + "1"  + "/" + df_11_1["Año"].astype(str)

In [None]:
# Cambiamos el tipo de dato de la columna "Año_Trimestre" a "datatime64"
df_11_1["Año_trimestre"] = pd.to_datetime(df_11_1["Año_trimestre"], errors="coerce")

In [None]:
# Confirmamos los cambios
df_11_1.info()

In [None]:
# Confirmamos los cambios
df_11_1.head(2)

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total,Año_trimestre
0,2022,4,Buenos Aires,28934,23347,259866,28155,244555,9867,3760109,97634,4794665,2022-10-01
1,2022,4,Capital Federal,5160,5096,31320,64653,36336,8116,1299117,106772,1551926,2022-10-01


La columna "Total" no poseen la suma correctas por lo que hay que agregar una nueva columna llamada "Total y OTROS" que sera la suma de las columnas que representan las velocidades. Y vamos a crear otra columna llamada "Total_accesos" donde estan comprendidas todas las columnas velocidades execpto la columna "OTROS", asi poder usar los datos de la columna "Total_accesos" y poder sacar la velocidad promedio.

- Velocidad Promedio = (0,512*AR1 + 0,7512*AR2 + 3,5*AR3 + 8*AR4 + 15*AR5 + 25*AR6 + 30*AR7)/Total de accesos reportados

Donde AR1 es el total de accesos reportados para el primer rango (Hasta 512 kbps); AR2 es el total de accesos reportados para el segundo rango (Entre 512 kbps y 1 Mbps) y así sucesivamente.

Desde el cuarto trimestre de 2017, VP se calcula como el promedio de las velocidades unitarias en Mbps ponderadas por el número de accesos reportados para cada velocidad.

Rangos de velocidad:

1.	Hasta 512 kbps
2.	Entre 512 kbps y 1 Mbps
3.	Entre 1 Mbps y 6 Mbps
4.	Entre 6 Mbps y 10 Mbps
5.	Entre 10 Mbps y 20 Mbps
6.	Entre 20 Mbps y 30 Mbps
7.	Más de 30 Mbps

Fuente: Ente Nacional de Comunicaciones (ENACOM), Argentina.

In [None]:
# Creamos una columna nueva llamada "Total y OTROS" y sumamos las columnas con las velocidades.
df_11_1["Total y OTROS"] = df_11_1[["HASTA 512 kbps", "+ 512 Kbps - 1 Mbps", "+ 1 Mbps - 6 Mbps", "+ 6 Mbps - 10 Mbps", "+ 10 Mbps - 20 Mbps", "+ 20 Mbps - 30 Mbps", "+ 30 Mbps", "OTROS"]].sum(axis=1)

In [None]:
# Creamos una columna nueva llamada "Total_accesos" y sumamos las columnas con las velocidades.
df_11_1["Total_accesos"] = df_11_1[["HASTA 512 kbps", "+ 512 Kbps - 1 Mbps", "+ 1 Mbps - 6 Mbps", "+ 6 Mbps - 10 Mbps", "+ 10 Mbps - 20 Mbps", "+ 20 Mbps - 30 Mbps", "+ 30 Mbps"]].sum(axis=1)

In [None]:
df_11_1

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total,Año_trimestre,Total y OTROS,Total_accesos
0,2022,4,Buenos Aires,28934,23347,259866,28155,244555,9867,3760109,97634,4794665,2022-10-01,4452467,4354833
1,2022,4,Capital Federal,5160,5096,31320,64653,36336,8116,1299117,106772,1551926,2022-10-01,1556570,1449798
2,2022,4,Catamarca,710,3150,2716,5028,4638,3122,52739,228,70909,2022-10-01,72331,72103
3,2022,4,Chaco,4610,7710,16067,17846,6704,3039,94866,3909,143663,2022-10-01,154751,150842
4,2022,4,Chubut,1090,1614,46457,31007,34728,1577,19048,20026,168759,2022-10-01,155547,135521
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,1610,1625,24972,10,10,0,0,0,26760,2014-01-01,28227,28227
860,2014,1,Santa Fe,8456,124468,345225,20328,6845,230,668,0,506013,2014-01-01,506220,506220
861,2014,1,Santiago Del Estero,1234,10531,22817,2422,1090,0,0,0,37113,2014-01-01,38094,38094
862,2014,1,Tierra Del Fuego,120,6070,30902,60,0,0,0,0,31527,2014-01-01,37152,37152


- Al comprar las columnas "Total" y "Total y OTROS", queda claro las diferencias que hay y el error que tenia el archivo original.

- Con la columna "Total_accesos" vamos a utilizarla para sacar la velocidad media de conexion utilizando la formula proporcionada por el ENACOM.

In [None]:
# Eliminamos la columna "Total general": porque los datos no reflejan la sumatorias de las tecnologias.
df_11_1.drop(columns=["Total"], inplace=True)

In [None]:
df_11_2 = df_11_1

In [None]:
df_11_2

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Año_trimestre,Total y OTROS,Total_accesos
0,2022,4,Buenos Aires,28934,23347,259866,28155,244555,9867,3760109,97634,2022-10-01,4452467,4354833
1,2022,4,Capital Federal,5160,5096,31320,64653,36336,8116,1299117,106772,2022-10-01,1556570,1449798
2,2022,4,Catamarca,710,3150,2716,5028,4638,3122,52739,228,2022-10-01,72331,72103
3,2022,4,Chaco,4610,7710,16067,17846,6704,3039,94866,3909,2022-10-01,154751,150842
4,2022,4,Chubut,1090,1614,46457,31007,34728,1577,19048,20026,2022-10-01,155547,135521
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,1610,1625,24972,10,10,0,0,0,2014-01-01,28227,28227
860,2014,1,Santa Fe,8456,124468,345225,20328,6845,230,668,0,2014-01-01,506220,506220
861,2014,1,Santiago Del Estero,1234,10531,22817,2422,1090,0,0,0,2014-01-01,38094,38094
862,2014,1,Tierra Del Fuego,120,6070,30902,60,0,0,0,0,2014-01-01,37152,37152


In [None]:
# Velocidad media de conexion
df_11_2["velocidad_media_conexion(Mbps)"] = (0.512 * df_11_2["HASTA 512 kbps"] + 0.7512 * df_11_2["+ 512 Kbps - 1 Mbps"] + 3.5 * df_11_2["+ 1 Mbps - 6 Mbps"] + 8 * df_11_2["+ 6 Mbps - 10 Mbps"] + 15 * df_11_2["+ 10 Mbps - 20 Mbps"] + 25 * df_11_2["+ 20 Mbps - 30 Mbps"] + 30 * df_11_2["+ 30 Mbps"]) / df_11_2["Total_accesos"]

In [None]:
df_11_3 = df_11_2

In [None]:
# Redondeamos los valores de "velocidad_media_conexion(Mbps)".
df_11_3["velocidad_media_conexion(Mbps)"] = df_11_3["velocidad_media_conexion(Mbps)"].astype(int)

In [None]:
df_11_3

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Año_trimestre,Total y OTROS,Total_accesos,velocidad_media_conexion(Mbps)
0,2022,4,Buenos Aires,28934,23347,259866,28155,244555,9867,3760109,97634,2022-10-01,4452467,4354833,27
1,2022,4,Capital Federal,5160,5096,31320,64653,36336,8116,1299117,106772,2022-10-01,1556570,1449798,27
2,2022,4,Catamarca,710,3150,2716,5028,4638,3122,52739,228,2022-10-01,72331,72103,24
3,2022,4,Chaco,4610,7710,16067,17846,6704,3039,94866,3909,2022-10-01,154751,150842,21
4,2022,4,Chubut,1090,1614,46457,31007,34728,1577,19048,20026,2022-10-01,155547,135521,11
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,1610,1625,24972,10,10,0,0,0,2014-01-01,28227,28227,3
860,2014,1,Santa Fe,8456,124468,345225,20328,6845,230,668,0,2014-01-01,506220,506220,3
861,2014,1,Santiago Del Estero,1234,10531,22817,2422,1090,0,0,0,2014-01-01,38094,38094,3
862,2014,1,Tierra Del Fuego,120,6070,30902,60,0,0,0,0,2014-01-01,37152,37152,3


In [None]:
# Guardamos el dataframe en formato .csv
df_11_3.to_csv("2_internet_rangovelocidad_velocidadm_provincia.csv", index=False)

### **<font color="#ff5653">3. 15_Internet_fijo_por_tecnologia_por_localidad.csv</font>**
Para el procesamiento del dataframe se llevaran a cabo primero un EDA preliminar y despues el ETL.

In [None]:
# Cargamos el archivo
df_15 = pd.read_csv("/content/drive/MyDrive/Datasets/15_Internet_fijo_por_tecnologia_por_localidad.csv")

In [None]:
# P rimeras dos filas del dataframe
df_15.head(2)

In [None]:
# Cantidad de valores no nulos, tipos de datos, nombre de columnas.
df_15.info()

In [None]:
# Cantidad de valores nulos del dataframe
df_15.isna().sum()

In [None]:
# Cantidad de filas y columnas del dataframe
df_15.shape

In [None]:
# Resumen estadistico
df_15.describe()

- ETL (Extract, Transform and Load - Extraer, transformar, cargar)

En base a lo anterior se realizara: eliminacion de valores nulos, cambiamos "-0", "," , los tipos de datos y agregamos una columna nueva.

In [None]:
# Eliminamos la columna con valores nulos
df_15_1 = df_15.dropna(axis=1)

In [None]:
# Cambiamos el "- 0" por " 0"

df_15_1['ADSL'] = df_15_1['ADSL'].str.replace('- 0', '0')
df_15_1['CABLEMODEM'] = df_15_1['CABLEMODEM'].str.replace('- 0', '0')
df_15_1['DIAL UP'] = df_15_1['DIAL UP'].str.replace('- 0', '0')
df_15_1['FIBRA OPTICA'] = df_15_1['FIBRA OPTICA'].str.replace('- 0', '0')
df_15_1['OTROS'] = df_15_1['OTROS'].str.replace('- 0', '0')
df_15_1['SATELITAL'] = df_15_1['SATELITAL'].str.replace('- 0', '0')
df_15_1['WIMAX'] = df_15_1['WIMAX'].str.replace('- 0', '0')
df_15_1['WIRELESS'] = df_15_1['WIRELESS'].str.replace('- 0', '0')
df_15_1['Total general'] = df_15_1['Total general'].str.replace('- 0', '0')
df_15_1['Link Indec'] = df_15_1['Link Indec'].str.replace('Sin Datos', '0')        # Reemplazamos 'Sin Datos' por "0". Asi nos permite cambiar el tipo de dato a entero.

In [None]:
# Eliminamos las ","
df_15_1['ADSL'] = df_15_1['ADSL'].str.replace(',', '')
df_15_1['CABLEMODEM'] = df_15_1['CABLEMODEM'].str.replace(',', '')
df_15_1['DIAL UP'] = df_15_1['DIAL UP'].str.replace(',', '')
df_15_1['FIBRA OPTICA'] = df_15_1['FIBRA OPTICA'].str.replace(',', '')
df_15_1['OTROS'] = df_15_1['OTROS'].str.replace(',', '')
df_15_1['SATELITAL'] = df_15_1['SATELITAL'].str.replace(',', '')
df_15_1['WIMAX'] = df_15_1['WIMAX'].str.replace(',', '')
df_15_1['WIRELESS'] = df_15_1['WIRELESS'].str.replace(',', '')
df_15_1['Total general'] = df_15_1['Total general'].str.replace(',', '')
df_15_1['Link Indec'] = df_15_1['Link Indec'].str.replace(',', '')

In [None]:
# Cambiamos el tipo de dato a entero.
df_15_1['ADSL'] = df_15_1['ADSL'].astype(int)
df_15_1['CABLEMODEM'] = df_15_1['CABLEMODEM'].astype(int)
df_15_1['DIAL UP'] = df_15_1['DIAL UP'].astype(int)
df_15_1['FIBRA OPTICA'] = df_15_1['FIBRA OPTICA'].astype(int)
df_15_1['OTROS'] = df_15_1['OTROS'].astype(int)
df_15_1['SATELITAL'] = df_15_1['SATELITAL'].astype(int)
df_15_1['WIMAX'] = df_15_1['WIMAX'].astype(int)
df_15_1['WIRELESS'] = df_15_1['WIRELESS'].astype(int)
df_15_1['Total general'] = df_15_1['Total general'].astype(int)
df_15_1['Link Indec'] = df_15_1['Link Indec'].astype(int)

In [None]:
# Creamos una columna nueva llamada "Total General" y sumamos las columnas con las tecnologias.
df_15_1["Total General"] = df_15_1[["ADSL", "CABLEMODEM", "DIAL UP", "FIBRA OPTICA", "OTROS", "SATELITAL", "WIMAX", "WIRELESS"]].sum(axis=1)

In [None]:
df_15_1.head(2)

In [None]:
# Eliminamos la columna "Total general": porque los datos no reflejan la sumatorias de las tecnologias.
df_15_1.drop(columns=["Total general"], inplace=True)

In [None]:
df_15_1

In [None]:
df_15_1.info()

In [None]:
# Guardamos el dataframe en formato .csv
df_15_1.to_csv("3_internet_portecnologia_porlocalidad.csv", index=False)

### **<font color="#ff5653">4. 4_Calendario_Fechas</font>**

Se creara un calendario de fechas por treimestres desde el año 2014 al 2023.
El objetivo de esta tabla es ser el nexo entre todos los dataframe.

In [None]:
# Generar la secuencia de fechas trimestrales
fechas = pd.date_range(start="01/01/2014", end="31/12/2022")

# Crear el DataFrame vacío
calendario = pd.DataFrame()

# Asignar las fechas a una columna llamada Año_Trimestre
calendario_fechas = calendario.assign(**{"Año_Trimestre": fechas})

In [None]:
calendario_fechas

In [None]:
calendario_fechas.info()

In [None]:
# Crear dos columnas nuevas "Año" y "Trimestre"
calendario_fechas["Año"] = calendario_fechas["Año_Trimestre"].dt.year                    # Toma el dato de año de la columna "Año_Trimestre"
calendario_fechas["Trimestre"] = calendario_fechas["Año_Trimestre"].dt.quarter           # Toma el dato del cuatrimestre de la columna "Año_Trimestre"

In [None]:
calendario_fechas

Unnamed: 0,Año_Trimestre,Año,Trimestre
0,2014-01-01,2014,1
1,2014-01-02,2014,1
2,2014-01-03,2014,1
3,2014-01-04,2014,1
4,2014-01-05,2014,1
...,...,...,...
3282,2022-12-27,2022,4
3283,2022-12-28,2022,4
3284,2022-12-29,2022,4
3285,2022-12-30,2022,4


In [None]:
# Guardamos el dataframe en formato .csv
calendario_fechas.to_csv("4_Calendario_Fechas.csv", index=False)

### **<font color="#ff5653">5. 6_Internet_fijo_por_tecnologia_por_provincia.csv</font>**

Para el procesamiento del dataframe se llevaran a cabo primero un EDA preliminar y despues el ETL.

- EDA (Exploratory Data Analysis - Análisis Exploratorio de Datos)

In [3]:
df_6=pd.read_csv("/content/drive/MyDrive/Datasets/6_Internet_fijo_por_tecnologia_por_provincia.csv")

In [None]:
# Primeras dos filas del dataframe
df_6.head(2)

In [None]:
# Cantidad de valores no nulos, tipos de datos, nombre de columnas.
df_6.info()

In [None]:
# Cantidad de valores nulos del dataframe
df_6.isna().sum()

In [None]:
# Cantidad de filas y columnas del dataframe
df_6.shape

In [None]:
# Funcion: Valores unicos
def valores_unicos_columna(dataframe, columnas_especificas):

    for column in columnas_especificas:
        if column in dataframe.columns:
            valores_unicos = dataframe[column].unique()
            print(f"Valores únicos para la columna '{column}':", valores_unicos)

        else:
            print(f"La columna '{column}' no existe en el DataFrame.")

In [None]:
# Llamamos a la funcion: Valores unicos.
c5 =["Año", "Trimestre", "Provincia"]                          # Solo para estas columnas vemos los valores unicos: Año, Trimestre y Provincia.
valores_unicos_columna(df_6,c5)

In [None]:
# Llamamos a la funcion: Valores unicos
c5_1 = ["ADSL","Cablemodem","Fibra óptica","Wireless","Otros","Total"]
valores_unicos_columna(df_6,c5_1)

In [None]:
# Resumen estadistico
df_6.describe()

- ETL (Extract, Transform and Load - Extraer, transformar, cargar)

Eliminamos valores nulos, eliminamos asteriscos, cambiamos tipo de datos y creamos una nueva columna.

In [4]:
# Eliminamos valores nulos
df_6_1 = df_6.dropna()

In [None]:
# Cambio tipo de dato.
df_6_1['Año'] = df_6_1['Año'].astype(str)
df_6_1['Trimestre'] = df_6_1['Trimestre'].astype(str)
df_6_1['Provincia'] = df_6_1['Provincia'].astype(str)
df_6_1['ADSL'] = df_6_1['ADSL'].astype(str)
df_6_1['Cablemodem'] = df_6_1['Cablemodem'].astype(str)
df_6_1['Fibra óptica'] = df_6_1['Fibra óptica'].astype(str)
df_6_1['Wireless'] = df_6_1['Wireless'].astype(str)
df_6_1['Otros'] = df_6_1['Otros'].astype(str)
df_6_1['Total'] = df_6_1['Total'].astype(str)

In [None]:
# Elimino los Asteriscos.
df_6_1['Año'] = df_6_1['Año'].str.replace('*', '')
df_6_1['Trimestre'] = df_6_1['Trimestre'].str.replace('*', '')
df_6_1['Provincia'] = df_6_1['Provincia'].str.replace('*', '')
df_6_1['ADSL'] = df_6_1['ADSL'].str.replace('*', '')
df_6_1['Cablemodem'] = df_6_1['Cablemodem'].str.replace('*', '')
df_6_1['Fibra óptica'] = df_6_1['Fibra óptica'].str.replace('*', '')
df_6_1['Wireless'] = df_6_1['Wireless'].str.replace('*', '')
df_6_1['Otros'] = df_6_1['Otros'].str.replace('*', '')
df_6_1['Total'] = df_6_1['Total'].str.replace('*', '')

In [None]:
# Redondeo los valores
df_6_1['ADSL'] = df_6_1['ADSL'].str.split('.').str[0]
df_6_1['Cablemodem'] = df_6_1['Cablemodem'].str.split('.').str[0]
df_6_1['Fibra óptica'] = df_6_1['Fibra óptica'].str.split('.').str[0]
df_6_1['Wireless'] = df_6_1['Wireless'].str.split('.').str[0]
df_6_1['Otros'] = df_6_1['Otros'].str.split('.').str[0]
df_6_1['Total'] = df_6_1['Total'].str.split('.').str[0]

In [None]:
# Cambio tipo de dato
df_6_1['Año'] = df_6_1['Año'].astype(int)
df_6_1['Trimestre'] = df_6_1['Trimestre'].astype(int)
#df_6['Provincia'] = df_6['Provincia'].astype(str)

In [None]:
# Cambio tipo de dato
df_6_1['ADSL'] = df_6_1['ADSL'].astype(int)
df_6_1['Cablemodem'] = df_6_1['Cablemodem'].astype(int)
df_6_1['Fibra óptica'] = df_6_1['Fibra óptica'].astype(int)
df_6_1['Wireless'] = df_6_1['Wireless'].astype(int)
df_6_1['Otros'] = df_6_1['Otros'].astype(int)
df_6_1['Total'] = df_6_1['Total'].astype(int)

In [None]:
# Creamos una columna nueva "Año_trimestre" para relacionar los dataframe por esta columna.
df_6_1["Año_trimestre"] = (df_6_1["Trimestre"]*2 + (df_6_1["Trimestre"]-2)).astype(str) + "/" + "1"  + "/" + df_6_1["Año"].astype(str)

In [None]:
# Cambiamos el tipo de dato de la columna "Año_Trimestre"
df_6_1["Año_trimestre"] = pd.to_datetime(df_6_1["Año_trimestre"], errors="coerce")

In [None]:
# Llamamos a la funcion: Valores unicos.
c5_1 =["Año", "Trimestre", "Provincia"]                          # Solo para estas columnas vemos los valores unicos: Año, Trimestre y Provincia.
valores_unicos_columna(df_6_1,c5_1)

In [None]:
# Creamos una nueva columna "Total_real"
df_6_1["Total_real"] = df_6_1[["ADSL", "Cablemodem", "Fibra óptica", "Wireless", "Otros"]].sum(axis=1)

In [None]:
df_6_1

In [None]:
# Eliminamos la columna "Total_real": porque los datos no reflejan la sumatorias de las tecnologias.
df_6_1.drop(columns=["Total"], inplace=True)

In [None]:
df_6_1

In [19]:
# Guardamos el dataframe en formato .csv
df_6_1.to_csv("5_internet_portecnologia_porprovincia.csv", index=False)