## GIOX TELECOMUNICACIONES <br>
### Extracción Transformación y Carga de los Datos  (ETL)

La empresa Giox telecomunicaciones, nos solicita un analisis de la informacion recopilada a traves de varios años, para lo cual, nos suministra los origines de los datos en formato Excel con extension .xls, uno de ellos de 15 hojas con datos referentes al servicio de internet en Argentina.

In [106]:
# Importamos las librerias necesarios para iniciar con el ETL
import pandas as pd

## Cargaremos los registros de cada hoja del archivo en excel denominado "internet" en un Dataframe.

### Paso 1:

**Hoja Acc_vel_loc_sinrangos**

La hoja *Acc_vel_loc_sinrangos* contiene información recopilada en la división político-administrativa. Es decir, está organizada por:

- **Provincia**
- **Departamento**
- **Localidad**

Cada registro está acompañado de dos datos principales:
- **Velocidad de conexión** (en Mbps)
- **Cantidad de accesos o conexiones**

Esta organización permite analizar la velocidad de la conexión y el número de accesos por cada división geográfica.

In [107]:
# Cargamos el Data Frame con el origen o fuente de los datos (archivo XLSX)
df_Acc_vel_loc_sinrangos = pd.read_excel('Dataset/Originales/Internet.xlsx', sheet_name='Acc_vel_loc_sinrangos')
df_Acc_vel_loc_sinrangos

Unnamed: 0,Partido,Localidad,link Indec,Velocidad (Mbps),Provincia,Accesos
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.00,1.0
1,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.50,2.0
2,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.75,19.0
3,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,3.00,85.0
4,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,3.50,145.0
...,...,...,...,...,...,...
18859,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,100.00,5779.0
18860,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,300.00,4570.0
18861,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,500.00,442.0
18862,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,600.00,223.0


In [108]:
# filtramos los campos nulos
df_Acc_vel_loc_sinrangos.isnull().sum().sort_values(ascending=False)

Accesos             7
link Indec          1
Localidad           0
Partido             0
Velocidad (Mbps)    0
Provincia           0
dtype: int64

In [109]:
# Listamos los registros con algun campo nulo, para validar si son relevantes para el analisis.
df_nulos_Acc_vel_loc_sinrangos = df_Acc_vel_loc_sinrangos[df_Acc_vel_loc_sinrangos.isnull().any(axis=1)]
df_nulos_Acc_vel_loc_sinrangos 
# Observamos que los nombres de los campos estan en columnas equivocadas por lo tanto es el primer paso a realizar.

Unnamed: 0,Partido,Localidad,link Indec,Velocidad (Mbps),Provincia,Accesos
7172,CABA,Ciudad Autónoma de Buenos Aires,,Sin Datos,300.0,-5582.0
10510,CORRIENTES,Ituzaingó,Colonia Liebig's,18084010,0.0,
11288,ENTRE RIOS,Tala,Rosario del Tala,30091100,0.0,
14784,SALTA,Cafayate,Tolombón,66021020,0.0,
15288,SALTA,San Carlos,Animaná,66154020,0.0,
15294,SALTA,San Carlos,San Carlos,66154040,0.0,
17235,SANTA FE,Rosario,General Lagos,82084150,0.0,
18090,SANTIAGO DEL ESTERO,Choya,Frías,86063040,0.0,


In [110]:
# Observamos que son pocos, y ademas los campos relevantes de Velocidad y Accesos si fuesen tratados quedarian en cero.
# por lo que no tendria sentidos tenerlos en la data, procedemos a eliminarnos.
df_Acc_vel_loc_sinrangos = df_Acc_vel_loc_sinrangos.dropna()

In [111]:
# filtramos de nuevo los nulos para verificar que no hayan registros con esta condicion
df_Acc_vel_loc_sinrangos.isnull().sum().sort_values(ascending=False)

Partido             0
Localidad           0
link Indec          0
Velocidad (Mbps)    0
Provincia           0
Accesos             0
dtype: int64

In [112]:
# Ahora procedemos a nombrar las columnas de acuerdo al contenido de sus datos o informacion.
df_Acc_vel_loc_sinrangos = df_Acc_vel_loc_sinrangos.rename(columns={'Velocidad (Mbps)':'Codigo_Provincia', 'Provincia':'Velocidad (Mbps)','Localidad':'Departamento','link Indec':'Localidad', 'Partido':'Provincia'})

df_Acc_vel_loc_sinrangos

Unnamed: 0,Provincia,Departamento,Localidad,Codigo_Provincia,Velocidad (Mbps),Accesos
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.00,1.0
1,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.50,2.0
2,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.75,19.0
3,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,3.00,85.0
4,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,3.50,145.0
...,...,...,...,...,...,...
18859,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,100.00,5779.0
18860,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,300.00,4570.0
18861,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,500.00,442.0
18862,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,600.00,223.0


In [113]:
# Daremos un orden adecuado para nuestra primer data, segun los Códigos de las unidades geográficas utilizadas en 
# los censos de Argentina: https://redatam.indec.gob.ar/redarg/censos/cpv2010A/Docs/codigos_provincias.pdf
order_columns = ['Codigo_Provincia','Provincia','Departamento','Localidad','Velocidad (Mbps)','Accesos']
df_Acc_vel_loc_sinrangos = df_Acc_vel_loc_sinrangos[order_columns]
df_Acc_vel_loc_sinrangos

Unnamed: 0,Codigo_Provincia,Provincia,Departamento,Localidad,Velocidad (Mbps),Accesos
0,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,0.00,1.0
1,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,0.50,2.0
2,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,0.75,19.0
3,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,3.00,85.0
4,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,3.50,145.0
...,...,...,...,...,...,...
18859,90119030,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,100.00,5779.0
18860,90119030,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,300.00,4570.0
18861,90119030,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,500.00,442.0
18862,90119030,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,600.00,223.0


In [114]:
# Filtrar filas donde cualquier valor es negativo, no es posible comprender que significado tendria si 
# en velocidad o accesos tienen valores negativos, sin embargo los listamos para proceder con ellos.
filas_con_negativos = df_Acc_vel_loc_sinrangos[(df_Acc_vel_loc_sinrangos['Velocidad (Mbps)'] < 0) | (df_Acc_vel_loc_sinrangos['Accesos'] < 0)]
filas_con_negativos

Unnamed: 0,Codigo_Provincia,Provincia,Departamento,Localidad,Velocidad (Mbps),Accesos
7226,Sin Datos,CABA,Otros,Otros,0.0,-590.0
10597,Sin Datos,CORRIENTES,Otros,Otros,0.0,-830.0
12699,Sin Datos,LA RIOJA,Otros,Otros,0.0,-1.0


In [115]:
# Reemplazar los valores negativos por cero en todas las columnas numéricas
df_Acc_vel_loc_sinrangos[df_Acc_vel_loc_sinrangos.select_dtypes(include=['number']) < 0] = 0

In [116]:
# Contar las filas donde ambos campos son 0
count = ((df_Acc_vel_loc_sinrangos['Velocidad (Mbps)'] == 0) & (df_Acc_vel_loc_sinrangos['Accesos'] == 0)).sum()

# Mostrar el resultado
print(f"Cantidad de filas donde ambos campos son 0: {count}")

Cantidad de filas donde ambos campos son 0: 31


In [117]:
# Visualizar las filas donde ambos campos tengan valor 0
df_filtrar_ceros = df_Acc_vel_loc_sinrangos[(df_Acc_vel_loc_sinrangos['Velocidad (Mbps)'] == 0) & (df_Acc_vel_loc_sinrangos['Accesos'] == 0)]
df_filtrar_ceros

Unnamed: 0,Codigo_Provincia,Provincia,Departamento,Localidad,Velocidad (Mbps),Accesos
7226,Sin Datos,CABA,Otros,Otros,0.0,0.0
10597,Sin Datos,CORRIENTES,Otros,Otros,0.0,0.0
10679,18175010,CORRIENTES,Sauce,Sauce,0.0,0.0
11473,34014030,FORMOSA,Formosa,Gran Guardia,0.0,0.0
11481,34014050,FORMOSA,Formosa,Mojón de Fierro,0.0,0.0
11513,34021040,FORMOSA,Laishi,San Francisco de Laishi,0.0,0.0
11548,34035050,FORMOSA,Patiño,Estanislao del Campo,0.0,0.0
11650,34049020,FORMOSA,Pilcomayo,Laguna Blanca,0.0,0.0
11655,34049030,FORMOSA,Pilcomayo,Laguna Naick-Neck,0.0,0.0
11666,34049060,FORMOSA,Pilcomayo,Riacho He-He,0.0,0.0


In [118]:
# Eliminar del Dataframe los valores en cero
# Eliminar filas donde ambos campos son 0
df_Acc_vel_loc_sinrangos = df_Acc_vel_loc_sinrangos[~((df_Acc_vel_loc_sinrangos['Velocidad (Mbps)'] == 0) & (df_Acc_vel_loc_sinrangos['Accesos'] == 0))]
df_Acc_vel_loc_sinrangos

Unnamed: 0,Codigo_Provincia,Provincia,Departamento,Localidad,Velocidad (Mbps),Accesos
0,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,0.00,1.0
1,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,0.50,2.0
2,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,0.75,19.0
3,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,3.00,85.0
4,6854100,BUENOS AIRES,25 de Mayo,25 de Mayo,3.50,145.0
...,...,...,...,...,...,...
18859,90119030,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,100.00,5779.0
18860,90119030,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,300.00,4570.0
18861,90119030,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,500.00,442.0
18862,90119030,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,600.00,223.0


In [119]:
# Veficamos si lo valores de interes para los KPIs tienen el formato correcto
df_Acc_vel_loc_sinrangos.dtypes

Codigo_Provincia     object
Provincia            object
Departamento         object
Localidad            object
Velocidad (Mbps)    float64
Accesos             float64
dtype: object

In [120]:
# Como proceso final del Paso 1, exportamos los datos a un solo archivo individal, para su porterior uso en el EDA.
df_Acc_vel_loc_sinrangos.to_excel('Dataset/Procesados/1_Acc_vel_loc_sinrangos.xlsx', index=False)

### Paso 2:

**Hoja Velocidad_sin_Rangos**

La hoja *Velocidad_sin_Rangosos* contiene información recopilada en la división político-administrativa. Es decir, está organizada por:

- **Provincia**

Cada registro está acompañado de dos datos principales:
- **Año**
- **Trimestre**
- **Velocidad de conexión** (en Mbps)
- **Cantidad de accesos o conexiones**

Esta organización permite analizar la velocidad de la conexión y el número de accesos por cada división geográfica en Provincias.


In [121]:
# Cargamos el Data Frame con el origen o fuente de los datos (archivo XLSX)
df_Velocidad_sin_Rangos = pd.read_excel('Dataset/Originales/Internet.xlsx', sheet_name='Velocidad_sin_Rangos')
df_Velocidad_sin_Rangos


Unnamed: 0,Año,Trimestre,Provincia,Velocidad,Accesos
0,2024,2,BUENOS AIRES,75.0,1062
1,2024,2,BUENOS AIRES,59.0,59
2,2024,2,BUENOS AIRES,480.0,5
3,2024,2,BUENOS AIRES,3.5,41735
4,2024,2,BUENOS AIRES,18.0,1042
...,...,...,...,...,...
18879,2017,4,Tucumán,10.1,45241
18880,2017,4,Tucumán,16.0,76
18881,2017,4,Tucumán,20.5,24242
18882,2017,4,Tucumán,31.0,1303


In [122]:
#Listamos los registros con algun campo nulo, y analizamos si es mejor eliminarlos o llenarlos con otro valor
df_nulos_h2 = df_Velocidad_sin_Rangos[df_Velocidad_sin_Rangos.isnull().any(axis=1)]
df_nulos_h2 

Unnamed: 0,Año,Trimestre,Provincia,Velocidad,Accesos
1155,2024,1,Córdoba,,1
1644,2024,1,Santa Fe,,9
3753,2023,2,Córdoba,,1
4239,2023,2,Santa Fe,,9
6303,2022,3,Córdoba,,1
6785,2022,3,Santa Fe,,9
9255,2021,3,Buenos Aires,,4
10031,2021,2,Buenos Aires,,4
10794,2021,1,Buenos Aires,,4
11538,2020,4,Buenos Aires,,4


In [123]:
# Se observa que en Velocidad estan todos los campos NaN, por lo tanto reemplazar los valores nulos en la columna 'Velocidad' por cero, porque pueden ser datos para posible cobertura.
df_Velocidad_sin_Rangos['Velocidad'] = df_Velocidad_sin_Rangos['Velocidad'].fillna(0)

In [124]:
# Listar las filas que serían eliminadas, donde 'Velocidad' y 'Accesos' son 0, para poder tener datos que sirvan para los KPIs, alguno de estos campos debe contener valor.
filas_a_eliminar = df_Velocidad_sin_Rangos[(df_Velocidad_sin_Rangos['Velocidad'] == 0) & (df_Velocidad_sin_Rangos['Accesos'] == 0)]
filas_a_eliminar

Unnamed: 0,Año,Trimestre,Provincia,Velocidad,Accesos
118,2024,2,CABA,0.0,0
439,2024,2,LA RIOJA,0.0,0


In [125]:
# Eliminar las filas donde tanto 'columna1' como 'columna2' tengan valor 0
df_Velocidad_sin_Rangos = df_Velocidad_sin_Rangos[~((df_Velocidad_sin_Rangos['Velocidad'] == 0) & (df_Velocidad_sin_Rangos['Accesos'] == 0))]
df_Velocidad_sin_Rangos

Unnamed: 0,Año,Trimestre,Provincia,Velocidad,Accesos
0,2024,2,BUENOS AIRES,75.0,1062
1,2024,2,BUENOS AIRES,59.0,59
2,2024,2,BUENOS AIRES,480.0,5
3,2024,2,BUENOS AIRES,3.5,41735
4,2024,2,BUENOS AIRES,18.0,1042
...,...,...,...,...,...
18879,2017,4,Tucumán,10.1,45241
18880,2017,4,Tucumán,16.0,76
18881,2017,4,Tucumán,20.5,24242
18882,2017,4,Tucumán,31.0,1303


In [126]:
# filtramos de nuevo los nulos para verificar que no hayan registros con esta condicion
df_Velocidad_sin_Rangos.isnull().sum().sort_values(ascending=False)

Año          0
Trimestre    0
Provincia    0
Velocidad    0
Accesos      0
dtype: int64

In [127]:
# Veficamos si lo valores de interes para los KPIs tienen el formato correcto
df_Velocidad_sin_Rangos.dtypes

Año            int64
Trimestre      int64
Provincia     object
Velocidad    float64
Accesos        int64
dtype: object

In [128]:
# Como proceso final del Paso 1, exportamos los datos a un solo archivo individal, para su porterior uso en el EDA.
df_Velocidad_sin_Rangos.to_excel('Dataset/Procesados/2_Velocidad_sin_Rangos.xlsx', index=False)

### Paso 3:

**Hoja Velocidad % por Provincia**

La hoja *Velocidad % por Provincia* contiene información recopilada en la división político-administrativa. Es decir, está organizada por:

- **Provincia**

Cada registro está acompañado de dos datos principales, entre ellos tipos de conexion a internet :
- **Año**
- **Trimestre**
- **Mbps (que seria la media de bajada de informacion)**

Cantidad de filas: 1008 

Esta organización permite analizar la velocidad de la conexión y el número de accesos por cada división geográfica en Provincias.

In [129]:
# Cargamos el Data Frame con el origen o fuente de los datos (archivo XLSX)
df_Velocidad_por_prov = pd.read_excel('Dataset/Originales/Internet.xlsx', sheet_name='Velocidad % por prov')
df_Velocidad_por_prov

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)
0,2024,2,Buenos Aires,157.410000
1,2024,2,Capital Federal,233.010000
2,2024,2,Catamarca,97.380000
3,2024,2,Chaco,107.760000
4,2024,2,Chubut,21.670000
...,...,...,...,...
1003,2014,1,Santa Cruz,3.315991
1004,2014,1,Santa Fe,3.147407
1005,2014,1,Santiago Del Estero,2.949472
1006,2014,1,Tierra Del Fuego,3.446888


In [130]:
#Listamos los registros con algun campo nulo, y analizamos si es mejor eliminarlos o llenarlos con otro valor
df_nulos_h3 = df_Velocidad_por_prov[df_Velocidad_por_prov.isnull().any(axis=1)]
df_nulos_h3 
# No se observan nulos.

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)


In [131]:
# Contar las filas donde ambos campos son 0
count = (df_Velocidad_por_prov['Mbps (Media de bajada)'] == 0).sum()

# Mostrar el resultado
print(f"Cantidad de filas donde ambos campos son 0: {count}")
# No se encuentran valores en cero

Cantidad de filas donde ambos campos son 0: 0


In [132]:
# Filtrar filas donde cualquier valor es negativo, no es posible comprender que significado tendria si 
# en velocidad o accesos tienen valores negativos, sin embargo los listamos para proceder con ellos.
filas_negativos = df_Velocidad_por_prov[(df_Velocidad_por_prov['Mbps (Media de bajada)'] < 0)]
filas_negativos
# No se encuentran valores negativos

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)


In [133]:
# Veficamos si lo valores de interes para los KPIs tienen el formato correcto
df_Velocidad_por_prov.dtypes

Año                         int64
Trimestre                   int64
Provincia                  object
Mbps (Media de bajada)    float64
dtype: object

In [134]:
# Como proceso final del Paso 1, exportamos los datos a un solo archivo individal, para su porterior uso en el EDA.
df_Velocidad_por_prov.to_excel('Dataset/Procesados/3_Velocidad_por_prov.xlsx', index=False)

### Paso 4:

**Hoja Accesos Por Tecnología**

La hoja *Accesos Por Tecnologías* contiene información recopilada en la división político-administrativa. Es decir, está organizada por:

- **Provincia**

Cada registro está acompañado de dos datos principales, entre ellos tipos de conexion a internet :
- **Año**
- **Trimestre**
- **ADLS**
- **Cablemodem**
- **Fibra óptica**
- **Wireless**
- **Otros**
- **Total**

Cantidad de filas: 1009 

Esta organización permite analizar la velocidad de la conexión y el número de accesos por cada división geográfica en Provincias.

In [135]:
# Cargamos el Data Frame con el origen o fuente de los datos (archivo XLSX)
df_Accesos_Por_Tecnologia = pd.read_excel('Dataset/Originales/Internet.xlsx', sheet_name='Accesos Por Tecnología')
df_Accesos_Por_Tecnologia

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2024,2,Buenos Aires,214055.0,2722466.0,1849476.0,138638.0,64745.0,4989380.0
1,2024,2,Capital Federal,54102.0,1144781.0,230402.0,4493.0,29821.0,1463599.0
2,2024,2,Catamarca,4951.0,10303.0,58355.0,1384.0,81.0,75074.0
3,2024,2,Chaco,9448.0,57935.0,68944.0,8407.0,2358.0,147092.0
4,2024,2,Chubut,25955.0,80704.0,26516.0,31118.0,9930.0,174223.0
...,...,...,...,...,...,...,...,...,...
1004,2014,1,Santiago Del Estero,32567.0,3598.0,19.0,915.0,34.0,37133.0
1005,2014,1,Tierra Del Fuego,21618.0,2837.0,648.0,1.0,2934.0,28038.0
1006,2014,1,Tucumán,129717.0,83.0,121.0,13.0,98.0,130032.0
1007,,,,,,,,,


In [136]:
#Listamos los registros con algun campo nulo, y analizamos si es mejor eliminarlos o llenarlos con otro valor
df_nulos_h4 = df_Accesos_Por_Tecnologia[df_Accesos_Por_Tecnologia.isnull().any(axis=1)]
df_nulos_h4 

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
1007,,,,,,,,,
1008,*,Los datos provinciales no coinciden a nivel na...,,,,,,,


In [137]:
# Observamos que son pocos, procedemos a eliminarnos.
df_Accesos_Por_Tecnologia = df_Accesos_Por_Tecnologia.dropna()

In [138]:
# Contar las filas donde ambos campos son 0
count = ((df_Accesos_Por_Tecnologia['ADSL'] == 0) & (df_Accesos_Por_Tecnologia['Cablemodem'] == 0) & (df_Accesos_Por_Tecnologia['Fibra óptica'] == 0) & (df_Accesos_Por_Tecnologia['Wireless'] == 0) & (df_Accesos_Por_Tecnologia['Otros'] == 0)).sum()

# Mostrar el resultado
print(f"Cantidad de filas donde ambos campos son 0: {count}")

# No existen valores en cero

Cantidad de filas donde ambos campos son 0: 0


In [139]:
# Filtrar filas donde cualquier valor es negativo, no es posible comprender que significado tendria si 
# en velocidad o accesos tienen valores negativos, sin embargo los listamos para proceder con ellos.
filas_negativos_apt = df_Accesos_Por_Tecnologia[(df_Accesos_Por_Tecnologia['ADSL'] < 0) | (df_Accesos_Por_Tecnologia['Cablemodem'] < 0) | (df_Accesos_Por_Tecnologia['Fibra óptica'] < 0) | (df_Accesos_Por_Tecnologia['Wireless'] < 0) | (df_Accesos_Por_Tecnologia['Otros'] < 0)]
filas_negativos_apt
# No existen valores negativos

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total


In [140]:
df_Accesos_Por_Tecnologia.dtypes

Año              object
Trimestre        object
Provincia        object
ADSL            float64
Cablemodem      float64
Fibra óptica    float64
Wireless        float64
Otros           float64
Total           float64
dtype: object

In [141]:
# Como proceso final del Paso 1, exportamos los datos a un solo archivo individal, para su porterior uso en el EDA.
df_Accesos_Por_Tecnologia.to_excel('Dataset/Procesados/4_Accesos_Por_Tecnologia.xlsx', index=False)

### Paso 5:

**Hoja Penetración-poblacion**

La hoja *Accesos Por Tecnologías* contiene información recopilada en la división político-administrativa. Es decir, está organizada por:

- **Provincia**

Cada registro está acompañado de dos datos principales, entre ellos tipos de conexion a internet :
- **Año**
- **Trimestre**
- **Accesos por cada 100 hab**

Cantidad de filas: 1000 

Esta organización permite analizar la velocidad de la conexión y el número de accesos por cada división geográfica en Provincias.


In [142]:
# Cargamos el Data Frame con el origen o fuente de los datos (archivo XLSX)
df_Penetracion_poblacion = pd.read_excel('Dataset/Originales/Internet.xlsx', sheet_name='Penetración-poblacion')
df_Penetracion_poblacion

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hab
0,2024,2,Buenos Aires,27.430000
1,2024,2,Capital Federal,47.440000
2,2024,2,Catamarca,17.500000
3,2024,2,Chaco,11.780000
4,2024,2,Chubut,26.460000
...,...,...,...,...
995,2014,1,La Rioja,4.353175
996,2014,1,Mendoza,8.933318
997,2014,1,Misiones,6.323161
998,2014,1,Neuquén,14.882266


In [143]:
#Listamos los registros con algun campo nulo, y analizamos si es mejor eliminarlos o llenarlos con otro valor
df_nulos_h5 = df_Penetracion_poblacion[df_Penetracion_poblacion.isnull().any(axis=1)]
df_nulos_h5

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hab


In [144]:
df_Penetracion_poblacion.dtypes

Año                           int64
Trimestre                     int64
Provincia                    object
Accesos por cada 100 hab    float64
dtype: object

In [145]:
# Como proceso final del Paso 1, exportamos los datos a un solo archivo individal, para su porterior uso en el EDA.
df_Penetracion_poblacion.to_excel('Dataset/Procesados/5_Penetracion_poblacion.xlsx', index=False)

### Paso 6:

**Hoja Penetracion-hogares**

La hoja *Penetracion-hogares* contiene información recopilada en la división político-administrativa. Es decir, está organizada por:

- **Provincia**

Cada registro está acompañado de dos datos principales, entre ellos tipos de conexion a internet :
- **Año**
- **Trimestre**
- **Accesos por cada 100 hab**

Cantidad de filas: 1000 

Esta organización permite analizar la velocidad de la conexión y el número de accesos por cada división geográfica en Provincias.

In [146]:
# Cargamos el Data Frame con el origen o fuente de los datos (archivo XLSX)
df_Penetracion_hogares = pd.read_excel('Dataset/Originales/Internet.xlsx', sheet_name='Penetracion-hogares')
df_Penetracion_hogares

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2024,2,Buenos Aires,79.840000
1,2024,2,Capital Federal,116.370000
2,2024,2,Catamarca,68.810000
3,2024,2,Chaco,44.060000
4,2024,2,Chubut,86.330000
...,...,...,...,...
995,2014,1,La Rioja,16.294105
996,2014,1,Mendoza,31.913123
997,2014,1,Misiones,23.136539
998,2014,1,Neuquén,49.791605


In [147]:
#Listamos los registros con algun campo nulo, y analizamos si es mejor eliminarlos o llenarlos con otro valor
df_nulos_h6= df_Penetracion_hogares[df_Penetracion_hogares.isnull().any(axis=1)]
df_nulos_h6

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares


In [148]:
# Veficamos si lo valores de interes para los KPIs tienen el formato correcto
df_Penetracion_hogares.dtypes

Año                               int64
Trimestre                         int64
Provincia                        object
Accesos por cada 100 hogares    float64
dtype: object

In [149]:
# Como proceso final del Paso 1, exportamos los datos a un solo archivo individal, para su porterior uso en el EDA.
df_Penetracion_hogares.to_excel('Dataset/Procesados/6_Penetracion_hogares.xlsx', index=False)

## Unificamos Datos con columnas de referenica:

**Columnas de referencia para la union**

Las hojas para *merge* son aquellas que coiciden en el nombre de las columnas y una cantidad de registros parecidos:

- **Penetracion_poblacion**
- **Penetracion_hogares**
- **Accesos_Por_Tecnologia**
- **Velocidad_por_prov**


Cada registro está acompañado de dos datos principales para la union:
- **Año**
- **Trimestre**
- **Provincia**

Cantidad de filas aproximada para la union: 1000 

Sin embargo todo dependera de la coicidencia entre los registros de las 4 hojas para realizar el *merge*

In [150]:
# Unimos las dos hojas de penetracion (poblacion y hogares) teniendo en cuenta las columnas ["Año", "Trimestre" y "Provincia"]
df_penetracion_ph = pd.merge(df_Penetracion_poblacion, df_Penetracion_hogares, on=['Año', 'Trimestre', 'Provincia'])
df_penetracion_ph.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           1000 non-null   int64  
 1   Trimestre                     1000 non-null   int64  
 2   Provincia                     1000 non-null   object 
 3   Accesos por cada 100 hab      1000 non-null   float64
 4   Accesos por cada 100 hogares  1000 non-null   float64
dtypes: float64(2), int64(2), object(1)
memory usage: 39.2+ KB


In [151]:
# Revision del nuevo df obtenido
df_penetracion_ph.sample(5)

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hab,Accesos por cada 100 hogares
430,2020,1,Tierra Del Fuego,22.552553,76.06965
95,2023,3,Tucumán,15.17,61.26
441,2019,4,Jujuy,11.603915,45.377546
631,2017,4,Entre Ríos,14.317635,47.885245
196,2022,2,Chubut,25.499919,83.19


In [152]:
df_penetracion_ph.to_excel('Dataset/Procesados/7_Penetracion_ph.xlsx', index=False)

In [153]:
#Hacemos merge de la pentracion con Accesos Por Tecnología
df_penetracion_ph_por_tecnologia = pd.merge(df_penetracion_ph, df_Accesos_Por_Tecnologia, on=['Año', 'Trimestre', 'Provincia'])
df_penetracion_ph_por_tecnologia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 927 entries, 0 to 926
Data columns (total 11 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           927 non-null    object 
 1   Trimestre                     927 non-null    object 
 2   Provincia                     927 non-null    object 
 3   Accesos por cada 100 hab      927 non-null    float64
 4   Accesos por cada 100 hogares  927 non-null    float64
 5   ADSL                          927 non-null    float64
 6   Cablemodem                    927 non-null    float64
 7   Fibra óptica                  927 non-null    float64
 8   Wireless                      927 non-null    float64
 9   Otros                         927 non-null    float64
 10  Total                         927 non-null    float64
dtypes: float64(8), object(3)
memory usage: 79.8+ KB


In [154]:
#Hacemos merge de la pentracion con Velocidad % por prov
df_penetracion_ph_por_tecnologia_velocidad = pd.merge(df_penetracion_ph_por_tecnologia, df_Velocidad_por_prov, on=['Año', 'Trimestre', 'Provincia'])
df_penetracion_ph_por_tecnologia_velocidad.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 927 entries, 0 to 926
Data columns (total 12 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           927 non-null    object 
 1   Trimestre                     927 non-null    object 
 2   Provincia                     927 non-null    object 
 3   Accesos por cada 100 hab      927 non-null    float64
 4   Accesos por cada 100 hogares  927 non-null    float64
 5   ADSL                          927 non-null    float64
 6   Cablemodem                    927 non-null    float64
 7   Fibra óptica                  927 non-null    float64
 8   Wireless                      927 non-null    float64
 9   Otros                         927 non-null    float64
 10  Total                         927 non-null    float64
 11  Mbps (Media de bajada)        927 non-null    float64
dtypes: float64(9), object(3)
memory usage: 87.0+ KB


In [155]:
# Como proceso final del Paso 1, exportamos los datos a un solo archivo individal, para su porterior uso en el EDA.
df_penetracion_ph_por_tecnologia_velocidad.to_excel('Dataset/Procesados/8_Penetracion_PH_AT_VP.xlsx', index=False, sheet_name='Penetracion_Internet')