En el marco de nuestro proyecto de desarrollo de un dashboard en Power Bi para analizar y visualizar la conectividad a Internet en diferentes provincias, hemos llevado a cabo un proceso de extracción y preparación de datos esenciales. Este proyecto se centra en utilizar información clave proveniente de diversas fuentes para proporcionar insights significativos sobre el acceso a Internet fijo en Argentina.

Pasos Iniciales:

Selección de Datasets Relevantes:

Iniciamos extrayendo y evaluando datasets existentes, identificando aquellas fuentes de datos que contienen los KPIs cruciales para nuestro análisis. Estos KPIs han sido cuidadosamente seleccionados para ofrecer una visión integral del estado de la conectividad en diferentes regiones.

Creación de la Lista de Provincias y Asignación de IDs:

A continuación, crearemos una lista única de las provincias presentes en nuestro primer dataset. Cada provincia sera asignada a un identificador único (ID) para facilitar su manejo y referencia en las etapas posteriores. Este proceso nos permitirá realizar análisis y visualizaciones más efectivas, centrándonos en datos específicos y evitando redundancias.

In [2]:
import pandas as pd
# carga del archivo:
accesos_por_cada_100_habitantes = pd.read_csv('./datasets_cleaned/accesos_por_cada_100_habitantes.csv')

In [5]:
accesos_por_cada_100_habitantes.columns

Index(['Año', 'Trimestre', 'Provincia', 'Accesos por cada 100 hab'], dtype='object')

In [8]:
provincia = accesos_por_cada_100_habitantes['Provincia'].unique()

In [16]:
# Asignar IDs a las provincias
provincias_ids = {provincia: idx + 1 for idx, provincia in enumerate(provincia)}

# Crear un nuevo DataFrame con ID y Provincia
df_provincias = pd.DataFrame(list(provincias_ids.items()), columns=['Provincia','ID'] )


In [17]:
df_provincias

Unnamed: 0,Provincia,ID
0,Buenos Aires,1
1,Capital Federal,2
2,Catamarca,3
3,Chaco,4
4,Chubut,5
5,Córdoba,6
6,Corrientes,7
7,Entre Ríos,8
8,Formosa,9
9,Jujuy,10


## Penetración del Internet fijo por provincia (accesos por cada 100 habitantes)

In [13]:
accesos_por_cada_100_habitantes.head(3)

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hab
0,2022,4,Buenos Aires,26.72
1,2022,4,Capital Federal,50.35
2,2022,4,Catamarca,16.73


In [18]:
# Fusionar el DataFrame con 'df_provincias'
df1 = pd.merge(accesos_por_cada_100_habitantes, df_provincias, how='left', on='Provincia')

In [19]:
# Eliminar la columna 'Provincia'
df1.drop(columns='Provincia', inplace=True)

In [252]:
# Renombrar la columna 'id' a 'id_provincia'
df1.rename( columns={'ID':'id_provincia'}, inplace=True)
df1.rename(columns={'Accesos por cada 100 hab': 'Accesos_por_cada_100_hab'}, inplace=True)

In [253]:
df1.head(3)

Unnamed: 0,Año,Trimestre,Accesos_por_cada_100_hab,id_provincia
0,2022,4,26.72,1
1,2022,4,50.35,2
2,2022,4,16.73,3


In [254]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 864 entries, 0 to 863
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Año                       864 non-null    int64  
 1   Trimestre                 864 non-null    int64  
 2   Accesos_por_cada_100_hab  864 non-null    float64
 3   id_provincia              864 non-null    int64  
dtypes: float64(1), int64(3)
memory usage: 33.8 KB


In [256]:
# Guardar el DataFrame en un archivo CSV
df1.to_csv('./datasets_SQL/accesos_por_cada_100_habitantes.csv', index=False)

# **Penetración del Internet fijo por provincia (accesos por cada 100 hogares)**

In [24]:
# carga del archivo:
accesos_por_cada_100_hogares = pd.read_csv('./datasets_cleaned/accesos_por_cada_100_hogares.csv')

In [25]:
# Fusionar el DataFrame con 'df_provincias'
df2 = pd.merge(accesos_por_cada_100_hogares, df_provincias, how='left', on='Provincia')

In [26]:
# Eliminar la columna 'Provincia'
df2.drop(columns='Provincia', inplace=True)

In [246]:
# Renombrar la columna 'id' a 'id_provincia'
df2.rename( columns={'ID':'id_provincia'}, inplace=True)
df2.rename(columns={'Año': 'year'}, inplace=True)
df2.rename(columns={'Accesos por cada 100 hogares': 'Accesos_por_cada_100_hogares'}, inplace=True)

In [247]:
df2.columns

Index(['year', 'Trimestre', 'Accesos_por_cada_100_hogares', 'id_provincia'], dtype='object')

In [248]:
df2.head(3)

Unnamed: 0,year,Trimestre,Accesos_por_cada_100_hogares,id_provincia
0,2022,4,78.94,1
1,2022,4,122.73,2
2,2022,4,65.77,3


In [38]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 864 entries, 0 to 863
Data columns (total 4 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           864 non-null    int64  
 1   Trimestre                     864 non-null    int64  
 2   Accesos por cada 100 hogares  864 non-null    float64
 3   ID                            864 non-null    int64  
dtypes: float64(1), int64(3)
memory usage: 33.8 KB


In [271]:
# Guardar el DataFrame en un archivo CSV
df2.to_csv('./datasets_SQL/accesos_por_cada_100_hogares.csv', index=False)

# **Acceso a Internet Fijo por rangos de velocidad de bajada y provincia**  

In [264]:
# carga del archivo:
acceso_rangos_velocidad_de_bajada_y_provincia  = pd.read_csv('./datasets_cleaned/acceso_rangos_velocidad_de_bajada_y_provincia.csv')

In [265]:
# Fusionar el DataFrame con 'df_provincias'
df3 = pd.merge(acceso_rangos_velocidad_de_bajada_y_provincia, df_provincias, how='left', on='Provincia')

In [266]:
# Eliminar la columna 'Provincia'
df3.drop(columns='Provincia', inplace=True)

In [267]:
# Renombrar la columna 'id' a 'id_provincia'
df3.rename( columns={'ID':'id_provincia'}, inplace=True)

In [268]:
df3.head(3)

Unnamed: 0,Año,Trimestre,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total,id_provincia
0,2022,4,28934.0,23347.0,259866.0,281550.0,244555.0,98670.0,3760109.0,97634.0,4794665.0,1
1,2022,4,516.0,5096.0,31320.0,64653.0,36336.0,8116.0,1299117.0,106772.0,1551926.0,2
2,2022,4,71.0,315.0,2716.0,5028.0,4638.0,3122.0,52739.0,2280.0,70909.0,3


In [274]:
df3.columns

Index(['Año', 'Trimestre', 'HASTA 512 kbps', '+ 512 Kbps - 1 Mbps',
       '+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps',
       '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total', 'id_provincia'],
      dtype='object')

In [269]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 856 entries, 0 to 855
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Año                  856 non-null    int64  
 1   Trimestre            856 non-null    int64  
 2   HASTA 512 kbps       856 non-null    float64
 3   + 512 Kbps - 1 Mbps  856 non-null    float64
 4   + 1 Mbps - 6 Mbps    856 non-null    float64
 5   + 6 Mbps - 10 Mbps   856 non-null    float64
 6   + 10 Mbps - 20 Mbps  856 non-null    float64
 7   + 20 Mbps - 30 Mbps  856 non-null    float64
 8   + 30 Mbps            856 non-null    float64
 9   OTROS                856 non-null    float64
 10  Total                856 non-null    float64
 11  id_provincia         856 non-null    int64  
dtypes: float64(9), int64(3)
memory usage: 86.9 KB


In [273]:
# Guardar el DataFrame en un archivo CSV
df3.to_csv('./datasets_SQL/acceso_rangos_velocidad_de_bajada_y_provincia.csv', index=False)

# **Velocidad media de bajada de Internet fijo por provincia**  

In [41]:
# carga del archivo:
velocidad_media_de_bajada_por_provincia = pd.read_csv('datasets_cleaned/velocidad_media_de_bajada_por_provincia.csv')

In [42]:
# Fusionar el DataFrame con 'df_provincias'
df4 = pd.merge(velocidad_media_de_bajada_por_provincia, df_provincias, how='left', on='Provincia')

In [43]:
# Eliminar la columna 'Provincia'
df4.drop(columns='Provincia', inplace=True)

In [275]:
# Renombrar la columna 'id' a 'id_provincia'
df4.rename( columns={'ID':'id_provincia'}, inplace=True)

In [276]:
df4.head(3)

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada),id_provincia
0,2022,4,111.0,1
1,2022,4,182.86,2
2,2022,4,83.33,3


In [277]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 864 entries, 0 to 863
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Año                     864 non-null    int64  
 1   Trimestre               864 non-null    int64  
 2   Mbps (Media de bajada)  864 non-null    float64
 3   id_provincia            864 non-null    int64  
dtypes: float64(1), int64(3)
memory usage: 33.8 KB


In [279]:
# Guardar el DataFrame en un archivo CSV
df4.to_csv('./datasets_SQL/velocidad_media_de_bajada_por_provincia.csv', index=False)

# **Acceso a Internet fijo por tecnología y provincia**  

In [48]:
acceso_a_internet_fijo_por_tecnologia_y_provincia = pd.read_csv('datasets_cleaned/acceso_a_internet_fijo_por_tecnologia_y_provincia.csv')

In [49]:
# Fusionar el DataFrame con 'df_provincias'
df5 = pd.merge(acceso_a_internet_fijo_por_tecnologia_y_provincia, df_provincias, how='left', on='Provincia')

In [50]:
# Eliminar la columna 'Provincia'
df5.drop(columns='Provincia', inplace=True)

In [280]:
# Renombrar la columna 'id' a 'id_provincia'
df5.rename( columns={'ID':'id_provincia'}, inplace=True)

In [281]:
df5.head(3)

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,id_provincia
0,2022,4,325908.0,2767247.0,1499149.0,129910.0,72451.0,4794665.0,1
1,2022,4,138753.0,1238196.0,138548.0,4603.0,31826.0,1551926.0,2
2,2022,4,8952.0,10998.0,47337.0,1379.0,2243.0,70909.0,3


In [53]:
df5.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 864 entries, 0 to 863
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Año           864 non-null    int64  
 1   Trimestre     864 non-null    int64  
 2   ADSL          864 non-null    float64
 3   Cablemodem    864 non-null    float64
 4   Fibra óptica  864 non-null    float64
 5   Wireless      864 non-null    float64
 6   Otros         864 non-null    float64
 7   Total         864 non-null    float64
 8   ID            864 non-null    int64  
dtypes: float64(6), int64(3)
memory usage: 67.5 KB


In [283]:
# Guardar el DataFrame en un archivo CSV
df5.to_csv('./datasets_SQL/acceso_a_internet_fijo_por_tecnologia_y_provincia.csv', index=False)

# **Accesos a banda ancha y banda angosta por provincia**

In [157]:
# carga del archivo:
accesos_a_banda_ancha_y_banda_angosta_por_provincia = pd.read_csv('datasets_cleaned/accesos_a_banda_ancha_y_banda_angosta_por_provincia.csv')

In [158]:
# Fusionar el DataFrame con 'df_provincias'
df6 = pd.merge(accesos_a_banda_ancha_y_banda_angosta_por_provincia, df_provincias, how='left', on='Provincia')

In [159]:
# Eliminar la columna 'Provincia'
df6.drop(columns='Provincia', inplace=True)

In [284]:
# Renombrar la columna 'id' a 'id_provincia'
df6.rename( columns={'ID':'id_provincia'}, inplace=True)

In [285]:
df6.head(3)

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total,id_provincia
0,2022,4,4788466,6199.0,4794665,1
1,2022,4,1549781,2145.0,1551926,2
2,2022,4,70908,1.0,70909,3


In [288]:
df6.columns

Index(['Año', 'Trimestre', 'Banda ancha fija', 'Dial up', 'Total',
       'id_provincia'],
      dtype='object')

In [162]:
df6.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 864 entries, 0 to 863
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Año               864 non-null    int64  
 1   Trimestre         864 non-null    int64  
 2   Banda ancha fija  864 non-null    int64  
 3   Dial up           862 non-null    float64
 4   Total             864 non-null    int64  
 5   ID                864 non-null    int64  
dtypes: float64(1), int64(5)
memory usage: 47.2 KB


In [291]:
# Guardar el DataFrame en un archivo CSV
df6.to_csv('./datasets_SQL/accesos_a_banda_ancha_y_banda_angosta_por_provincia.csv', index=False)

# **Ingresos por la operación del servicio de Telecomunicaciones** 

In [224]:
internet_fijo = pd.read_csv('datasets_cleaned/ingresos_por_operacion_del_servicio.csv')

In [225]:
television = pd.read_csv('datasets_cleaned/Television.csv')

In [226]:
telefonia_fija = pd.read_excel('datasets_cleaned/telefonia_fija.xlsx',sheet_name='Fija_ingresos')

In [227]:
internet_fijo.head(3)

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos)
0,2022,4,72443482
1,2022,3,64086784
2,2022,2,60419500


In [228]:
# Renombrar la columna
internet_fijo.rename(columns={'Ingresos (miles de pesos)': 'ingresos_internet'}, inplace=True)

In [229]:
television.head()

Unnamed: 0,Año,Trimestre,Ingresos TV por suscripción (miles de $),Ingresos TV satelital (miles de $)
0,2022,4,"62.432.903,15","29.721.126,94"
1,2022,3,"52.399.891,49","27.073.190,89"
2,2022,2,"46.322.065,49","23.559.484,83"
3,2022,1,"42.113.438,81","21.268.086,24"
4,2021,4,"38.273.391,80","18.038.065,44"


In [230]:
telefonia_fija.head()

Unnamed: 0,Año,Trimestre,Ingresos (miles de $)
0,2014,1,2916071.754
1,2014,2,2974865.204
2,2014,3,3105462.022
3,2014,4,3339690.895
4,2015,1,3260124.752


In [231]:
# Renombrar la columna
telefonia_fija.rename(columns={'Ingresos (miles de $)': 'ingresos_telefoniafija'}, inplace=True)

In [232]:
telefonia_fija.tail()

Unnamed: 0,Año,Trimestre,ingresos_telefoniafija
31,2021,4,40616060.0
32,2022,1,30583340.0
33,2022,2,31258180.0
34,2022,3,29698510.0
35,2022,4,32356910.0


In [233]:
telefonia_fija.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 3 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Año                     36 non-null     int64  
 1   Trimestre               36 non-null     int64  
 2   ingresos_telefoniafija  36 non-null     float64
dtypes: float64(1), int64(2)
memory usage: 996.0 bytes


In [234]:
# Fusionar los conjuntos de datos utilizando 'Año' y 'Trimestre' como claves de fusión
df_final = internet_fijo.merge(television, on=['Año', 'Trimestre'], how='outer').merge(telefonia_fija, on=['Año', 'Trimestre'], how='outer')

In [235]:
df_final.head()

Unnamed: 0,Año,Trimestre,ingresos_internet,Ingresos TV por suscripción (miles de $),Ingresos TV satelital (miles de $),ingresos_telefoniafija
0,2022,4,72443482,"62.432.903,15","29.721.126,94",32356910.0
1,2022,3,64086784,"52.399.891,49","27.073.190,89",29698510.0
2,2022,2,60419500,"46.322.065,49","23.559.484,83",31258180.0
3,2022,1,55219313,"42.113.438,81","21.268.086,24",30583340.0
4,2021,4,45467887,"38.273.391,80","18.038.065,44",40616060.0


In [222]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36 entries, 0 to 35
Data columns (total 6 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   Año                                        36 non-null     int64  
 1   Trimestre                                  36 non-null     int64  
 2   ingresos_internet                          36 non-null     int64  
 3   Ingresos TV por suscripción  (miles de $)  36 non-null     object 
 4   Ingresos TV satelital (miles de $)         36 non-null     object 
 5   ingresos_telefoniafija                     36 non-null     float64
dtypes: float64(1), int64(3), object(2)
memory usage: 2.0+ KB


In [237]:
# Reemplazar los puntos por nada en la columna específica
df_final['Ingresos TV por suscripción  (miles de $)'] = df_final['Ingresos TV por suscripción  (miles de $)'].replace({'\.': ''}, regex=True)
df_final['Ingresos TV satelital (miles de $)'] = df_final['Ingresos TV satelital (miles de $)'].replace({'\.': ''}, regex=True)

# Reemplazar las comas por puntos en la misma columna
df_final['Ingresos TV por suscripción  (miles de $)'] = df_final['Ingresos TV por suscripción  (miles de $)'].replace({',': '.'}, regex=True).astype(float)
df_final['Ingresos TV satelital (miles de $)'] = df_final['Ingresos TV satelital (miles de $)'].replace({',': '.'}, regex=True).astype(float)



In [238]:
df_final.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 36 entries, 0 to 35
Data columns (total 6 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   Año                                        36 non-null     int64  
 1   Trimestre                                  36 non-null     int64  
 2   ingresos_internet                          36 non-null     int64  
 3   Ingresos TV por suscripción  (miles de $)  36 non-null     float64
 4   Ingresos TV satelital (miles de $)         36 non-null     float64
 5   ingresos_telefoniafija                     36 non-null     float64
dtypes: float64(3), int64(3)
memory usage: 2.0 KB


In [239]:
# Guardar el DataFrame en un archivo CSV
df_final.to_csv('./datasets_SQL/ingresos_por_operacion_del_servicio_telecomunicaciones.csv', index=False)

In [294]:
df_final.columns

Index(['Año', 'Trimestre', 'ingresos_internet',
       'Ingresos TV por suscripción  (miles de $)',
       'Ingresos TV satelital (miles de $)', 'ingresos_telefoniafija'],
      dtype='object')