In [1]:
# Se importan bibliotecas de interes
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [24]:
# Se carga el dataset en formato csvPenetración_por_hogares_nacional_Internet_fijo
df = pd.read_csv('Penetración_por_hogares_nacional_Internet_fijo.csv', thousands='.', decimal=',') 

# Se revisa que se haya cargado correctamente
print(df.head(5))
print(df.tail(5))

    Año  Trimestre        Provincia  Accesos por cada 100 hogares
0  2022          3     Buenos Aires                         78.11
1  2022          3  Capital Federal                        122.28
2  2022          3        Catamarca                         65.33
3  2022          3            Chaco                         43.86
4  2022          3           Chubut                         84.38
      Año  Trimestre            Provincia  Accesos por cada 100 hogares
835  2014          1           Santa Cruz                         28.94
836  2014          1             Santa Fe                         47.85
837  2014          1  Santiago Del Estero                         16.31
838  2014          1     Tierra Del Fuego                         63.97
839  2014          1              Tucumán                         33.42


In [25]:
# A continuacion se evalúa la informacion de los 4 campos.
# Se procede a analizar el tipo de dato de cada campo y cantidad de registros en el dataset
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 4 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           840 non-null    int64  
 1   Trimestre                     840 non-null    int64  
 2   Provincia                     840 non-null    object 
 3   Accesos por cada 100 hogares  840 non-null    float64
dtypes: float64(1), int64(2), object(1)
memory usage: 26.4+ KB


Este dataset contiene un total de 840 registros no nulos en donde se muestra la evolución en 8 años (agrupados por trimestres) del acceso a internet en hogares (como porcentaje) en las distintas provincias argentinas (incluyendo CABA). Se procede a las modificaciones de los campos necesarios.

In [26]:
# Se modifica el nombre y tipo de dato en el campo "Accesos por cada 100 hogares"
df['internet_hogares_porcentual'] = df['Accesos por cada 100 hogares'].astype(float)
# Se elimina el antiguo campo
df.drop(columns='Accesos por cada 100 hogares', inplace=True)


In [27]:
# Se verifican los cambios efectuados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 4 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   Año                          840 non-null    int64  
 1   Trimestre                    840 non-null    int64  
 2   Provincia                    840 non-null    object 
 3   internet_hogares_porcentual  840 non-null    float64
dtypes: float64(1), int64(2), object(1)
memory usage: 26.4+ KB


In [28]:
#Se analizan los datos numericos con parametros estadisticos tipicos
df.describe().round(1)

Unnamed: 0,Año,Trimestre,internet_hogares_porcentual
count,840.0,840.0,840.0
mean,2017.9,2.5,49.1
std,2.5,1.1,23.2
min,2014.0,1.0,9.4
25%,2016.0,1.0,32.1
50%,2018.0,2.0,45.9
75%,2020.0,3.0,61.9
max,2022.0,4.0,124.1


En el campo porcentual se observa valor maximo fuera de escala por lo que se considerara en el EDA a posteriori.

In [29]:
# Se decide agregar el campo periodo a fines interpretativos en los graficos
# Se convierte el campo 'Año' a string y extraer los últimos 2 dígitos
# Se concatena los últimos 2 dígitos del campo 'Año' con 'T' y el campo 'Trimestre'
df['Periodo'] = (df['Año'].astype(str).str[-2:]) + '-T' + df['Trimestre'].astype(str)

# Se corroboran los campos
df

Unnamed: 0,Año,Trimestre,Provincia,internet_hogares_porcentual,Periodo
0,2022,3,Buenos Aires,78.11,22-T3
1,2022,3,Capital Federal,122.28,22-T3
2,2022,3,Catamarca,65.33,22-T3
3,2022,3,Chaco,43.86,22-T3
4,2022,3,Chubut,84.38,22-T3
...,...,...,...,...,...
835,2014,1,Santa Cruz,28.94,14-T1
836,2014,1,Santa Fe,47.85,14-T1
837,2014,1,Santiago Del Estero,16.31,14-T1
838,2014,1,Tierra Del Fuego,63.97,14-T1


In [30]:
# Se exporta csv modificado
#df.to_csv('Penetración_por_hogares_nacional_Internet_fijo(ETL).csv', index=False)

In [31]:
# Se carga el dataset en formato csv
df1 = pd.read_csv('Penetración_por_hogares_por_habitantes.csv', thousands='.', decimal=',') 

# Se revisa que se haya cargado correctamente
print(df1.head(5))
print(df1.tail(5))

    Año  Trimestre  Accesos por cada 100 hogares  Accesos por cada 100 hab  \
0  2022          3                         76.64                     23.95   
1  2022          2                         75.97                     23.72   
2  2022          1                         73.88                     23.05   
3  2021          4                         73.18                     22.81   
4  2021          3                         70.58                     21.98   

         Periodo  
0  Jul-Sept 2022  
1   Abr-Jun 2022  
2   Ene-Mar 2022  
3   Oct-Dic 2021  
4  Jul-Sept 2021  
     Año  Trimestre  Accesos por cada 100 hogares  Accesos por cada 100 hab  \
30  2015          1                         51.36                     15.68   
31  2014          4                         50.50                     15.39   
32  2014          3                         50.67                     15.43   
33  2014          2                         49.86                     15.16   
34  2014          1   

Este dataset contiene un total de 35 registros no nulos en donde se muestra la evolución en 8 años (agrupados por trimestres) del acceso a internet en hogares (como porcentaje) y a su vez muestra la evolución en 8 años (agrupados por trimestres) del acceso a internet por habitantes (como porcentaje), indicando los meses comprendidos en cada trimestre.

In [32]:
# Se decide agregar el campo periodo a fines interpretativos en los graficos
# Se concatena los últimos 2 dígitos del campo 'Año' con 'T' y el campo 'Trimestre'
df1['Periodo'] = (df1['Año'].astype(str).str[-2:]) + '-T' + df1['Trimestre'].astype(str)


In [33]:
#Se analizan los datos numericos con parametros estadisticos tipicos
df1.describe().round(1)

Unnamed: 0,Año,Trimestre,Accesos por cada 100 hogares,Accesos por cada 100 hab
count,35.0,35.0,35.0,35.0
mean,2017.9,2.5,60.3,18.6
std,2.6,1.1,8.1,2.7
min,2014.0,1.0,49.6,15.0
25%,2016.0,1.5,53.0,16.2
50%,2018.0,2.0,59.2,18.2
75%,2020.0,3.0,66.1,20.5
max,2022.0,4.0,76.6,24.0


Se observa que en terminos generales que el porcentaje en el campo "internet_hogares_porcentual" triplica aprox. el porcentaje en el campo "internet_habitantes_porcentual" para el mismo registro. Ambos campos porcentuales seran tenidos cuenta en el EDA a posteriori.

In [34]:
# Se exporta csv modificado
#df1.to_csv('Penetración_por_hogares_por_habitantes(ETL).csv', index=False)

In [6]:
# Se carga el dataset en formato csv
df2 = pd.read_csv('Distribución_accesos_totales_nacionales_internet_fijo_por_velocidad.csv', thousands= '.', decimal= ',') 

# Se revisa que se haya cargado correctamente
df2.head()

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total,Unnamed: 11
0,2022,3,33013,96727,1161370,1151906,823505,479822,6995750,349035,11091128,
1,2022,2,33667,99498,1193090,1197030,856562,485321,6741922,351594,10958684,
2,2022,1,34890,104840,1263273,1209148,967508,509830,6336187,198333,10624009,
3,2021,4,41262,28521,1413208,1245333,976539,558358,6032322,194251,10489794,
4,2021,3,40174,41437,2550229,1095772,710122,536364,4948174,163269,10085541,


In [7]:
# A continuacion se evalúa la informacion de los campos.
# Se procede a analizar el tipo de dato de cada campo y cantidad de registros en el dataset
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Año                      35 non-null     int64  
 1   Trimestre                35 non-null     int64  
 2   Hasta 512 kbps           35 non-null     int64  
 3   Entre 512 Kbps y 1 Mbps  35 non-null     int64  
 4   Entre 1 Mbps y 6 Mbps    35 non-null     int64  
 5   Entre 6 Mbps y 10 Mbps   35 non-null     int64  
 6   Entre 10 Mbps y 20 Mbps  35 non-null     int64  
 7   Entre 20 Mbps y 30 Mbps  35 non-null     int64  
 8   Más de 30 Mbps           35 non-null     int64  
 9   OTROS                    35 non-null     int64  
 10  Total                    35 non-null     int64  
 11  Unnamed: 11              0 non-null      float64
dtypes: float64(1), int64(11)
memory usage: 3.4 KB


In [8]:
# Se modifica el nombre y tipo de dato
# Renombrar el campo '512' por '512 Mbps'
df2 = df2.rename(columns={'Hasta 512 kbps': '<0,5 Mbps',
                          'Entre 512 Kbps y 1 Mbps': '0,5-1 Mbps',
                          'Entre 1 Mbps y 6 Mbps': '1-6 Mbps',
                          'Entre 6 Mbps y 10 Mbps':'6-10 Mbps',
                          'Entre 10 Mbps y 20 Mbps': '10-20 Mbps',
                          'Entre 20 Mbps y 30 Mbps': '20-30 Mbps',
                          'Más de 30 Mbps':'>30 Mbps' ,
                          'OTROS': 'Otros'})

# Se elimina el campo 'Unnamed' ya que es informacion nula 
df2.drop(columns='Unnamed: 11', inplace=True)
# Se decide agregar el campo periodo a fines interpretativos en los graficos
# Se concatena los últimos 2 dígitos del campo 'Año' con 'T' y el campo 'Trimestre'
df2['Periodo'] = (df2['Año'].astype(str).str[-2:]) + '-T' + df2['Trimestre'].astype(str)


In [9]:
df2.describe()

Unnamed: 0,Año,Trimestre,"<0,5 Mbps","0,5-1 Mbps",1-6 Mbps,6-10 Mbps,10-20 Mbps,20-30 Mbps,>30 Mbps,Otros,Total
count,35.0,35.0,35.0,35.0,35.0,35.0,35.0,35.0,35.0,35.0,35.0
mean,2017.885714,2.457143,50074.228571,243428.314286,3623279.0,897517.4,919014.5,503712.2,1900309.0,118396.0,8255731.0
std,2.564135,1.120474,53083.966405,199321.891143,1292407.0,246291.1,488158.7,471763.8,2357935.0,112930.69412,1442421.0
min,2014.0,1.0,5675.0,28521.0,1161370.0,289182.0,101127.0,345.0,11595.0,0.0,6272846.0
25%,2016.0,1.5,26397.0,68384.5,2643902.0,779998.5,667461.5,50820.5,26200.0,0.0,7029346.0
50%,2018.0,2.0,39487.0,217997.0,3428759.0,976956.0,814470.0,509830.0,444391.0,155145.0,8110444.0
75%,2020.0,3.0,41210.0,394515.5,4996999.0,1057958.0,1149810.0,639673.5,3882480.0,196292.0,9260442.0
max,2022.0,4.0,241713.0,687619.0,5153437.0,1245333.0,2068087.0,1688748.0,6995750.0,351594.0,11091130.0


In [10]:
# Se exporta csv modificado
#df2.to_csv('Distribución_accesos_totales_nacionales_internet_fijo_por_velocidad(ETL).csv', index=False)

In [11]:
# Se carga el dataset en formato csv
df3 = pd.read_csv('Ingresos_trimestrales_prestación_servicio_Internet_fijo.csv', thousands='.', decimal=',') 

# Se revisa que se haya cargado correctamente
print(df3.head(5))
print(df3.tail(5))

    Año  Trimestre  Ingresos (miles de pesos)        Periodo
0  2022          3                   67055930  Jul-Sept 2022
1  2022          2                   60335724   Abr-Jun 2022
2  2022          1                   55589997   Ene-Mar 2022
3  2021          4                   45467887   Oct-Dic 2021
4  2021          3                   42999944  Jul-Sept 2021
     Año  Trimestre  Ingresos (miles de pesos)        Periodo
30  2015          1                    4876385   Ene-Mar 2015
31  2014          4                    3950441   Oct-Dic 2014
32  2014          3                    3478638  Jul-Sept 2014
33  2014          2                    3270816   Abr-Jun 2014
34  2014          1                    2984054   Ene-Mar 2014


In [12]:
# A continuacion se evalúa la informacion de los campos.
# Se procede a analizar el tipo de dato de cada campo y cantidad de registros en el dataset
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Año                        35 non-null     int64 
 1   Trimestre                  35 non-null     int64 
 2   Ingresos (miles de pesos)  35 non-null     int64 
 3   Periodo                    35 non-null     object
dtypes: int64(3), object(1)
memory usage: 1.2+ KB


In [13]:
# Se decide modificar el campo periodo a fines interpretativos en los graficos
# Se concatena los últimos 2 dígitos del campo 'Año' con 'T' y el campo 'Trimestre'
df3['Periodo'] = (df3['Año'].astype(str).str[-2:]) + '-T' + df3['Trimestre'].astype(str)

In [14]:
# Se analizan parametros estadisticos para corroborar el rango de valores del campo 'Ingresos'
df3.describe()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos)
count,35.0,35.0,35.0
mean,2017.885714,2.457143,20588450.0
std,2.564135,1.120474,17742140.0
min,2014.0,1.0,2984054.0
25%,2016.0,1.5,6235543.0
50%,2018.0,2.0,14319470.0
75%,2020.0,3.0,32049960.0
max,2022.0,4.0,67055930.0


Para el EDA el campo ingresos puede representar un inconveniente debido a la variable no contemplada 'inflacion', ya que el rango de valores varia en 64 millones (aprox. 22,5 veces) entre el minimo y el maximo valor, por lo que para poder comparar iguales trimestres en diferentes a;os, o los ingresos en un periodo de tiempo dado, se ve la necesidad de 'normalizar' los ingresos, ya que de lo contrario generaria una incorrecta interpretacion de los datos. Se decide relativizar su valor para prescindir de datos extras de inflacion no confiables (estimada vs. real), empleando nuevo dataset obtenido de https://datos.gob.ar/series/api/series/?ids=168.1_T_CAMBIOR_D_0_0_26&limit=5000&end_date=2022-12-31&collapse=quarter&collapse_aggregation=avg&chartType=line para su respectiva conversion de moneda pesos a dolares (mas estable).

In [15]:
# Se carga el dataset en formato excel
df3_1 = pd.read_excel('relacion_USD_pesos.xlsx', thousands=',', decimal='.')
# Se revisa que se haya cargado correctamente
print(df3_1.head(5))
print(df3_1.tail(5))

    Año  Trimestre  relacion_USD_pesos
0  2022          3          141.684783
1  2022          2          122.931319
2  2022          1          111.680556
3  2021          4          105.625000
4  2021          3          102.315217
     Año  Trimestre  relacion_USD_pesos
30  2015          1            8.689278
31  2014          4            8.522230
32  2014          3            8.346660
33  2014          2            8.063330
34  2014          1            7.963300


In [16]:
#Se redondea a 2 decimales los valores del campo 
df3_1['relacion_USD_pesos']=(df3_1['relacion_USD_pesos'].round(2))

In [17]:
# Se unen los dataframes por 'Año' y 'Trimestre'
df3_merge = pd.merge(df3, df3_1, on=['Año', 'Trimestre'])
df3_merge.head()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo,relacion_USD_pesos
0,2022,3,67055930,22-T3,141.68
1,2022,2,60335724,22-T2,122.93
2,2022,1,55589997,22-T1,111.68
3,2021,4,45467887,21-T4,105.62
4,2021,3,42999944,21-T3,102.32


In [20]:
# Se genera el nuevo campo 'Ingresos en dolares' para poder normalizar los datos
# a lo largo del tiempo en funcion de la inflacion en pesos
df3_merge['Ingresos_USD'] = ((df3_merge['Ingresos (miles de pesos)'] / df3_merge['relacion_USD_pesos'])*1000).astype(int)
df3_merge.tail()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo,relacion_USD_pesos,Ingresos_USD
30,2015,1,4876385,15-T1,8.69,561149021
31,2014,4,3950441,14-T4,8.52,463666784
32,2014,3,3478638,14-T3,8.35,416603353
33,2014,2,3270816,14-T2,8.06,405808436
34,2014,1,2984054,14-T1,7.96,374881155


In [21]:
# Se exporta el csv
#df3_merge.to_csv('Ingresos_trimestrales_prestación_servicio_Internet_fijo(ETL).csv', index=False)

In [22]:
# Se carga el dataset en formato csv
df4 = pd.read_csv('Total_nacional_accesos_Internet_banda_ancha_y_banda_angosta.csv', thousands='.', decimal=',') 
# Se revisa que se haya cargado correctamente
print(df4.head(5))
print(df4.tail(5))

    Año  Trimestre  Banda ancha fija  Dial up     Total        Periodo
0  2022          3          11078691    12437  11091128  Jul-Sept 2022
1  2022          2          10946248    12436  10958684   Abr-Jun 2022
2  2022          1          10611390    12619  10624009   Ene-Mar 2022
3  2021          4          10476933    12861  10489794   Oct-Dic 2021
4  2021          3          10075184    10357  10085541  Jul-Sept 2021
     Año  Trimestre  Banda ancha fija  Dial up    Total        Periodo
30  2015          1           6699714    38018  6737732   Ene-Mar 2015
31  2014          4           6559172    39324  6598496   Oct-Dic 2014
32  2014          3           6559264    36007  6595271  Jul-Sept 2014
33  2014          2           6428329    36139  6464468   Abr-Jun 2014
34  2014          1           6362108    36290  6398398   Ene-Mar 2014


In [23]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               35 non-null     int64 
 1   Trimestre         35 non-null     int64 
 2   Banda ancha fija  35 non-null     int64 
 3   Dial up           35 non-null     int64 
 4   Total             35 non-null     int64 
 5   Periodo           35 non-null     object
dtypes: int64(5), object(1)
memory usage: 1.8+ KB


In [24]:
# Se cambia el campo 'periodo' ya que es informacion redundante 
# que se obtiene de los campos "ano" y 'trimestre'
df4['Periodo'] = (df4['Año'].astype(str).str[-2:]) + '-T' + df4['Trimestre'].astype(str)


In [25]:
df4.describe()

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total
count,35.0,35.0,35.0,35.0,35.0
mean,2017.885714,2.457143,8274417.0,23383.371429,8297800.0
std,2.564135,1.120474,1408774.0,10087.397193,1399611.0
min,2014.0,1.0,6362108.0,9991.0,6398398.0
25%,2016.0,1.5,7024946.0,12436.5,7057455.0
50%,2018.0,2.0,8083533.0,26911.0,8110444.0
75%,2020.0,3.0,9244537.0,32508.5,9260442.0
max,2022.0,4.0,11078690.0,39324.0,11091130.0


In [None]:
# Se exporta el dataset en formato csv
#df4.to_csv('Total_nacional_accesos_Internet_banda_ancha_y_banda_angosta(ETL).csv', index=False) 


In [28]:
df5 = pd.read_csv('Accesos_Internet_fijo_por_velocidad_bajada_y _localidad.csv', thousands='.', decimal=',')
df5.tail()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 mbps","0,375 mbps","0,5 mbps","0,512 mbps","0,625 mbps",...,75 mbps,78 mbps,80 mbps,82 mbps,83 mbps,85 mbps,90 mbps,92 mbps,95 mbps,100 mbps
3093,TUCUMAN,Tafí Viejo,Villa Mariano Moreno - El Colmenar,90105100,,,,,,,...,,,,,,,,,,304.0
3094,TUCUMAN,Trancas,San Pedro de Colalao,90112020,,,,,,,...,,,,,,,,,,
3095,TUCUMAN,Trancas,Villa de Trancas,90112030,,,,,,,...,,,,,,,,,,
3096,TUCUMAN,Yerba Buena,Villa Carmela,90119020,,,,,,,...,,,,,,,,,,
3097,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,176.0,,,,,,...,,,,,,,,,,6.556


In [None]:
df5.describe()

Unnamed: 0,"0,256 mbps","0,375 mbps","0,512 mbps","0,625 mbps","1,25 mbps","2,2 mbps","2,5 mbps","3,3 mbps","4,5 mbps","6,4 mbps",...,65 mbps,66 mbps,78 mbps,80 mbps,82 mbps,83 mbps,85 mbps,90 mbps,92 mbps,95 mbps
count,29.0,1.0,524.0,1.0,1.0,1.0,3.0,1.0,1.0,1.0,...,2.0,1.0,1.0,16.0,1.0,1.0,1.0,2.0,2.0,1.0
mean,3.37931,225.0,2.173664,111.0,25.0,26.0,59.666667,6.0,65.0,13.0,...,7.0,1.0,2.0,174.6875,1.0,1.0,14.0,2.0,1.5,1.0
std,6.411005,,4.822112,,,,47.648015,,,,...,8.485281,,,300.673182,,,,1.414214,0.707107,
min,1.0,225.0,1.0,111.0,25.0,26.0,25.0,6.0,65.0,13.0,...,1.0,1.0,2.0,1.0,1.0,1.0,14.0,1.0,1.0,1.0
25%,1.0,225.0,1.0,111.0,25.0,26.0,32.5,6.0,65.0,13.0,...,4.0,1.0,2.0,7.0,1.0,1.0,14.0,1.5,1.25,1.0
50%,1.0,225.0,1.0,111.0,25.0,26.0,40.0,6.0,65.0,13.0,...,7.0,1.0,2.0,30.0,1.0,1.0,14.0,2.0,1.5,1.0
75%,3.0,225.0,1.0,111.0,25.0,26.0,77.0,6.0,65.0,13.0,...,10.0,1.0,2.0,114.75,1.0,1.0,14.0,2.5,1.75,1.0
max,31.0,225.0,61.0,111.0,25.0,26.0,114.0,6.0,65.0,13.0,...,13.0,1.0,2.0,952.0,1.0,1.0,14.0,3.0,2.0,1.0


In [None]:
import re
# Definir los rangos de velocidad
rangos = {
    '<0,5 Mbps': (0, 0.5),
    '0,5-1 Mbps': (0.5, 1),
    '1-6 Mbps': (1, 6),
    '6-10 Mbps': (6, 10),
    '10-20 Mbps': (10, 20),
    '20-30 Mbps': (20, 30),
    '>30 Mbps': (30, 101)
}

# Crear el nuevo DataFrame con los campos solicitados
nuevo_df = df5[['Provincia', 'Partido', 'Localidad']]



# Reagrupar los campos de velocidad en los rangos definidos
for rango, (min_val, max_val) in rangos.items():
    columnas_rango = [columna for columna in columnas_velocidad if min_val <= float(re.search(r'^(\d+(?:,\d+)?) mbps$', columna).group(1).replace(',', '.')) <= max_val]
    nuevo_df[rango] = df5[columnas_rango].sum(axis=1)

# Imprimir el nuevo DataFrame
print(nuevo_df)


         Provincia      Partido                           Localidad  \
0     BUENOS AIRES   25 de Mayo                          25 de Mayo   
1     BUENOS AIRES   25 de Mayo                     Agustín Mosconi   
2     BUENOS AIRES   25 de Mayo                           Del Valle   
3     BUENOS AIRES   25 de Mayo                           Ernestina   
4     BUENOS AIRES   25 de Mayo                   Gobernador Ugarte   
...            ...          ...                                 ...   
3093       TUCUMAN   Tafí Viejo  Villa Mariano Moreno - El Colmenar   
3094       TUCUMAN      Trancas                San Pedro de Colalao   
3095       TUCUMAN      Trancas                   Villa  de Trancas   
3096       TUCUMAN  Yerba Buena                       Villa Carmela   
3097       TUCUMAN  Yerba Buena            Yerba Buena - Marcos Paz   

      <0,5 Mbps  0,5-1 Mbps  1-6 Mbps  6-10 Mbps  10-20 Mbps  20-30 Mbps  \
0           0.0         0.0       0.0        0.0         0.0         0.

  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_gu

In [None]:
import re

# Definir los rangos de velocidad
rangos = {
    '<0,5 Mbps': (0, 0.5),
    '0,5-1 Mbps': (0.5, 1),
    '1-6 Mbps': (1, 6),
    '6-10 Mbps': (6, 10),
    '10-20 Mbps': (10, 20),
    '20-30 Mbps': (20, 30),
    '>30 Mbps': (30, float('inf'))
}

# Crear el nuevo DataFrame con los campos solicitados
nuevo_df = df5[['Provincia', 'Partido', 'Localidad']]

# Reagrupar los campos de velocidad en los rangos definidos
for rango, (min_val, max_val) in rangos.items():
    columnas_velocidad = [columna for columna in df5.columns if re.match(r'^\d+(?:,\d+)? mbps$', columna)]
    columnas_rango = [columna for columna in columnas_velocidad if min_val <= float(re.search(r'^(\d+(?:,\d+)?) mbps$', columna).group(1).replace(',', '.')) <= max_val]
    nuevo_df[rango] = df5[columnas_rango].sum(axis=1)

# Imprimir el nuevo DataFrame
print(nuevo_df)


         Provincia      Partido                           Localidad  \
0     BUENOS AIRES   25 de Mayo                          25 de Mayo   
1     BUENOS AIRES   25 de Mayo                     Agustín Mosconi   
2     BUENOS AIRES   25 de Mayo                           Del Valle   
3     BUENOS AIRES   25 de Mayo                           Ernestina   
4     BUENOS AIRES   25 de Mayo                   Gobernador Ugarte   
...            ...          ...                                 ...   
3093       TUCUMAN   Tafí Viejo  Villa Mariano Moreno - El Colmenar   
3094       TUCUMAN      Trancas                San Pedro de Colalao   
3095       TUCUMAN      Trancas                   Villa  de Trancas   
3096       TUCUMAN  Yerba Buena                       Villa Carmela   
3097       TUCUMAN  Yerba Buena            Yerba Buena - Marcos Paz   

      <0,5 Mbps  0,5-1 Mbps  1-6 Mbps  6-10 Mbps  10-20 Mbps  20-30 Mbps  \
0           0.0         0.0       0.0        0.0         0.0         0.

  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
  nuevo_df[rango] = df5[columnas_rango].sum(axis=1)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_gu

In [None]:
# Definir los rangos de velocidad
rangos = {
    '<0,5 Mbps': (0, 0.5),
    '0,5-1 Mbps': (0.5, 1),
    '1-6 Mbps': (1, 6),
    '6-10 Mbps': (6, 10),
    '10-20 Mbps': (10, 20),
    '20-30 Mbps': (20, 30),
    '>30 Mbps': (30, 101)
}

# Crear el nuevo DataFrame con los campos solicitados
df5_1 = df5[['Provincia', 'Partido', 'Localidad']]

# Reagrupar los campos de velocidad en los rangos definidos
for rango, (min_val, max_val) in rangos.items():
    columnas_velocidad = [columna for columna in df5.columns if columna.startswith(('0,', '>30'))]
    columnas_rango = [columna for columna in columnas_velocidad if min_val <= float(columna.replace(',', '.')) <= max_val]
    df5_1[rango] = df5[columnas_rango].sum(axis=1)

# Imprimir el nuevo DataFrame
print(df5_1)


ValueError: could not convert string to float: '0.256 mbps'

In [None]:
# Definir los rangos de velocidad
rangos = {
    '<0,5 Mbps': (0, 0.5),
    '0,5-1 Mbps': (0.5, 1),
    '1-6 Mbps': (1, 6),
    '6-10 Mbps': (6, 10),
    '10-20 Mbps': (10, 20),
    '20-30 Mbps': (20, 30),
    '>30 Mbps': (30, 101)
}

# Reagrupar los datos y crear nuevas columnas
for rango, (min_val, max_val) in rangos.items():
    column_name = f"{rango} Count"  # Nombre de la nueva columna
    df5[column_name] = df5.loc[:,:].apply(lambda row: row.between(min_val, max_val).astype(int).sum(), axis=1)

# Eliminar las columnas de velocidad originales
columnas_velocidad = list(rangos.keys())
df5 = df5.drop(columnas_velocidad, axis=1)

# Imprimir el DataFrame modificado
print(df5)


TypeError: '>=' not supported between instances of 'str' and 'int'

In [None]:
# Debido a la excesiva cantidad de campos se redefinen los rangos de velocidad
rangos = {
    '<0,5 Mbps': (0, 0.5),
    '0,5-1 Mbps': (0.5, 1),
    '1-6 Mbps': (1, 6),
    '6-10 Mbps': (6, 10),
    '10-20 Mbps': (10, 20),
    '20-30 Mbps': (20, 30),
    '>30 Mbps': (30, float('inf'))
}

# Se crea una nueva columna con los rangos de velocidad
df5['Rango de Velocidad'] = df5['0,256 mbps'].apply(lambda x: next((r for r, (min_val, max_val) in rangos.items() if min_val <= x < max_val), None))

# Seleccionar solo las columnas necesarias
columnas_deseadas = ['Provincia', 'Partido', 'Localidad', 'Otros', 'Rango de Velocidad']
df5 = df5[columnas_deseadas]

# Imprimir el DataFrame modificado
print(df5)


         Provincia      Partido                           Localidad Otros  \
0     BUENOS AIRES   25 de Mayo                          25 de Mayo   NaN   
1     BUENOS AIRES   25 de Mayo                     Agustín Mosconi   NaN   
2     BUENOS AIRES   25 de Mayo                           Del Valle   NaN   
3     BUENOS AIRES   25 de Mayo                           Ernestina   NaN   
4     BUENOS AIRES   25 de Mayo                   Gobernador Ugarte   NaN   
...            ...          ...                                 ...   ...   
3093       TUCUMAN   Tafí Viejo  Villa Mariano Moreno - El Colmenar   NaN   
3094       TUCUMAN      Trancas                San Pedro de Colalao   NaN   
3095       TUCUMAN      Trancas                   Villa  de Trancas   NaN   
3096       TUCUMAN  Yerba Buena                       Villa Carmela   NaN   
3097       TUCUMAN  Yerba Buena            Yerba Buena - Marcos Paz   176   

     Rango de Velocidad  
0                  None  
1                  None

In [None]:
df6 = pd.read_csv('Acceso_Internet_fijo_por_tecnología_y_provincia.csv', thousands='.', decimal=',')
df6.head()
df6.tail()

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
836,2014,1,Santa Fe,322662.0,174296.0,3059.0,5951.0,644.0,506612.0
837,2014,1,Santiago Del Estero,32567.0,3598.0,19.0,915.0,34.0,37133.0
838,2014,1,Tierra Del Fuego,21618.0,2837.0,648.0,1.0,2934.0,28038.0
839,2014,1,Tucumán,129717.0,83.0,121.0,13.0,98.0,130032.0
840,*,Los datos provinciales no coinciden a nivel na...,,,,,,,


In [None]:
# Se filtra filas con valores NaN en df6
filas_nan = df6[df6.isna().any(axis=1)]
print(filas_nan)
# Se elimina fila NaN
df6 = df6.drop(840)


    Año                                          Trimestre Provincia  ADSL  \
840   *  Los datos provinciales no coinciden a nivel na...       NaN   NaN   

     Cablemodem  Fibra óptica  Wireless  Otros  Total  
840         NaN           NaN       NaN    NaN    NaN  


In [None]:
# Se decide agregar el campo periodo a fines interpretativos en los graficos
# Se concatena los últimos 2 dígitos del campo 'Año' con 'T' y el campo 'Trimestre'
df6['Periodo'] = (df6['Año'].astype(str).str[-2:]) + '-T' + df6['Trimestre'].astype(str)

# Se verifica el dataset modificado
df6.head(35)


Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
0,2022,3,Buenos Aires,339648.0,2748325.0,1436433.0,126846.0,70416.0,4721668.0,22-T3
1,2022,3,Capital Federal,140791.0,1240125.0,129218.0,5758.0,31787.0,1547679.0,22-T3
2,2022,3,Catamarca,10010.0,10495.0,46224.0,1329.0,2235.0,70293.0,22-T3
3,2022,3,Chaco,27164.0,61800.0,44645.0,8178.0,2359.0,144146.0,22-T3
4,2022,3,Chubut,45377.0,72212.0,9574.0,29784.0,8831.0,165778.0,22-T3
5,2022,3,Córdoba,163770.0,465461.0,338570.0,61070.0,9797.0,1038668.0,22-T3
6,2022,3,Corrientes,36508.0,77140.0,18619.0,7256.0,5323.0,144846.0,22-T3
7,2022,3,Entre Ríos,60345.0,132952.0,36971.0,26098.0,12593.0,268959.0,22-T3
8,2022,3,Formosa,14470.0,25880.0,11041.0,16935.0,212.0,68538.0,22-T3
9,2022,3,Jujuy,19257.0,52978.0,40172.0,4033.0,2383.0,118823.0,22-T3


In [None]:
# Se exporta csv modificado
#df6.to_csv('Acceso_Internet_fijo_por_tecnología_y_provincia(ETL).csv', index=False)

In [None]:
# Se carga dataset
df7 = pd.read_csv('Serie_trimestral_accesos_Internet_fijo_por_tecnología.csv', thousands='.', decimal=',')
df7.head()

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
0,2022,3,1395277,6031970,2871541,557110,235230,11091128,Jul-Sept 2022
1,2022,2,1468333,5979214,2723285,556243,231609,10958684,Abr-Jun 2022
2,2022,1,1533240,6073426,2219533,545814,251996,10624009,Ene-Mar 2022
3,2021,4,1657615,5984240,2072236,523107,252596,10489794,Oct-Dic 2021
4,2021,3,1950631,5826257,1566048,492415,250190,10085541,Jul-Sept 2021
5,2021,2,2018587,5641731,1472246,476968,253552,9863084,Abr-Jun 2021
6,2021,1,2175211,5424782,1362976,434548,250455,9647972,Ene-Mar 2021
7,2020,4,2213949,5371824,1311199,421554,253036,9571562,Oct-Dic 2020
8,2020,3,2263889,5259351,1170879,413259,248821,9356199,Jul-Sept 2020
9,2020,2,2295533,5005115,1106725,376667,247016,9031056,Abr-Jun 2020


In [None]:
# Se reemplaza el campo periodo a fines interpretativos en los graficos
# Se concatena los últimos 2 dígitos del campo 'Año' con 'T' y el campo 'Trimestre'
df7['Periodo'] = (df7['Año'].astype(str).str[-2:]) + '-T' + df7['Trimestre'].astype(str)

# Se verifica el dataset modificado
df7.head()

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
0,2022,3,1395277,6031970,2871541,557110,235230,11091128,22-T3
1,2022,2,1468333,5979214,2723285,556243,231609,10958684,22-T2
2,2022,1,1533240,6073426,2219533,545814,251996,10624009,22-T1
3,2021,4,1657615,5984240,2072236,523107,252596,10489794,21-T4
4,2021,3,1950631,5826257,1566048,492415,250190,10085541,21-T3


In [None]:
df_7 = df7[['Periodo', 'ADSL', 'Cablemodem', 'Fibra óptica', 'Wireless', 'Otros', 'Total']]

# Se calcula el porcentaje respecto al campo 'Total'
df_7['ADSL'] = (df_7['ADSL'] / df_7['Total']) * 100
df_7['Cablemodem'] = (df_7['Cablemodem'] / df_7['Total']) * 100
df_7['Fibra óptica'] = (df_7['Fibra óptica'] / df_7['Total']) * 100
df_7['Wireless'] = (df_7['Wireless'] / df_7['Total']) * 100
df_7['Otros'] = (df_7['Otros'] / df_7['Total']) * 100
df_7.round(1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_7['ADSL'] = (df_7['ADSL'] / df_7['Total']) * 100
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_7['Cablemodem'] = (df_7['Cablemodem'] / df_7['Total']) * 100
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_7['Fibra óptica'] = (df_7['Fibra óptica'] / df_7['Total']) * 100
A value is trying to 

Unnamed: 0,Periodo,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,22-T3,12.6,54.4,25.9,5.0,2.1,11091128
1,22-T2,13.4,54.6,24.9,5.1,2.1,10958684
2,22-T1,14.4,57.2,20.9,5.1,2.4,10624009
3,21-T4,15.8,57.0,19.8,5.0,2.4,10489794
4,21-T3,19.3,57.8,15.5,4.9,2.5,10085541
5,21-T2,20.5,57.2,14.9,4.8,2.6,9863084
6,21-T1,22.5,56.2,14.1,4.5,2.6,9647972
7,20-T4,23.1,56.1,13.7,4.4,2.6,9571562
8,20-T3,24.2,56.2,12.5,4.4,2.7,9356199
9,20-T2,25.4,55.4,12.3,4.2,2.7,9031056


In [None]:
# Se exporta csv modificado
#df7.to_csv('Serie_trimestral_accesos_Internet_fijo_por_tecnología(ETL).csv', index=False)

In [None]:
df8 = pd.read_csv('Velocidad_media_bajada_Internet_fijo_por_provincia.csv', thousands='.', decimal=',')
df8.head(24)

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada),Unnamed: 4,Unnamed: 5
0,2022,3,Buenos Aires,70,,
1,2022,3,Capital Federal,101,,
2,2022,3,Catamarca,61,,
3,2022,3,Chaco,53,,
4,2022,3,Chubut,16,,
5,2022,3,Córdoba,56,,
6,2022,3,Corrientes,45,,
7,2022,3,Entre Ríos,42,,
8,2022,3,Formosa,30,,
9,2022,3,Jujuy,32,,


In [None]:
# Se filtran los datos para el año 2022 y el tercer trimestre
df_filtered = df8[(df8['Año'] == 2022) & (df8['Trimestre'] == 3)]

# S calcula el promedio de la velocidad media de bajada para las 24 provincias
velocidad_media = df_filtered['Mbps (Media de bajada)'].mean()

# Se imprime el resultado
print("Velocidad media de bajada para Internet fijo en el año 2022 y el tercer trimestre: {:.2f} Mbps".format(velocidad_media))


Velocidad media de bajada para Internet fijo en el año 2022 y el tercer trimestre: 39.54 Mbps


In [None]:
df8.dropna(axis=1, inplace=True)

In [None]:
# Se reemplaza el campo periodo a fines interpretativos en los graficos
# Se concatena los últimos 2 dígitos del campo 'Año' con 'T' y el campo 'Trimestre'
df8['Periodo'] = (df8['Año'].astype(str).str[-2:]) + '-T' + df8['Trimestre'].astype(str)

# Se verifica el dataset modificado
df8.head()

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada),Periodo
0,2022,3,Buenos Aires,70,22-T3
1,2022,3,Capital Federal,101,22-T3
2,2022,3,Catamarca,61,22-T3
3,2022,3,Chaco,53,22-T3
4,2022,3,Chubut,16,22-T3


In [None]:
# Se exporta csv modificado
#df8.to_csv('Datasets_originales\Velocidad_media_bajada_Internet_fijo_por_provincia(ETL).csv', index=False)