# **ETL inicial**

#### Primeramente se realizara una visión general de los diferentes archivos obtenidos, para poder extraer posibles parámetros de conexión y de relación entre los diferentes conjuntos de datos obtenidos. Posteriormente se observaran distribuciones de datos e información que pudiese ser de utilidad para la creación y posterior análisis de KPIs en algún entorno de visualización como Power BI

### Cargo los nombres de los archivos y genero un diccionario para simplificar su manejo y evitar el uso de nombres largos.

In [2]:
import os
import pandas as pd
import numpy as np

archivos = os.listdir('./datastreams/')
archivos = [file for file in archivos if file.endswith('.csv')]

diccio_nombres = {'df{}'.format(i+1): file for i, file in enumerate(archivos)}


In [18]:
diccio_nombres

{'df1': 'accesos_a_banda_ancha_y_banda_angosta_por_provincia.csv',
 'df2': 'accesos_a_internet_fijo_por_tecnologia_y_localidad.csv',
 'df3': 'accesos_a_internet_fijo_por_velocidad_bajada_y_provincia.csv',
 'df4': 'accesos_a_internet_fijo_por_velocidad_de_bajada_y_localidad.csv',
 'df5': 'acceso_a_internet_fijo_por_rangos_de_velocidad_de_bajada_y_provincia.csv',
 'df6': 'acceso_a_internet_fijo_por_tecnologia_y_provincia.csv',
 'df7': 'conectividad_al_servicio_de_internet.csv',
 'df8': 'indicadores_macroeconomicos.csv',
 'df9': 'ingresos_por_la_operacion_del_servicio_de_internet_fijo.csv',
 'df10': 'listado_de_localidades_con_conectividad_a_internet..csv',
 'df11': 'penetracion_del_internet_fijo_por_provincia_(accesos_por_cada_100_habitantes).csv',
 'df12': 'penetracion_del_internet_fijo_por_provincia_(accesos_por_cada_100_hogares).csv',
 'df13': 'penetracion_nacional_del_internet_fijo.csv',
 'df14': 'total_nacional_de_accesos_a_internet_fijo_por_banda_ancha_y_banda_angosta.csv',
 'df15'

### Archivo 1 --> **accesos_a_banda_ancha_y_banda_angosta_por_provincia.csv**

In [126]:
diccio_nombres['df1']

'accesos_a_banda_ancha_y_banda_angosta_por_provincia.csv'

In [50]:
import pandas as pd

df1 = pd.read_csv('./datastreams/' + diccio_nombres['df1'], decimal=',', thousands='.') 

In [35]:
df1.head()

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,3,Buenos Aires,4715469,6.199,4721668
1,2022,3,Capital Federal,1545534,2.145,1547679
2,2022,3,Catamarca,70292,1.0,70293
3,2022,3,Chaco,144141,5.0,144146
4,2022,3,Chubut,164874,904.0,165778


In [51]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               840 non-null    int64 
 1   Trimestre         840 non-null    int64 
 2   Provincia         840 non-null    object
 3   Banda ancha fija  840 non-null    int64 
 4   Dial up           838 non-null    object
 5   Total             840 non-null    int64 
dtypes: int64(4), object(2)
memory usage: 39.5+ KB


In [52]:
df1[df1['Dial up'].isna()]

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
416,2018,2,Formosa,44554,,44554
421,2018,2,Misiones,106147,,106147


In [53]:
df1['Dial up'].fillna(0, inplace=True)

In [54]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               840 non-null    int64 
 1   Trimestre         840 non-null    int64 
 2   Provincia         840 non-null    object
 3   Banda ancha fija  840 non-null    int64 
 4   Dial up           840 non-null    object
 5   Total             840 non-null    int64 
dtypes: int64(4), object(2)
memory usage: 39.5+ KB


In [13]:
df1.Año.unique()

array([2022, 2021, 2020, 2019, 2018, 2017, 2016, 2015, 2014], dtype=int64)

In [23]:
df1.Provincia.nunique()

24

In [55]:
df1['Dial up'] = df1['Dial up'].replace('- 0', '0')
df1['Dial up'] = df1['Dial up'].apply(lambda x: str(x).replace('.', ''))


In [60]:
df1['Dial up'] = df1['Dial up'].astype(int)

In [61]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               840 non-null    int64 
 1   Trimestre         840 non-null    int64 
 2   Provincia         840 non-null    object
 3   Banda ancha fija  840 non-null    int64 
 4   Dial up           840 non-null    int32 
 5   Total             840 non-null    int64 
dtypes: int32(1), int64(4), object(1)
memory usage: 36.2+ KB


In [62]:
df1.to_csv('./datastreams/' + diccio_nombres['df1'], index=False)

Se puede observar que se considera **Capital Federal** como una provincia más, dado que su conteo da 24. En este archivo se reemplazo -0 por el valor 0 correspondiente y se casteo el tipo de datos al correcto, además de completar unos escasos nulos por 0 dado que los campos eran de tipo **int**

### Archivo 2 --> **accesos_a_internet_fijo_por_tecnologia_y_localidad.csv**

In [76]:
diccio_nombres['df2']

'accesos_a_internet_fijo_por_tecnologia_y_localidad.csv'

In [66]:
df2 = pd.read_csv('./datastreams/' + diccio_nombres['df2'], decimal = ',', thousands='.' )

In [68]:
df2.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general,Unnamed: 13
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,873,4.704,- 0,2,- 0,975,- 0,664,7.218,
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,- 0,- 0,- 0,10,1,- 0,- 0,192.0,
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,- 0,- 0,- 0,- 0,- 0,- 0,- 0,181,181.0,
3,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,- 0,782,- 0,6,167,- 0,- 0,327,1.282,
4,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,- 0,- 0,- 0,- 0,- 0,- 0,- 0,6,6.0,


In [69]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3142 entries, 0 to 3141
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Provincia      3142 non-null   object 
 1   Partido        3142 non-null   object 
 2   Localidad      3142 non-null   object 
 3   Link Indec     3142 non-null   object 
 4   ADSL           3142 non-null   object 
 5   CABLEMODEM     3142 non-null   object 
 6   DIAL UP        3142 non-null   object 
 7   FIBRA OPTICA   3142 non-null   object 
 8   OTROS          3142 non-null   object 
 9   SATELITAL      3142 non-null   object 
 10  WIMAX          3142 non-null   object 
 11  WIRELESS       3142 non-null   object 
 12  Total general  3142 non-null   object 
 13  Unnamed: 13    0 non-null      float64
dtypes: float64(1), object(13)
memory usage: 343.8+ KB


In [70]:
df2.drop(columns='Unnamed: 13', inplace=True)

In [74]:
df2['ADSL'] = df2['ADSL'].replace('- 0', 0)
df2['CABLEMODEM'] = df2['CABLEMODEM'].replace('- 0', 0)
df2['DIAL UP'] = df2['DIAL UP'].replace('- 0', 0)
df2['FIBRA OPTICA'] = df2['FIBRA OPTICA'].replace('- 0', 0)
df2['OTROS'] = df2['OTROS'].replace('- 0', 0)
df2['SATELITAL'] = df2['SATELITAL'].replace('- 0', 0)
df2['WIMAX'] = df2['WIMAX'].replace('- 0', 0)
df2['WIRELESS'] = df2['WIRELESS'].replace('- 0', 0)
df2['Total general'] = df2['Total general'].replace('- 0', 0)

In [75]:
df2['ADSL'] = df2['ADSL'].apply(lambda x: str(x).replace('.', ''))
df2['CABLEMODEM'] = df2['CABLEMODEM'].apply(lambda x: str(x).replace('.', ''))
df2['DIAL UP'] = df2['DIAL UP'].apply(lambda x: str(x).replace('.', ''))
df2['FIBRA OPTICA'] = df2['FIBRA OPTICA'].apply(lambda x: str(x).replace('.', ''))
df2['OTROS'] = df2['OTROS'].apply(lambda x: str(x).replace('.', ''))
df2['SATELITAL'] = df2['SATELITAL'].apply(lambda x: str(x).replace('.', ''))
df2['WIMAX'] = df2['WIMAX'].apply(lambda x: str(x).replace('.', ''))
df2['WIRELESS'] = df2['WIRELESS'].apply(lambda x: str(x).replace('.', ''))
df2['Total general'] = df2['Total general'].apply(lambda x: str(x).replace('.', ''))

In [77]:
df2['ADSL'] = df2['ADSL'].astype(int)
df2['CABLEMODEM'] = df2['CABLEMODEM'].astype(int)
df2['DIAL UP'] = df2['DIAL UP'].astype(int)
df2['FIBRA OPTICA'] = df2['FIBRA OPTICA'].astype(int)
df2['OTROS'] = df2['OTROS'].astype(int)
df2['SATELITAL'] = df2['SATELITAL'].astype(int)
df2['WIMAX'] = df2['WIMAX'].astype(int)
df2['WIRELESS'] = df2['WIRELESS'].astype(int)
df2['Total general'] = df2['Total general'].astype(int)

In [94]:
df2[df2['Link Indec'] == 'Sin Datos']

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
88,BUENOS AIRES,Bolívar,OTROS,Sin Datos,0,1,0,1,0,0,0,0,2
193,BUENOS AIRES,Exaltación de la Cruz,OTROS,Sin Datos,0,0,0,0,0,0,0,84,84
201,BUENOS AIRES,Ezeiza,OTROS,Sin Datos,3,1,0,5,0,0,0,0,9
239,BUENOS AIRES,General Lavalle,OTROS,Sin Datos,0,0,0,1,0,0,0,0,1
259,BUENOS AIRES,General Pueyrredón,OTROS,Sin Datos,0,0,0,151,0,0,0,0,151
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3071,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Orcadas,Sin Datos,0,0,0,0,0,1,0,0,1
3072,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Belgrano Ii,Sin Datos,0,0,0,1,0,0,0,0,1
3073,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base San Martin,Sin Datos,0,0,0,1,0,0,0,0,1
3075,TUCUMAN,Burruyacú,OTROS,Sin Datos,0,0,0,0,0,1,0,0,1


In [102]:
df2[df2['Link Indec'].duplicated()].head(20)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
26,BUENOS AIRES,Almirante Brown,Burzaco,6028010,142,16127,35,11335,40,2,0,292,27973
27,BUENOS AIRES,Almirante Brown,Claypole,6028010,5,7568,3,4149,13,0,0,2,11740
28,BUENOS AIRES,Almirante Brown,Don Orione,6028010,0,5184,0,0,0,0,0,1,5185
29,BUENOS AIRES,Almirante Brown,Glew,6028010,55,7978,10,11652,12,0,0,54,19761
30,BUENOS AIRES,Almirante Brown,Jose Mármol,6028010,0,7374,1,1410,2,0,0,1,8788
31,BUENOS AIRES,Almirante Brown,Longchamps,6028010,30,9559,20,14739,24,0,0,1,24373
32,BUENOS AIRES,Almirante Brown,Malvinas Argentinas,6028010,2,5311,3,54,2,0,0,1,5373
33,BUENOS AIRES,Almirante Brown,Ministro Rivadavia,6028010,3,3418,4,4066,4,0,0,1,7496
34,BUENOS AIRES,Almirante Brown,Rafael Calzada,6028010,37,10375,15,9925,193,0,0,340,20885
35,BUENOS AIRES,Almirante Brown,San Francisco Solano,6028010,26,4232,4,3261,131,0,0,2,7656


In [103]:
df2['Link Indec'].duplicated().sum()

424

In [2]:
df2 = pd.read_csv('./datastreams/' + diccio_nombres['df2'])

In [104]:
df2.to_csv('./datastreams/' + diccio_nombres['df2'],index=False)

En este archivo se realizo el reemplazó de -0 po el correspondiente valor 0 donde correspondía. Además se observo que **Link Indec** se asocia al **Partido** en cuestión. Además de castear los tipos de datos donde correspondiece. Otra cosa a destacar es que el campo **Link Indec** posee 424 registros **Sin Datos**, por ende se deja dicho campo como **object** y no a **int** como correspondería.

### Archivo 3 --> **accesos_a_internet_fijo_por_velocidad_bajada_y_provincia.csv**

In [41]:
diccio_nombres['df3']

'accesos_a_internet_fijo_por_velocidad_bajada_y_provincia.csv'

In [42]:
df3 = pd.read_csv('./datastreams/' + diccio_nombres['df3'], dtype = str)
df3.head()

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,70 Mbps,71 Mbps,75 Mbps,77 Mbps,78 Mbps,80 Mbps,81 Mbps,83 Mbps,82 Mbps,86 Mbps
0,2022,1,Buenos Aires,26280,19,- 0,- 0,31380,192,5958,...,3163,- 0,100884,- 0,4,212,- 0,2,- 0,- 0
1,2022,1,Capital Federal,1717,31,- 0,- 0,461,35,1407,...,3,- 0,31684,- 0,- 0,8,- 0,- 0,- 0,- 0
2,2022,1,Catamarca,2207,- 0,- 0,- 0,34,37,- 0,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0
3,2022,1,Chaco,7580,- 0,225,111,234,2,- 0,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0
4,2022,1,Chubut,15607,8,- 0,- 0,73,32,1069,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0


In [30]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 433 entries, 0 to 432
Data columns (total 97 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Año         432 non-null    object
 1   Trimestre   432 non-null    object
 2   Provincia   432 non-null    object
 3   Otros       432 non-null    object
 4   0,256 Mbps  432 non-null    object
 5   0,375 Mbps  432 non-null    object
 6   0,625 Mbps  432 non-null    object
 7   0,5 Mbps    432 non-null    object
 8   0,512 Mbps  432 non-null    object
 9   0,75 Mbps   432 non-null    object
 10  1 Mbps      432 non-null    object
 11  1,2 Mbps    432 non-null    object
 12  1,25 Mbps   432 non-null    object
 13  1,5 Mbps    432 non-null    object
 14  2 Mbps      432 non-null    object
 15  2,2 Mbps    432 non-null    object
 16  2,5 Mbps    433 non-null    object
 17  6,7 Mbps    432 non-null    object
 18  3 Mbps      432 non-null    object
 19  3,2 Mbps    432 non-null    object
 20  3,3 Mbps  

In [43]:
df3[df3.Año.isna()]

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,70 Mbps,71 Mbps,75 Mbps,77 Mbps,78 Mbps,80 Mbps,81 Mbps,83 Mbps,82 Mbps,86 Mbps
432,,,,,,,,,,,...,,,,,,,,,,


In [44]:
df3 = df3.dropna(subset=['Año', 'Trimestre', 'Provincia'], how= 'all')

In [45]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 432 entries, 0 to 431
Data columns (total 97 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Año         432 non-null    object
 1   Trimestre   432 non-null    object
 2   Provincia   432 non-null    object
 3   Otros       432 non-null    object
 4   0,256 Mbps  432 non-null    object
 5   0,375 Mbps  432 non-null    object
 6   0,625 Mbps  432 non-null    object
 7   0,5 Mbps    432 non-null    object
 8   0,512 Mbps  432 non-null    object
 9   0,75 Mbps   432 non-null    object
 10  1 Mbps      432 non-null    object
 11  1,2 Mbps    432 non-null    object
 12  1,25 Mbps   432 non-null    object
 13  1,5 Mbps    432 non-null    object
 14  2 Mbps      432 non-null    object
 15  2,2 Mbps    432 non-null    object
 16  2,5 Mbps    432 non-null    object
 17  6,7 Mbps    432 non-null    object
 18  3 Mbps      432 non-null    object
 19  3,2 Mbps    432 non-null    object
 20  3,3 Mbps    432

In [46]:
df3.Año = df3.Año.astype(int)
df3.Trimestre = df3.Trimestre.astype(int)

In [47]:
df3 = df3.applymap(lambda x: 0 if str(x) == '- 0' else x)

In [48]:
columnas_flotantes = df3.columns.difference(['Año', 'Trimestre', 'Provincia'])

In [49]:
df3[columnas_flotantes] = df3[columnas_flotantes].applymap(lambda x: str(x).replace(',' , ''))
df3[columnas_flotantes] = df3[columnas_flotantes].applymap(lambda x: str(x).replace('.' , ''))

In [50]:
df3[columnas_flotantes] = df3[columnas_flotantes].astype(int)

In [51]:
df3.head()

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,70 Mbps,71 Mbps,75 Mbps,77 Mbps,78 Mbps,80 Mbps,81 Mbps,83 Mbps,82 Mbps,86 Mbps
0,2022,1,Buenos Aires,26280,19,0,0,31380,192,5958,...,3163,0,100884,0,4,212,0,2,0,0
1,2022,1,Capital Federal,1717,31,0,0,461,35,1407,...,3,0,31684,0,0,8,0,0,0,0
2,2022,1,Catamarca,2207,0,0,0,34,37,0,...,0,0,0,0,0,0,0,0,0,0
3,2022,1,Chaco,7580,0,225,111,234,2,0,...,0,0,0,0,0,0,0,0,0,0
4,2022,1,Chubut,15607,8,0,0,73,32,1069,...,0,0,0,0,0,0,0,0,0,0


In [52]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
Index: 432 entries, 0 to 431
Data columns (total 97 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Año         432 non-null    int64 
 1   Trimestre   432 non-null    int64 
 2   Provincia   432 non-null    object
 3   Otros       432 non-null    int32 
 4   0,256 Mbps  432 non-null    int32 
 5   0,375 Mbps  432 non-null    int32 
 6   0,625 Mbps  432 non-null    int32 
 7   0,5 Mbps    432 non-null    int32 
 8   0,512 Mbps  432 non-null    int32 
 9   0,75 Mbps   432 non-null    int32 
 10  1 Mbps      432 non-null    int32 
 11  1,2 Mbps    432 non-null    int32 
 12  1,25 Mbps   432 non-null    int32 
 13  1,5 Mbps    432 non-null    int32 
 14  2 Mbps      432 non-null    int32 
 15  2,2 Mbps    432 non-null    int32 
 16  2,5 Mbps    432 non-null    int32 
 17  6,7 Mbps    432 non-null    int32 
 18  3 Mbps      432 non-null    int32 
 19  3,2 Mbps    432 non-null    int32 
 20  3,3 Mbps    432

In [53]:
df3.to_csv('./datastreams/' + diccio_nombres['df3'], index=False)

In [54]:
df3.duplicated().sum()

0

En este caso debió eliminarse aquellos registros sin la información que representa el registro. A su vez se castearon los tipos de datos y se siguió con el cambio de -0 por 0.

### Archivo 4 --> **accesos_a_internet_fijo_por_velocidad_de_bajada_y_localidad.csv**

In [4]:
diccio_nombres['df4']

'accesos_a_internet_fijo_por_velocidad_de_bajada_y_localidad.csv'

In [7]:
df4 = pd.read_csv('./datastreams/' + diccio_nombres['df4'], thousands=',')
df4.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 mbps","0,375 mbps","0,5 mbps","0,512 mbps","0,625 mbps",...,75 mbps,78 mbps,80 mbps,82 mbps,83 mbps,85 mbps,90 mbps,92 mbps,95 mbps,100 mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,,,,2.0,,,...,,,9.0,,,,,,,
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,,,,,,,...,,,,,,,,,,
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,,,,1.0,,,...,,,,,,,,,,
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,,,,,,,...,,,,,,,,,,
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,,,,,,,...,,,,,,,,,,


In [8]:
df4.shape

(3098, 83)

In [9]:
df4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3098 entries, 0 to 3097
Data columns (total 83 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Provincia   3098 non-null   object 
 1   Partido     3098 non-null   object 
 2   Localidad   3098 non-null   object 
 3   Link Indec  3098 non-null   object 
 4   Otros       956 non-null    float64
 5   0,256 mbps  29 non-null     float64
 6   0,375 mbps  1 non-null      float64
 7   0,5 mbps    643 non-null    float64
 8   0,512 mbps  524 non-null    float64
 9   0,625 mbps  1 non-null      float64
 10  0,75 mbps   284 non-null    float64
 11  1 mbps      931 non-null    float64
 12  1,25 mbps   1 non-null      float64
 13  1,5 mbps    16 non-null     float64
 14  2 mbps      741 non-null    float64
 15  2,2 mbps    1 non-null      float64
 16  2,5 mbps    3 non-null      float64
 17  3 mbps      1388 non-null   float64
 18  3,3 mbps    1 non-null      float64
 19  3,5 mbps    373 non-null   

In [10]:
print('Provincias --> {}'.format(df4.Provincia.nunique()))
print('Localidades --> {}'.format(df4.Localidad.nunique()))
print('Partidos --> {}'.format(df4.Partido.nunique()))
print('Link Indec --> {}'.format(df4['Link Indec'].nunique()))

Provincias --> 24
Localidades --> 2801
Partidos --> 432
Link Indec --> 2679


In [11]:
df4[df4['Link Indec'].duplicated()]

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 mbps","0,375 mbps","0,5 mbps","0,512 mbps","0,625 mbps",...,75 mbps,78 mbps,80 mbps,82 mbps,83 mbps,85 mbps,90 mbps,92 mbps,95 mbps,100 mbps
29,BUENOS AIRES,Almirante Brown,Burzaco,6028010,50.0,1.0,,9.0,1.0,,...,885.0,,,,,,,,,5258.0
30,BUENOS AIRES,Almirante Brown,Claypole,6028010,,,,,,,...,459.0,,,,,,,,,2381.0
31,BUENOS AIRES,Almirante Brown,Don Orione,6028010,,,,,,,...,420.0,,,,,,,,,1166.0
32,BUENOS AIRES,Almirante Brown,Glew,6028010,1.0,,,5.0,,,...,752.0,,,,,,,,,1520.0
33,BUENOS AIRES,Almirante Brown,Jose Mármol,6028010,,,,,,,...,355.0,,,,,,,,,2432.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3023,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Orcadas,Sin Datos,,,,,,,...,,,,,,,,,,
3024,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base San Martin,Sin Datos,,,,,,,...,,,,,,,,,,
3025,TIERRA DEL FUEGO,OTROS,Otros,Sin Datos,443.0,,,,,,...,,,,,,,,,,
3032,TUCUMAN,Burruyacú,Otros,Sin Datos,,,,1.0,,,...,,,,,,,,,,


In [12]:
columnas_int = df4.columns.difference(['Provincia', 'Partido', 'Localidad', 'Link Indec'])
df4[columnas_int] = df4[columnas_int].fillna(0)

In [13]:
df4.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 mbps","0,375 mbps","0,5 mbps","0,512 mbps","0,625 mbps",...,75 mbps,78 mbps,80 mbps,82 mbps,83 mbps,85 mbps,90 mbps,92 mbps,95 mbps,100 mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.0,0.0,0.0,2.0,0.0,0.0,...,0.0,0.0,9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [14]:
df4[columnas_int] = df4[columnas_int].astype(int)

In [15]:
df4.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 mbps","0,375 mbps","0,5 mbps","0,512 mbps","0,625 mbps",...,75 mbps,78 mbps,80 mbps,82 mbps,83 mbps,85 mbps,90 mbps,92 mbps,95 mbps,100 mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0,0,0,2,0,0,...,0,0,9,0,0,0,0,0,0,0
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,0,0,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [16]:
df4[df4.duplicated()]

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 mbps","0,375 mbps","0,5 mbps","0,512 mbps","0,625 mbps",...,75 mbps,78 mbps,80 mbps,82 mbps,83 mbps,85 mbps,90 mbps,92 mbps,95 mbps,100 mbps


In [17]:
df4.to_csv('./datastreams/' + diccio_nombres['df4'], index = False)

En este caso surge nuevamente vacíos de datos en **Partido** y **Localidad** que figuran como **OTROS** y **Otros** respectivamente y en el campo **Link Indec** como **Sin Datos**. Además dada la división por localidad se encuentra una gran cantidad de valores nulos NaN, los mismos se transformaron a 0 para modificar posterior todos los tipos de datos a **int** de manera de simplificar su uso si se requiere.

### Archivo 5 --> **acceso_a_internet_fijo_por_rangos_de_velocidad_de_bajada_y_provincia.csv**

In [141]:
diccio_nombres['df5']

'acceso_a_internet_fijo_por_rangos_de_velocidad_de_bajada_y_provincia.csv'

In [155]:
df5 = pd.read_csv('./datastreams/' + diccio_nombres['df5'], dtype=str)
df5.head()

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2022,3,Buenos Aires,29.985,27.709,290.315,297.915,267.044,124.19,3.618.689,65.821,4.721.668
1,2022,3,Capital Federal,517.0,5.742,34.371,67.829,51.946,28.692,1.253.105,105.477,1.547.679
2,2022,3,Catamarca,71.0,384.0,3.107,5.389,5.099,3.737,50.298,2.208,70.293
3,2022,3,Chaco,461.0,987.0,16.782,18.938,8.049,15.828,79.390,3.711,144.146
4,2022,3,Chubut,109.0,1.444,45.707,30.94,34.682,15.309,17.563,20.024,165.778


In [156]:
df5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Año                  840 non-null    object
 1   Trimestre            840 non-null    object
 2   Provincia            840 non-null    object
 3   HASTA 512 kbps       840 non-null    object
 4   + 512 Kbps - 1 Mbps  840 non-null    object
 5   + 1 Mbps - 6 Mbps    840 non-null    object
 6   + 6 Mbps - 10 Mbps   840 non-null    object
 7   + 10 Mbps - 20 Mbps  840 non-null    object
 8   + 20 Mbps - 30 Mbps  840 non-null    object
 9   + 30 Mbps            840 non-null    object
 10  OTROS                834 non-null    object
 11  Total                840 non-null    object
dtypes: object(12)
memory usage: 78.9+ KB


In [157]:
df5[df5['OTROS'].isna()]

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
313,2019,2,Capital Federal,74,1.027,281.37,124.087,239.691,296.155,475.991,,1.418.395
323,2019,2,La Rioja,9,11.0,39.819,4.297,4.857,13.0,1.298,,50.304
324,2019,2,Mendoza,20,2.522,205.165,2.971,10.092,1.256,234.0,,222.260
331,2019,2,Santa Cruz,25,84.0,24.861,3.806,1.202,28.0,4.0,,30.010
334,2019,2,Tierra Del Fuego,6,123.0,41.824,4.241,1.573,96.0,32.0,,47.895
335,2019,2,Tucumán,16,157.0,78.891,44.296,24.291,628.0,18.394,,166.673


In [158]:
df5['OTROS'].fillna(0, inplace=True)
df5[df5['OTROS'].isna()]

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total


In [152]:
df5.iloc[[155, 163]] 

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
155,2021,1,La Rioja,18,1,36.749,5.968,4.604,215.0,5.074,-1.0,52.628
163,2021,1,Santa Cruz,50,0,30.655,8.334,6.987,1.337,647.0,-1.945,46.065


In [159]:
columnas_int = df5.columns.difference(['Año', 'Trimestre', 'Provincia'])

In [162]:
df5[columnas_int] = df5[columnas_int].applymap( lambda x: str(x).replace('.', ''))

In [163]:
df5[columnas_int] = df5[columnas_int].astype(int)

In [164]:
df5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   Año                  840 non-null    object
 1   Trimestre            840 non-null    object
 2   Provincia            840 non-null    object
 3   HASTA 512 kbps       840 non-null    int32 
 4   + 512 Kbps - 1 Mbps  840 non-null    int32 
 5   + 1 Mbps - 6 Mbps    840 non-null    int32 
 6   + 6 Mbps - 10 Mbps   840 non-null    int32 
 7   + 10 Mbps - 20 Mbps  840 non-null    int32 
 8   + 20 Mbps - 30 Mbps  840 non-null    int32 
 9   + 30 Mbps            840 non-null    int32 
 10  OTROS                840 non-null    int32 
 11  Total                840 non-null    int32 
dtypes: int32(9), object(3)
memory usage: 49.3+ KB


In [165]:
df5.head()

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2022,3,Buenos Aires,29985,27709,290315,297915,267044,124190,3618689,65821,4721668
1,2022,3,Capital Federal,517,5742,34371,67829,51946,28692,1253105,105477,1547679
2,2022,3,Catamarca,71,384,3107,5389,5099,3737,50298,2208,70293
3,2022,3,Chaco,461,987,16782,18938,8049,15828,79390,3711,144146
4,2022,3,Chubut,109,1444,45707,30940,34682,15309,17563,20024,165778


In [184]:
df5.to_csv('./datastreams/' + diccio_nombres['df5'], index=False)

Mismo proceso que en casos anteriores, eliminación de nulos y casteo de datos a su formato correcto

### Archivo 6 --> **acceso_a_internet_fijo_por_tecnologia_y_provincia.csv**

In [23]:
diccio_nombres['df6']

'acceso_a_internet_fijo_por_tecnologia_y_provincia.csv'

In [13]:
df6 = pd.read_csv('./datastreams/' + diccio_nombres['df6'], dtype = str)
df6.head()

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,3,Buenos Aires,339648,2748325,1436433,126846,70416,4721668
1,2022,3,Capital Federal,140791,1240125,129218,5758,31787,1547679
2,2022,3,Catamarca,10010,10495,46224,1329,2235,70293
3,2022,3,Chaco,27164,61800,44645,8178,2359,144146
4,2022,3,Chubut,45377,72212,9574,29784,8831,165778


In [28]:
df6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Año           840 non-null    object
 1   Trimestre     840 non-null    object
 2   Provincia     840 non-null    object
 3   ADSL          840 non-null    object
 4   Cablemodem    840 non-null    object
 5   Fibra óptica  840 non-null    object
 6   Wireless      840 non-null    object
 7   Otros         840 non-null    object
 8   Total         840 non-null    object
dtypes: object(9)
memory usage: 59.2+ KB


In [183]:
df6 = df6.dropna(subset=['Año', 'Trimestre', 'Provincia'], how= 'any')

In [30]:
df6.isna().sum()

Año             0
Trimestre       0
Provincia       0
ADSL            0
Cablemodem      0
Fibra óptica    0
Wireless        0
Otros           0
Total           0
dtype: int64

In [31]:
columnas_int = df6.columns.difference(['Año', 'Trimestre', 'Provincia'])

In [32]:
df6[columnas_int] = df6[columnas_int].applymap(lambda x: int( str(x).replace('.', '') ) )

In [33]:
df6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Año           840 non-null    object
 1   Trimestre     840 non-null    object
 2   Provincia     840 non-null    object
 3   ADSL          840 non-null    int64 
 4   Cablemodem    840 non-null    int64 
 5   Fibra óptica  840 non-null    int64 
 6   Wireless      840 non-null    int64 
 7   Otros         840 non-null    int64 
 8   Total         840 non-null    int64 
dtypes: int64(6), object(3)
memory usage: 59.2+ KB


In [None]:
df6[['Año', 'Trimestre']] = df6[['Año', 'Trimestre']].astype(int)

In [40]:
df6.tail(10)

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
830,2014,1,Neuquén,47790,28161,997,10381,3051,90380
831,2014,1,Río Negro,64886,24156,876,3576,1572,95066
832,2014,1,Salta,73131,17538,45,8,568,91290
833,2014,1,San Juan,48161,434,722,808,1173,51298
834,2014,1,San Luis,11306,428,354,21,448,12557
835,2014,1,Santa Cruz,18927,100,381,4092,3264,26764
836,2014,1,Santa Fe,322662,174296,3059,5951,644,506612
837,2014,1,Santiago Del Estero,32567,3598,19,915,34,37133
838,2014,1,Tierra Del Fuego,21618,2837,648,1,2934,28038
839,2014,1,Tucumán,129717,83,121,13,98,130032


In [46]:
df6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Año           840 non-null    int64 
 1   Trimestre     840 non-null    int64 
 2   Provincia     840 non-null    object
 3   ADSL          840 non-null    int64 
 4   Cablemodem    840 non-null    int64 
 5   Fibra óptica  840 non-null    int64 
 6   Wireless      840 non-null    int64 
 7   Otros         840 non-null    int64 
 8   Total         840 non-null    int64 
dtypes: int64(8), object(1)
memory usage: 59.2+ KB


In [47]:
df6.to_csv('./datastreams/' + diccio_nombres['df6'], index = False)

Se realizó el casteo de datos y eliminación de nulos y registros donde los campos representativos del resto de la información estaban ausentes.

### Archivo 7 --> **conectividad_al_servicio_de_internet.csv**

In [195]:
diccio_nombres['df7']

'conectividad_al_servicio_de_internet.csv'

In [196]:
df7 = pd.read_csv('./datastreams/' + diccio_nombres['df7'])
df7.head()

Unnamed: 0.1,Unnamed: 0,Partido,Localidad,Unnamed: 3,Unnamed: 4,CABLEMODEM,DIALUP,Unnamed: 7,Unnamed: 8,WIRELESS,TELEFONIAFIJA,Unnamed: 11,Unnamed: 12,link,Latitud,Unnamed: 15
0,,Bahía Blanca,Villa Bordeau,0.0,,--,--,--,,--,--,,SI,6056020.0,-386472605094596.0,
1,BUENOS AIRES,,,0.0,--,,,--,--,,,--,--,,-387765069529222.0,-621851833537179.0
2,BUENOS AIRES,,Balcarce,38376.0,SI,,SI,SI,--,,,SI,SI,6063010.0,,-582551665841248.0
3,BUENOS AIRES,,,337.0,--,,,--,--,,SI,,--,6063020.0,-379412057603.0,
4,BUENOS AIRES,Balcarce,,374.0,--,--,,SI,--,SI,SI,SI,,6063030.0,-376254980210026.0,-587461862359423.0


*Datastream*  estilo encuesta, con localidades y muchos nulos. Es probable que no sea empleado posteriormente 

### Archivo 8 --> **indicadores_macroeconomicos.csv**

In [222]:
diccio_nombres['df8']

'indicadores_macroeconomicos.csv'

In [230]:
df8 = pd.read_csv('./datastreams/' + diccio_nombres['df8'], dtype=str)
df8.head()

Unnamed: 0,Año,Trimestre,IPC US,IPC AR,USDARS oficial,USDARS blue,PBI millones
0,2013,1,232773,298,500,900,2.888.981
1,2013,2,233504,309,500,900,3.387.811
2,2013,3,234149,331,600,1000,3.436.547
3,2013,4,233049,351,600,1100,3.679.896
4,2014,1,236293,402,800,1100,3.917.649


In [231]:
df8.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Año             22 non-null     object
 1   Trimestre       22 non-null     object
 2   IPC US          22 non-null     object
 3   IPC AR          22 non-null     object
 4   USDARS oficial  22 non-null     object
 5   USDARS blue     22 non-null     object
 6   PBI millones    21 non-null     object
dtypes: object(7)
memory usage: 1.3+ KB


In [232]:
df8.fillna(0, inplace=True)

In [233]:
df8['PBI millones'] = df8['PBI millones'].apply(lambda x: str(x).replace('.', ''))

In [234]:
columnas_int = df8.columns.difference(['USDARS oficial', 'USDARS blue'])
df8[columnas_int] = df8[columnas_int].astype(int)

In [235]:
df8[['USDARS oficial', 'USDARS blue']] = df8[['USDARS oficial', 'USDARS blue']].applymap(lambda x: str(x).replace(',', '.'))

In [236]:
df8[['USDARS oficial', 'USDARS blue']] = df8[['USDARS oficial', 'USDARS blue']].astype(float)

In [238]:
df8.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22 entries, 0 to 21
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Año             22 non-null     int32  
 1   Trimestre       22 non-null     int32  
 2   IPC US          22 non-null     int32  
 3   IPC AR          22 non-null     int32  
 4   USDARS oficial  22 non-null     float64
 5   USDARS blue     22 non-null     float64
 6   PBI millones    22 non-null     int32  
dtypes: float64(2), int32(5)
memory usage: 920.0 bytes


In [239]:
df8.to_csv('./datastreams/' + diccio_nombres['df8'], index='False')

En este caso se relleno los nulos con 0 dado que no se tenía la información necesaria para calcular dicho campo. Por otro lado se continuo con el casteo de datos a formatos estandares.

### Archivo 9 --> **ingresos_por_la_operacion_del_servicio_de_internet_fijo.csv**

In [240]:
diccio_nombres['df9']

'ingresos_por_la_operacion_del_servicio_de_internet_fijo.csv'

In [241]:
df9 = pd.read_csv('./datastreams/' + diccio_nombres['df9'])
df9.head()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo
0,2022,3,67.055.930,Jul-Sept 2022
1,2022,2,60.335.724,Abr-Jun 2022
2,2022,1,55.589.997,Ene-Mar 2022
3,2021,4,45.467.887,Oct-Dic 2021
4,2021,3,42.999.944,Jul-Sept 2021


In [244]:
df9.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Año                        35 non-null     int64 
 1   Trimestre                  35 non-null     int64 
 2   Ingresos (miles de pesos)  35 non-null     object
 3   Periodo                    35 non-null     object
dtypes: int64(2), object(2)
memory usage: 1.2+ KB


In [245]:
df9['Ingresos (miles de pesos)'] = df9['Ingresos (miles de pesos)'].apply(lambda x: int(str(x).replace('.', '')))

In [248]:
df9.head()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo
0,2022,3,67055930,Jul-Sept 2022
1,2022,2,60335724,Abr-Jun 2022
2,2022,1,55589997,Ene-Mar 2022
3,2021,4,45467887,Oct-Dic 2021
4,2021,3,42999944,Jul-Sept 2021


In [249]:
df9.to_csv('./datastreams/' + diccio_nombres['df9'], index=False)

### Archivo 10 --> **listado_de_localidades_con_conectividad_a_internet.csv**

In [252]:
diccio_nombres['df10']

'listado_de_localidades_con_conectividad_a_internet..csv'

In [253]:
df10 = pd.read_csv('./datastreams/' + diccio_nombres['df10'])
df10.head()

Unnamed: 0.1,Unnamed: 0,Partido,Localidad,ADSL,Unnamed: 4,DIALUP,FIBRAOPTICA,4G,Unnamed: 8,TELEFONIAFIJA,Unnamed: 10,SATELITAL
0,,Bahía Blanca,Villa Bordeau,,,--,--,,,--,,--
1,BUENOS AIRES,,Villa Espora,--,--,,--,--,--,,--,
2,BUENOS AIRES,,,SI,SI,,,SI,SI,,SI,
3,BUENOS AIRES,Balcarce,,--,--,--,,--,--,SI,SI,--
4,BUENOS AIRES,,Napaleofú,--,--,,SI,SI,SI,,,--


*Datastream*  estilo encuesta, con localidades y muchos nulos. Es probable que no sea empleado posteriormente 

### Archivo 11 --> **penetracion_del_internet_fijo_por_provincia_(accesos_por_cada_100_habitantes).csv**

In [254]:
diccio_nombres['df11']

'penetracion_del_internet_fijo_por_provincia_(accesos_por_cada_100_habitantes).csv'

In [256]:
df11 = pd.read_csv('./datastreams/' + diccio_nombres['df11'])
df11.head()

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hab
0,2022,3,Buenos Aires,26
1,2022,3,Capital Federal,50
2,2022,3,Catamarca,17
3,2022,3,Chaco,12
4,2022,3,Chubut,26


In [257]:
df11.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Año                       840 non-null    int64 
 1   Trimestre                 840 non-null    int64 
 2   Provincia                 840 non-null    object
 3   Accesos por cada 100 hab  840 non-null    int64 
dtypes: int64(3), object(1)
memory usage: 26.4+ KB


Nada que modificar en este *datastream*

### Archivo 12 --> **penetracion_del_internet_fijo_por_provincia_(accesos_por_cada_100_hogares).csv**

In [262]:
diccio_nombres['df12']

'penetracion_del_internet_fijo_por_provincia_(accesos_por_cada_100_hogares).csv'

In [264]:
df12 = pd.read_csv('./datastreams/' + diccio_nombres['df12'])
df12.head()

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2022,3,Buenos Aires,7811
1,2022,3,Capital Federal,12228
2,2022,3,Catamarca,6533
3,2022,3,Chaco,4386
4,2022,3,Chubut,8438


In [265]:
df12.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 4 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Año                           840 non-null    int64 
 1   Trimestre                     840 non-null    int64 
 2   Provincia                     840 non-null    object
 3   Accesos por cada 100 hogares  840 non-null    object
dtypes: int64(2), object(2)
memory usage: 26.4+ KB


In [270]:
df12.isna().sum()

Año                             0
Trimestre                       0
Provincia                       0
Accesos por cada 100 hogares    0
dtype: int64

In [271]:
df12['Accesos por cada 100 hogares'] = df12['Accesos por cada 100 hogares'].apply(lambda x: float( str(x).replace(',','.') ) )

In [276]:
df12.Provincia.unique()

array(['Buenos Aires', 'Capital Federal', 'Catamarca', 'Chaco', 'Chubut',
       'Córdoba', 'Corrientes', 'Entre Ríos', 'Formosa', 'Jujuy',
       'La Pampa', 'La Rioja', 'Mendoza', 'Misiones', 'Neuquén',
       'Río Negro', 'Salta', 'San Juan', 'San Luis', 'Santa Cruz',
       'Santa Fe', 'Santiago Del Estero', 'Tierra Del Fuego', 'Tucumán'],
      dtype=object)

In [277]:
df12.to_csv('./datastreams/' + diccio_nombres['df12'], index=False)

Casteo de manera correcta los valores flotantes contenidos, se destaca que la *feature* **Accesos por cada 100 hogares** esta en flotante y en el *datastream* anterior estabe en un número entero, se estima que el promedio dió dichos números redondos.

### Archivo 13 --> **penetracion_nacional_del_internet_fijo.csv**

In [279]:
diccio_nombres['df13']

'penetracion_nacional_del_internet_fijo.csv'

In [281]:
df13 = pd.read_csv('./datastreams/' + diccio_nombres['df13'])
df13.head()

Unnamed: 0,Año,Trimestre,Accesos por cada 100 hogares,Accesos por cada 100 hab,Periodo
0,2022,3,7664,2395,Jul-Sept 2022
1,2022,2,7597,2372,Abr-Jun 2022
2,2022,1,7388,2305,Ene-Mar 2022
3,2021,4,7318,2281,Oct-Dic 2021
4,2021,3,7058,2198,Jul-Sept 2021


In [282]:
df13.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Año                           35 non-null     int64 
 1   Trimestre                     35 non-null     int64 
 2   Accesos por cada 100 hogares  35 non-null     object
 3   Accesos por cada 100 hab      35 non-null     object
 4   Periodo                       35 non-null     object
dtypes: int64(2), object(3)
memory usage: 1.5+ KB


In [284]:
df13['Accesos por cada 100 hab'] = df13['Accesos por cada 100 hab'].apply(lambda x: float( str(x).replace(',','.') ) )
df13['Accesos por cada 100 hogares'] = df13['Accesos por cada 100 hogares'].apply(lambda x: float( str(x).replace(',','.') ) )

In [286]:
df13.isna().sum()

Año                             0
Trimestre                       0
Accesos por cada 100 hogares    0
Accesos por cada 100 hab        0
Periodo                         0
dtype: int64

In [287]:
df13.to_csv('./datastreams/' + diccio_nombres['df13'], index=False)

Esta data resume de manera nacional los dos *datastreams* anteriores. Se podría obtener a partir de las otras anteriores, podría obviarse su uso.

### Archivo 14 --> **total_nacional_de_accesos_a_internet_fijo_por_banda_ancha_y_banda_angosta.csv**

In [288]:
diccio_nombres['df14']

'total_nacional_de_accesos_a_internet_fijo_por_banda_ancha_y_banda_angosta.csv'

In [292]:
df14 = pd.read_csv('./datastreams/' + diccio_nombres['df14'], dtype=str)
df14.head()

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total,Periodo
0,2022,3,11.078.691,12.437,11.091.128,Jul-Sept 2022
1,2022,2,10.946.248,12.436,10.958.684,Abr-Jun 2022
2,2022,1,10.611.390,12.619,10.624.009,Ene-Mar 2022
3,2021,4,10.476.933,12.861,10.489.794,Oct-Dic 2021
4,2021,3,10.075.184,10.357,10.085.541,Jul-Sept 2021


In [293]:
df14.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               35 non-null     object
 1   Trimestre         35 non-null     object
 2   Banda ancha fija  35 non-null     object
 3   Dial up           35 non-null     object
 4   Total             35 non-null     object
 5   Periodo           35 non-null     object
dtypes: object(6)
memory usage: 1.8+ KB


In [294]:
df14[['Año', 'Trimestre']] = df14[['Año', 'Trimestre']].astype(int)

In [296]:
columnas_int = df14.columns.difference(['Año', 'Trimestre', 'Periodo'])
df14[columnas_int] = df14[columnas_int].applymap(lambda x: int( str(x).replace('.', '') ) )

In [297]:
df14.head()

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total,Periodo
0,2022,3,11078691,12437,11091128,Jul-Sept 2022
1,2022,2,10946248,12436,10958684,Abr-Jun 2022
2,2022,1,10611390,12619,10624009,Ene-Mar 2022
3,2021,4,10476933,12861,10489794,Oct-Dic 2021
4,2021,3,10075184,10357,10085541,Jul-Sept 2021


In [298]:
df14.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               35 non-null     int32 
 1   Trimestre         35 non-null     int32 
 2   Banda ancha fija  35 non-null     int64 
 3   Dial up           35 non-null     int64 
 4   Total             35 non-null     int64 
 5   Periodo           35 non-null     object
dtypes: int32(2), int64(3), object(1)
memory usage: 1.5+ KB


In [301]:
df14.isna().sum()

Año                 0
Trimestre           0
Banda ancha fija    0
Dial up             0
Total               0
Periodo             0
dtype: int64

In [302]:
df14.to_csv('./datastreams/' + diccio_nombres['df14'], index=False)

Se realizo el casteo de datos correspondiente. Este *dataframe* también podría obtenerse a partir de otros anteriores, dado que es a nivel nacional.

### Archivo 15 --> **total_nacional_de_accesos_a_internet_fijo_por_tipo_de_tecnologia.csv**

In [22]:
diccio_nombres['df15']

'total_nacional_de_accesos_a_internet_fijo_por_tipo_de_tecnologia.csv'

In [23]:
df15 = pd.read_csv('./datastreams/' + diccio_nombres['df15'], dtype = str)
df15.tail()

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
30,2015,1,3.756.153,2.668.248,168.188,79.098,66.045,6.737.732,Ene-Mar 2015
31,2014,4,3.764.038,2.536.219,149.682,76.984,71.573,6.598.496,Oct-Dic 2014
32,2014,3,3.714.764,2.569.868,155.494,85.096,70.049,6.595.271,Jul-Sept 2014
33,2014,2,3.708.882,2.461.670,149.363,72.405,72.148,6.464.468,Abr-Jun 2014
34,2014,1,3.697.066,2.407.330,150.323,70.749,72.93,6.398.398,Ene-Mar 2014


In [24]:
df15.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Año           35 non-null     object
 1   Trimestre     35 non-null     object
 2   ADSL          35 non-null     object
 3   Cablemodem    35 non-null     object
 4   Fibra óptica  35 non-null     object
 5   Wireless      35 non-null     object
 6   Otros         35 non-null     object
 7   Total         35 non-null     object
 8   Periodo       35 non-null     object
dtypes: object(9)
memory usage: 2.6+ KB


In [25]:
df15.isna().sum()

Año             0
Trimestre       0
ADSL            0
Cablemodem      0
Fibra óptica    0
Wireless        0
Otros           0
Total           0
Periodo         0
dtype: int64

In [26]:
columnas_int = df15.columns.difference(['Periodo'])
df15[columnas_int] = df15[columnas_int].applymap(lambda x: int( str(x).replace('.', '') ) )

In [28]:
df15.tail(10)

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
25,2016,2,3782085,3035272,167788,85452,59482,7130079,Abr-Jun 2016
26,2016,1,3792493,2806359,164371,85370,58763,6907356,Ene-Mar 2016
27,2015,4,3803024,2898226,139187,85726,58668,6984831,Oct-Dic 2015
28,2015,3,3788696,2840203,162663,84530,58976,6935068,Jul-Sept 2015
29,2015,2,3767821,2756294,150839,82077,59157,6816188,Abr-Jun 2015
30,2015,1,3756153,2668248,168188,79098,66045,6737732,Ene-Mar 2015
31,2014,4,3764038,2536219,149682,76984,71573,6598496,Oct-Dic 2014
32,2014,3,3714764,2569868,155494,85096,70049,6595271,Jul-Sept 2014
33,2014,2,3708882,2461670,149363,72405,72148,6464468,Abr-Jun 2014
34,2014,1,3697066,2407330,150323,70749,72930,6398398,Ene-Mar 2014


In [29]:
df15.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Año           35 non-null     int64 
 1   Trimestre     35 non-null     int64 
 2   ADSL          35 non-null     int64 
 3   Cablemodem    35 non-null     int64 
 4   Fibra óptica  35 non-null     int64 
 5   Wireless      35 non-null     int64 
 6   Otros         35 non-null     int64 
 7   Total         35 non-null     int64 
 8   Periodo       35 non-null     object
dtypes: int64(8), object(1)
memory usage: 2.6+ KB


In [30]:
df15.to_csv('./datastreams/' + diccio_nombres['df15'], index = False)

Corrección de tipos de datos.

### Archivo 16 --> **total_nacional_de_accesos_a_internet_fijo_por_velocidad_de_bajada.csv**

In [9]:
diccio_nombres['df16']

'total_nacional_de_accesos_a_internet_fijo_por_velocidad_de_bajada.csv'

In [10]:
df16 = pd.read_csv('./datastreams/' + diccio_nombres['df16'], dtype = str)
df16.head()

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total,Unnamed: 11
0,2022,3,33.013,96.727,1.161.370,1.151.906,823.505,479.822,6.995.750,349.035,11.091.128,
1,2022,2,33.667,99.498,1.193.090,1.197.030,856.562,485.321,6.741.922,351.594,10.958.684,
2,2022,1,34.89,104.84,1.263.273,1.209.148,967.508,509.83,6.336.187,198.333,10.624.009,
3,2021,4,41.262,28.521,1.413.208,1.245.333,976.539,558.358,6.032.322,194.251,10.489.794,
4,2021,3,40.174,41.437,2.550.229,1.095.772,710.122,536.364,4.948.174,163.269,10.085.541,


In [11]:
df16.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype 
---  ------                   --------------  ----- 
 0   Año                      35 non-null     object
 1   Trimestre                35 non-null     object
 2   Hasta 512 kbps           35 non-null     object
 3   Entre 512 Kbps y 1 Mbps  35 non-null     object
 4   Entre 1 Mbps y 6 Mbps    35 non-null     object
 5   Entre 6 Mbps y 10 Mbps   35 non-null     object
 6   Entre 10 Mbps y 20 Mbps  35 non-null     object
 7   Entre 20 Mbps y 30 Mbps  35 non-null     object
 8   Más de 30 Mbps           35 non-null     object
 9   OTROS                    35 non-null     object
 10  Total                    35 non-null     object
 11  Unnamed: 11              0 non-null      object
dtypes: object(12)
memory usage: 3.4+ KB


In [12]:
df16.drop(columns=['Unnamed: 11'], inplace=True)
df16.head()

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total
0,2022,3,33.013,96.727,1.161.370,1.151.906,823.505,479.822,6.995.750,349.035,11.091.128
1,2022,2,33.667,99.498,1.193.090,1.197.030,856.562,485.321,6.741.922,351.594,10.958.684
2,2022,1,34.89,104.84,1.263.273,1.209.148,967.508,509.83,6.336.187,198.333,10.624.009
3,2021,4,41.262,28.521,1.413.208,1.245.333,976.539,558.358,6.032.322,194.251,10.489.794
4,2021,3,40.174,41.437,2.550.229,1.095.772,710.122,536.364,4.948.174,163.269,10.085.541


In [16]:
df16 = df16.applymap(lambda x: int( str(x).replace('.', '') ) )

In [18]:
df16.tail(10)

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total
25,2016,2,44008,384221,5058481,796998,785759,73977,29020,0,7172464
26,2016,1,30428,40481,4944358,762999,641646,27664,23380,0,6835285
27,2015,4,34243,427394,5049640,726740,639011,17568,22170,0,6916766
28,2015,3,3503,455777,5087802,701187,539414,13101,20677,0,6852988
29,2015,2,40723,500175,5138431,645440,432762,10045,18529,0,6786105
30,2015,1,41158,516919,5121423,571620,348102,7643,16347,0,6623212
31,2014,4,44075,554749,5084556,496251,276254,4371,15229,0,6475485
32,2014,3,3743,608018,5153437,373372,182483,507,12424,0,6367671
33,2014,2,41064,656408,5149574,341689,147273,478,12259,0,6348745
34,2014,1,52684,687619,5130294,289182,101127,345,11595,0,6272846


In [20]:
df16.to_csv('./datastreams/' + diccio_nombres['df16'], index=False)

### Archivo 17 --> **velocidad_media_de_bajada_de_internet_(nacional).csv**

In [36]:
diccio_nombres['df17']

'velocidad_media_de_bajada_de_internet_(nacional).csv'

In [37]:
df17 = pd.read_csv('./datastreams/' + diccio_nombres['df17'], dtype=str)
df17.head()

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada),Trimestre.1
0,2022,3,6246,Jul-Sept 2022
1,2022,2,5844,Abr-Jun 2022
2,2022,1,5511,Ene-Mar 2022
3,2021,4,5234,Oct-Dic 2021
4,2021,3,4846,Jul-Sept 2021


In [38]:
df17[['Año', 'Trimestre']] = df17[['Año', 'Trimestre']].astype(int)

In [39]:
df17['Mbps (Media de bajada)'] = df17['Mbps (Media de bajada)'].apply(lambda x: float( str(x).replace(',', '.') ) )

In [40]:
df17.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Año                     35 non-null     int32  
 1   Trimestre               35 non-null     int32  
 2   Mbps (Media de bajada)  35 non-null     float64
 3   Trimestre.1             35 non-null     object 
dtypes: float64(1), int32(2), object(1)
memory usage: 968.0+ bytes


In [42]:
df17.tail()

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada),Trimestre.1
30,2015,1,4.35,Ene-Mar 2015
31,2014,4,4.16,Oct-Dic 2014
32,2014,3,3.87,Jul-Sept 2014
33,2014,2,3.76,Abr-Jun 2014
34,2014,1,3.62,Ene-Mar 2014


In [43]:
df17.to_csv('./datastreams/' + diccio_nombres['df17'], index = False)

## Archivos extras --> **Penetración_provincial_telefonia_fija_accesos_cada_100_hogares.csv**

In [3]:
archivos = os.listdir('./externaldata/')

archivos = [file for file in archivos if file.endswith('.csv') ]

externos = {'df_e{}'.format(i+1): file for i, file in enumerate(archivos)}

In [4]:
externos

{'df_e1': 'Penetración_provincial_telefonia_fija_accesos_cada_100_hogares.csv',
 'df_e2': 'provincias.csv',
 'df_e3': 'Velocidad_media_de_bajada_de _Internet_fijo_por_provincia.csv'}

In [5]:
externos['df_e1']

'Penetración_provincial_telefonia_fija_accesos_cada_100_hogares.csv'

In [6]:
df_e1 = pd.read_csv('./externaldata/' + externos['df_e1'])
df_e1.head()

Unnamed: 0,Año,Trimestre,Provincia,Accesos telefonía fija por cada 100 hab,Accesos telefonía fija por cada 100 hogares
0,2014,1,Buenos Aires,2672,8526
1,2014,1,Capital Federal,5266,12857
2,2014,1,Catamarca,1003,3945
3,2014,1,Chaco,909,3402
4,2014,1,Chubut,1766,5759


In [8]:
df_e1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 5 columns):
 #   Column                                       Non-Null Count  Dtype 
---  ------                                       --------------  ----- 
 0   Año                                          792 non-null    int64 
 1   Trimestre                                    792 non-null    int64 
 2   Provincia                                    792 non-null    object
 3   Accesos telefonía fija por cada 100 hab      792 non-null    object
 4   Accesos telefonía fija por cada 100 hogares  792 non-null    object
dtypes: int64(2), object(3)
memory usage: 31.1+ KB


In [9]:
df_e1['Accesos telefonía fija por cada 100 hab'] = df_e1['Accesos telefonía fija por cada 100 hab'].apply(lambda x:  float(str(x).replace(',', '.'))  )
df_e1['Accesos telefonía fija por cada 100 hogares'] = df_e1['Accesos telefonía fija por cada 100 hogares'].apply(lambda x:  float(str(x).replace(',', '.'))  )

In [12]:
df_e1.to_csv('./externaldata/' + externos['df_e1'], index=False)

## Archivos extras --> **provincias.csv**

In [6]:
df_e2 = pd.read_csv('./externaldata/' + externos['df_e2'])
df_e2.head()

Unnamed: 0,categoria,centroide_lat,centroide_lon,fuente,id,iso_id,iso_nombre,Provincia,nombre_completo
0,Provincia,-26.875397,-54.651697,IGN,54,AR-N,Misiones,Misiones,Provincia de Misiones
1,Provincia,-33.757726,-66.02813,IGN,74,AR-D,San Luis,San Luis,Provincia de San Luis
2,Provincia,-30.865368,-68.889491,IGN,70,AR-J,San Juan,San Juan,Provincia de San Juan
3,Provincia,-32.058874,-59.201448,IGN,30,AR-E,Entre Ríos,Entre Ríos,Provincia de Entre Ríos
4,Provincia,-48.815485,-69.955762,IGN,78,AR-Z,Santa Cruz,Santa Cruz,Provincia de Santa Cruz


In [None]:
df_e2.loc[df_e2['nombre'] == 'Ciudad Autónoma de Buenos Aires', 'nombre'] = 'Capital Federal'

In [None]:
df_e2.loc[df_e2['nombre'] ==  'Tierra del Fuego, Antártida e Islas del Atlántico Sur', 'nombre'] = 'Tierra Del Fuego'

In [None]:
df_e2.columns = ['categoria', 'centroide_lat', 'centroide_lon', 'fuente', 'id', 'iso_id', 'iso_nombre', 'Provincia', 'nombre_completo']

In [None]:
df_e2.Provincia = df_e2.Provincia.apply(lambda x: str(x).title() )

In [10]:
df_e2.to_csv('./externaldata/' + externos['df_e2'], index = False)

## Archivos extras --> **Velocidad_media_de_bajada_de _Internet_fijo_por_provincia.csv**

Mal ubicado en Servicios Postales

In [None]:
df_e3 = pd.read_csv('./externaldata/' + externos['df_e3'], sep=';')
df_e3.head()

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)
0,2022,3,Buenos Aires,7019
1,2022,3,Capital Federal,10105
2,2022,3,Catamarca,6099
3,2022,3,Chaco,5321
4,2022,3,Chubut,1557


In [None]:
df_e3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Año                     840 non-null    int64 
 1   Trimestre               840 non-null    int64 
 2   Provincia               840 non-null    object
 3   Mbps (Media de bajada)  840 non-null    object
dtypes: int64(2), object(2)
memory usage: 26.4+ KB


In [None]:
df_e3['Mbps (Media de bajada)'] = df_e3['Mbps (Media de bajada)'].apply(lambda x: float( str(x).replace(',', '.') ))

In [None]:
df_e3.to_csv('./externaldata/' + externos['df_e3'], index=False, sep=',')