In [1]:
import pandas as pd
import numpy as np

In [2]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows',None)

## ETL

## Penetracion de Internet en todas las provincias

In [3]:
penet_por_hogar = pd.read_csv("datasets/Internet_Penetracion.csv")

## Internet fijo por Banda Ancha y Banda Angosta

In [4]:
bandas_prov = pd.read_csv("datasets/Internet_BAF.csv")

**Hacemos un merge para unir ambos datasets y trabajarlos juntos.**

In [5]:
if_prov = pd.merge(penet_por_hogar, bandas_prov, on=['Provincia', 'Año', 'Trimestre'], how='left')

## Rangos de Velocidad

In [6]:
rangobaj_prov = pd.read_csv("datasets/Internet_Accesos-por-velocidad.csv")

In [7]:
rangobaj_prov.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Año                  840 non-null    int64  
 1   Trimestre            840 non-null    int64  
 2   Provincia            840 non-null    object 
 3   HASTA 512 kbps       840 non-null    float64
 4   + 512 Kbps - 1 Mbps  840 non-null    float64
 5   + 1 Mbps - 6 Mbps    840 non-null    object 
 6   + 6 Mbps - 10 Mbps   840 non-null    float64
 7   + 10 Mbps - 20 Mbps  840 non-null    float64
 8   + 20 Mbps - 30 Mbps  840 non-null    float64
 9   + 30 Mbps            840 non-null    object 
 10  OTROS                834 non-null    float64
 11  Total                840 non-null    object 
dtypes: float64(6), int64(2), object(4)
memory usage: 78.9+ KB


**Realizamos cambios en los tipos de datos de las columnas, ya que venian con un formato diferente al que queremos**

In [8]:

rangobaj_prov['+ 30 Mbps'] = rangobaj_prov['+ 30 Mbps'].str.replace('.', '').astype('int')
rangobaj_prov['+ 1 Mbps - 6 Mbps'] = rangobaj_prov['+ 1 Mbps - 6 Mbps'].str.replace('.', '').astype('int')
rangobaj_prov['HASTA 512 kbps'] = rangobaj_prov['HASTA 512 kbps'].astype('str').str.replace('.', '').astype('int')
rangobaj_prov['+ 512 Kbps - 1 Mbps'] = rangobaj_prov['+ 512 Kbps - 1 Mbps'].astype('str').str.replace('.', '').astype('int')
rangobaj_prov['+ 6 Mbps - 10 Mbps'] = rangobaj_prov['+ 6 Mbps - 10 Mbps'].astype('str').str.replace('.', '').astype('int')
rangobaj_prov['+ 10 Mbps - 20 Mbps'] = rangobaj_prov['+ 10 Mbps - 20 Mbps'].astype('str').str.replace('.', '').astype('int')
rangobaj_prov['+ 20 Mbps - 30 Mbps'] = rangobaj_prov['+ 20 Mbps - 30 Mbps'].astype('str').str.replace('.', '').astype('int')
rangobaj_prov['OTROS'] = rangobaj_prov['OTROS'].fillna(0)
rangobaj_prov['OTROS'] = rangobaj_prov['OTROS'].astype('str').str.replace('.', '').astype('int')

**Unimos los datasets para seguir trabajandolos juntos.**

In [9]:
if_prov = pd.merge(if_prov, rangobaj_prov, on=['Provincia', 'Año', 'Trimestre'], how='inner')

**Verificamos la presencia de nulos**

In [65]:
if_prov.isna().sum()

Año                             0
Trimestre                       0
Provincia                       0
Accesos por cada 100 hogares    0
Banda ancha fija                0
Dial up                         2
Total_x                         0
HASTA 512 kbps                  0
+ 512 Kbps - 1 Mbps             0
+ 1 Mbps - 6 Mbps               0
+ 6 Mbps - 10 Mbps              0
+ 10 Mbps - 20 Mbps             0
+ 20 Mbps - 30 Mbps             0
+ 30 Mbps                       0
OTROS                           0
Total_y                         0
dtype: int64

In [10]:
if_prov.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 16 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Año                           840 non-null    int64 
 1   Trimestre                     840 non-null    int64 
 2   Provincia                     840 non-null    object
 3   Accesos por cada 100 hogares  840 non-null    object
 4   Banda ancha fija              840 non-null    object
 5   Dial up                       838 non-null    object
 6   Total_x                       840 non-null    object
 7   HASTA 512 kbps                840 non-null    int32 
 8   + 512 Kbps - 1 Mbps           840 non-null    int32 
 9   + 1 Mbps - 6 Mbps             840 non-null    int32 
 10  + 6 Mbps - 10 Mbps            840 non-null    int32 
 11  + 10 Mbps - 20 Mbps           840 non-null    int32 
 12  + 20 Mbps - 30 Mbps           840 non-null    int32 
 13  + 30 Mbps           

**Cambiamos tipos de datos y eliminamos columnas irrelevantes.**

In [11]:
if_prov.rename(columns={'Total_x':'Total'}, inplace=True)
if_prov.drop(columns='Total_y', inplace=True)
if_prov['Total'] = if_prov['Total'].str.replace('.', '').astype('int')
if_prov['Accesos por cada 100 hogares'] = if_prov['Accesos por cada 100 hogares'].str.replace(',', '.').astype('float')
if_prov['Banda ancha fija'] = if_prov['Banda ancha fija'].str.replace('.', '').astype('int')


In [12]:
if_prov.head()

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares,Banda ancha fija,Dial up,Total,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS
0,2022,3,Buenos Aires,78.11,4715469,6.199,4721668,29985,27709,290315,297915,267044,12419,3618689,65821
1,2022,3,Capital Federal,122.28,1545534,2.145,1547679,5170,5742,34371,67829,51946,28692,1253105,105477
2,2022,3,Catamarca,65.33,70292,1.0,70293,710,3840,3107,5389,5099,3737,50298,2208
3,2022,3,Chaco,43.86,144141,5.0,144146,4610,9870,16782,18938,8049,15828,79390,3711
4,2022,3,Chubut,84.38,164874,904.0,165778,1090,1444,45707,3094,34682,15309,17563,20024


In [13]:
if_prov.isna().sum()

Año                             0
Trimestre                       0
Provincia                       0
Accesos por cada 100 hogares    0
Banda ancha fija                0
Dial up                         2
Total                           0
HASTA 512 kbps                  0
+ 512 Kbps - 1 Mbps             0
+ 1 Mbps - 6 Mbps               0
+ 6 Mbps - 10 Mbps              0
+ 10 Mbps - 20 Mbps             0
+ 20 Mbps - 30 Mbps             0
+ 30 Mbps                       0
OTROS                           0
dtype: int64

**Trabajamos sobre la columna Dial Up, rellenando los nulos y transformando los numeros para que puedan ser enteros**

In [61]:
if_prov['Dial up'] = if_prov['Dial up'].str.replace('-', '')
if_prov['Dial up'] = if_prov['Dial up'].str.replace('.', '')

In [65]:
if_prov['Dial up'] = if_prov['Dial up'].fillna(0)

In [66]:
if_prov['Dial up'] = if_prov['Dial up'].astype('int')

In [63]:
if_prov.head()

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares,Banda ancha fija,Dial up,Total,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS
0,2022,3,Buenos Aires,78.11,4715469,6199,4721668,29985,27709,290315,297915,267044,12419,3618689,65821
1,2022,3,Capital Federal,122.28,1545534,2145,1547679,5170,5742,34371,67829,51946,28692,1253105,105477
2,2022,3,Catamarca,65.33,70292,1,70293,710,3840,3107,5389,5099,3737,50298,2208
3,2022,3,Chaco,43.86,144141,5,144146,4610,9870,16782,18938,8049,15828,79390,3711
4,2022,3,Chubut,84.38,164874,904,165778,1090,1444,45707,3094,34682,15309,17563,20024


In [15]:
if_prov.shape

(840, 15)

**Guardamos el nuevo dataset en un CSV.**

In [67]:
if_prov.to_csv('Datasets_clean/InternetFijo_Prov.csv', index=False)

## Velocidad Media de Bajada

In [18]:
vel_med_baj = pd.read_csv('datasets/historico_velocidad_internet.csv')

In [21]:
vel_med_baj.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Año         35 non-null     int64  
 1   Trimestre   35 non-null     int64  
 2   Media_Mbps  35 non-null     float64
 3   Periodo     35 non-null     object 
dtypes: float64(1), int64(2), object(1)
memory usage: 1.2+ KB


**Realizamos transformaciones como cambios de datos y renombramiento de columnas.**

In [19]:
vel_med_baj['Mbps (Media de bajada)'] = vel_med_baj['Mbps (Media de bajada)'].str.replace(',', '.').astype('float')
vel_med_baj.rename(columns={'Trimestre.1':'Periodo', 'Mbps (Media de bajada)':'Media_Mbps'},inplace=True)

In [20]:
vel_med_baj.head()

Unnamed: 0,Año,Trimestre,Media_Mbps,Periodo
0,2022,3,62.46,Jul-Sept 2022
1,2022,2,58.44,Abr-Jun 2022
2,2022,1,55.11,Ene-Mar 2022
3,2021,4,52.34,Oct-Dic 2021
4,2021,3,48.46,Jul-Sept 2021


**Guardamos el nuevo dataset en un CSV.**

In [22]:
vel_med_baj.to_csv('Datasets_clean/Velocidad_media_bajada.csv', index=False)

## Tecnologias.

**Accesos a internet por las tecnologias de cada provincia por año.**

In [23]:
acc_por_tec = pd.read_csv("datasets/Internet_Accesos-por-tecnologia.csv")

In [24]:
acc_por_tec.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 35 entries, 0 to 34
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Año           35 non-null     int64  
 1   Trimestre     35 non-null     int64  
 2   ADSL          35 non-null     object 
 3   Cablemodem    35 non-null     object 
 4   Fibra óptica  35 non-null     object 
 5   Wireless      35 non-null     float64
 6   Otros         35 non-null     float64
 7   Total         35 non-null     object 
 8   Periodo       35 non-null     object 
dtypes: float64(2), int64(2), object(5)
memory usage: 2.6+ KB


**Realizamos transformaciones para cambiar tipos de datos.**

In [25]:
acc_por_tec['ADSL'] = acc_por_tec['ADSL'].str.replace('.','').astype('int')
acc_por_tec['Cablemodem'] = acc_por_tec['Cablemodem'].str.replace('.','').astype('int')
acc_por_tec['Fibra óptica'] = acc_por_tec['Fibra óptica'].str.replace('.','').astype('int')
acc_por_tec['Wireless'] = acc_por_tec['Wireless'].astype('str').str.replace('.','').astype('int')
acc_por_tec['Otros'] = acc_por_tec['Otros'].astype('str').str.replace('.','').astype('int')
acc_por_tec['Total'] = acc_por_tec['Total'].str.replace('.','').astype('int')

In [26]:
acc_por_tec.head()

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
0,2022,3,1395277,6031970,2871541,55711,23523,11091128,Jul-Sept 2022
1,2022,2,1468333,5979214,2723285,556243,231609,10958684,Abr-Jun 2022
2,2022,1,1533240,6073426,2219533,545814,251996,10624009,Ene-Mar 2022
3,2021,4,1657615,5984240,2072236,523107,252596,10489794,Oct-Dic 2021
4,2021,3,1950631,5826257,1566048,492415,25019,10085541,Jul-Sept 2021


**Guardamos el nuevo dataset en un CSV.**

In [27]:
acc_por_tec.to_csv('Datasets_clean/Accesos_por_tecnologia.csv', index=False)

## Acceso a internet de cada tecnologia en las distintas Localidades.

In [37]:
tecnologia_loc = pd.read_csv("datasets/Listadodelocalidadesconconectividadainternet_2750221689373390287.csv")

In [38]:
tecnologia_loc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4312 entries, 0 to 4311
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Provincia      4312 non-null   object
 1   Partido        4312 non-null   object
 2   Localidad      4312 non-null   object
 3   ADSL           4312 non-null   object
 4   CABLEMODEM     4312 non-null   object
 5   DIALUP         4312 non-null   object
 6   FIBRAOPTICA    4312 non-null   object
 7   4G             4312 non-null   object
 8   3G             4312 non-null   object
 9   TELEFONIAFIJA  4312 non-null   object
 10  WIRELESS       4312 non-null   object
 11  SATELITAL      4312 non-null   object
dtypes: object(12)
memory usage: 404.4+ KB


**Convertimos variables categoricas a numericas mediante una codificacion binaria. Los '--' los vamos a tomar como NO.**

In [29]:
tecnologia_loc = tecnologia_loc.replace({'SI':1,'--':0})

**Establecemos una variable localidad donde vamos a guardar las columnas de Provincia y Localidad.**  
**Agrupamos todas las localidades de cada provincia.**

In [30]:
localidad = tecnologia_loc[['Provincia', "Localidad"]]
localidad = tecnologia_loc.groupby('Provincia')['Localidad'].nunique().reset_index()

**Transformamos las primeras letras de las palabras a mayusculas y cambiamos el nombre de una provincia.**

In [31]:
localidad['Provincia'] = localidad['Provincia'].str.title()
localidad = localidad.replace({'Caba':'Capital Federal'})

**Eliminamos la columna Partido y Localidad y agrupamos por la columna provincia sumando los valores = a 1 de cada columna.**

In [32]:
tecnologia_loc.drop(columns=['Partido', 'Localidad'], inplace=True)
tecnologia_loc = tecnologia_loc.groupby('Provincia').sum().reset_index()

**Transformamos las primeras letras de las palabras a mayusculas y cambiamos el nombre de una provincia.**

In [33]:
tecnologia_loc["Provincia"] = tecnologia_loc["Provincia"].str.title()
tecnologia_loc = tecnologia_loc.replace({'Caba':'Capital Federal'})

**Unimos los datasets.**

In [34]:
tecnologia_loc = pd.merge(tecnologia_loc, localidad, on='Provincia', how='left')

In [31]:
tecnologia_loc.head()

Unnamed: 0,Provincia,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,4G,3G,TELEFONIAFIJA,WIRELESS,SATELITAL,Localidad
0,Buenos Aires,355,345,213,443,655,590,548,497,157,888
1,Capital Federal,48,48,48,48,48,48,48,48,48,48
2,Catamarca,7,3,1,23,57,29,31,33,48,167
3,Chaco,28,14,1,45,75,44,47,46,43,92
4,Chubut,13,11,15,13,38,31,54,31,49,90


**Guardamos el nuevo dataset en un CSV.**

In [36]:
tecnologia_loc.to_csv('Datasets_clean/Tecnologias_localidad.csv', index=False)

## Ingresos

In [39]:
ingresosIF = pd.read_csv("datasets/Internet_Ingresos.csv")

## Dolar

In [40]:
dolar = pd.read_csv("datasets/datos-tipo-cambio-usd-futuro-dolar-frecuencia-diaria.csv")

**Nos quedamos con estas columnas que nos permiten ver el valor del dolar oficial en el tiempo.**

In [41]:
dolar = dolar[["indice_tiempo", "tipo_cambio_bna_vendedor"]]
dolar['indice_tiempo'] = pd.to_datetime(dolar['indice_tiempo'])
dolar['Año'] = dolar['indice_tiempo'].dt.year

**Establecemos los trimestres.**

In [42]:
dolar['Trimestre'] = pd.cut(dolar['indice_tiempo'].dt.month, bins=[0, 3, 6, 9, 12], labels=[1, 2, 3, 4])
dolar.drop(columns='indice_tiempo', inplace=True)

**Sacamos el promedio de dolar agrupado por año y trimestre.**

In [43]:
avg_dolar_anio = dolar.groupby(['Año','Trimestre'])['tipo_cambio_bna_vendedor'].mean().reset_index()

**Unimos ambos df.**

In [44]:
ingresosIF = pd.merge(ingresosIF, avg_dolar_anio, on=['Año', 'Trimestre'])

In [45]:
ingresosIF.isna().sum()

Año                          0
Trimestre                    0
Ingresos (miles de pesos)    0
Periodo                      0
tipo_cambio_bna_vendedor     3
dtype: int64

In [46]:
ingresosIF.tail()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo,tipo_cambio_bna_vendedor
30,2015,1,4.876.385,Ene-Mar 2015,8.689278
31,2014,4,3.950.441,Oct-Dic 2014,8.536441
32,2014,3,3.478.638,Jul-Sept 2014,
33,2014,2,3.270.816,Abr-Jun 2014,
34,2014,1,2.984.054,Ene-Mar 2014,


**Realizamos cambios en los tipos de datos**  
**Vemos que los 3 nulos son del año 2014 por lo cual nos vamos a guiar con el ultimo trimestre de este año para rellenar los nulos de los 3 trimestres restantes**

In [47]:
ingresosIF['tipo_cambio_bna_vendedor'].fillna(8, inplace=True)
ingresosIF['Ingresos (miles de pesos)'] = ingresosIF['Ingresos (miles de pesos)'].str.replace('.', '').str.replace(',', '.')
ingresosIF['Ingresos (miles de pesos)'] = ingresosIF['Ingresos (miles de pesos)'].astype('int')

**Sacamos el tipo de cambio diviendo los pesos por el dolar en cada trimestre de cada año.**

In [48]:
ingresosIF['Ingresos usd'] = round(ingresosIF['Ingresos (miles de pesos)'] / ingresosIF['tipo_cambio_bna_vendedor'])

**Realizamos cambios de datos y renombramiento de columnas.**

In [49]:
ingresosIF['Ingresos usd'] = ingresosIF['Ingresos usd'].astype('int')
ingresosIF['Año'] = ingresosIF['Año'].astype('object')
ingresosIF.rename(columns={'tipo_cambio_bna_vendedor':'Dolar Oficial'}, inplace=True)
ingresosIF['Dolar Oficial'] = ingresosIF['Dolar Oficial'].astype('int')

In [50]:
ingresosIF.head()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo,Dolar Oficial,Ingresos usd
0,2022,3,67055930,Jul-Sept 2022,141,473275
1,2022,2,60335724,Abr-Jun 2022,122,490808
2,2022,1,55589997,Ene-Mar 2022,111,497759
3,2021,4,45467887,Oct-Dic 2021,105,430465
4,2021,3,42999944,Jul-Sept 2021,102,420269


**Guardamos el nuevo dataset en un CSV.**

In [51]:
ingresosIF.to_csv('Datasets_clean/Ingresos_Internet.csv', index=False)