# ETL: Extracción
Extración de datos desde los archivos csv seleccionados para nuestro análisis:
- Internet_Accesos-por-tecnologia.csv
- Internet_Accesos-por-velocidad.csv
- Internet_BAF.csv
- Internet_Penetracion.csv
- historico_velocidad_internet.csv

In [13]:
# Bibliotecas necesarias
import pandas as pd

In [14]:
# Leer el archivo 'Internet_Accesos-por-tecnologia.csv' utilizando pandas y asignarlo a un dataframe
internet_accesos_por_tecnologia = pd.read_csv('../Datasets/Internet_Accesos-por-tecnologia.csv', delimiter=';')

# Leer el archivo 'Internet_Accesos-por-velocidad.csv' utilizando pandas y asignarlo a un dataframe
internet_accesos_por_velocidad = pd.read_csv('../Datasets/Internet_Accesos-por-velocidad.csv', delimiter=';')

# Leer el archivo 'Internet_BAF.csv' utilizando pandas y asignarlo a un dataframe
internet_baf = pd.read_csv('../Datasets/Internet_BAF.csv')

# Leer el archivo 'Internet_Penetracion.csv' utilizando pandas y asignarlo a un dataframe
internet_penetracion = pd.read_csv('../Datasets/Internet_Penetracion.csv')

# Leer el archivo 'historico_velocidad_internet.csv' utilizando pandas y asignarlo a un dataframe
historico_velocidad_internet = pd.read_csv('../Datasets/historico_velocidad_internet.csv')

# ETL: Transformación
Hacemos un JOIN con todos los datasets, tomando como referencia las columnas 'Año', 'Trimestre' y 'Provincia'

In [15]:

merged_df = internet_accesos_por_tecnologia.merge(internet_penetracion, on=['Año', 'Trimestre', 'Provincia'])
merged_df = merged_df.merge(internet_baf, on=['Año', 'Trimestre', 'Provincia'])
merged_df = merged_df.merge(internet_accesos_por_velocidad, on=['Año', 'Trimestre', 'Provincia'])
merged_df = merged_df.merge(historico_velocidad_internet, on=['Año', 'Trimestre', 'Provincia'])


In [16]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 26 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           864 non-null    int64  
 1   Trimestre                     864 non-null    int64  
 2   Provincia                     864 non-null    object 
 3   ADSL                          864 non-null    int64  
 4   Cablemodem                    864 non-null    int64  
 5   Fibra óptica                  864 non-null    int64  
 6   Wireless                      864 non-null    int64  
 7   Otros                         864 non-null    int64  
 8   Total_x                       864 non-null    int64  
 9   Accesos por cada 100 hogares  864 non-null    object 
 10  Unnamed: 4                    0 non-null      float64
 11  Unnamed: 5                    0 non-null      float64
 12  Unnamed: 6                    0 non-null      float64
 13  Banda

Eliminamos las columnas de totales al ser columnas calculadas de las que podemos prescindir: 'Total_x','Total_y','TOTAL'<br>
Igualmente aquellas columnas que contienen valores nulos en todos los registros: 'Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6'

In [17]:
merged_df = merged_df.drop(['Total_x','Total_y','TOTAL','Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6'], axis=1)

In [18]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 20 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           864 non-null    int64  
 1   Trimestre                     864 non-null    int64  
 2   Provincia                     864 non-null    object 
 3   ADSL                          864 non-null    int64  
 4   Cablemodem                    864 non-null    int64  
 5   Fibra óptica                  864 non-null    int64  
 6   Wireless                      864 non-null    int64  
 7   Otros                         864 non-null    int64  
 8   Accesos por cada 100 hogares  864 non-null    object 
 9   Banda ancha fija              864 non-null    int64  
 10  Dial up                       862 non-null    float64
 11  HASTA 512 kbps                864 non-null    float64
 12  + 512 Kbps - 1 Mbps           864 non-null    float64
 13  + 1 M

Renombramos algunas columnas de acuerdo a la nomenclatura 'Snake Case' para facilitar su entendimiento, tal como se viene utilizando en el código.

In [19]:
# Renombramos la columna 'año' para evitar inconvenientes con algunas librerias que utilizaremos mas adelante
merged_df = merged_df.rename(columns={'Año': 'Anio'})

merged_df = merged_df.rename(columns={'Fibra óptica': 'fibra_optica'})
merged_df = merged_df.rename(columns={'Otros': 'otras_tecnologias'})

merged_df = merged_df.rename(columns={'Accesos por cada 100 hogares': 'accesos_hogares'})
merged_df = merged_df.rename(columns={'Banda ancha fija': 'banda_ancha'})
merged_df = merged_df.rename(columns={'Dial up': 'dial_up'})
merged_df = merged_df.rename(columns={'HASTA 512 kbps': 'velocidad_512kpbs'})
merged_df = merged_df.rename(columns={'+ 512 Kbps - 1 Mbps': 'velocidad_1Mbps'})
merged_df = merged_df.rename(columns={'+ 1 Mbps - 6 Mbps': 'velocidad_6Mbps'})
merged_df = merged_df.rename(columns={'+ 6 Mbps - 10 Mbps': 'velocidad_10Mbps'})
merged_df = merged_df.rename(columns={'+ 10 Mbps - 20 Mbps': 'velocidad_20Mbps'})
merged_df = merged_df.rename(columns={'+ 20 Mbps - 30 Mbps': 'velocidad_30Mbps'})
merged_df = merged_df.rename(columns={'+ 30 Mbps': 'velocidad_mas30Mbps'})
merged_df = merged_df.rename(columns={'OTROS': 'velocidad_otros'})

merged_df = merged_df.rename(columns={'Mbps (Media de bajada)': 'velocidad_bajada'})

In [20]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Anio                 864 non-null    int64  
 1   Trimestre            864 non-null    int64  
 2   Provincia            864 non-null    object 
 3   ADSL                 864 non-null    int64  
 4   Cablemodem           864 non-null    int64  
 5   fibra_optica         864 non-null    int64  
 6   Wireless             864 non-null    int64  
 7   otras_tecnologias    864 non-null    int64  
 8   accesos_hogares      864 non-null    object 
 9   banda_ancha          864 non-null    int64  
 10  dial_up              862 non-null    float64
 11  velocidad_512kpbs    864 non-null    float64
 12  velocidad_1Mbps      864 non-null    float64
 13  velocidad_6Mbps      864 non-null    float64
 14  velocidad_10Mbps     864 non-null    float64
 15  velocidad_20Mbps     864 non-null    flo

Observamos que la columna 'Provincia' es de tipo categirco, por lo que procedemos a convertirlo a tipo categorico

In [21]:
# Convertir la columna 'Provincia' a tipo categórico
merged_df['Provincia'] = merged_df['Provincia'].astype('category')

Convertir la columna 'Accesos por cada 100 hogares' a tipo de datos numérico

In [22]:
# Convertir la columna 'Accesos por cada 100 hogares' a tipo de datos numérico
merged_df['accesos_hogares'] = merged_df['accesos_hogares'].str.replace(',', '').astype('int64')

In [23]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 20 columns):
 #   Column               Non-Null Count  Dtype   
---  ------               --------------  -----   
 0   Anio                 864 non-null    int64   
 1   Trimestre            864 non-null    int64   
 2   Provincia            864 non-null    category
 3   ADSL                 864 non-null    int64   
 4   Cablemodem           864 non-null    int64   
 5   fibra_optica         864 non-null    int64   
 6   Wireless             864 non-null    int64   
 7   otras_tecnologias    864 non-null    int64   
 8   accesos_hogares      864 non-null    int64   
 9   banda_ancha          864 non-null    int64   
 10  dial_up              862 non-null    float64 
 11  velocidad_512kpbs    864 non-null    float64 
 12  velocidad_1Mbps      864 non-null    float64 
 13  velocidad_6Mbps      864 non-null    float64 
 14  velocidad_10Mbps     864 non-null    float64 
 15  velocidad_20Mbps     86

# ETL: Carga
Cargamos el dataset resultante al archivo 'Internet_limpio.csv' para su posterior análisis.

In [24]:
# Exportar el dataframe 'merged_df' a un archivo CSV
merged_df.to_csv('../Datasets/Internet_limpio.csv', index=False)
