# ETL

### En esta primera sección se realiza el ETL y posteriormente se hará el EDA de 5 conjuntos de datos desglosados por provincia.

In [44]:
import pandas as pd
import numpy as np

Configurar para que solo muestre 2 decimales

In [45]:
pd.set_option('display.float_format', '{:.2f}'.format)

In [46]:
# read in the 6 dataframes
df1 = pd.read_csv('csv/bajada_provincia.csv')
df2 = pd.read_csv('csv/banda_dialup_provincia.csv')
df3 = pd.read_csv('csv/penetracion_provincia.csv')
df4 = pd.read_csv('csv/rango_velocidad_provincia.csv')
df5 = pd.read_csv('csv/tecnologia_provincia.csv')

Eliminar algunas columnas innecesarias que impiden unir correctamente los 6 dataframes

In [47]:
df4 = df4.drop(['OTROS', 'Total'], axis=1)
df5 = df5.drop(['Otros'], axis=1)

Ajustar algunos valores y casteos para unir correctamente.

In [48]:
df5['Trimestre'] = df5['Trimestre'].str.replace('*', '').astype(int)
df5['Año'] = df5['Año'].str.replace('*', '').astype(int)
df5['Año'] = df5['Año'].astype(int)
df5['Trimestre'] = df5['Trimestre'].astype(int)

Ir juntando las tablas una a una, según columnas que comparten.

In [49]:
df = pd.merge(df1, df2, on=['Año', 'Trimestre', 'Provincia'], how='inner')

In [50]:
df = pd.merge(df, df3, on=['Año', 'Trimestre', 'Provincia'], how='inner')

In [51]:
df = pd.merge(df, df4, on=['Año', 'Trimestre', 'Provincia'], how='inner')

In [52]:
df = pd.merge(df, df5, on=['Año', 'Trimestre', 'Provincia', 'Total'], how='inner')

Eliminar columnas

In [53]:
df = df.drop(['Unnamed: 4', 'Unnamed: 5'], axis=1)

Visualizar lista de columnas y posteriormente organizarlas de forma más coherente

In [54]:
df.columns.tolist()

['Año',
 'Trimestre',
 'Provincia',
 'Mbps (Media de bajada)',
 'Banda ancha fija',
 'Dial up',
 'Total',
 'Accesos por cada 100 hogares',
 'HASTA 512 kbps',
 '+ 512 Kbps - 1 Mbps',
 '+ 1 Mbps - 6 Mbps',
 '+ 6 Mbps - 10 Mbps',
 '+ 10 Mbps - 20 Mbps',
 '+ 20 Mbps - 30 Mbps',
 '+ 30 Mbps',
 'ADSL',
 'Cablemodem',
 'Fibra óptica',
 'Wireless']

Organizar el orden de las columnas del dataframe

In [55]:
df = df[['Año','Trimestre','Provincia','Total','Accesos por cada 100 hogares','Banda ancha fija','Dial up','ADSL',
         'Cablemodem','Fibra óptica','Wireless','Mbps (Media de bajada)','HASTA 512 kbps','+ 512 Kbps - 1 Mbps',
         '+ 1 Mbps - 6 Mbps','+ 6 Mbps - 10 Mbps','+ 10 Mbps - 20 Mbps','+ 20 Mbps - 30 Mbps','+ 30 Mbps']]

Revisar si hay nulos

In [56]:
df.isna().sum()

Año                             0
Trimestre                       0
Provincia                       0
Total                           0
Accesos por cada 100 hogares    0
Banda ancha fija                0
Dial up                         2
ADSL                            0
Cablemodem                      0
Fibra óptica                    0
Wireless                        0
Mbps (Media de bajada)          0
HASTA 512 kbps                  0
+ 512 Kbps - 1 Mbps             0
+ 1 Mbps - 6 Mbps               0
+ 6 Mbps - 10 Mbps              0
+ 10 Mbps - 20 Mbps             0
+ 20 Mbps - 30 Mbps             0
+ 30 Mbps                       0
dtype: int64

Visualizar filas donde están los valores nulos

In [57]:
df[df.isnull().any(axis=1)]

Unnamed: 0,Año,Trimestre,Provincia,Total,Accesos por cada 100 hogares,Banda ancha fija,Dial up,ADSL,Cablemodem,Fibra óptica,Wireless,Mbps (Media de bajada),HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps
416,2018,2,Formosa,44.554,2943,44.554,,23.543,7.311,18,13.62,9,1.11,3.57,22.409,5.18,9.73,1.31,1.243
421,2018,2,Misiones,106.147,3163,106.147,,57.265,47.923,512,391.0,12,48.0,6.09,39.489,23.57,23.75,11.89,3.866


Llenar las celdas vacías con 0

In [58]:
df.fillna(0, inplace=True)

Revisar los tipos de datos para cada columna

In [59]:
df.dtypes

Año                               int64
Trimestre                         int64
Provincia                        object
Total                            object
Accesos por cada 100 hogares     object
Banda ancha fija                 object
Dial up                          object
ADSL                             object
Cablemodem                       object
Fibra óptica                     object
Wireless                        float64
Mbps (Media de bajada)            int64
HASTA 512 kbps                  float64
+ 512 Kbps - 1 Mbps             float64
+ 1 Mbps - 6 Mbps                object
+ 6 Mbps - 10 Mbps              float64
+ 10 Mbps - 20 Mbps             float64
+ 20 Mbps - 30 Mbps             float64
+ 30 Mbps                        object
dtype: object

Ajustar los tipos de datos y limpiar algunos datos.

In [60]:
df['Total'] = df['Total'].astype(str).str.replace('.', '').astype(int)
df['Accesos por cada 100 hogares'] = df['Accesos por cada 100 hogares'].str.replace(',', '.').astype(float)
df['Banda ancha fija'] = df['Banda ancha fija'].astype(str).str.replace('.', '').astype(int)
df['Dial up'] = df['Dial up'].astype(str).str.replace('.', '').replace('- 0', '0').astype(int)
df['ADSL'] = df['ADSL'].astype(str).str.replace('.', '').astype(int)
df['Cablemodem'] = df['Cablemodem'].astype(str).str.replace('.', '').astype(int)
df['Fibra óptica'] = df['Fibra óptica'].astype(str).str.replace('.', '').astype(int)
df['Wireless'] = df['Wireless'].astype(str).str.replace('.', '').astype(int)
df['HASTA 512 kbps'] = df['HASTA 512 kbps'].astype(str).str.replace('.', '').astype(int)
df['+ 512 Kbps - 1 Mbps'] = df['+ 512 Kbps - 1 Mbps'].astype(str).str.replace('.', '').astype(int)
df['+ 1 Mbps - 6 Mbps'] = df['+ 1 Mbps - 6 Mbps'].astype(str).str.replace('.', '').astype(int)
df['+ 6 Mbps - 10 Mbps'] = df['+ 6 Mbps - 10 Mbps'].astype(str).str.replace('.', '').astype(int)
df['+ 10 Mbps - 20 Mbps'] = df['+ 10 Mbps - 20 Mbps'].astype(str).str.replace('.', '').astype(int)
df['+ 20 Mbps - 30 Mbps'] = df['+ 20 Mbps - 30 Mbps'].astype(str).str.replace('.', '').astype(int)
df['+ 30 Mbps'] = df['+ 30 Mbps'].astype(str).str.replace('.', '').astype(int)

Renombrar las columnas para mejor legibilidad.

In [61]:
df = df.rename(columns={'Total': 'Usuarios totales',
                        'HASTA 512 kbps':'Hasta 512 kbps',
                        '+ 512 Kbps - 1 Mbps':'Entre 512 Kbps y 1 Mbps',
                        '+ 1 Mbps - 6 Mbps':'Entre 1 Mbps y 6 Mbps',
                        '+ 6 Mbps - 10 Mbps':'Entre 6 Mbps y 10 Mbps',
                        '+ 10 Mbps - 20 Mbps':'Entre 10 Mbps y 20 Mbps',
                        '+ 20 Mbps - 30 Mbps':'Entre 20 Mbps y 30 Mbps',
                        '+ 30 Mbps':'Más de 30 Mbps'})

Exportar los datos a un archivo csv.

In [62]:
df.to_csv('provincias.csv', index=False)

# EDA

Revisar posibles duplicados

In [63]:
df[df.duplicated()]

Unnamed: 0,Año,Trimestre,Provincia,Usuarios totales,Accesos por cada 100 hogares,Banda ancha fija,Dial up,ADSL,Cablemodem,Fibra óptica,Wireless,Mbps (Media de bajada),Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps


Observar la presencia de posibles outliers mediante el z-score

In [64]:
# define a function to calculate z-scores
def zscore(column):
    return np.abs((column - column.mean()) / column.std())

# apply the function to each numeric column
z_scores = df[df.select_dtypes(include=[np.number]).columns].apply(zscore)

# print rows where z-score is greater than 3
df[z_scores > 3].count()

Año                              0
Trimestre                        0
Provincia                        0
Usuarios totales                35
Accesos por cada 100 hogares     8
Banda ancha fija                35
Dial up                         33
ADSL                            23
Cablemodem                      23
Fibra óptica                    13
Wireless                        23
Mbps (Media de bajada)          16
Hasta 512 kbps                  11
Entre 512 Kbps y 1 Mbps         29
Entre 1 Mbps y 6 Mbps           23
Entre 6 Mbps y 10 Mbps          28
Entre 10 Mbps y 20 Mbps         18
Entre 20 Mbps y 30 Mbps         13
Más de 30 Mbps                  17
dtype: int64

### Conclusiones 

##### Es normal que se presenten varios outliers por las características del dataset. La presencia de estos se debe a que en el campo de las telecomunicaciones se han presentado cambios frecuentes en las tecnologías, así como un crecimiento exponencial en su cobertura. Por lo anterior no se eliminarán estas filas.

##### No se realizarán más gráficas para analizar las variables ya que son las mismas que aparecen en la otra libreta de jupyter "ETL & EDA General", aquí cambia la posibilidad de filtrar por provicia, pero eso se mostrará en el dashboard mismo.