# **Extracción, Transformación y Carga (ETL) - Dataset: Mapa de Conectividad**

A continuación se hará el proceso de ETL para el dataset "Mapa de Conectividad" del proyecto de Data Analyst en telecomunicaciones.

## **1. Carga de la base de datos**

In [5]:
import pandas as pd

# Cargamos el dataset
datos = pd.read_excel(datos, sheet_name='Hoja3')

In [8]:
# Revisamos la información del dataset
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4305 entries, 0 to 4304
Data columns (total 16 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Provincia       4305 non-null   object 
 1   Partido         4305 non-null   object 
 2   Localidad       4305 non-null   object 
 3   Población       4305 non-null   int64  
 4   ADSL            4305 non-null   object 
 5   Cablemódem      4305 non-null   object 
 6   Dial Up         4305 non-null   object 
 7   Fibra óptica    4305 non-null   object 
 8   Satelital       4305 non-null   object 
 9   Wireless        4305 non-null   object 
 10  Telefonía Fija  4305 non-null   object 
 11  3G              4305 non-null   object 
 12  4G              4305 non-null   object 
 13  Link            4293 non-null   float64
 14  Latitud         4305 non-null   float64
 15  Longitud        4305 non-null   float64
dtypes: float64(3), int64(1), object(12)
memory usage: 538.2+ KB


Eliminaremos las columnas `Link` y `Dial Up`

* `Link`: Parece ser un identificador numérico. No necesitamos este identificador en particular para el análisis, podríamos eliminar esta columna.

* `Dial Up`: La tecnología de `Dial Up` es obsoleta en la mayoría de los casos, centraremos el análisis en conexiones más modernas como `ADSL`, `fibra óptica` o `inalámbrica`, esta columna no sería relevante.

In [9]:
# Eliminar las columnas 'Link' y 'Dial Up'
datos = datos.drop(columns=['Link', 'Dial Up'])

# Verificar la estructura del dataframe después de eliminar las columnas
datos.head()


Unnamed: 0,Provincia,Partido,Localidad,Población,ADSL,Cablemódem,Fibra óptica,Satelital,Wireless,Telefonía Fija,3G,4G,Latitud,Longitud
0,BUENOS AIRES,25 de Mayo,25 de Mayo,23408,SI,SI,--,SI,SI,SI,SI,SI,-35.433939,-60.173121
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,280,--,--,--,--,--,SI,--,--,-35.739217,-60.559063
2,BUENOS AIRES,25 de Mayo,Del Valle,899,SI,--,--,SI,--,--,SI,--,-35.897345,-60.731609
3,BUENOS AIRES,25 de Mayo,Ernestina,145,SI,--,--,--,--,SI,--,--,-35.270234,-59.557503
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,547,--,--,--,--,SI,--,--,--,-35.164397,-60.081358


## **2. Datos faltantes**

Procedemos a identificar las columnas con valores faltantes y decidir cómo tratarlos (imputación, eliminación, etc.).

In [10]:
# Revisamos los valores faltantes por columna
datos.isnull().sum()


Unnamed: 0,0
Provincia,0
Partido,0
Localidad,0
Población,0
ADSL,0
Cablemódem,0
Fibra óptica,0
Satelital,0
Wireless,0
Telefonía Fija,0


Como podemos apreciar, no tenemos datos faltantes en el dataset.

## **3. Datos duplicados**

In [11]:
# Verificamos si hay filas duplicadas en el DataFrame
duplicados = datos.duplicated()

# Mostramos cuántas filas duplicadas existen
datos.duplicated().sum()


0

Como podemos apreciar, no habían datos duplicados.

## **4. Transformación de los datos**

In [14]:
datos.head()

Unnamed: 0,Provincia,Partido,Localidad,Población,ADSL,Cablemódem,Fibra óptica,Satelital,Wireless,Telefonía Fija,3G,4G,Latitud,Longitud
0,BUENOS AIRES,25 de Mayo,25 de Mayo,23408,SI,SI,--,SI,SI,SI,SI,SI,-35.433939,-60.173121
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,280,--,--,--,--,--,SI,--,--,-35.739217,-60.559063
2,BUENOS AIRES,25 de Mayo,Del Valle,899,SI,--,--,SI,--,--,SI,--,-35.897345,-60.731609
3,BUENOS AIRES,25 de Mayo,Ernestina,145,SI,--,--,--,--,SI,--,--,-35.270234,-59.557503
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,547,--,--,--,--,SI,--,--,--,-35.164397,-60.081358


Como vemos ñas columnas como `ADSL`, `Cablemódem`, `Fibra óptica`, etc., tienen valores como "SI", "NO", o "--". Vamos a transformar estos valores en:

`1` para "SI"

`0` para "NO" o "--"

In [15]:
# Listamos las columnas de conectividad que queremos transformar
columnas_conectividad = ['ADSL', 'Cablemódem', 'Fibra óptica', 'Satelital', 'Wireless', 'Telefonía Fija', '3G', '4G']

# Reemplazamos los valores 'SI' por 1 y los demás ('NO', '--') por 0
datos[columnas_conectividad] = datos[columnas_conectividad].replace({'SI': 1, 'NO': 0, '--': 0})

# Verificar la transformación
datos.head()


Unnamed: 0,Provincia,Partido,Localidad,Población,ADSL,Cablemódem,Fibra óptica,Satelital,Wireless,Telefonía Fija,3G,4G,Latitud,Longitud
0,BUENOS AIRES,25 de Mayo,25 de Mayo,23408,1,1,0,1,1,1,1,1,-35.433939,-60.173121
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,280,0,0,0,0,0,1,0,0,-35.739217,-60.559063
2,BUENOS AIRES,25 de Mayo,Del Valle,899,1,0,0,1,0,0,1,0,-35.897345,-60.731609
3,BUENOS AIRES,25 de Mayo,Ernestina,145,1,0,0,0,0,1,0,0,-35.270234,-59.557503
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,547,0,0,0,0,1,0,0,0,-35.164397,-60.081358


Con estas pasos, hemos finalizado la etapa de transformación de datos, asegurándonos de que todos los valores estén en los formatos adecuados. Ahora los datos están completamente preparados para el análisis.

In [16]:
#datos.to_excel('datos.xlsx', index=False)
#from google.colab import files
#files.download('datos.xlsx')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>