## ETL Extracción, transformación y carga.

- En esta etapa del proceso, llevaré a cabo una limpieza de los valores nulos y, además, identificaré y eliminaré duplicados en los datos que serán utilizados. La razón detrás de este paso es la preparación de los datos para un Análisis Exploratorio (EDA, por sus siglas en inglés) más efectivo. Aunque la consigna original no especifica la necesidad de este proceso, he decidido implementarlo por mi cuenta para asegurar que los datos estén en su mejor estado antes de abordar el análisis detallado en el EDA. Mantener los datos limpios y coherentes es fundamental para obtener resultados precisos y significativos en la fase posterior de exploración y modelado.

In [5]:
# Importo las librerias que usare. 
import pandas as pd 
import numpy as np

* Iniciando el Proceso de ETL (Extraer, Transformar, Cargar)

In [20]:
df1_mediabaja= pd.read_csv('.\csvs\historico_velocidad_internet (1).csv') # Lectura del primer csv.

In [21]:
df1_mediabaja.head() #  Muestro las primeras filas del DataFrame llamado "df1_mediabaja"

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)
0,2022,4,Buenos Aires,111.0
1,2022,4,Capital Federal,18.286
2,2022,4,Catamarca,8.333
3,2022,4,Chaco,10.402
4,2022,4,Chubut,1.592


In [22]:
df1_mediabaja.info() # Muestro un resumen de el Dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 864 entries, 0 to 863
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Año                     864 non-null    int64  
 1   Trimestre               864 non-null    int64  
 2   Provincia               864 non-null    object 
 3   Mbps (Media de bajada)  864 non-null    float64
dtypes: float64(1), int64(2), object(1)
memory usage: 27.1+ KB


In [23]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}') # Muestro la forma (número de filas y columnas) del DataFrame
    print(f'\nDatos faltantes:') # Esto imprime un encabezado indicando que se va a mostrar la cantidad de datos faltantes en el DataFrame.
    for columna in variables_num.columns: # Este bucle itera a través de cada columna del DataFrame 
        cantidad_nulos = variables_num[columna].isnull().sum()  # Para cada columna, calcula la cantidad de valores nulos utilizando el método isnull()
        print(f'{columna}: {cantidad_nulos} valores nulos') #  Imprime el nombre de la columna seguido de la cantidad de valores nulos encontrados.

data_inspeccion(df1_mediabaja)

Shape: (864, 4)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Provincia: 0 valores nulos
Mbps (Media de bajada): 0 valores nulos


In [96]:
# Detecta si existen valores duplicados o filas completas duplicadas en un marco de datos.
df1_mediabaja.duplicated().sum()

0

In [26]:
df2_trimestrebajada= pd.read_csv('.\csvs\historico_velocidad_internet.csv') # # Lectura del segundo csv.

In [27]:
df2_trimestrebajada.head() # Muestro las primeras filas del DataFrame

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada),Trimestre.1
0,2022,4,10.656,Oct-Dic 2022
1,2022,3,6.246,Jul-Sept 2022
2,2022,2,5.844,Abr-Jun 2022
3,2022,1,5.511,Ene-Mar 2022
4,2021,4,5.234,Oct-Dic 2021


In [28]:
df2_trimestrebajada.info() # Muestro un resumen de el Dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   Año                     36 non-null     int64  
 1   Trimestre               36 non-null     int64  
 2   Mbps (Media de bajada)  36 non-null     float64
 3   Trimestre.1             36 non-null     object 
dtypes: float64(1), int64(2), object(1)
memory usage: 1.3+ KB


In [29]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
        
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df2_trimestrebajada)

Shape: (36, 4)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Mbps (Media de bajada): 0 valores nulos
Trimestre.1: 0 valores nulos


In [97]:
# Veo si existen valores duplicados o filas duplicadas.

df2_trimestrebajada.duplicated().sum()

0

In [30]:
df3= pd.read_csv('.\csvs\Internet_Accesos-por-tecnologia (1).csv') # Lectura del Tercer Dataframe

In [31]:
df3.head() # Visualizó las primeras filas

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,4,Buenos Aires,326.0,3.0,1.0,130.0,72.0,5.0
1,2022,4,Capital Federal,139.0,1.0,139.0,5.0,32.0,2.0
2,2022,4,Catamarca,9.0,11.0,47.0,1.0,2.0,71.0
3,2022,4,Chaco,25.0,61.0,47.0,8.0,3.0,144.0
4,2022,4,Chubut,45.0,74.0,10.0,31.0,9.0,169.0


In [32]:
df3.info()  # Un resumen de el Dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 865 entries, 0 to 864
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Año           865 non-null    object 
 1   Trimestre     865 non-null    object 
 2   Provincia     864 non-null    object 
 3   ADSL          864 non-null    float64
 4   Cablemodem    864 non-null    float64
 5   Fibra óptica  864 non-null    float64
 6   Wireless      864 non-null    float64
 7   Otros         864 non-null    float64
 8   Total         864 non-null    float64
dtypes: float64(6), object(3)
memory usage: 60.9+ KB


In [33]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
        
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df3)

Shape: (865, 9)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Provincia: 1 valores nulos
ADSL: 1 valores nulos
Cablemodem: 1 valores nulos
Fibra óptica: 1 valores nulos
Wireless: 1 valores nulos
Otros: 1 valores nulos
Total: 1 valores nulos


In [34]:
# Eliminare las filas con valores nulos 
df3.dropna(inplace=True)

# Visualizó
data_inspeccion(df3)

Shape: (864, 9)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Provincia: 0 valores nulos
ADSL: 0 valores nulos
Cablemodem: 0 valores nulos
Fibra óptica: 0 valores nulos
Wireless: 0 valores nulos
Otros: 0 valores nulos
Total: 0 valores nulos


In [95]:
df3.duplicated().sum() # Veo si existen valores duplicados o filas duplicadas.


0

In [40]:
df4_acceso_provincia= pd.read_csv('.\csvs\Internet_Accesos-por-velocidad (1).csv') # Lectura del Cuarto Dataframe

In [41]:
df4_acceso_provincia.head() # Muestro las primeras filas

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2022,4,Buenos Aires,28.934,23.347,259.866,281.55,244.555,98.67,3.760.109,97.634,4.794.665
1,2022,4,Capital Federal,516.0,5.096,31.32,64.653,36.336,8.116,1.299.117,106.772,1.551.926
2,2022,4,Catamarca,71.0,315.0,2.716,5.028,4.638,3.122,52.739,2.28,70.909
3,2022,4,Chaco,461.0,771.0,16.067,17.846,6.704,3.039,94.866,3.909,143.663
4,2022,4,Chubut,109.0,1.614,46.457,31.007,34.728,15.77,19.048,20.026,168.759


In [42]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
        
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df4_acceso_provincia)

Shape: (864, 12)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Provincia: 0 valores nulos
HASTA 512 kbps: 0 valores nulos
+ 512 Kbps - 1 Mbps: 0 valores nulos
+ 1 Mbps - 6 Mbps: 0 valores nulos
+ 6 Mbps - 10 Mbps: 0 valores nulos
+ 10 Mbps - 20 Mbps: 0 valores nulos
+ 20 Mbps - 30 Mbps: 0 valores nulos
+ 30 Mbps: 0 valores nulos
OTROS: 6 valores nulos
Total: 0 valores nulos


In [98]:
df4_acceso_provincia.duplicated().sum() # Uso el metodo duplicated para ver si hay duplicados.

0

In [43]:
df5_acceso_trimes= pd.read_csv('.\csvs\Internet_Accesos-por-velocidad.csv') # Lectura del Quinto Dataframe

In [44]:
df5_acceso_trimes.head() # Muestro primeras filas.

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total
0,2022,4,31.981,85.668,1.075.272,1.109.421,765.015,335.573,7.410.902,394.282,11.208.114
1,2022,3,33.013,96.727,1.161.370,1.151.906,823.505,479.822,6.995.750,349.035,11.091.128
2,2022,2,33.667,99.498,1.193.090,1.197.030,856.562,485.321,6.741.922,351.594,10.958.684
3,2022,1,34.89,104.84,1.263.273,1.209.148,967.508,509.83,6.336.187,198.333,10.624.009
4,2021,4,41.262,28.521,1.413.208,1.245.333,976.539,558.358,6.032.322,194.251,10.489.794


In [45]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df5_acceso_trimes)

Shape: (36, 11)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Hasta 512 kbps: 0 valores nulos
Entre 512 Kbps y 1 Mbps: 0 valores nulos
Entre 1 Mbps y 6 Mbps: 0 valores nulos
Entre 6 Mbps y 10 Mbps: 0 valores nulos
Entre 10 Mbps y 20 Mbps: 0 valores nulos
Entre 20 Mbps y 30 Mbps: 0 valores nulos
Más de 30 Mbps: 0 valores nulos
OTROS: 0 valores nulos
Total: 0 valores nulos


In [99]:
df5_acceso_trimes.duplicated().sum() # Observo si tiene duplicados.

0

In [52]:
df6_baf1_provincia= pd.read_csv('.\csvs\Internet_BAF (1).csv') # Lectura del Sexto Dataframe

In [53]:
df6_baf1_provincia.head() # Muestro las primera filas

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,4,Buenos Aires,5,6.0,5
1,2022,4,Capital Federal,2,2.0,2
2,2022,4,Catamarca,71,1.0,71
3,2022,4,Chaco,144,5.0,144
4,2022,4,Chubut,168,904.0,169


In [54]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
        
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df6_baf1_provincia)

Shape: (864, 6)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Provincia: 0 valores nulos
Banda ancha fija: 0 valores nulos
Dial up: 2 valores nulos
Total: 0 valores nulos


In [55]:
# Eliminare las filas con valores nulos 
df6_baf1_provincia.dropna(inplace=True)

# Visualizó
data_inspeccion(df6_baf1_provincia)

Shape: (862, 6)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Provincia: 0 valores nulos
Banda ancha fija: 0 valores nulos
Dial up: 0 valores nulos
Total: 0 valores nulos


In [100]:
df6_baf1_provincia.duplicated().sum() # Uso el metodo duplicated, por si tiene duplicados.

0

In [56]:
df7_baf_trimes= pd.read_csv('.\csvs\Internet_BAF.csv') # Lectura del Septimo Dataframe

In [57]:
df7_baf_trimes.head() # Visualizo las primeras filas.

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total,Periodo
0,2022,4,11,12,11,Oct-Dic 2022
1,2022,3,11,12,11,Jul-Sept 2022
2,2022,2,11,12,11,Abr-Jun 2022
3,2022,1,11,13,11,Ene-Mar 2022
4,2021,4,10,13,10,Oct-Dic 2021


In [58]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df7_baf_trimes)

Shape: (36, 6)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Banda ancha fija: 0 valores nulos
Dial up: 0 valores nulos
Total: 0 valores nulos
Periodo: 0 valores nulos


In [101]:
df7_baf_trimes.duplicated().sum() # Veo si tiene duplicados.

0

In [59]:
df8_ingresos= pd.read_csv('.\csvs\Internet_Ingresos.csv') # Lectura del Octavo Dataframe

In [60]:
df8_ingresos.head() # Visualizo las primeras filas

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo
0,2022,4,72,Oct-Dic 2022
1,2022,3,64,Jul-Sept 2022
2,2022,2,60,Abr-Jun 2022
3,2022,1,55,Ene-Mar 2022
4,2021,4,45,Oct-Dic 2021


In [61]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df8_ingresos)

Shape: (36, 4)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Ingresos (miles de pesos): 0 valores nulos
Periodo: 0 valores nulos


In [102]:
df8_ingresos.duplicated().sum() # veo si tiene duplicados.

0

In [66]:
df9_intertecnoporlocalidad= pd.read_csv('.\csvs\Internetfijoportecnologiaylocalidad.csv') # Lectura del Noveno Dataframe

In [67]:
df9_intertecnoporlocalidad.head() # Veo las primeras filas

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general,Unnamed: 13
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,874,454,- 0,3,- 0,852,- 0,706,698,
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,- 0,- 0,- 0,10,1,- 0,- 0,192,
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,- 0,- 0,- 0,- 0,- 0,- 0,- 0,181,181,
3,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,- 0,782,- 0,6,167,- 0,- 0,327,128,
4,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,- 0,- 0,- 0,- 0,- 0,- 0,- 0,6,6,


In [68]:
df9_intertecnoporlocalidad.info() # Un resumen de el Dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3137 entries, 0 to 3136
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Provincia      3137 non-null   object 
 1   Partido        3137 non-null   object 
 2   Localidad      3137 non-null   object 
 3   Link Indec     3137 non-null   object 
 4   ADSL           3137 non-null   object 
 5   CABLEMODEM     3137 non-null   object 
 6   DIAL UP        3137 non-null   object 
 7   FIBRA OPTICA   3137 non-null   object 
 8   OTROS          3137 non-null   object 
 9   SATELITAL      3137 non-null   object 
 10  WIMAX          3137 non-null   object 
 11  WIRELESS       3137 non-null   object 
 12  Total general  3137 non-null   object 
 13  Unnamed: 13    0 non-null      float64
dtypes: float64(1), object(13)
memory usage: 343.2+ KB


In [73]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df9_intertecnoporlocalidad)

Shape: (3137, 14)

Datos faltantes:
Provincia: 0 valores nulos
Partido: 0 valores nulos
Localidad: 0 valores nulos
Link Indec: 0 valores nulos
ADSL: 0 valores nulos
CABLEMODEM: 0 valores nulos
DIAL UP: 0 valores nulos
FIBRA OPTICA: 0 valores nulos
OTROS: 0 valores nulos
SATELITAL: 0 valores nulos
WIMAX: 0 valores nulos
WIRELESS: 0 valores nulos
Total general: 0 valores nulos
Unnamed: 13: 3137 valores nulos


In [103]:
df9_intertecnoporlocalidad.duplicated().sum() # veo si tiene duplicados

0

In [71]:
df10_interpor_velobajaprovincia= pd.read_csv('.\csvs\Internetfijoporvelocidadbajadayprovincia.csv') # Lectura del Decimo Dataframe

In [72]:
df10_interpor_velobajaprovincia.head() # Visualizo las primeras filas

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,63 Mbps,64 Mbps,65 Mbps,66 Mbps,67 Mbps,68 Mbps,70 Mbps,71 Mbps,75 Mbps,77 Mbps
0,2022.0,4.0,Buenos Aires,97.634,18,- 0,- 0,28.724,192,4.611,...,- 0,- 0,14,- 0,- 0,- 0,5.655,- 0,90.796,- 0
1,2022.0,4.0,Capital Federal,106.772,31,- 0,- 0,451.0,34,1.307,...,- 0,- 0,- 0,1,- 0,- 0,15,- 0,28.406,- 0
2,2022.0,4.0,Catamarca,2.28,- 0,- 0,- 0,34.0,37,- 0,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0
3,2022.0,4.0,Chaco,3.909,- 0,225,111,234.0,2,- 0,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0
4,2022.0,4.0,Chubut,20.026,8,- 0,- 0,69.0,32,836,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0


In [74]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    '''Aplico nuevamente la funcion para 
        encontrar valores nulos'''
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df10_interpor_velobajaprovincia)

Shape: (505, 97)

Datos faltantes:
Año: 1 valores nulos
Trimestre: 1 valores nulos
Provincia: 1 valores nulos
Otros: 1 valores nulos
0,256 Mbps: 1 valores nulos
0,375 Mbps: 1 valores nulos
0,625 Mbps: 1 valores nulos
0,5 Mbps: 1 valores nulos
0,512 Mbps: 1 valores nulos
0,75 Mbps: 1 valores nulos
1 Mbps: 1 valores nulos
1,2 Mbps: 1 valores nulos
1,25 Mbps: 1 valores nulos
1,5 Mbps: 1 valores nulos
2 Mbps: 1 valores nulos
2,2 Mbps: 1 valores nulos
2,5 Mbps: 0 valores nulos
6,7 Mbps: 1 valores nulos
3 Mbps: 1 valores nulos
3,2 Mbps: 1 valores nulos
3,3 Mbps: 1 valores nulos
3,5 Mbps: 1 valores nulos
4 Mbps: 1 valores nulos
4,5 Mbps: 1 valores nulos
5 Mbps: 1 valores nulos
6 Mbps: 1 valores nulos
6,4 Mbps: 1 valores nulos
7 Mbps: 1 valores nulos
7,5 Mbps: 1 valores nulos
8 Mbps: 1 valores nulos
9 Mbps: 1 valores nulos
10 Mbps: 1 valores nulos
10,2 Mbps: 1 valores nulos
10,6 Mbps: 1 valores nulos
11 Mbps: 1 valores nulos
12 Mbps: 1 valores nulos
12,3 Mbps: 1 valores nulos
13 Mbps: 1 valore

In [75]:
# Eliminare las filas con valores nulos 
df10_interpor_velobajaprovincia.dropna(inplace=True)

# Visualizó
data_inspeccion(df10_interpor_velobajaprovincia)

Shape: (504, 97)

Datos faltantes:
Año: 0 valores nulos
Trimestre: 0 valores nulos
Provincia: 0 valores nulos
Otros: 0 valores nulos
0,256 Mbps: 0 valores nulos
0,375 Mbps: 0 valores nulos
0,625 Mbps: 0 valores nulos
0,5 Mbps: 0 valores nulos
0,512 Mbps: 0 valores nulos
0,75 Mbps: 0 valores nulos
1 Mbps: 0 valores nulos
1,2 Mbps: 0 valores nulos
1,25 Mbps: 0 valores nulos
1,5 Mbps: 0 valores nulos
2 Mbps: 0 valores nulos
2,2 Mbps: 0 valores nulos
2,5 Mbps: 0 valores nulos
6,7 Mbps: 0 valores nulos
3 Mbps: 0 valores nulos
3,2 Mbps: 0 valores nulos
3,3 Mbps: 0 valores nulos
3,5 Mbps: 0 valores nulos
4 Mbps: 0 valores nulos
4,5 Mbps: 0 valores nulos
5 Mbps: 0 valores nulos
6 Mbps: 0 valores nulos
6,4 Mbps: 0 valores nulos
7 Mbps: 0 valores nulos
7,5 Mbps: 0 valores nulos
8 Mbps: 0 valores nulos
9 Mbps: 0 valores nulos
10 Mbps: 0 valores nulos
10,2 Mbps: 0 valores nulos
10,6 Mbps: 0 valores nulos
11 Mbps: 0 valores nulos
12 Mbps: 0 valores nulos
12,3 Mbps: 0 valores nulos
13 Mbps: 0 valore

In [105]:
df10_interpor_velobajaprovincia.duplicated().sum() # veo si tiene duplicados

0

In [84]:
df11_internet_fijobajadalocalid= pd.read_csv('.\csvs\Internetfijoporvelocidaddebajadaylocalidad.csv') # Lectura del undécimo Dataframe

In [85]:
df11_internet_fijobajadalocalid.head() # Visualizo las primeras filas

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 Mbps","0,375 Mbps","0,5 Mbps","0,512 Mbps","0,625 Mbps",...,61 Mbps,62 Mbps,64 Mbps,65 Mbps,66 Mbps,70 Mbps,75 Mbps,78 Mbps,80 Mbps,83 Mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,,,,2.0,,,...,,,,,,,,,12.0,
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,,,,,,,...,,,,,,,,,,
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,,,,1.0,,,...,,,,,,,,,,
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,,,,,,,...,,,,,,,,,,
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,,,,,,,...,,,,1.0,,,,,,


In [86]:
df11_internet_fijobajadalocalid.info()  # Hago un resumen de el Dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3095 entries, 0 to 3094
Data columns (total 83 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Provincia   3095 non-null   object 
 1   Partido     3095 non-null   object 
 2   Localidad   3095 non-null   object 
 3   Link Indec  3095 non-null   object 
 4   Otros       962 non-null    float64
 5   0,256 Mbps  28 non-null     float64
 6   0,375 Mbps  1 non-null      float64
 7   0,5 Mbps    643 non-null    float64
 8   0,512 Mbps  523 non-null    float64
 9   0,625 Mbps  1 non-null      float64
 10  0,75 Mbps   284 non-null    float64
 11  1 Mbps      891 non-null    float64
 12  1,25 Mbps   1 non-null      float64
 13  1,5 Mbps    15 non-null     float64
 14  2 Mbps      722 non-null    float64
 15  2,2 Mbps    1 non-null      float64
 16  2,5 Mbps    4 non-null      float64
 17  3 Mbps      1351 non-null   float64
 18  3,3 Mbps    1 non-null      float64
 19  3,5 Mbps    373 non-null   

In [106]:
df11_internet_fijobajadalocalid.duplicated().sum() # veo si tiene duplicados

0

In [91]:
df12_listalocalidades= pd.read_csv('.\csvs\Listadodelocalidadesconconectividadainternet.csv') # Lectura del duodécimo Dataframe

In [92]:
df12_listalocalidades.head() # Veo las primeras filas

Unnamed: 0,Provincia,Partido,Localidad,ADSL,Cablemódem,Dial Up,Fibra óptica,4G,3G,Telefonía Fija,Wireless,Satelital
0,BUENOS AIRES,9 de Julio,Alfredo Demarchi (Est. Facundo Quiroga),SI,--,--,--,SI,SI,SI,--,--
1,BUENOS AIRES,9 de Julio,Carlos María Naón,--,--,--,--,SI,SI,SI,--,--
2,BUENOS AIRES,9 de Julio,Dudignac,--,--,SI,--,SI,SI,SI,SI,--
3,BUENOS AIRES,9 de Julio,La Aurora (Est. La Niña),--,--,--,--,SI,--,--,--,--
4,BUENOS AIRES,9 de Julio,Manuel B. Gonnet (Est. French),SI,--,--,SI,SI,SI,SI,--,--


In [93]:
df12_listalocalidades.info() # Hago un resumen del Dataframe

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4311 entries, 0 to 4310
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Provincia       4311 non-null   object
 1   Partido         4311 non-null   object
 2   Localidad       4311 non-null   object
 3   ADSL            4311 non-null   object
 4   Cablemódem      4311 non-null   object
 5   Dial Up         4311 non-null   object
 6   Fibra óptica    4311 non-null   object
 7   4G              4311 non-null   object
 8   3G              4311 non-null   object
 9   Telefonía Fija  4311 non-null   object
 10  Wireless        4311 non-null   object
 11  Satelital       4311 non-null   object
dtypes: object(12)
memory usage: 404.3+ KB


In [94]:
def data_inspeccion(variables_num):
    print(f'Shape: {variables_num.shape}')
    
    '''Aplico la Funcion para observar 
        si tiene valores nulos.'''
        
    print(f'\nDatos faltantes:')
    for columna in variables_num.columns:
        cantidad_nulos = variables_num[columna].isnull().sum()
        print(f'{columna}: {cantidad_nulos} valores nulos')

data_inspeccion(df12_listalocalidades)

Shape: (4311, 12)

Datos faltantes:
Provincia: 0 valores nulos
Partido: 0 valores nulos
Localidad: 0 valores nulos
ADSL: 0 valores nulos
Cablemódem: 0 valores nulos
Dial Up: 0 valores nulos
Fibra óptica: 0 valores nulos
4G: 0 valores nulos
3G: 0 valores nulos
Telefonía Fija: 0 valores nulos
Wireless: 0 valores nulos
Satelital: 0 valores nulos


- En este Dataframe obtuve dos duplicados por lo que procedi a borrarlos.

In [107]:
df12_listalocalidades.duplicated().sum() # veo si tiene duplicados

2

In [110]:
df12_listalocalidades = df12_listalocalidades.drop_duplicates() # Borro los dos duplicados

In [111]:
df12_listalocalidades.duplicated().sum() # visualizo de nuevo.

0

### En el marco del análisis detallado sobre el comportamiento del sector de las telecomunicaciones a nivel nacional, se llevó a cabo un proceso de Extracción, Transformación y Carga (ETL) de 12 conjuntos de datos representativos. A pesar de que el proyecto inicialmente requería un Análisis Exploratorio de Datos (EDA), se consideró crucial realizar una limpieza y preparación a fondo de los datos para obtener resultados confiables y precisos. Esta acción adicional permitió disponer de datos depurados, eliminando duplicados, valores nulos y ajustando la consistencia de la información.