# Transformación de Datos y análisis preliminar

En primer lugar, realizaremos un proceso de ETL para determinar los datos de utilidad a los efectos de obtener información relevante, y una normalización inicial de las diferentes tablas.

In [1]:
import pandas as pd

In [2]:
#Crearemos un DataFrame a partir del dataset "Internet.xlsx"
df_internet = pd.ExcelFile(r"C:\Users\GASTON\Desktop\PI2\DATA\Internet.xlsx")
df_internet.sheet_names

['Acc_vel_loc_sinrangos',
 'Velocidad_sin_Rangos',
 'Accesos_tecnologia_localidad',
 'Velocidad % por prov',
 'Totales VMD',
 'Totales Accesos Por Tecnología',
 'Accesos Por Tecnología',
 'Penetración-poblacion',
 'Penetracion-hogares',
 'Penetracion-totales',
 'Totales Accesos por velocidad',
 'Accesos por velocidad',
 'Dial-BAf',
 'Totales Dial-BAf',
 'Ingresos ']

Analizaremos los datos que nos ofrece cada hoja, para determinar si nos es de utilidad. 
En esta instancia, se pretende hacer un primer análisis de la información más relevante, y se revisarán los valores nulos y eventualmente limpieza de sus campos.
Sin embargo, los duplicados, outliers y faltantes serán analizados en el Análisis Exploratorio de Datos

# Datos de acceso por localidad sin rangos de velocidad.

In [4]:
df1 = pd.read_excel(df_internet, sheet_name='Acc_vel_loc_sinrangos')
df1.head(3)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",1 Mbps,...,680 Mbps,700 Mbps,800 Mbps,850 Mbps,900 Mbps,999 Mbps,1000 Mbps,1024 Mbps,4000 Mbps,10000 Mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,,,2.0,,19.0,,...,,,,,,,,,,
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,,,,,,,...,,,,,,,,,,
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,,,1.0,,,,...,,,,,,,,,,


In [12]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3065 entries, 0 to 3064
Columns: 125 entries, Provincia to 10000 Mbps
dtypes: float64(121), object(4)
memory usage: 2.9+ MB


A primera vista se pueden observar una gran cantidad de campos nulos.

In [10]:
valores_nulos_por_columna = df1.isnull().sum() #Se cuentan los valores nulos por columna
print(valores_nulos_por_columna)


Provincia        0
Partido          0
Localidad        0
Link Indec       0
Otros         2035
              ... 
999 Mbps      3048
1000 Mbps     2645
1024 Mbps     3063
4000 Mbps     3064
10000 Mbps    3063
Length: 125, dtype: int64


In [9]:
total_celdas = df1.size #se calcula el tamaño del DataFrame
total_nulos = df1.isnull().sum().sum() #Se suma la totalidad de los valores nulos, sin importar la columna

porcentaje_total_nulos = (total_nulos / total_celdas) * 100 #es calcula el porcentaje que los nulos representan del total.
print(f"Total de valores nulos en el DataFrame: {total_valores_nulos}")
print(f"Porcentaje total de valores nulos en el DataFrame: {porcentaje_total_nulos:.2f}%")


Total de valores nulos en el DataFrame: 351902
Porcentaje total de valores nulos en el DataFrame: 91.85%


Como podemos observar, esta tabla no nos ofrece información relevante.

# Velocidad sin rangos

In [14]:
df2 = pd.read_excel(df_internet, sheet_name='Velocidad_sin_Rangos')
df2.head(3)

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,2048 Mbps,2529 Mbps,3072 Mbps,4000 Mbps,5000 Mbps,5125 Mbps,6000 Mbps,7000 Mbps,8000 Mbps,10000 Mbps
0,2024.0,1.0,Buenos Aires,125147.0,18.0,0.0,0.0,25815.0,169.0,4611.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2024.0,1.0,Capital Federal,0.0,31.0,0.0,0.0,451.0,34.0,1307.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2024.0,1.0,Catamarca,70.0,0.0,0.0,0.0,34.0,37.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [15]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 625 entries, 0 to 624
Columns: 193 entries, Año to 10000 Mbps
dtypes: float64(191), int64(1), object(1)
memory usage: 942.5+ KB


Este DataFrame me ofrece información sobre la velocidad de conexión, por Provincia y por trimestre.

In [17]:
valores_nulos_por_columna = df2.isnull().sum()
print(valores_nulos_por_columna)

Año           1
Trimestre     1
Provincia     1
Otros         1
0,256 Mbps    1
             ..
5125 Mbps     1
6000 Mbps     1
7000 Mbps     1
8000 Mbps     1
10000 Mbps    1
Length: 193, dtype: int64


In [16]:
total_celdas = df2.size
total_nulos = df2.isnull().sum().sum()

porcentaje_total_nulos = (total_nulos / total_celdas) * 100
print(f"Total de valores nulos en el DataFrame: {total_valores_nulos}")
print(f"Porcentaje total de valores nulos en el DataFrame: {porcentaje_total_nulos:.2f}%")


Total de valores nulos en el DataFrame: 351902
Porcentaje total de valores nulos en el DataFrame: 0.16%


Podemos observar: 1) que el dataframe no tiene valores faltantes (todos se encuentran con valor 0). 2) Que los valores nulos son irrelevantes, y no tienen gran implicancia en la información aportada. Por ese motivo, procedemos a eliminarlos.

In [18]:
df2 = df2.dropna()

In [19]:
total_nulos = df2.isnull().sum().sum()
total_nulos

0

Para manejar los espacios en las columnas de tipo string, y para manejar los duplicados, crearemos una función.

In [64]:
def eliminarEspaciosyDuplicados(df):
    '''
    Esta función recibe un DataFrame. Realiza una limpieza de los espacios en blanco al principio y 
    al final con strip, sólo en las columnas de tipo 'object'.
    Luego, busca y elimina las filas duplicadas en todo el DataFrame.
    Retorna el Dataframe depurado.
    '''
    df = df.apply(lambda x: x.str.strip() if x.dtype == 'object' else x) # Limpiar espacios en blanco en las columnas de tipo object
    df = df.drop_duplicates() #Elimina filas duplicadas
    
    return df


In [65]:
df2 = eliminarEspaciosyDuplicados(df2) #Se eliminan duplicados y espacios en blanco en las cadenas de texto

In [67]:
df2[['Año', 'Trimestre']] = df2[['Año', 'Trimestre']].astype(int) #Se convirten en números las columnas 'Año' y 'Trimestre'.

# Accesos a internet por tipo de tecnología y localidad.

In [20]:
df3 = pd.read_excel(df_internet, sheet_name='Accesos_tecnologia_localidad')
df3.head(3)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,755,4600,0,2,0,742,0,727,6826
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,0,0,0,10,1,0,0,192
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,0,0,0,0,0,0,181,181


In [21]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3352 entries, 0 to 3351
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Provincia      3072 non-null   object
 1   Partido        3072 non-null   object
 2   Localidad      3072 non-null   object
 3   Link Indec     3072 non-null   object
 4   ADSL           3352 non-null   int64 
 5   CABLEMODEM     3352 non-null   int64 
 6   DIAL UP        3352 non-null   int64 
 7   FIBRA OPTICA   3352 non-null   int64 
 8   OTROS          3352 non-null   int64 
 9   SATELITAL      3352 non-null   int64 
 10  WIMAX          3352 non-null   int64 
 11  WIRELESS       3352 non-null   int64 
 12  Total general  3352 non-null   int64 
dtypes: int64(9), object(4)
memory usage: 340.6+ KB


Este Dataframe ofrece información sobre los accesos a distintas teconologías según las localidades, aunque no tiene un seguimiento histórico.

In [22]:
valores_nulos_por_columna = df3.isnull().sum()
print(valores_nulos_por_columna)

Provincia        280
Partido          280
Localidad        280
Link Indec       280
ADSL               0
CABLEMODEM         0
DIAL UP            0
FIBRA OPTICA       0
OTROS              0
SATELITAL          0
WIMAX              0
WIRELESS           0
Total general      0
dtype: int64


Los campos nulos se encuentran en columnas clave, como la localidad. Por eso, los borraremos.

In [23]:
df3_nulos = df3[df3[['Provincia', 'Partido', 'Localidad']].isnull().all(axis=1)]
df3_nulos.head(10)
# Cuando filtramos los nulos, observamos que los datos faltantes son en las mismas filas.

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
3072,,,,,0,0,0,0,0,0,0,0,0
3073,,,,,0,0,0,0,0,0,0,0,0
3074,,,,,0,0,0,0,0,0,0,0,0
3075,,,,,0,0,0,0,0,0,0,0,0
3076,,,,,0,0,0,0,0,0,0,0,0
3077,,,,,0,0,0,0,0,0,0,0,0
3078,,,,,0,0,0,0,0,0,0,0,0
3079,,,,,0,0,0,0,0,0,0,0,0
3080,,,,,0,0,0,0,0,0,0,0,0
3081,,,,,0,0,0,0,0,0,0,0,0


In [24]:
# Vamos a eliminar las filas donde 'Provincia' sea nula (considerando lo visto en el punto anterior)
df3 = df3.dropna(subset=['Provincia'])
valores_nulos_por_columna = df3.isnull().sum()
print(valores_nulos_por_columna) #Verificamos si quedan nulos


Provincia        0
Partido          0
Localidad        0
Link Indec       0
ADSL             0
CABLEMODEM       0
DIAL UP          0
FIBRA OPTICA     0
OTROS            0
SATELITAL        0
WIMAX            0
WIRELESS         0
Total general    0
dtype: int64


In [25]:
df3.head(3)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,755,4600,0,2,0,742,0,727,6826
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,0,0,0,10,1,0,0,192
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,0,0,0,0,0,0,181,181


In [75]:
df3= eliminarEspaciosyDuplicados(df3) #Se eliminan duplicados y espacios en blanco en las cadenas de texto

In [76]:
df3['Link Indec'] = df3['Link Indec'].replace('Sin Datos', 0).infer_objects()  # Reemplaza 'Sin Datos' por 0
df3['Link Indec'] = df3['Link Indec'].astype(int)


#  Distribución porcentual de la velocidad de conexión a internet por provincia.

In [26]:
df4 = pd.read_excel(df_internet, sheet_name='Velocidad % por prov')
df4.head(3) 

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)
0,2024,1,Buenos Aires,159.13
1,2024,1,Capital Federal,229.94
2,2024,1,Catamarca,91.45


Esta tabla no presenta nulos ni valores faltantes. Presenta un registro histórico de la media de la velocidad de descarga o bajada, por Provincia. Será interesante analizar en el EDA la evolución de esos valores

In [77]:
df4 = eliminarEspaciosyDuplicados(df4) #Se eliminan duplicados y espacios en blanco en las cadenas de texto

# Totales de velocidad media descargada (VMD).

In [28]:
df5 = pd.read_excel(df_internet, sheet_name='Totales VMD')
df5.head(3) 

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada),Trimestre.1
0,2024,1,139.15,Ene-Mar 2024
1,2023,4,139.04,Oct-Dic 2023
2,2023,3,129.67,Jul-Sept 2023


Esta tabla aporta un promedio anual de la misma métrica que el DataFrame anterior. En principio, podría ser descartada pero no lo haremos por el momento, ya que previo sería bueno observar si hay relación entre la media de bajada total, con los tipos de tecnología.
Al efecto, sólo se elimina la columna 'Trimestre.1', ya que la información surge de las dos primeras columnas.

In [29]:
df5 = df5.drop(columns=['Trimestre.1'])
df5.columns

Index(['Año', 'Trimestre', 'Mbps (Media de bajada)'], dtype='object')

In [78]:
df5 = eliminarEspaciosyDuplicados(df5) #Se eliminan duplicados y espacios en blanco en las cadenas de texto

# Totales de accesos a internet desglosados por tecnología.

In [30]:
df6 = pd.read_excel(df_internet, sheet_name='Totales Accesos Por Tecnología')
df6.head(3) 

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
0,2024,1,774475,5986957,4015101,598682,257941,11633156,Ene-Mar 2024
1,2023,4,836390,6022532,3908183,585760,194796,11547661,Oct-Dic 2023
2,2023,3,897895,6018832,3708718,581436,200027,11406908,Jul-Sept 2023


No se observan nulos ni valores faltantes. Una vez más, parece información disponible en otras tablas. Sin embargo, se decidirá posteriormente. Por eso, sólo se eliminarán las columnas Periodo (se puede obtener la información de Año y Trimestre) y Total (es la sumatoria de las columnas anteriores).

In [31]:
df6 = df6.drop(columns=['Total', 'Periodo'])
df6.columns

Index(['Año', 'Trimestre', 'ADSL', 'Cablemodem', 'Fibra óptica', 'Wireless',
       'Otros'],
      dtype='object')

In [79]:
df6 = eliminarEspaciosyDuplicados(df6) #Se eliminan duplicados y espacios en blanco en las cadenas de texto

# Accesos Por Tecnología

In [88]:
df7 = pd.read_excel(df_internet, sheet_name='Accesos Por Tecnología')
df7.head(3) 

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2024,1,Buenos Aires,203297.0,2790663.0,1799013.0,150290.0,101294.0,5044557.0
1,2024,1,Capital Federal,70108.0,1177475.0,203756.0,4493.0,48879.0,1504711.0
2,2024,1,Catamarca,5901.0,11025.0,56542.0,1384.0,81.0,74933.0


Aquí la información parece más relevante que la tabla anterior, ya que agrega una segmentación territorial por provincia, manteniendo el registro histórico. Se observa una pequeña existencia de valores nulos o faltantes, los que se proceden a manejar.

In [89]:
valores_nulos_por_columna = df7.isnull().sum()
print(valores_nulos_por_columna)

Año             1
Trimestre       1
Provincia       2
ADSL            2
Cablemodem      2
Fibra óptica    2
Wireless        2
Otros           2
Total           2
dtype: int64


La cantidad de filas con nulos es irrelevante, por lo que las eliminamos

In [90]:
# Vamos a eliminar las filas donde 'Año' sea nulo
df7 = df7.dropna(subset=['Año','Provincia','ADSL','Cablemodem', 'Fibra óptica','Wireless', 'Otros','Total'])
valores_nulos_por_columna = df7.isnull().sum()
print(valores_nulos_por_columna) #Verificamos si quedan nulos

Año             0
Trimestre       0
Provincia       0
ADSL            0
Cablemodem      0
Fibra óptica    0
Wireless        0
Otros           0
Total           0
dtype: int64


Eliminamos sólo dos filas con valores nulos. Ahora, simplemente eliminaremos la columna 'Total', para evitar redundancia de datos (es la sumatoria de las anteriores).

In [91]:
df7 = df7.drop(columns=['Total'])
df7.columns

Index(['Año', 'Trimestre', 'Provincia', 'ADSL', 'Cablemodem', 'Fibra óptica',
       'Wireless', 'Otros'],
      dtype='object')

Observamos que en la columna "Año" hay valores que tienen asteriscos (*). Esto produce errores en la lectura y en la limpieza. Haremos una función para manejarlos

In [93]:
def limpiarValores(valor):
    '''
    Esta función recibe un valor que puede ser una cadena de texto que contiene un número, con o sin un asterisco.
    Con el método .replace('*', '') se elimina el asterisco, dejando el número. Si no contiene un astericos, conserva
    el valor original.
    Luego, convierte el valor en número entero.
    Retorna el valor depurado y convertido a int.
    '''
    if '*' in valor:
        numero = valor.replace('*', '')
    else:
        numero = valor
    return int(numero)

In [94]:
df7['Año'] = df7['Año'].astype(str).apply(limpiarValores)
df7['Trimestre'] = df7['Trimestre'].astype(str).apply(limpiarValores)

In [95]:
df7 = eliminarEspaciosyDuplicados(df7)#Se eliminan duplicados y espacios en blanco en las cadenas de texto

# Penetración de internet en la población.

In [38]:
df8 = pd.read_excel(df_internet, sheet_name='Penetración-poblacion')
df8.head(3) 

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hab
0,2024,1,Buenos Aires,27.8
1,2024,1,Capital Federal,48.78
2,2024,1,Catamarca,17.5


No se observan valores nulos o faltantes. Esta tabla muestra los datos de penetración de internet en la población (Promedio de conexiones cada 100 habitantes). Las columnas de esta tabla son adecuadas.

In [97]:
df8 = eliminarEspaciosyDuplicados(df8) #Se eliminan duplicados y espacios en blanco en las cadenas de texto

# Penetración de internet en hogares.

In [39]:
df9 = pd.read_excel(df_internet, sheet_name='Penetracion-hogares')
df9.head(3) 

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2024,1,Buenos Aires,81.1
1,2024,1,Capital Federal,119.53
2,2024,1,Catamarca,68.82


No se observan valores nulos o faltantes, ni columnas innecesarias. Se presenta información sobre la penetración en hogares: indica la cantidad de conexiones por cada 100 hogares. Esta tabla es interesante para la comparación con la de penetración en la población, y ver si se identifican patrones según tecnología o provincias.

In [98]:
df9 = eliminarEspaciosyDuplicados(df9) #Se eliminan duplicados y espacios en blanco en las cadenas de texto

# Penetración de internet Total

In [40]:
df10 = pd.read_excel(df_internet, sheet_name='Penetracion-totales')
df10.head(3) 

Unnamed: 0,Año,Trimestre,Accesos por cada 100 hogares,Accesos por cada 100 hab,Periodo
0,2024,1,78.89,24.79,Ene-Mar 2024
1,2023,4,78.56,24.66,Oct-Dic 2023
2,2023,3,77.84,24.41,Jul-Sept 2023


Arroja las mediciones totales por período, pero no discrimina por Provincia. No se hacen modificaciones, ya que esta tabla puede descartarse, y tomarse información a partir de las dos anteriores.

# Accesos por velocidad Totales

In [41]:
df11 = pd.read_excel(df_internet, sheet_name='Totales Accesos por velocidad')
df11.head(3) 

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total
0,2024,1,28801,69355,866152,950930,672155,353896,8363694,328173,11633156
1,2023,4,29708,71742,900253,978108,697232,350290,8224736,295592,11547661
2,2023,3,30274,80609,945608,998725,720084,350918,8003269,277421,11406908


Esta tabla no presenta nulos ni valores faltantes. Es el conteo total de conexiones, discriminado por velocidades, según períodos trimestrales. No aporta información sobre las Provincias o localidades. Puede eliminarse la tabla 'Total' por ser una sumatoria, independientemente de que es probable que esta tabla no termine siendo utilizada, ya que la información se encuentra en otras.

In [42]:
df11 = df11.drop(columns=['Total'])
df11.columns

Index(['Año', 'Trimestre', 'Hasta 512 kbps', 'Entre 512 Kbps y 1 Mbps',
       'Entre 1 Mbps y 6 Mbps', 'Entre 6 Mbps y 10 Mbps',
       'Entre 10 Mbps y 20 Mbps', 'Entre 20 Mbps y 30 Mbps', 'Más de 30 Mbps',
       'OTROS'],
      dtype='object')

In [100]:
df11 = eliminarEspaciosyDuplicados(df11) #Se eliminan duplicados y espacios en blanco en las cadenas de texto

# Accesos por velocidad.

In [43]:
df12 = pd.read_excel(df_internet, sheet_name='Accesos por velocidad')
df12.head(3) 

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2024,1,Buenos Aires,26002.0,22510.0,221185.0,233225.0,241778.0,106418.0,4068292.0,125147.0,5044557.0
1,2024,1,Capital Federal,516.0,5418.0,29753.0,51415.0,37369.0,5957.0,1374283.0,0.0,1504711.0
2,2024,1,Catamarca,71.0,176.0,2872.0,3424.0,4204.0,1822.0,62294.0,70.0,74933.0


In [44]:
valores_nulos_por_columna = df12.isnull().sum()
print(valores_nulos_por_columna)

Año                    0
Trimestre              0
Provincia              0
HASTA 512 kbps         0
+ 512 Kbps - 1 Mbps    0
+ 1 Mbps - 6 Mbps      0
+ 6 Mbps - 10 Mbps     0
+ 10 Mbps - 20 Mbps    0
+ 20 Mbps - 30 Mbps    0
+ 30 Mbps              0
OTROS                  6
Total                  0
dtype: int64


Tenemos 6 nulos en la columna "otros", que procedemos a eliminar.

In [45]:
df12 = df12.dropna(subset=['OTROS'])
valores_nulos_por_columna = df12.isnull().sum()
print(valores_nulos_por_columna) #Verificamos si quedan nulos

Año                    0
Trimestre              0
Provincia              0
HASTA 512 kbps         0
+ 512 Kbps - 1 Mbps    0
+ 1 Mbps - 6 Mbps      0
+ 6 Mbps - 10 Mbps     0
+ 10 Mbps - 20 Mbps    0
+ 20 Mbps - 30 Mbps    0
+ 30 Mbps              0
OTROS                  0
Total                  0
dtype: int64


Eliminaremos la columna 'Total', para evitar datos redundantes (es la sumatoria de todas las demás columanas)

In [46]:
df12 = df12.drop(columns=['Total'])
df12.columns

Index(['Año', 'Trimestre', 'Provincia', 'HASTA 512 kbps',
       '+ 512 Kbps - 1 Mbps', '+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps',
       '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS'],
      dtype='object')

In [101]:
df12 = eliminarEspaciosyDuplicados(df12) #Eliminamos duplicados y espacios en blanco en cadenas de texto

En esta columna podemos analizar los accesos a internet, filtrados por velocidad y por Provincia (además de por período, lo que ya sucedía en la tabla anterior).

# Dial - BAf

In [47]:
df13 = pd.read_excel(df_internet, sheet_name='Dial-BAf')
df13.head(3) 

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2024,1,Buenos Aires,5038657,5900.0,5044557
1,2024,1,Capital Federal,1502661,2050.0,1504711
2,2024,1,Catamarca,74932,1.0,74933


Se trata de los accesos Accesos dial-up y Banda Ancha Fija (BAf). Se observa una mínima cantidad de valores faltantes, cuyas filas se eliminan. También se elimina la columna "Total" para evitar redundancia de datos

In [48]:
valores_nulos_por_columna = df13.isnull().sum()
print(valores_nulos_por_columna)

Año                 0
Trimestre           0
Provincia           0
Banda ancha fija    0
Dial up             2
Total               0
dtype: int64


In [49]:
df13 = df13.dropna(subset=['Dial up'])
valores_nulos_por_columna = df13.isnull().sum()
print(valores_nulos_por_columna) #Verificamos si quedan nulos

Año                 0
Trimestre           0
Provincia           0
Banda ancha fija    0
Dial up             0
Total               0
dtype: int64


In [50]:
df13 = df13.drop(columns=['Total'])
df13.columns

Index(['Año', 'Trimestre', 'Provincia', 'Banda ancha fija', 'Dial up'], dtype='object')

In [102]:
df13 = eliminarEspaciosyDuplicados(df13) #Se eliminan espacios en blanco y duplicados

# Totales Dial-BAf

In [105]:
df14 = pd.read_excel(df_internet, sheet_name='Totales Dial-BAf')
df14.head(3) 

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total,Periodo
0,2024,1,11621363,11793,11633156,Ene-Mar 2024
1,2023,4,11535868,11793,11547661,Oct-Dic 2023
2,2023,3,11395115,11793,11406908,Jul-Sept 2023


Esta tabla muestra los totales para Dial up y Banda Ancha fija. No presenta una división por provincia, sólo por trimestre y año. No se han identificado nulos ni valores faltantes. Por el momento, no se ha decidido las tablas de mayor relevancia, por lo que simplemente se eliminan las columnas 'Total' y 'Periodo'.

In [106]:
df14 = df14.drop(columns=['Total', 'Periodo'])
df14.columns

Index(['Año', 'Trimestre', 'Banda ancha fija', 'Dial up'], dtype='object')

In [107]:
df14 = df14.drop_duplicates() #Se eliminan duplicados

# Ingresos

In [59]:
df15 = pd.read_excel(df_internet, sheet_name='Ingresos ')
df15.head(3) 

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo
0,2024,1,280419100.0,Ene-Mar 2024
1,2023,4,167376000.0,Oct-Dic 2023
2,2023,3,133106600.0,Jul-Sept 2023


Esta tabla contiene los datos de los ingresos generados por los servicios de internet, en miles de pesos. No se identifican valores nulos ni faltantes. Simplemente, podemos desprendernos de la columna 'Periodo', por ser información con la que ya se cuenta.
En la fila 4 identificamos un error de carga (indica año 2033, cuando de la columna Periodo surge con claridad que se trata del año 2023). Procedemos a corregirlo.

In [60]:
df15 = df15.drop(columns=['Periodo'])
df15.columns

Index(['Año', 'Trimestre', 'Ingresos (miles de pesos)'], dtype='object')

In [None]:
df15['Año'][4] = '2023'

In [63]:
df15['Año'] = df15['Año'].astype(int)

In [108]:
df15 = df15.drop_duplicates() #Eliminamos duplicados

Realizada la normalización de las diferentes tablas, corresponde ahora seleccionar aquellas con información relevante para realizar un Análisis Exploratorio. Se exportan en archivos csv.

El primer DataFrame que aporta datos interesantes para su análisis es el de Velocidad por Provincia.

In [110]:
df2.head()

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,2048 Mbps,2529 Mbps,3072 Mbps,4000 Mbps,5000 Mbps,5125 Mbps,6000 Mbps,7000 Mbps,8000 Mbps,10000 Mbps
0,2024,1,Buenos Aires,125147.0,18.0,0.0,0.0,25815.0,169.0,4611.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2024,1,Capital Federal,0.0,31.0,0.0,0.0,451.0,34.0,1307.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2024,1,Catamarca,70.0,0.0,0.0,0.0,34.0,37.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2024,1,Chaco,3816.0,0.0,0.0,0.0,234.0,2.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,2024,1,Chubut,16640.0,8.0,0.0,0.0,69.0,34.0,836.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [111]:
df3.to_csv(r'C:\Users\GASTON\Desktop\PI2\DATA\Accesos_tecnologia_localidad.csv', index=False)
df4.to_csv(r'C:\Users\GASTON\Desktop\PI2\DATA\Velocidad % por prov.csv', index=False)

In [112]:
df5.to_csv(r'C:\Users\GASTON\Desktop\PI2\DATA\Totales VMD.csv', index=False)

In [None]:
df6

In [None]:
df8
df9
df10

In [None]:
df11
df13
df15