En el presente Notebook se hara el analisis correspondiente a los 15 archivos obtenidos del [link](https://datosabiertos.enacom.gob.ar/dashboards/20000/acceso-a-internet/) proporcinado por la empresa. La cual pertenece al ENACOM, la organizacion estatal encargada de las telecomunicaciones en argentina.

Para  poner un poco de contexto es importante destacar que los archivos vienen de una base de datos conocida como "Datos Abiertos Enacom", la cual disponibiliza información de distinta indole del gobierno de argentina.

El encargo presente viene de una empresa privada relacionada con las telecomunicaciones  que brinda principalmente servicios de internet y relacionados.


La empresa encarga 2 objetivos principales: 
- La realizacion de un analisis que permita conocer mejor el comportamiento del mercado argentino en este sector
- Identificar oportunidades de crecimiento y plantear posibles soluciones que puedan ser utilizadas por el gobierno argentino y/o empresas privadas relacionadas a la misma que esten interesadas

Ahora empezaremos cargando los archivos y veremos si existen relacion entre ellos segun vayamos avanzando

In [1]:
import pandas as pd
import os

Para empezar haremos una función que nos permita dar una vista preliminar a los archivos csv que tenemos, nos permita ver su información en general, como ver si tiene valores nulos o si tiene filas duplicadas, etc.

In [2]:

def analisis_archivos_csv(directorio_csv):
    # Lista para almacenar los resultados de análisis de cada archivo CSV
    resultados = []

    # Obtenemos la lista de archivos CSV en el directorio de entrada
    archivos_csv = [archivo for archivo in os.listdir(directorio_csv) if archivo.endswith('.csv')]

    for archivo_csv in archivos_csv:
        # Lee el archivo CSV
        df_csv = pd.read_csv(os.path.join(directorio_csv, archivo_csv), thousands='.', encoding="utf-8")

        # Obtén el nombre del archivo de la ruta
        nombre_archivo = os.path.basename(archivo_csv)

        # Obtenemos el número total de columnas y filas
        num_filas, num_columnas = df_csv.shape

        # Obtenemos el número total de filas con valores nulos
        filas_con_nulos = df_csv.isnull().any(axis=1).sum()

        # Obtenemos el número total de valores nulos por columna
        nulos_por_columna = df_csv.isnull().sum()

        # Obtenemos el número total de filas duplicadas
        filas_duplicadas = df_csv.duplicated().sum()

        # Agregar el tipo de dato de cada columna
        tipos_de_datos = df_csv.dtypes

        # Construye el análisis del archivo actual
        analisis = f"Análisis del archivo: \"{nombre_archivo}\":  \
        \n- Primeras 5 filas del archivo\n {df_csv.head(5)}\
        \n- Número total de columnas: {num_columnas}  \
        \n- Número total de filas: {num_filas}  \
        \n- Número total de filas duplicadas: {filas_duplicadas}  \
        \n- Número total de filas con valores nulos: {filas_con_nulos}  \
        \n- Número total de valores nulos y tipo de dato por columna:\n"

        for columna, nulos, tipo in zip(nulos_por_columna.index, nulos_por_columna.values, tipos_de_datos):
            analisis += f"{columna: <20} {nulos: <10} {tipo}\n"
                   
        resultados.append(analisis)

    return resultados


Una vez definida la función cargaremos la información en una lista la cual llamaremos objeto por objeto para empezar el analisis y luego realizar la limpieza correspondiente

In [3]:
analisis_csv = analisis_archivos_csv("dataset_csv")

##### 01 Analisis y limpieza del archivo : "Acceso a Internet fijo  banda ancha y banda angosta - Dial-BAf.csv"

In [4]:
print(analisis_csv[0])

Análisis del archivo: "Acceso a Internet fijo  banda ancha y banda angosta - Dial-BAf.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre        Provincia  Banda ancha fija  Dial up    Total
0  2022          4     Buenos Aires           4788466  61990.0  4794665
1  2022          4  Capital Federal           1549781  21450.0  1551926
2  2022          4        Catamarca             70908     10.0    70909
3  2022          4            Chaco            143658     50.0   143663
4  2022          4           Chubut            167855   9040.0   168759        
- Número total de columnas: 6          
- Número total de filas: 864          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 2          
- Número total de valores nulos y tipo de dato por columna:
Año                  0          int64
Trimestre            0          int64
Provincia            0          object
Banda ancha fija     0          int64
Dial up              2         

Observamos que hay valores nulos en la columna Dial up y luego que el tipo de de valor de esta misma columna es float64, primero veremos las filas para ver si los valores deben ser rellenados con 0 podemos restar el total con las filas que conocemos, luego cambiaremos el tipo de dato de la columna Dial up

In [5]:
# Primero cargamos el dataframe0
df_01 = pd.read_csv("dataset_csv//Acceso a Internet fijo  banda ancha y banda angosta - Dial-BAf.csv")
df_01

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,4,Buenos Aires,4788466,6199.0,4794665
1,2022,4,Capital Federal,1549781,2145.0,1551926
2,2022,4,Catamarca,70908,1.0,70909
3,2022,4,Chaco,143658,5.0,143663
4,2022,4,Chubut,167855,904.0,168759
...,...,...,...,...,...,...
859,2014,1,Santa Cruz,26304,460.0,26764
860,2014,1,Santa Fe,506000,612.0,506612
861,2014,1,Santiago Del Estero,37124,9.0,37133
862,2014,1,Tierra Del Fuego,27272,766.0,28038


In [6]:
# Filas con al menos un valor nulo
filas_con_nulos = df_01[df_01.isnull().any(axis=1)]
filas_con_nulos

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
440,2018,2,Formosa,44554,,44554
445,2018,2,Misiones,106147,,106147


Observamos que tenemos que rellenar las filas con el numero 0 para que el total se conserve

In [7]:
# Reemplazamos los valores nulos con 0
df_01['Dial up'].fillna(0, inplace=True)
df_01

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,4,Buenos Aires,4788466,6199.0,4794665
1,2022,4,Capital Federal,1549781,2145.0,1551926
2,2022,4,Catamarca,70908,1.0,70909
3,2022,4,Chaco,143658,5.0,143663
4,2022,4,Chubut,167855,904.0,168759
...,...,...,...,...,...,...
859,2014,1,Santa Cruz,26304,460.0,26764
860,2014,1,Santa Fe,506000,612.0,506612
861,2014,1,Santiago Del Estero,37124,9.0,37133
862,2014,1,Tierra Del Fuego,27272,766.0,28038


Luego cambiaremos el tipo de dato de Dial up de float64 a int

In [8]:
# Cambiamos el tipo de dato por columna
df_01['Dial up'] = df_01['Dial up'].astype(int)
df_01.dtypes

Año                  int64
Trimestre            int64
Provincia           object
Banda ancha fija     int64
Dial up              int32
Total                int64
dtype: object

Por ultimo guardamos el dataframe cambiando el nombre del archivo ligeramente para mejor entendimiento

In [9]:
df_01.to_csv("dataset_limpio/Acceso a Internet fijo banda ancha y banda angosta por provincia.csv", index=False)

##### 02 Analisis y limpieza del archivo : "Acceso a Internet fijo  banda ancha y banda angosta - Totales.csv"

In [10]:
print(analisis_csv[1])

Análisis del archivo: "Acceso a Internet fijo  banda ancha y banda angosta - Totales.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre  Banda ancha fija  Dial up     Total        Periodo
0  2022          4          11195668    12446  11208114   Oct-Dic 2022
1  2022          3          11078691    12437  11091128  Jul-Sept 2022
2  2022          2          10946248    12436  10958684   Abr-Jun 2022
3  2022          1          10611390    12619  10624009   Ene-Mar 2022
4  2021          4          10476933    12861  10489794   Oct-Dic 2021        
- Número total de columnas: 6          
- Número total de filas: 36          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 0          
- Número total de valores nulos y tipo de dato por columna:
Año                  0          int64
Trimestre            0          int64
Banda ancha fija     0          int64
Dial up              0          int64
Total                0          int64
Pe

Vemos que en este archivo todo esta en orden, no obstante podemos quitar el periodo puesto que este se sobreentiende con las columnas años y trimestre

In [11]:
# Cargamos el csv
df_02 = pd.read_csv("dataset_csv/Acceso a Internet fijo  banda ancha y banda angosta - Totales.csv")

In [12]:
# Eliminamos la columna
df_02.drop('Periodo', axis=1, inplace=True)
df_02

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total
0,2022,4,11195668,12446,11208114
1,2022,3,11078691,12437,11091128
2,2022,2,10946248,12436,10958684
3,2022,1,10611390,12619,10624009
4,2021,4,10476933,12861,10489794
5,2021,3,10075184,10357,10085541
6,2021,2,9852702,10382,9863084
7,2021,1,9637956,10016,9647972
8,2020,4,9561546,10016,9571562
9,2020,3,9346183,10016,9356199


In [15]:
df_02.to_csv("dataset_limpio/Acceso a Internet fijo banda ancha y banda angosta nacional.csv", index=False)

##### 03 Analisis y limpieza del archivo : "Acceso a Internet fijo por tecnología y provincia - Accesos Por Tecnología.csv"

In [16]:
print(analisis_csv[2])

Análisis del archivo: "Acceso a Internet fijo por tecnología y provincia - Accesos Por Tecnología.csv":          
- Primeras 5 filas del archivo
     Año Trimestre        Provincia       ADSL  Cablemodem  Fibra óptica  \
0  2022         4     Buenos Aires  3259080.0  27672470.0    14991490.0   
1  2022         4  Capital Federal  1387530.0  12381960.0     1385480.0   
2  2022         4        Catamarca    89520.0    109980.0      473370.0   
3  2022         4            Chaco   245820.0    612650.0      472850.0   
4  2022         4           Chubut   454500.0    739230.0       98150.0   

    Wireless     Otros       Total  Unnamed: 9  Unnamed: 10      Unnamed: 11  \
0  1299100.0  724510.0  47946650.0         NaN          NaN     Buenos Aires   
1    46030.0  318260.0  15519260.0         NaN          NaN  Capital Federal   
2    13790.0   22430.0    709090.0         NaN          NaN        Catamarca   
3    79570.0   25740.0   1436630.0         NaN          NaN            Chaco   
4  

Observamos: 
- El archivo un monton de columnas sin nombrar ademas de que por ejemplo a partir de la columna Unnamed: 11 se estan repitiendo valores
- Presencia de valores nulos.
- El tipo de columnas no refleja el tipo de valores que contienen

In [17]:
# Cargamos el csv
df_03 = pd.read_csv("dataset_csv/Acceso a Internet fijo por tecnología y provincia - Accesos Por Tecnología.csv")
df_03

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16,Unnamed: 17
0,2022,4,Buenos Aires,325908.0,2767247.0,1499149.0,129910.0,72451.0,4794665.0,,,Buenos Aires,325908.0,2767247.0,1499149.0,129910.0,72451.0,4794665.0
1,2022,4,Capital Federal,138753.0,1238196.0,138548.0,4603.0,31826.0,1551926.0,,,Capital Federal,138753.0,1238196.0,138548.0,4603.0,31826.0,1551926.0
2,2022,4,Catamarca,8952.0,10998.0,47337.0,1379.0,2243.0,70909.0,,,Catamarca,8952.0,10998.0,47337.0,1379.0,2243.0,70909.0
3,2022,4,Chaco,24582.0,61265.0,47285.0,7957.0,2574.0,143663.0,,,Chaco,24582.0,61265.0,47285.0,7957.0,2574.0,143663.0
4,2022,4,Chubut,45450.0,73923.0,9815.0,30721.0,8850.0,168759.0,,,Chubut,45450.0,73923.0,9815.0,30721.0,8850.0,168759.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
861,2014,1,Santiago Del Estero,32567.0,3598.0,19.0,915.0,34.0,37133.0,,,,,,,,,
862,2014,1,Tierra Del Fuego,21618.0,2837.0,648.0,1.0,2934.0,28038.0,,,,,,,,,
863,2014,1,Tucumán,129717.0,83.0,121.0,13.0,98.0,130032.0,,,,,,,,,
864,,,,,,,,,,,,,,,,,,


In [18]:
# Vemoslas columnas que tenemos
df_03.columns

Index(['Año', 'Trimestre', 'Provincia', 'ADSL', 'Cablemodem', 'Fibra óptica',
       'Wireless', 'Otros', 'Total', 'Unnamed: 9', 'Unnamed: 10',
       'Unnamed: 11', 'Unnamed: 12', 'Unnamed: 13', 'Unnamed: 14',
       'Unnamed: 15', 'Unnamed: 16', 'Unnamed: 17'],
      dtype='object')

In [19]:
# Conservamos las columnas que nos interesan
df_03 = df_03[['Año', 'Trimestre', 'Provincia', 'ADSL', 'Cablemodem', 'Fibra óptica',
       'Wireless', 'Otros', 'Total']]
df_03

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,4,Buenos Aires,325908.0,2767247.0,1499149.0,129910.0,72451.0,4794665.0
1,2022,4,Capital Federal,138753.0,1238196.0,138548.0,4603.0,31826.0,1551926.0
2,2022,4,Catamarca,8952.0,10998.0,47337.0,1379.0,2243.0,70909.0
3,2022,4,Chaco,24582.0,61265.0,47285.0,7957.0,2574.0,143663.0
4,2022,4,Chubut,45450.0,73923.0,9815.0,30721.0,8850.0,168759.0
...,...,...,...,...,...,...,...,...,...
861,2014,1,Santiago Del Estero,32567.0,3598.0,19.0,915.0,34.0,37133.0
862,2014,1,Tierra Del Fuego,21618.0,2837.0,648.0,1.0,2934.0,28038.0
863,2014,1,Tucumán,129717.0,83.0,121.0,13.0,98.0,130032.0
864,,,,,,,,,


In [20]:
# Buscamos las filas con al menos un valor nulo
filas_con_nulos = df_03[df_03.isnull().any(axis=1)]
filas_con_nulos

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
864,,,,,,,,,
865,*,Los datos provinciales no coinciden a nivel na...,,,,,,,


In [21]:
# Eliminamos las filas que contienen al menos un valor nulo
df_03 = df_03.dropna(how='any')
df_03

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,4,Buenos Aires,325908.0,2767247.0,1499149.0,129910.0,72451.0,4794665.0
1,2022,4,Capital Federal,138753.0,1238196.0,138548.0,4603.0,31826.0,1551926.0
2,2022,4,Catamarca,8952.0,10998.0,47337.0,1379.0,2243.0,70909.0
3,2022,4,Chaco,24582.0,61265.0,47285.0,7957.0,2574.0,143663.0
4,2022,4,Chubut,45450.0,73923.0,9815.0,30721.0,8850.0,168759.0
...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,18927.0,100.0,381.0,4092.0,3264.0,26764.0
860,2014,1,Santa Fe,322662.0,174296.0,3059.0,5951.0,644.0,506612.0
861,2014,1,Santiago Del Estero,32567.0,3598.0,19.0,915.0,34.0,37133.0
862,2014,1,Tierra Del Fuego,21618.0,2837.0,648.0,1.0,2934.0,28038.0


Luego procederemos a tratar las filas que contengan * debido a la indicación que dieron

In [22]:
# Encuentra las filas que contienen el símbolo "*" en cualquiera de sus columnas
filas_con_asterisco = df_03[df_03.apply(lambda x: x.astype(str).str.contains('\*', case=False).any(), axis=1)]
filas_con_asterisco

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
312,2019 *,3 *,Buenos Aires,1277249.0,2144956.0,425386.0,85572.0,27070.0,3960233.0
313,2019 *,3 *,Capital Federal,300288.0,1080973.0,24900.0,3895.0,31155.0,1441211.0
314,2019 *,3 *,Catamarca,24349.0,5543.0,13.0,244.0,2251.0,32400.0
315,2019 *,3 *,Chaco,50416.0,49156.0,8063.0,5224.0,1592.0,114451.0
316,2019 *,3 *,Chubut,37298.0,27090.0,1917.0,15149.0,7551.0,89005.0
...,...,...,...,...,...,...,...,...,...
379,2019 *,1 *,Santa Cruz,10659.0,4615.0,382.0,6514.0,2735.0,24905.0
380,2019 *,1 *,Santa Fe,340038.0,340344.0,15621.0,23215.0,17860.0,737078.0
381,2019 *,1 *,Santiago Del Estero,25337.0,61547.0,23.0,2847.0,99.0,89853.0
382,2019 *,1 *,Tierra Del Fuego,19789.0,23549.0,1623.0,0.0,1486.0,46447.0


Ahora procederemos a reemplzar los valores ' *' por ''

In [23]:
df_03.iloc[:, [0,1]] = df_03.iloc[:, [0,1]].replace(' \*', '', regex=True)
df_03

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,4,Buenos Aires,325908.0,2767247.0,1499149.0,129910.0,72451.0,4794665.0
1,2022,4,Capital Federal,138753.0,1238196.0,138548.0,4603.0,31826.0,1551926.0
2,2022,4,Catamarca,8952.0,10998.0,47337.0,1379.0,2243.0,70909.0
3,2022,4,Chaco,24582.0,61265.0,47285.0,7957.0,2574.0,143663.0
4,2022,4,Chubut,45450.0,73923.0,9815.0,30721.0,8850.0,168759.0
...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,18927.0,100.0,381.0,4092.0,3264.0,26764.0
860,2014,1,Santa Fe,322662.0,174296.0,3059.0,5951.0,644.0,506612.0
861,2014,1,Santiago Del Estero,32567.0,3598.0,19.0,915.0,34.0,37133.0
862,2014,1,Tierra Del Fuego,21618.0,2837.0,648.0,1.0,2934.0,28038.0


In [24]:
df_03.columns

Index(['Año', 'Trimestre', 'Provincia', 'ADSL', 'Cablemodem', 'Fibra óptica',
       'Wireless', 'Otros', 'Total'],
      dtype='object')

Ahora cambiamos los tipos de columna a unos mas adecuado

In [25]:
columnas_a_cambiar = ['Año', 'Trimestre', 'ADSL', 'Cablemodem', 'Fibra óptica','Wireless', 'Otros', 'Total']
df_03[columnas_a_cambiar] = df_03[columnas_a_cambiar].astype(int)
df_03.dtypes

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_03[columnas_a_cambiar] = df_03[columnas_a_cambiar].astype(int)


Año              int32
Trimestre        int32
Provincia       object
ADSL             int32
Cablemodem       int32
Fibra óptica     int32
Wireless         int32
Otros            int32
Total            int32
dtype: object

Cambiamos el nombre por uno parecido mas conciso que refleja lo que contiene el archivo

In [26]:
# Guardamos el archivo

df_03.to_csv("dataset_limpio/Acceso a Internet fijo por tecnología y por provincia.csv", index=False)

##### 04 Analisis y limpieza del archivo : "Acceso a Internet fijo por tecnología y provincia - Totales.csv"

In [27]:
print(analisis_csv[3])

Análisis del archivo: "Acceso a Internet fijo por tecnología y provincia - Totales.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre     ADSL  Cablemodem  Fibra óptica  Wireless   Otros  \
0  2022          4  1315373     6037457       3060575    572969  221740   
1  2022          3  1395277     6031970       2871541    557110  235230   
2  2022          2  1468333     5979214       2723285    556243  231609   
3  2022          1  1533240     6073426       2219533    545814  251996   
4  2021          4  1657615     5984240       2072236    523107  252596   

      Total        Periodo  
0  11208114   Oct-Dic 2022  
1  11091128  Jul-Sept 2022  
2  10958684   Abr-Jun 2022  
3  10624009   Ene-Mar 2022  
4  10489794   Oct-Dic 2021          
- Número total de columnas: 9          
- Número total de filas: 36          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 0          
- Número total de valores nulos y tipo de dato por colu

Observamos: Que la columna periodo esta de mas, por lo demas todo esta correcto al menos hasta esta parte

In [28]:
df_04 = pd.read_csv("dataset_csv/Acceso a Internet fijo por tecnología y provincia - Totales.csv")
df_04

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
0,2022,4,1315373,6037457,3060575,572969,221740,11208114,Oct-Dic 2022
1,2022,3,1395277,6031970,2871541,557110,235230,11091128,Jul-Sept 2022
2,2022,2,1468333,5979214,2723285,556243,231609,10958684,Abr-Jun 2022
3,2022,1,1533240,6073426,2219533,545814,251996,10624009,Ene-Mar 2022
4,2021,4,1657615,5984240,2072236,523107,252596,10489794,Oct-Dic 2021
5,2021,3,1950631,5826257,1566048,492415,250190,10085541,Jul-Sept 2021
6,2021,2,2018587,5641731,1472246,476968,253552,9863084,Abr-Jun 2021
7,2021,1,2175211,5424782,1362976,434548,250455,9647972,Ene-Mar 2021
8,2020,4,2213949,5371824,1311199,421554,253036,9571562,Oct-Dic 2020
9,2020,3,2263889,5259351,1170879,413259,248821,9356199,Jul-Sept 2020


In [29]:
# Eliminamos la columna
df_04.drop('Periodo', axis=1, inplace=True)
df_04

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,4,1315373,6037457,3060575,572969,221740,11208114
1,2022,3,1395277,6031970,2871541,557110,235230,11091128
2,2022,2,1468333,5979214,2723285,556243,231609,10958684
3,2022,1,1533240,6073426,2219533,545814,251996,10624009
4,2021,4,1657615,5984240,2072236,523107,252596,10489794
5,2021,3,1950631,5826257,1566048,492415,250190,10085541
6,2021,2,2018587,5641731,1472246,476968,253552,9863084
7,2021,1,2175211,5424782,1362976,434548,250455,9647972
8,2020,4,2213949,5371824,1311199,421554,253036,9571562
9,2020,3,2263889,5259351,1170879,413259,248821,9356199


Cambiamos el nombre por uno mas adecuado

In [30]:
df_04.to_csv("dataset_limpio/Acceso a Internet fijo por tecnología nacional.csv", index=False)

##### 05 Analisis y limpieza del archivo : "Accesos a Internet fijo por rangos de velocidad bajada  y provincia - Accesos por velocidad.csv"

In [31]:
print(analisis_csv[4])

Análisis del archivo: "Accesos a Internet fijo por rangos de velocidad bajada  y provincia - Accesos por velocidad.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre        Provincia  HASTA 512 kbps  + 512 Kbps - 1 Mbps  \
0  2022          4     Buenos Aires          289340               233470   
1  2022          4  Capital Federal            5160                50960   
2  2022          4        Catamarca             710                 3150   
3  2022          4            Chaco            4610                 7710   
4  2022          4           Chubut            1090                16140   

   + 1 Mbps - 6 Mbps  + 6 Mbps - 10 Mbps  + 10 Mbps - 20 Mbps  \
0            2598660             2815500              2445550   
1             313200              646530               363360   
2              27160               50280                46380   
3             160670              178460                67040   
4             464570              310070               

Observamos:
- La existencia de valores nulos en la columna otros
- El cambio de tipo de columna de OTROS a tipo int

In [32]:
# Abrimos el csv
df_05 = pd.read_csv("dataset_csv/Accesos a Internet fijo por rangos de velocidad bajada  y provincia - Accesos por velocidad.csv")
df_05

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2022,4,Buenos Aires,28934.0,23347.0,259866.0,281550.0,244555.0,98670.0,3760109.0,97634.0,4794665.0
1,2022,4,Capital Federal,516.0,5096.0,31320.0,64653.0,36336.0,8116.0,1299117.0,106772.0,1551926.0
2,2022,4,Catamarca,71.0,315.0,2716.0,5028.0,4638.0,3122.0,52739.0,2280.0,70909.0
3,2022,4,Chaco,461.0,771.0,16067.0,17846.0,6704.0,3039.0,94866.0,3909.0,143663.0
4,2022,4,Chubut,109.0,1614.0,46457.0,31007.0,34728.0,15770.0,19048.0,20026.0,168759.0
...,...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,161.0,1625.0,24972.0,1.0,1.0,0.0,0.0,0.0,26760.0
860,2014,1,Santa Fe,8456.0,124468.0,345225.0,20328.0,6845.0,23.0,668.0,0.0,506013.0
861,2014,1,Santiago Del Estero,1234.0,10531.0,22817.0,2422.0,109.0,0.0,0.0,0.0,37113.0
862,2014,1,Tierra Del Fuego,12.0,607.0,30902.0,6.0,0.0,0.0,0.0,0.0,31527.0


In [33]:
# Filas con al menos un valor nulo
filas_con_nulos = df_05[df_05.isnull().any(axis=1)]
filas_con_nulos

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
337,2019,2,Capital Federal,74.0,1027.0,281370.0,124087.0,239691.0,296155.0,475991.0,,1418395.0
347,2019,2,La Rioja,9.0,11.0,39819.0,4297.0,4857.0,13.0,1298.0,,50304.0
348,2019,2,Mendoza,20.0,2522.0,205165.0,2971.0,10092.0,1256.0,234.0,,222260.0
355,2019,2,Santa Cruz,25.0,84.0,24861.0,3806.0,1202.0,28.0,4.0,,30010.0
358,2019,2,Tierra Del Fuego,6.0,123.0,41824.0,4241.0,1573.0,96.0,32.0,,47895.0
359,2019,2,Tucumán,16.0,157.0,78891.0,44296.0,24291.0,628.0,18394.0,,166673.0


In [34]:
# Reemplazamos los valores nulos con 0
df_05['OTROS'].fillna(0, inplace=True)
df_05

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2022,4,Buenos Aires,28934.0,23347.0,259866.0,281550.0,244555.0,98670.0,3760109.0,97634.0,4794665.0
1,2022,4,Capital Federal,516.0,5096.0,31320.0,64653.0,36336.0,8116.0,1299117.0,106772.0,1551926.0
2,2022,4,Catamarca,71.0,315.0,2716.0,5028.0,4638.0,3122.0,52739.0,2280.0,70909.0
3,2022,4,Chaco,461.0,771.0,16067.0,17846.0,6704.0,3039.0,94866.0,3909.0,143663.0
4,2022,4,Chubut,109.0,1614.0,46457.0,31007.0,34728.0,15770.0,19048.0,20026.0,168759.0
...,...,...,...,...,...,...,...,...,...,...,...,...
859,2014,1,Santa Cruz,161.0,1625.0,24972.0,1.0,1.0,0.0,0.0,0.0,26760.0
860,2014,1,Santa Fe,8456.0,124468.0,345225.0,20328.0,6845.0,23.0,668.0,0.0,506013.0
861,2014,1,Santiago Del Estero,1234.0,10531.0,22817.0,2422.0,109.0,0.0,0.0,0.0,37113.0
862,2014,1,Tierra Del Fuego,12.0,607.0,30902.0,6.0,0.0,0.0,0.0,0.0,31527.0


In [35]:
df_05.columns

Index(['Año', 'Trimestre', 'Provincia', 'HASTA 512 kbps',
       '+ 512 Kbps - 1 Mbps', '+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps',
       '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS',
       'Total'],
      dtype='object')

In [36]:
df_05.dtypes

Año                      int64
Trimestre                int64
Provincia               object
HASTA 512 kbps         float64
+ 512 Kbps - 1 Mbps    float64
+ 1 Mbps - 6 Mbps      float64
+ 6 Mbps - 10 Mbps     float64
+ 10 Mbps - 20 Mbps    float64
+ 20 Mbps - 30 Mbps    float64
+ 30 Mbps              float64
OTROS                  float64
Total                  float64
dtype: object

In [37]:
cambio = ['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps', '+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']
df_05[cambio] = df_05[cambio].astype(int)
df_05.dtypes

Año                     int64
Trimestre               int64
Provincia              object
HASTA 512 kbps          int32
+ 512 Kbps - 1 Mbps     int32
+ 1 Mbps - 6 Mbps       int32
+ 6 Mbps - 10 Mbps      int32
+ 10 Mbps - 20 Mbps     int32
+ 20 Mbps - 30 Mbps     int32
+ 30 Mbps               int32
OTROS                   int32
Total                   int32
dtype: object

Luego guardamos el archivo un nombre mas apropiado

In [38]:
df_05.to_csv("dataset_limpio/Accesos a Internet fijo por rangos de velocidad bajada por provincia.csv", index=False)

##### 06 Analisis y limpieza del archivo : "Accesos a Internet fijo por rangos de velocidad bajada  y provincia - Totales.csv"

In [39]:
print(analisis_csv[5])

Análisis del archivo: "Accesos a Internet fijo por rangos de velocidad bajada  y provincia - Totales.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre  Hasta 512 kbps  Entre 512 Kbps y 1 Mbps  \
0  2022          4           31981                    85668   
1  2022          3           33013                    96727   
2  2022          2           33667                    99498   
3  2022          1           34890                   104840   
4  2021          4           41262                    28521   

   Entre 1 Mbps y 6 Mbps  Entre 6 Mbps y 10 Mbps  Entre 10 Mbps y 20 Mbps  \
0                1075272                 1109421                   765015   
1                1161370                 1151906                   823505   
2                1193090                 1197030                   856562   
3                1263273                 1209148                   967508   
4                1413208                 1245333                   976539   

   Entre 

Observamos que el archivo no requiere de un ajuste adicional al menos por el momento, solo le cambiaremos el nombre

In [40]:
df_06 = pd.read_csv("dataset_csv/Accesos a Internet fijo por rangos de velocidad bajada  y provincia - Totales.csv")
df_06

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total
0,2022,4,31981,85668,1075272,1109421,765015,335573,7410902,394282,11208114
1,2022,3,33013,96727,1161370,1151906,823505,479822,6995750,349035,11091128
2,2022,2,33667,99498,1193090,1197030,856562,485321,6741922,351594,10958684
3,2022,1,34890,104840,1263273,1209148,967508,509830,6336187,198333,10624009
4,2021,4,41262,28521,1413208,1245333,976539,558358,6032322,194251,10489794
5,2021,3,40174,41437,2550229,1095772,710122,536364,4948174,163269,10085541
6,2021,2,40172,42024,2531271,1080279,693277,647401,4661291,167369,9863084
7,2021,1,39487,41674,2593477,1072722,737930,595920,4379965,186797,9647972
8,2020,4,39510,42185,2622638,1073875,786595,582420,4239237,185102,9571562
9,2020,3,41038,44005,2637984,1040017,799350,538567,4053461,201777,9356199


In [41]:
df_06.to_csv("dataset_limpio/Accesos a Internet fijo por rangos de velocidad bajada nacional.csv", index=False)

##### 07 Analisis y limpieza del archivo : "Accesos a Internet fijo por tecnología y localidad - Accesos_tecnologia_localidad.csv"

In [42]:
print(analisis_csv[6])

Análisis del archivo: "Accesos a Internet fijo por tecnología y localidad - Accesos_tecnologia_localidad.csv":          
- Primeras 5 filas del archivo
       Provincia     Partido               Localidad Link Indec  ADSL  \
0  BUENOS AIRES  25 de Mayo              25 de Mayo    6854100   874   
1  BUENOS AIRES  25 de Mayo               Del Valle    6854020   181   
2  BUENOS AIRES  25 de Mayo       Gobernador Ugarte    6854040     0   
3  BUENOS AIRES  25 de Mayo  Norberto de la Riestra    6854060     0   
4  BUENOS AIRES  25 de Mayo        Lucas Monteverde    6854050     0   

   CABLEMODEM  DIAL UP  FIBRA OPTICA  OTROS  SATELITAL  WIMAX  WIRELESS  \
0        4542        0             3      0        852      0       706   
1           0        0             0     10          1      0         0   
2           0        0             0      0          0      0       181   
3         782        0             6    167          0      0       327   
4           0        0             0   

Observamos un archivo que no requiere un tratamiento adicional por el momento, solo cambiaremos el nombre a uno mas adecuado

In [43]:
df_07 = pd.read_csv("dataset_csv/Accesos a Internet fijo por tecnología y localidad - Accesos_tecnologia_localidad.csv")
df_07

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,874,4542,0,3,0,852,0,706,6977
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,0,0,0,10,1,0,0,192
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,0,0,0,0,0,0,181,181
3,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,0,782,0,6,167,0,0,327,1282
4,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,0,0,0,0,0,0,0,6,6
...,...,...,...,...,...,...,...,...,...,...,...,...,...
3132,TUCUMAN,Tafí Viejo,Villa Mariano Moreno - El Colmenar,90105100,0,31,0,3733,0,0,0,0,3764
3133,TUCUMAN,Trancas,San Pedro de Colalao,90112020,0,0,0,0,0,0,0,313,313
3134,TUCUMAN,Trancas,Villa de Trancas,90112030,126,0,0,0,33,0,0,101,260
3135,TUCUMAN,Yerba Buena,Villa Carmela,90119020,1499,0,0,0,1,0,0,97,1597


In [44]:
df_07.to_csv("dataset_limpio/Accesos a Internet fijo por tecnología y por localidad.csv", index=False)

##### 08 Analisis y limpieza del archivo : "Accesos a Internet fijo por velocidad bajada  y provincia - Velocidad_sin_Rangos.csv"

In [4]:
print(analisis_csv[7])

Análisis del archivo: "Accesos a Internet fijo por velocidad bajada  y provincia - Velocidad_sin_Rangos.csv":          
- Primeras 5 filas del archivo
        Año  Trimestre        Provincia      Otros  0,256 Mbps  0,375 Mbps  \
0  20220.0       40.0     Buenos Aires   976340.0       180.0         0.0   
1  20220.0       40.0  Capital Federal  1067720.0       310.0         0.0   
2  20220.0       40.0        Catamarca    22800.0         0.0         0.0   
3  20220.0       40.0            Chaco    39090.0         0.0      2250.0   
4  20220.0       40.0           Chubut   200260.0        80.0         0.0   

   0,625 Mbps  0,5 Mbps  0,512 Mbps  0,75 Mbps  ...  2048 Mbps  2529 Mbps  \
0         0.0  287240.0      1920.0    46110.0  ...        0.0        0.0   
1         0.0    4510.0       340.0    13070.0  ...        0.0        0.0   
2         0.0     340.0       370.0        0.0  ...        0.0        0.0   
3      1110.0    2340.0        20.0        0.0  ...        0.0        0.0   


Observamos: 
- Una fila con valores nulos
- Varias columnas que necesitan ser cambiadas a tipo int
- Agregaremos una columna adicional Total

In [5]:
df_08 = pd.read_csv("dataset_csv/Accesos a Internet fijo por velocidad bajada  y provincia - Velocidad_sin_Rangos.csv")
df_08

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,2048 Mbps,2529 Mbps,3072 Mbps,4000 Mbps,5000 Mbps,5125 Mbps,6000 Mbps,7000 Mbps,8000 Mbps,10000 Mbps
0,2022.0,4.0,Buenos Aires,97634.0,18.0,0.0,0.0,28724.0,192.0,4611.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2022.0,4.0,Capital Federal,106772.0,31.0,0.0,0.0,451.0,34.0,1307.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2022.0,4.0,Catamarca,2280.0,0.0,0.0,0.0,34.0,37.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2022.0,4.0,Chaco,3909.0,0.0,225.0,111.0,234.0,2.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,2022.0,4.0,Chubut,20026.0,8.0,0.0,0.0,69.0,32.0,836.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
500,2017.0,4.0,Santa Fe,14119.0,0.0,0.0,0.0,3109.0,0.0,7637.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
501,2017.0,4.0,Santiago Del Estero,0.0,0.0,0.0,0.0,41.0,0.0,909.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
502,2017.0,4.0,Tierra Del Fuego,0.0,0.0,0.0,0.0,6.0,0.0,282.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
503,2017.0,4.0,Tucumán,0.0,0.0,0.0,0.0,105.0,0.0,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [6]:
# Eliminamos la ultima fila
df_08 = df_08.drop(df_08.index[504])
df_08

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,2048 Mbps,2529 Mbps,3072 Mbps,4000 Mbps,5000 Mbps,5125 Mbps,6000 Mbps,7000 Mbps,8000 Mbps,10000 Mbps
0,2022.0,4.0,Buenos Aires,97634.0,18.0,0.0,0.0,28724.0,192.0,4611.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2022.0,4.0,Capital Federal,106772.0,31.0,0.0,0.0,451.0,34.0,1307.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2022.0,4.0,Catamarca,2280.0,0.0,0.0,0.0,34.0,37.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2022.0,4.0,Chaco,3909.0,0.0,225.0,111.0,234.0,2.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,2022.0,4.0,Chubut,20026.0,8.0,0.0,0.0,69.0,32.0,836.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
499,2017.0,4.0,Santa Cruz,0.0,0.0,0.0,0.0,68.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
500,2017.0,4.0,Santa Fe,14119.0,0.0,0.0,0.0,3109.0,0.0,7637.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
501,2017.0,4.0,Santiago Del Estero,0.0,0.0,0.0,0.0,41.0,0.0,909.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
502,2017.0,4.0,Tierra Del Fuego,0.0,0.0,0.0,0.0,6.0,0.0,282.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [7]:
# Convertimos todas las columnas a tipo int menos provincia
columnas_a_convertir = df_08.columns.difference(['Provincia'])
df_08[columnas_a_convertir] = df_08[columnas_a_convertir].astype(int)
df_08.dtypes

Año            int32
Trimestre      int32
Provincia     object
Otros          int32
0,256 Mbps     int32
               ...  
5125 Mbps      int32
6000 Mbps      int32
7000 Mbps      int32
8000 Mbps      int32
10000 Mbps     int32
Length: 186, dtype: object

In [8]:
# Ahora sumamos las columnas menos las 3 primeras
columnas_a_excluir = ['Año', 'Trimestre', 'Provincia']
df_08['Total'] = df_08.drop(columnas_a_excluir, axis=1).sum(axis=1)
df_08

  df_08['Total'] = df_08.drop(columnas_a_excluir, axis=1).sum(axis=1)


Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,2529 Mbps,3072 Mbps,4000 Mbps,5000 Mbps,5125 Mbps,6000 Mbps,7000 Mbps,8000 Mbps,10000 Mbps,Total
0,2022,4,Buenos Aires,97634,18,0,0,28724,192,4611,...,0,0,0,0,0,0,0,0,0,4794665
1,2022,4,Capital Federal,106772,31,0,0,451,34,1307,...,0,0,0,0,0,0,0,0,0,1551926
2,2022,4,Catamarca,2280,0,0,0,34,37,0,...,0,0,0,0,0,0,0,0,0,70909
3,2022,4,Chaco,3909,0,225,111,234,2,0,...,0,0,0,0,0,0,0,0,0,143663
4,2022,4,Chubut,20026,8,0,0,69,32,836,...,0,0,0,0,0,0,0,0,0,168759
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
499,2017,4,Santa Cruz,0,0,0,0,68,0,0,...,0,0,0,0,0,0,0,0,0,29978
500,2017,4,Santa Fe,14119,0,0,0,3109,0,7637,...,0,0,0,0,0,0,0,0,0,671964
501,2017,4,Santiago Del Estero,0,0,0,0,41,0,909,...,0,0,0,0,0,0,0,0,0,68842
502,2017,4,Tierra Del Fuego,0,0,0,0,6,0,282,...,0,0,0,0,0,0,0,0,0,31652


In [9]:
df_08.to_csv("dataset_limpio/Accesos a Internet fijo por velocidad bajada y por provincia.csv", index=False)

##### 09 Analisis y limpieza del archivo : "Accesos a Internet fijo por velocidad de bajada y localidad - internet_Accesos_por_loc.csv"

In [50]:
print(analisis_csv[8])

Análisis del archivo: "Accesos a Internet fijo por velocidad de bajada y localidad - internet_Accesos_por_loc.csv":          
- Primeras 5 filas del archivo
       Provincia     Partido          Localidad Link Indec  Otros  0,256 Mbps  \
0  BUENOS AIRES  25 de Mayo         25 de Mayo    6854100    NaN         NaN   
1  BUENOS AIRES  25 de Mayo    Agustín Mosconi    6854010    NaN         NaN   
2  BUENOS AIRES  25 de Mayo          Del Valle    6854020    NaN         NaN   
3  BUENOS AIRES  25 de Mayo          Ernestina    6854030    NaN         NaN   
4  BUENOS AIRES  25 de Mayo  Gobernador Ugarte    6854040    NaN         NaN   

   0,375 Mbps  0,5 Mbps  0,512 Mbps  0,625 Mbps  ...  600 Mbps  680 Mbps  \
0         NaN      20.0         NaN         NaN  ...       NaN       NaN   
1         NaN       NaN         NaN         NaN  ...       NaN       NaN   
2         NaN      10.0         NaN         NaN  ...       NaN       NaN   
3         NaN       NaN         NaN         NaN  ...     

Observamos:
- Gran cantidad de valores nulos
- Varias columnas deben cambiarse a tipo innt

In [51]:
# Cargamos el valor csv
df_09 = pd.read_csv("dataset_csv/Accesos a Internet fijo por velocidad de bajada y localidad - internet_Accesos_por_loc.csv")
df_09

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 Mbps","0,375 Mbps","0,5 Mbps","0,512 Mbps","0,625 Mbps",...,600 Mbps,680 Mbps,700 Mbps,800 Mbps,850 Mbps,900 Mbps,950 Mbps,1000 Mbps,1024 Mbps,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,,,,2.0,,,...,,,,,,,,,,6208.0
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,,,,,,,...,,,,,,,,,,59.0
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,,,,1.0,,,...,,,,,,,,,,192.0
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,,,,,,,...,,,,,,,,,,66.0
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,,,,,,,...,,,,,,,,,,181.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3090,TUCUMAN,Tafí Viejo,Villa Mariano Moreno - El Colmenar,90105100,,,,,,,...,,,,,,,,,,3764.0
3091,TUCUMAN,Trancas,San Pedro de Colalao,90112020,,,,,,,...,,,,,,,,,,313.0
3092,TUCUMAN,Trancas,Villa de Trancas,90112030,4.0,,,,,,...,,,,,,,,,,260.0
3093,TUCUMAN,Yerba Buena,Villa Carmela,90119020,,,,,,,...,,,,,,,,,,1596.0


In [52]:
# Reemplazamos los valores nulos con 0
df_09.fillna(0, inplace=True)
df_09

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 Mbps","0,375 Mbps","0,5 Mbps","0,512 Mbps","0,625 Mbps",...,600 Mbps,680 Mbps,700 Mbps,800 Mbps,850 Mbps,900 Mbps,950 Mbps,1000 Mbps,1024 Mbps,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.0,0.0,0.0,2.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,6208.0
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,59.0
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,192.0
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,66.0
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,181.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3090,TUCUMAN,Tafí Viejo,Villa Mariano Moreno - El Colmenar,90105100,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,3764.0
3091,TUCUMAN,Trancas,San Pedro de Colalao,90112020,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,313.0
3092,TUCUMAN,Trancas,Villa de Trancas,90112030,4.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,260.0
3093,TUCUMAN,Yerba Buena,Villa Carmela,90119020,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1596.0


In [53]:
columnas_a_convertir = df_09.columns.difference(['Provincia', 'Partido', 'Localidad', 'Link Indec'])
df_09[columnas_a_convertir] = df_09[columnas_a_convertir].astype(int)
df_09.dtypes

Provincia        object
Partido          object
Localidad        object
Link Indec       object
Otros             int32
                  ...  
900 Mbps          int32
950 Mbps          int32
1000 Mbps         int32
1024 Mbps         int32
Total general     int32
Length: 134, dtype: object

In [54]:
df_09.to_csv("dataset_limpio/Accesos a Internet fijo por velocidad bajada y por localidad.csv", index=False)

##### 10 Analisis y limpieza del archivo : "Conectividad al servicio de Internet - Hoja3.csv"

In [55]:
print(analisis_csv[9])

Análisis del archivo: "Conectividad al servicio de Internet - Hoja3.csv":          
- Primeras 5 filas del archivo
       Provincia     Partido                                Localidad  \
0  BUENOS AIRES  9 de Julio  Alfredo Demarchi (Est. Facundo Quiroga)   
1  BUENOS AIRES  9 de Julio                        Carlos María Naón   
2  BUENOS AIRES  9 de Julio                                 Dudignac   
3  BUENOS AIRES  9 de Julio                 La Aurora (Est. La Niña)   
4  BUENOS AIRES  9 de Julio           Manuel B. Gonnet (Est. French)   

   Población ADSL Cablemódem Dial Up Fibra óptica Satelital Wireless  \
0       1853   SI         --      --           --        --       --   
1        497   --         --      --           --        --       --   
2       2670   --         --      SI           --        --       SI   
3        531   --         --      --           --        --       --   
4        748   SI         --      --           SI        --       --   

  Telefonía Fija  

Observamos:
- Valores nulos que tenemos que tratar
- Valores SI y -- que tenemos que convertir a 1 y 0 para tratamiento estadistico
- Cambio al tipo de columnas

In [56]:
df_10 = pd.read_csv("dataset_csv/Conectividad al servicio de Internet - Hoja3.csv")
df_10

Unnamed: 0,Provincia,Partido,Localidad,Población,ADSL,Cablemódem,Dial Up,Fibra óptica,Satelital,Wireless,Telefonía Fija,3G,4G,Link,Latitud,Longitud
0,BUENOS AIRES,9 de Julio,Alfredo Demarchi (Est. Facundo Quiroga),1853,SI,--,--,--,--,--,SI,SI,SI,6588010.0,-35.292982,-61.407254
1,BUENOS AIRES,9 de Julio,Carlos María Naón,497,--,--,--,--,--,--,SI,SI,SI,6588020.0,-35.239499,-60.825136
2,BUENOS AIRES,9 de Julio,Dudignac,2670,--,--,SI,--,--,SI,SI,SI,SI,6588040.0,-35.651193,-60.709896
3,BUENOS AIRES,9 de Julio,La Aurora (Est. La Niña),531,--,--,--,--,--,--,--,--,SI,6588050.0,-35.407947,-61.210567
4,BUENOS AIRES,9 de Julio,Manuel B. Gonnet (Est. French),748,SI,--,--,SI,--,--,SI,SI,SI,6588060.0,-35.520141,-60.998949
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4306,BUENOS AIRES,Pilar,Pilar,86158,SI,SI,SI,SI,SI,SI,SI,SI,SI,6638040.0,-34.466332,-58.922720
4307,BUENOS AIRES,Pilar,Presidente Derqui,50783,SI,SI,--,SI,--,SI,SI,SI,SI,6638040.0,-34.492862,-58.841699
4308,BUENOS AIRES,Pilar,Roberto De Vicenzo,0,--,--,--,--,--,--,--,SI,SI,6638040.0,-34.436965,-58.766994
4309,BUENOS AIRES,Pilar,Santa Teresa,5324,--,--,--,--,SI,--,--,SI,SI,6638040.0,-34.436691,-58.757347


In [57]:
# Filas con al menos un valor nulo
filas_con_nulos = df_10[df_10.isnull().any(axis=1)]
filas_con_nulos

Unnamed: 0,Provincia,Partido,Localidad,Población,ADSL,Cablemódem,Dial Up,Fibra óptica,Satelital,Wireless,Telefonía Fija,3G,4G,Link,Latitud,Longitud
3112,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Belgrano Ii,0,--,--,--,--,--,--,--,--,--,,-77.874009,-34.62656
3113,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Brown,0,--,--,--,--,--,--,--,--,--,,-64.895348,-62.870538
3114,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Carlini,0,--,--,--,--,--,--,--,--,--,,-62.238369,-58.667544
3115,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Esperanza,0,--,--,--,--,--,--,--,--,SI,,-63.397393,-56.997322
3116,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Marambio,0,--,--,--,--,--,--,--,SI,SI,,-64.240614,-56.625096
3117,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Matienzo,0,--,--,--,--,--,--,--,--,--,,-64.975862,-60.070679
3118,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base Orcadas,0,--,--,--,--,--,--,--,--,--,,-60.737817,-44.73766
3119,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Base San Martin,0,--,--,--,--,--,--,--,--,--,,-68.13007,-67.10133
3120,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Destacamento Camara,0,--,--,--,--,--,--,--,--,--,,-62.59435,-59.919054
3121,TIERRA DEL FUEGO,ANTARTIDA ARGENTINA,Destacamento Decepcion,0,--,--,--,--,--,--,--,--,--,,-62.975332,-60.698223


Al carecer de poblacion las filas con valores nulos optaremos por predeterminar link con 0 

In [58]:
# Reemplazamos los valores nulos con 0
df_10.fillna(0, inplace=True)
df_10


Unnamed: 0,Provincia,Partido,Localidad,Población,ADSL,Cablemódem,Dial Up,Fibra óptica,Satelital,Wireless,Telefonía Fija,3G,4G,Link,Latitud,Longitud
0,BUENOS AIRES,9 de Julio,Alfredo Demarchi (Est. Facundo Quiroga),1853,SI,--,--,--,--,--,SI,SI,SI,6588010.0,-35.292982,-61.407254
1,BUENOS AIRES,9 de Julio,Carlos María Naón,497,--,--,--,--,--,--,SI,SI,SI,6588020.0,-35.239499,-60.825136
2,BUENOS AIRES,9 de Julio,Dudignac,2670,--,--,SI,--,--,SI,SI,SI,SI,6588040.0,-35.651193,-60.709896
3,BUENOS AIRES,9 de Julio,La Aurora (Est. La Niña),531,--,--,--,--,--,--,--,--,SI,6588050.0,-35.407947,-61.210567
4,BUENOS AIRES,9 de Julio,Manuel B. Gonnet (Est. French),748,SI,--,--,SI,--,--,SI,SI,SI,6588060.0,-35.520141,-60.998949
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4306,BUENOS AIRES,Pilar,Pilar,86158,SI,SI,SI,SI,SI,SI,SI,SI,SI,6638040.0,-34.466332,-58.922720
4307,BUENOS AIRES,Pilar,Presidente Derqui,50783,SI,SI,--,SI,--,SI,SI,SI,SI,6638040.0,-34.492862,-58.841699
4308,BUENOS AIRES,Pilar,Roberto De Vicenzo,0,--,--,--,--,--,--,--,SI,SI,6638040.0,-34.436965,-58.766994
4309,BUENOS AIRES,Pilar,Santa Teresa,5324,--,--,--,--,SI,--,--,SI,SI,6638040.0,-34.436691,-58.757347


Procedemos a hacer el cambio de valores 1 y 0

In [59]:
# Reemplaza '1' con True y '--' con 0 en las columnas relevantes
columnas_a_transformar = ['ADSL', 'Cablemódem', 'Dial Up', 'Fibra óptica', 'Satelital', 'Wireless', 'Telefonía Fija', '3G', '4G']
df_10[columnas_a_transformar] = df_10[columnas_a_transformar].replace({'SI': 1, '--': 0})
df_10

Unnamed: 0,Provincia,Partido,Localidad,Población,ADSL,Cablemódem,Dial Up,Fibra óptica,Satelital,Wireless,Telefonía Fija,3G,4G,Link,Latitud,Longitud
0,BUENOS AIRES,9 de Julio,Alfredo Demarchi (Est. Facundo Quiroga),1853,1,0,0,0,0,0,1,1,1,6588010.0,-35.292982,-61.407254
1,BUENOS AIRES,9 de Julio,Carlos María Naón,497,0,0,0,0,0,0,1,1,1,6588020.0,-35.239499,-60.825136
2,BUENOS AIRES,9 de Julio,Dudignac,2670,0,0,1,0,0,1,1,1,1,6588040.0,-35.651193,-60.709896
3,BUENOS AIRES,9 de Julio,La Aurora (Est. La Niña),531,0,0,0,0,0,0,0,0,1,6588050.0,-35.407947,-61.210567
4,BUENOS AIRES,9 de Julio,Manuel B. Gonnet (Est. French),748,1,0,0,1,0,0,1,1,1,6588060.0,-35.520141,-60.998949
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4306,BUENOS AIRES,Pilar,Pilar,86158,1,1,1,1,1,1,1,1,1,6638040.0,-34.466332,-58.922720
4307,BUENOS AIRES,Pilar,Presidente Derqui,50783,1,1,0,1,0,1,1,1,1,6638040.0,-34.492862,-58.841699
4308,BUENOS AIRES,Pilar,Roberto De Vicenzo,0,0,0,0,0,0,0,0,1,1,6638040.0,-34.436965,-58.766994
4309,BUENOS AIRES,Pilar,Santa Teresa,5324,0,0,0,0,1,0,0,1,1,6638040.0,-34.436691,-58.757347


Convertimos las columnas al tipo correcto

In [60]:
df_10.columns

Index(['Provincia', 'Partido', 'Localidad', 'Población', 'ADSL', 'Cablemódem',
       'Dial Up', 'Fibra óptica', 'Satelital', 'Wireless', 'Telefonía Fija',
       '3G', '4G', 'Link', 'Latitud', 'Longitud'],
      dtype='object')

In [61]:
# Cambiamos el tipo de dato por columna
columnas_a_transformar = ['ADSL', 'Cablemódem', 'Dial Up', 'Fibra óptica', 'Satelital', 'Wireless', 'Telefonía Fija', '3G', '4G', 'Link']
df_10[columnas_a_transformar] = df_10[columnas_a_transformar].astype(int)
df_10.dtypes

Provincia          object
Partido            object
Localidad          object
Población           int64
ADSL                int32
Cablemódem          int32
Dial Up             int32
Fibra óptica        int32
Satelital           int32
Wireless            int32
Telefonía Fija      int32
3G                  int32
4G                  int32
Link                int32
Latitud           float64
Longitud          float64
dtype: object

Procedemos a guardar el archivo con un nombre un poco mas conveniente

In [62]:
df_10.to_csv("dataset_limpio/Conectividad al servicio de Internet por tecnologia y localidad.csv", index=False)

##### 11 Analisis y limpieza del archivo : "Ingresos por la operación del servicio de Internet fijo - Ingresos.csv"

In [63]:
print(analisis_csv[10])

Análisis del archivo: "Ingresos por la operación del servicio de Internet fijo - Ingresos.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre  Ingresos (miles de pesos)        Periodo
0  2022          4            724434829891497   Oct-Dic 2022
1  2022          3            640867843305304  Jul-Sept 2022
2  2022          2            604195006232803   Abr-Jun 2022
3  2022          1            552193130146503   Ene-Mar 2022
4  2021          4           4546788716501248   Oct-Dic 2021        
- Número total de columnas: 4          
- Número total de filas: 36          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 0          
- Número total de valores nulos y tipo de dato por columna:
Año                  0          int64
Trimestre            0          int64
Ingresos (miles de pesos) 0          int64
Periodo              0          object



Observamos:
- La columna periodo se puede eliminar

In [64]:
df_11 = pd.read_csv("dataset_csv/Ingresos por la operación del servicio de Internet fijo - Ingresos.csv")
pd.set_option('display.float_format', '{:.3f}'.format)
df_11

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo
0,2022,4,72443482.989,Oct-Dic 2022
1,2022,3,64086784.331,Jul-Sept 2022
2,2022,2,60419500.623,Abr-Jun 2022
3,2022,1,55219313.015,Ene-Mar 2022
4,2021,4,45467887.165,Oct-Dic 2021
5,2021,3,42999944.293,Jul-Sept 2021
6,2021,2,38239666.634,Abr-Jun 2021
7,2021,1,36676371.362,Ene-Mar 2021
8,2020,4,33539702.716,Oct-Dic 2020
9,2020,3,31997444.531,Jul-Sept 2020


In [65]:
df_11.drop('Periodo', axis=1, inplace=True)
df_11

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos)
0,2022,4,72443482.989
1,2022,3,64086784.331
2,2022,2,60419500.623
3,2022,1,55219313.015
4,2021,4,45467887.165
5,2021,3,42999944.293
6,2021,2,38239666.634
7,2021,1,36676371.362
8,2020,4,33539702.716
9,2020,3,31997444.531


In [66]:
df_11.to_csv("dataset_limpio/Ingresos por el servicio de Internet fijo nacional.csv", index=False)

##### 12 Analisis y limpieza del archivo : "Penetración del servicio de Internet fijo - Penetracion-hogares.csv"  Y 
##### 14 Analisis y limpieza del archivo : "Penetración del servicio de Internet fijo - Penetración-poblacion.csv"

Estamos juntando ambos archivos dada su similitud para reducir el numero de csv, primero analisaremos el archivo 12 y luego 14 para finalmente hacer un merge

In [67]:
print(analisis_csv[11])

Análisis del archivo: "Penetración del servicio de Internet fijo - Penetracion-hogares.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre        Provincia  Accesos por cada 100 hogares
0  2022          4     Buenos Aires                          7894
1  2022          4  Capital Federal                         12273
2  2022          4        Catamarca                          6577
3  2022          4            Chaco                          4362
4  2022          4           Chubut                          8557        
- Número total de columnas: 4          
- Número total de filas: 864          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 0          
- Número total de valores nulos y tipo de dato por columna:
Año                  0          int64
Trimestre            0          int64
Provincia            0          object
Accesos por cada 100 hogares 0          int64



In [68]:
df_12 = pd.read_csv("dataset_csv/Penetración del servicio de Internet fijo - Penetracion-hogares.csv")
df_12

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2022,4,Buenos Aires,78.940
1,2022,4,Capital Federal,122.730
2,2022,4,Catamarca,65.770
3,2022,4,Chaco,43.620
4,2022,4,Chubut,85.570
...,...,...,...,...
859,2014,1,Santa Cruz,28.939
860,2014,1,Santa Fe,47.848
861,2014,1,Santiago Del Estero,16.310
862,2014,1,Tierra Del Fuego,63.966


In [69]:
print(analisis_csv[13])

Análisis del archivo: "Penetración del servicio de Internet fijo - Penetración-poblacion.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre        Provincia  Accesos por cada 100 hab
0  2022          4     Buenos Aires                      2672
1  2022          4  Capital Federal                      5035
2  2022          4        Catamarca                      1673
3  2022          4            Chaco                      1166
4  2022          4           Chubut                      2623        
- Número total de columnas: 4          
- Número total de filas: 864          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 0          
- Número total de valores nulos y tipo de dato por columna:
Año                  0          int64
Trimestre            0          int64
Provincia            0          object
Accesos por cada 100 hab 0          int64



In [70]:
df_14 = pd.read_csv("dataset_csv/Penetración del servicio de Internet fijo - Penetración-poblacion.csv")
df_14

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hab
0,2022,4,Buenos Aires,26.720
1,2022,4,Capital Federal,50.350
2,2022,4,Catamarca,16.730
3,2022,4,Chaco,11.660
4,2022,4,Chubut,26.230
...,...,...,...,...
859,2014,1,Santa Cruz,8.677
860,2014,1,Santa Fe,15.078
861,2014,1,Santiago Del Estero,4.059
862,2014,1,Tierra Del Fuego,19.105


In [71]:
# Juntamos ambos dataframes
df_merged = df_12.merge(df_14, on=['Año', 'Trimestre', 'Provincia'], how='inner')
df_merged

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares,Accesos por cada 100 hab
0,2022,4,Buenos Aires,78.940,26.720
1,2022,4,Capital Federal,122.730,50.350
2,2022,4,Catamarca,65.770,16.730
3,2022,4,Chaco,43.620,11.660
4,2022,4,Chubut,85.570,26.230
...,...,...,...,...,...
859,2014,1,Santa Cruz,28.939,8.677
860,2014,1,Santa Fe,47.848,15.078
861,2014,1,Santiago Del Estero,16.310,4.059
862,2014,1,Tierra Del Fuego,63.966,19.105


In [74]:
df_merged.to_csv("dataset_limpio/Penetración del servicio de Internet fijo por provincia.csv", index=False)

##### 13 Analisis y limpieza del archivo : "Penetración del servicio de Internet fijo - Penetracion-totales.csv"

In [75]:
print(analisis_csv[12])

Análisis del archivo: "Penetración del servicio de Internet fijo - Penetracion-totales.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre  Accesos por cada 100 hogares  Accesos por cada 100 hab  \
0  2022          4                          7721                      2415   
1  2022          3                          7664                      2395   
2  2022          2              7596542437191371           237204423164287   
3  2022          1              7387880284452622         23049171038697732   
4  2021          4              7317639652814779         22810702052174992   

         Periodo  
0   Oct-Dic 2022  
1  Jul-Sept 2022  
2   Abr-Jun 2022  
3   Ene-Mar 2022  
4   Oct-Dic 2021          
- Número total de columnas: 5          
- Número total de filas: 36          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 0          
- Número total de valores nulos y tipo de dato por columna:
Año                  0          i

Observamos:
- Eliminaremos la columna periodo
- Todo lo demas esta en su lugar

In [76]:
df_13 = pd.read_csv("dataset_csv/Penetración del servicio de Internet fijo - Penetracion-totales.csv")
df_13

Unnamed: 0,Año,Trimestre,Accesos por cada 100 hogares,Accesos por cada 100 hab,Periodo
0,2022,4,77.21,24.15,Oct-Dic 2022
1,2022,3,76.64,23.95,Jul-Sept 2022
2,2022,2,75.965,23.72,Abr-Jun 2022
3,2022,1,73.879,23.049,Ene-Mar 2022
4,2021,4,73.176,22.811,Oct-Dic 2021
5,2021,3,70.579,21.983,Jul-Sept 2021
6,2021,2,69.24,21.548,Abr-Jun 2021
7,2021,1,67.946,21.128,Ene-Mar 2021
8,2020,4,67.622,21.01,Oct-Dic 2020
9,2020,3,66.31,20.59,Jul-Sept 2020


In [77]:
df_13.drop('Periodo', axis=1, inplace=True)

In [78]:
df_13.to_csv("dataset_limpio/Penetración del servicio de Internet fijo nacional.csv", index=False)

##### 15 Analisis y limpieza del archivo : "Velocidad Media de bajada de Internet por provincia y nacional - Totales.csv"

In [79]:
print(analisis_csv[14])

Análisis del archivo: "Velocidad Media de bajada de Internet por provincia y nacional - Totales.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre  Mbps (Media de bajada)    Trimestre.1
0  2022          4                   10656   Oct-Dic 2022
1  2022          3                    6246  Jul-Sept 2022
2  2022          2                    5844   Abr-Jun 2022
3  2022          1                    5511   Ene-Mar 2022
4  2021          4                    5234   Oct-Dic 2021        
- Número total de columnas: 4          
- Número total de filas: 36          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 0          
- Número total de valores nulos y tipo de dato por columna:
Año                  0          int64
Trimestre            0          int64
Mbps (Media de bajada) 0          int64
Trimestre.1          0          object



In [80]:
df_15 = pd.read_csv("dataset_csv/Velocidad Media de bajada de Internet por provincia y nacional - Totales.csv")
df_15

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada),Trimestre.1
0,2022,4,106.56,Oct-Dic 2022
1,2022,3,62.46,Jul-Sept 2022
2,2022,2,58.44,Abr-Jun 2022
3,2022,1,55.11,Ene-Mar 2022
4,2021,4,52.34,Oct-Dic 2021
5,2021,3,48.46,Jul-Sept 2021
6,2021,2,45.63,Abr-Jun 2021
7,2021,1,43.11,Ene-Mar 2021
8,2020,4,42.36,Oct-Dic 2020
9,2020,3,40.67,Jul-Sept 2020


Observamos:
- Una columna de mas

In [81]:
df_15.drop('Trimestre.1', axis=1, inplace=True)
df_15

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada)
0,2022,4,106.56
1,2022,3,62.46
2,2022,2,58.44
3,2022,1,55.11
4,2021,4,52.34
5,2021,3,48.46
6,2021,2,45.63
7,2021,1,43.11
8,2020,4,42.36
9,2020,3,40.67


In [82]:
df_15.to_csv("dataset_limpio/Velocidad Media de bajada de Internet nacional.csv", index=False)

##### 16 Analisis y limpieza del archivo : "Velocidad Media de bajada de Internet por provincia y nacional - Velocidad % por prov.csv"

In [83]:
print(analisis_csv[15])

Análisis del archivo: "Velocidad Media de bajada de Internet por provincia y nacional - Velocidad % por prov.csv":          
- Primeras 5 filas del archivo
     Año  Trimestre        Provincia  Mbps (Media de bajada)
0  2022          4     Buenos Aires                    1110
1  2022          4  Capital Federal                   18286
2  2022          4        Catamarca                    8333
3  2022          4            Chaco                   10402
4  2022          4           Chubut                    1592        
- Número total de columnas: 4          
- Número total de filas: 864          
- Número total de filas duplicadas: 0          
- Número total de filas con valores nulos: 0          
- Número total de valores nulos y tipo de dato por columna:
Año                  0          int64
Trimestre            0          int64
Provincia            0          object
Mbps (Media de bajada) 0          int64



No se observa nada que corregir salvo el nombre

In [84]:
df_16 = pd.read_csv("dataset_csv/Velocidad Media de bajada de Internet por provincia y nacional - Velocidad % por prov.csv")
df_16

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)
0,2022,4,Buenos Aires,111.000
1,2022,4,Capital Federal,182.860
2,2022,4,Catamarca,83.330
3,2022,4,Chaco,104.020
4,2022,4,Chubut,15.920
...,...,...,...,...
859,2014,1,Santa Cruz,3.316
860,2014,1,Santa Fe,3.147
861,2014,1,Santiago Del Estero,2.949
862,2014,1,Tierra Del Fuego,3.447


In [85]:
df_16.to_csv("dataset_limpio/Velocidad Media de bajada de Internet por provincia.csv", index=False)