##### Librerías necesarias

In [1]:
import pandas as pd 
import glob
import matplotlib.pyplot as plt
import seaborn as sns
import re

##### Funciones Utilizadas 

In [41]:
#Se define una función para reemplazar caracteres dentro de un str
def rem_int_col(data_frame=pd.DataFrame, lista_col= list, carac_old=str, carac_new=str):
    '''
    La funcion permite cambiar caracteres internos de un objeto tipo 'str' \n
    Recibe un DataFrame, una lista con las columnas a modificar, el caracter que se desea cambiar y el nuevo caracter
    '''
    for i in data_frame:
        if i not in lista_col:
            pass
        else:
            if data_frame[i].dtypes != 'object':
                pass
            else:
                data_frame[i]=data_frame[i].str.replace(carac_old,carac_new)

In [42]:
#Se define una función que permite transformar los datos de una dataframe en columnas especificas a cualquier tipo de dato deseado 
def col_trans(data_frame=pd.DataFrame, lista_columnas=list, tipo_dato='Any'):
    '''
    La función recibe un data frame, una lista de columnas y el tipo de dato al que se desea cambiar dichas columnas
    '''
    for i in data_frame:
        if i not in lista_columnas:
            pass
        else:
            data_frame[i]=data_frame[i].astype(tipo_dato)

## Importación de datos

Importamos todos los archivos .csv de la carpeta datasets

In [2]:
#Se importan todos los archivos mediante la librería glob 
# Se especifca el patrón de los archivos y lo pasamos como parámetro en la función glob
csv_files = glob.glob('Datasets/*.csv')

#Se verifica que los archivos se han identificados correctamente
print(csv_files)

# Se crea una lista que contendra los dataframes creados a partir de cada archivo.csv
list_data = []
  
# Escribimos un loop que irá a través de cada uno de los nombres de archivo a través de globbing y el resultado final será la lista dataframes
for filename in csv_files:
    data = pd.read_csv(filename, decimal= ',', thousands= '.')
    list_data.append(data)

['Datasets\\Accesos-a-Internet-fijo-por-velocidad-de-bajada-y-localidad.csv', 'Datasets\\Conectividad-al-servicio-de-Internet_localidad.csv', 'Datasets\\historico_velocidad_internet_provincia.csv', 'Datasets\\historico_velocidad_internet_serie-historica.csv', 'Datasets\\Internet_Accesos-por-tecnologia-provincia.csv', 'Datasets\\Internet_Accesos-por-tecnologia_localidad.csv', 'Datasets\\Internet_Accesos-por-tecnologia_serie-trimestral.csv', 'Datasets\\Internet_Accesos-por-velocidad_distribucion-accesos-nacionales.csv', 'Datasets\\Internet_Accesos-por-velocidad_provincia.csv', 'Datasets\\Internet_Accesos-por-velocidad_rangos_provincia.csv', 'Datasets\\Internet_BAF_provincia.csv', 'Datasets\\Internet_BAF_total-accesos.csv', 'Datasets\\Internet_Ingresos.csv', 'Datasets\\Internet_Penetracion_100-hogares.csv', 'Datasets\\Internet_Penetracion_serie-nacional.csv', 'Datasets\\Listado-de-localidades-con-conectividad-a-internet.csv']


# Análisis de cada dataframe

Se busca tablas relevantes para determinar en que zona Argentina existe una deficiencia en la calidad de internet, con la finalidad de invertir en dicha zona 

## Accesos a Internet fijo por velocidad de bajada y localidad

In [3]:
#Se extraen cada uno de los archivos en un dataframe individual para su respectivo análisis 
df1=list_data[0]
#Se realiza una copia del data frame como punto de control 
Vel_local=df1.copy()
#Se verifica que se ha cargado correctamente el archivo deseado 
Vel_local.tail()


Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 Mbps","0,375 Mbps","0,5 Mbps","0,512 Mbps","0,625 Mbps",...,75 Mbps,78 Mbps,80 Mbps,82 Mbps,83 Mbps,85 Mbps,90 Mbps,92 Mbps,95 Mbps,100 Mbps
3081,TUCUMAN,Tafí Viejo,Tafí Viejo,90105080,1.0,,,,,,...,,,,,,,,,,982.0
3082,TUCUMAN,Trancas,San Pedro de Colalao,90112020,,,,,,,...,,,,,,,,,,
3083,TUCUMAN,Trancas,Villa de Trancas,90112030,,,,,,,...,,,,,,,,,,
3084,TUCUMAN,Yerba Buena,Villa Carmela,90119020,,,,,,,...,,,,,,,,,,
3085,TUCUMAN,Yerba Buena,Yerba Buena - Marcos Paz,90119030,176.0,,,,,,...,,,,,,,,,,5860.0


In [4]:
Vel_local.columns

Index(['Provincia', 'Partido', 'Localidad', 'Link Indec', 'Otros',
       '0,256 Mbps', '0,375 Mbps', '0,5 Mbps', '0,512 Mbps', '0,625 Mbps',
       '0,75 Mbps', '1 Mbps', '1,25 Mbps', '1,5 Mbps', '2 Mbps', '2,2 Mbps',
       '2,5 Mbps', '3 Mbps', '3,3 Mbps', '3,5 Mbps', '4 Mbps', '4,5 Mbps',
       '5 Mbps', '6 Mbps', '6,4 Mbps', '7 Mbps', '7,5 Mbps', '8 Mbps',
       '9 Mbps', '10 Mbps', '11 Mbps', '12 Mbps', '13 Mbps', '14 Mbps',
       '15 Mbps', '16 Mbps', '17 Mbps', '18 Mbps', '19 Mbps', '20 Mbps',
       '21 Mbps', '22 Mbps', '23 Mbps', '24 Mbps', '25 Mbps', '25,1 Mbps',
       '25,11 Mbps', '25,5 Mbps', '26 Mbps', '30 Mbps', '31 Mbps', '32 Mbps',
       '34 Mbps', '35 Mbps', '36 Mbps', '38 Mbps', '39 Mbps', '40 Mbps',
       '41 Mbps', '45 Mbps', '46 Mbps', '49 Mbps', '50 Mbps', '55 Mbps',
       '58 Mbps', '59 Mbps', '60 Mbps', '61 Mbps', '62 Mbps', '64 Mbps',
       '65 Mbps', '66 Mbps', '70 Mbps', '75 Mbps', '78 Mbps', '80 Mbps',
       '82 Mbps', '83 Mbps', '85 Mbps', '90 M

In [5]:
#Se analiza el tamaño del DF creado
Vel_local.shape

(3086, 83)

In [6]:
#Se verifica que los tipos de datos corresponda con lo observado 
Vel_local.dtypes

Provincia      object
Partido        object
Localidad      object
Link Indec     object
Otros         float64
               ...   
85 Mbps       float64
90 Mbps       float64
92 Mbps       float64
95 Mbps       float64
100 Mbps      float64
Length: 83, dtype: object

In [7]:
#Se da un pantallazo general del DF
Vel_local.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3086 entries, 0 to 3085
Data columns (total 83 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Provincia   3086 non-null   object 
 1   Partido     3086 non-null   object 
 2   Localidad   3086 non-null   object 
 3   Link Indec  3086 non-null   object 
 4   Otros       959 non-null    float64
 5   0,256 Mbps  29 non-null     float64
 6   0,375 Mbps  1 non-null      float64
 7   0,5 Mbps    669 non-null    float64
 8   0,512 Mbps  524 non-null    float64
 9   0,625 Mbps  1 non-null      float64
 10  0,75 Mbps   316 non-null    float64
 11  1 Mbps      948 non-null    float64
 12  1,25 Mbps   1 non-null      float64
 13  1,5 Mbps    16 non-null     float64
 14  2 Mbps      768 non-null    float64
 15  2,2 Mbps    1 non-null      float64
 16  2,5 Mbps    3 non-null      float64
 17  3 Mbps      1374 non-null   float64
 18  3,3 Mbps    1 non-null      float64
 19  3,5 Mbps    383 non-null   

In [8]:
#Se observa una gran cantidad de valores nulos en las columnas de la velocidad, se generará rangos de velocidades para un trabajo más práctico
import math
#Se calcula el ancho de intervalos para crear los rangos 
k=round(1+3.32193*math.log10(78))
r=round(100-0.256)
#Es el espacio que debe existir entre cada rango 
round(r/k)

14

In [9]:
#Se observa que los valores nulos son datos que no se han ingresado pero no es pertinente eliminar las columnas por lo que, se reemplaza los valores nulos por 0 
Vel_local=Vel_local.fillna(0)


In [10]:
#Generación de los rangos 
Vel_local['0.256Mbps-14Mbps'] = Vel_local['0,256 Mbps'] + Vel_local['0,375 Mbps'] + Vel_local['0,5 Mbps'] + Vel_local['0,512 Mbps'] + Vel_local['0,625 Mbps'] + Vel_local['0,75 Mbps'] + Vel_local['1 Mbps'] + Vel_local['1,25 Mbps'] + Vel_local['1,5 Mbps'] + Vel_local['2 Mbps'] + Vel_local['2,2 Mbps'] + Vel_local['2,5 Mbps'] + Vel_local['3 Mbps']+ Vel_local['3,3 Mbps'] + Vel_local['3,5 Mbps'] + Vel_local['4 Mbps'] + Vel_local['4,5 Mbps']+ Vel_local['5 Mbps'] + Vel_local['6 Mbps'] + Vel_local['6,4 Mbps'] + Vel_local['7 Mbps'] + Vel_local['7,5 Mbps'] + Vel_local['8 Mbps'] + Vel_local['9 Mbps']+Vel_local['10 Mbps'] + Vel_local['11 Mbps'] + Vel_local['12 Mbps'] + Vel_local['13 Mbps'] + Vel_local['14 Mbps']
Vel_local['15Mbps-29Mbps'] = Vel_local['15 Mbps'] + Vel_local['16 Mbps'] + Vel_local['17 Mbps'] + Vel_local['18 Mbps'] + Vel_local['19 Mbps'] + Vel_local['20 Mbps'] + Vel_local['21 Mbps'] + Vel_local['22 Mbps'] + Vel_local['23 Mbps'] + Vel_local['24 Mbps'] + Vel_local['25 Mbps'] + Vel_local['25,1 Mbps'] + Vel_local['25,11 Mbps'] + Vel_local['25,5 Mbps'] + Vel_local['26 Mbps']
Vel_local['30Mbps-44Mbps'] = Vel_local['30 Mbps'] + Vel_local['31 Mbps'] + Vel_local['32 Mbps'] + Vel_local['34 Mbps'] + Vel_local['35 Mbps'] + Vel_local['36 Mbps'] + Vel_local['38 Mbps'] + Vel_local['39 Mbps'] + Vel_local['40 Mbps'] + Vel_local['41 Mbps'] 
Vel_local['45Mbps- 59Mbps'] = Vel_local['45 Mbps'] + Vel_local['46 Mbps'] + Vel_local['49 Mbps'] + Vel_local['50 Mbps'] + Vel_local['55 Mbps'] + Vel_local['58 Mbps'] + Vel_local['59 Mbps']
Vel_local['60Mbps- 74Mbps'] = Vel_local['60 Mbps'] + Vel_local['61 Mbps'] + Vel_local['62 Mbps'] + Vel_local['64 Mbps'] + Vel_local['65 Mbps'] + Vel_local['66 Mbps'] + Vel_local['70 Mbps']
Vel_local['75Mbps- 89Mbps'] = Vel_local['75 Mbps'] + Vel_local['78 Mbps'] + Vel_local['80 Mbps'] + Vel_local['82 Mbps'] + Vel_local[ '83 Mbps'] + Vel_local[ '85 Mbps'] 
Vel_local['90Mbps- 100Mbps'] = Vel_local['90 Mbps'] + Vel_local['92 Mbps'] + Vel_local['95 Mbps'] + Vel_local['100 Mbps']

In [11]:
#Se verifica que todo se realizó correctamente 
Vel_local.head(10)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 Mbps","0,375 Mbps","0,5 Mbps","0,512 Mbps","0,625 Mbps",...,92 Mbps,95 Mbps,100 Mbps,0.256Mbps-14Mbps,15Mbps-29Mbps,30Mbps-44Mbps,45Mbps- 59Mbps,60Mbps- 74Mbps,75Mbps- 89Mbps,90Mbps- 100Mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.0,0.0,0.0,2.0,0.0,0.0,...,0.0,0.0,0.0,5029.0,1245.0,100.0,0.0,0.0,9.0,0.0
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,58.0,0.0,0.0,0.0,0.0,0.0,0.0
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,0.0,192.0,0.0,0.0,0.0,0.0,0.0,0.0
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,66.0,0.0,0.0,0.0,0.0,0.0,0.0
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,180.0,0.0,0.0,0.0,1.0,0.0,0.0
5,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,6.0,0.0,0.0,0.0,0.0,0.0,0.0
6,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1127.0,0.0,0.0,0.0,0.0,0.0,0.0
7,BUENOS AIRES,25 de Mayo,Pedernales,6854070,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,572.0,3.0,0.0,0.0,0.0,0.0,0.0
8,BUENOS AIRES,25 de Mayo,San Enrique,6854080,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,103.0,0.0,0.0,0.0,0.0,0.0,0.0
9,BUENOS AIRES,25 de Mayo,Valdés,6854090,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,166.0,0.0,0.0,0.0,0.0,0.0,0.0


In [15]:
#Se eliminan las columnas individuales, conservando los rangos 
list_vel=['0,256 Mbps', '0,375 Mbps', '0,5 Mbps', '0,512 Mbps', '0,625 Mbps', '0,75 Mbps', '1 Mbps', '1,25 Mbps', '1,5 Mbps', '2 Mbps', '2,2 Mbps', '2,5 Mbps', '3 Mbps', '3,3 Mbps', '3,5 Mbps', '4 Mbps', '4,5 Mbps', '5 Mbps', '6 Mbps', '6,4 Mbps', '7 Mbps', '7,5 Mbps', '8 Mbps', '9 Mbps','10 Mbps', '11 Mbps', '12 Mbps', '13 Mbps', '14 Mbps', '15 Mbps', '16 Mbps', '17 Mbps', '18 Mbps', '19 Mbps', '20 Mbps', '21 Mbps', '22 Mbps', '23 Mbps', '24 Mbps', '25 Mbps', '25,1 Mbps', '25,11 Mbps', '25,5 Mbps', '26 Mbps','30 Mbps', '31 Mbps', '32 Mbps', '34 Mbps', '35 Mbps', '36 Mbps', '38 Mbps', '39 Mbps', '40 Mbps', '41 Mbps', '45 Mbps', '46 Mbps', '49 Mbps', '50 Mbps', '55 Mbps', '58 Mbps', '59 Mbps','60 Mbps', '61 Mbps', '62 Mbps', '64 Mbps', '65 Mbps', '66 Mbps', '70 Mbps', '75 Mbps', '78 Mbps', '80 Mbps', '82 Mbps',  '83 Mbps',  '85 Mbps', '90 Mbps', '92 Mbps', '95 Mbps', '100 Mbps']
Vel_local = Vel_local.drop(list_vel, axis=1)
#Se verifica que todo se realizó correctamente 
Vel_local.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,0.256Mbps-14Mbps,15Mbps-29Mbps,30Mbps-44Mbps,45Mbps- 59Mbps,60Mbps- 74Mbps,75Mbps- 89Mbps,90Mbps- 100Mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0.0,5029.0,1245.0,100.0,0.0,0.0,9.0,0.0
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,0.0,58.0,0.0,0.0,0.0,0.0,0.0,0.0
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,0.0,192.0,0.0,0.0,0.0,0.0,0.0,0.0
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,0.0,66.0,0.0,0.0,0.0,0.0,0.0,0.0
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0.0,180.0,0.0,0.0,0.0,1.0,0.0,0.0


In [17]:
#Los datos de cada columna corresponden a conteo de conexiones por lo que un objeto tipo float no tiene sentido, se cambia a int
for i in Vel_local:
    if Vel_local[i].dtype == 'float64':
        Vel_local[i]=Vel_local[i].astype(int)
#Se verifica que todo se realizó correctamente 
Vel_local.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,0.256Mbps-14Mbps,15Mbps-29Mbps,30Mbps-44Mbps,45Mbps- 59Mbps,60Mbps- 74Mbps,75Mbps- 89Mbps,90Mbps- 100Mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,0,5029,1245,100,0,0,9,0
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,0,58,0,0,0,0,0,0
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,0,192,0,0,0,0,0,0
3,BUENOS AIRES,25 de Mayo,Ernestina,6854030,0,66,0,0,0,0,0,0
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,180,0,0,0,1,0,0


In [18]:
data_provincia=Vel_local[['Provincia','Otros','0.256Mbps-14Mbps', '15Mbps-29Mbps', '30Mbps-44Mbps', '45Mbps- 59Mbps','60Mbps- 74Mbps', '75Mbps- 89Mbps', '90Mbps- 100Mbps']].groupby(['Provincia']).sum()
df_provincia=pd.DataFrame(data_provincia)
df_provincia.head()

Unnamed: 0_level_0,Otros,0.256Mbps-14Mbps,15Mbps-29Mbps,30Mbps-44Mbps,45Mbps- 59Mbps,60Mbps- 74Mbps,75Mbps- 89Mbps,90Mbps- 100Mbps
Provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
BUENOS AIRES,26280,729919,371733,732091,1006655,429677,101116,886674
CABA,1717,127838,90271,59811,420772,100338,31692,427452
CATAMARCA,2207,15103,8393,960,21877,0,0,12464
CHACO,7580,41844,20590,11188,36088,0,0,23289
CHUBUT,15607,108926,24493,9170,13124,0,0,282


La tabla corresponde al número de ingresos según a velocidad que se ha realizado en cada localidad de las provincias Argentinas

Aunque nos brinda información relevante sobre que localidad tiene el mayor y menor número de ingresos, el análisis se realiza a nivel de provincia 
#### **No se toma en cuenta para el análisis profundo 

## Conectividad al servicio de Internet por localidad

In [19]:
df2=list_data[1]
#Se realiza una copia del DF como punto de control 
conec_loca=df2.copy()
#Se verifica que todo se realizó correctamente 
conec_loca.head()

Unnamed: 0,Provincia,Partido,Localidad,Poblacion,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,SATELITAL,WIRELESS,TELEFONIAFIJA,3G,4G,link,Latitud,Longitud
0,BUENOS AIRES,25 de Mayo,25 de Mayo,23408,SI,SI,--,SI,SI,SI,SI,SI,SI,6854100.0,-354339385892588,-601731209454056
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,280,--,--,--,--,--,--,SI,--,--,6854010.0,-357392169542026,-605590634621789
2,BUENOS AIRES,25 de Mayo,Del Valle,899,SI,--,--,--,SI,--,--,SI,SI,6854020.0,-358973453887603,-607316089512944
3,BUENOS AIRES,25 de Mayo,Ernestina,145,SI,--,--,--,--,--,--,--,--,6854030.0,-352702340519789,-595575034078873
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,547,--,--,--,--,--,SI,--,--,--,6854040.0,-351643973648093,-600813577815069


In [20]:
#Se da un pantallazo general de =l DF en busqueda de anomalias 
conec_loca.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4312 entries, 0 to 4311
Data columns (total 16 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Provincia      4312 non-null   object 
 1   Partido        4312 non-null   object 
 2   Localidad      4312 non-null   object 
 3   Poblacion      4312 non-null   int64  
 4   ADSL           4312 non-null   object 
 5   CABLEMODEM     4312 non-null   object 
 6   DIALUP         4312 non-null   object 
 7   FIBRAOPTICA    4312 non-null   object 
 8   SATELITAL      4312 non-null   object 
 9   WIRELESS       4312 non-null   object 
 10  TELEFONIAFIJA  4312 non-null   object 
 11  3G             4312 non-null   object 
 12  4G             4312 non-null   object 
 13  link           3836 non-null   float64
 14  Latitud        4312 non-null   int64  
 15  Longitud       4312 non-null   int64  
dtypes: float64(1), int64(3), object(12)
memory usage: 539.1+ KB


In [21]:
#Se observa que los datos en lso que no se encuentra la tecnología se utiliza '--' dando información ambigua por lo que se reemplaza con 'NO'
conec_loca.columns

Index(['Provincia', 'Partido', 'Localidad', 'Poblacion', 'ADSL', 'CABLEMODEM',
       'DIALUP', 'FIBRAOPTICA', 'SATELITAL', 'WIRELESS', 'TELEFONIAFIJA', '3G',
       '4G', 'link', 'Latitud', 'Longitud'],
      dtype='object')

In [22]:
#Se obtiene una lista de todas las columnas en donde se remplaza los datos 
tecnologias=['ADSL', 'CABLEMODEM', 'DIALUP', 'FIBRAOPTICA', 'SATELITAL', 'WIRELESS', 'TELEFONIAFIJA', '3G', '4G']

In [24]:
#Se itera la lista reemplazando los valores correspondientes 
for i in conec_loca:
    if i not in tecnologias:
        pass
    else:
        conec_loca[i].replace('--','NO',inplace=True)
#Se verifica que todo se realizó correctamente 
conec_loca.head()

Unnamed: 0,Provincia,Partido,Localidad,Poblacion,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,SATELITAL,WIRELESS,TELEFONIAFIJA,3G,4G,link,Latitud,Longitud
0,BUENOS AIRES,25 de Mayo,25 de Mayo,23408,SI,SI,NO,SI,SI,SI,SI,SI,SI,6854100.0,-354339385892588,-601731209454056
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,280,NO,NO,NO,NO,NO,NO,SI,NO,NO,6854010.0,-357392169542026,-605590634621789
2,BUENOS AIRES,25 de Mayo,Del Valle,899,SI,NO,NO,NO,SI,NO,NO,SI,SI,6854020.0,-358973453887603,-607316089512944
3,BUENOS AIRES,25 de Mayo,Ernestina,145,SI,NO,NO,NO,NO,NO,NO,NO,NO,6854030.0,-352702340519789,-595575034078873
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,547,NO,NO,NO,NO,NO,SI,NO,NO,NO,6854040.0,-351643973648093,-600813577815069


In [26]:
BA_df=conec_loca[(conec_loca['Provincia']=='BUENOS AIRES')]
BA_df

Unnamed: 0,Provincia,Partido,Localidad,Poblacion,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,SATELITAL,WIRELESS,TELEFONIAFIJA,3G,4G,link,Latitud,Longitud
0,BUENOS AIRES,25 de Mayo,25 de Mayo,23408,SI,SI,NO,SI,SI,SI,SI,SI,SI,6854100.0,-354339385892588,-601731209454056
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,280,NO,NO,NO,NO,NO,NO,SI,NO,NO,6854010.0,-357392169542026,-605590634621789
2,BUENOS AIRES,25 de Mayo,Del Valle,899,SI,NO,NO,NO,SI,NO,NO,SI,SI,6854020.0,-358973453887603,-607316089512944
3,BUENOS AIRES,25 de Mayo,Ernestina,145,SI,NO,NO,NO,NO,NO,NO,NO,NO,6854030.0,-352702340519789,-595575034078873
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,547,NO,NO,NO,NO,NO,SI,NO,NO,NO,6854040.0,-351643973648093,-600813577815069
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4249,BUENOS AIRES,General Belgrano,General Belgrano,15394,SI,SI,SI,SI,SI,SI,SI,SI,SI,6301010.0,-357694577358026,-584944615102033
4250,BUENOS AIRES,General Belgrano,Gorchs,338,NO,NO,NO,NO,SI,SI,SI,SI,SI,6301020.0,-356733729629116,-589582999568816
4251,BUENOS AIRES,General Guido,General Guido,1291,NO,NO,SI,SI,SI,SI,SI,SI,SI,6308010.0,-366431651777017,-577905019037041
4252,BUENOS AIRES,General Guido,Labarden,799,NO,NO,SI,NO,NO,SI,SI,SI,SI,6308020.0,-369489668508723,-581035671819428


In [27]:
#Se realiza un conteo del total de las tecnologias utilizadas en toda la nación Argentina 
lista_tec=[]
for i in conec_loca:
    if i not in tecnologias:
        pass
    else:
        lista_tec.append(conec_loca[i].value_counts())

In [28]:
lista_tec

[NO    3163
 SI    1149
 Name: ADSL, dtype: int64,
 NO    3461
 SI     851
 Name: CABLEMODEM, dtype: int64,
 NO    3916
 SI     396
 Name: DIALUP, dtype: int64,
 NO    2991
 SI    1321
 Name: FIBRAOPTICA, dtype: int64,
 NO    3314
 SI     998
 Name: SATELITAL, dtype: int64,
 NO    2167
 SI    2145
 Name: WIRELESS, dtype: int64,
 NO    2226
 SI    2086
 Name: TELEFONIAFIJA, dtype: int64,
 NO    2432
 SI    1880
 Name: 3G, dtype: int64,
 SI    2574
 NO    1738
 Name: 4G, dtype: int64]

La tabla proporciona información sobre las tecnologías utilizadas en las localidades Argentinas

#### **Se toma en cuenta para el análisis profundo 

In [118]:
conec_loca.to_csv('C:/Users/mecad/python/Henry/PI/DataAnalyst/Datasets/Selecionados/tecnologia_prov.csv', encoding= 'utf-8')

## Historico velocidad internet por provincia

In [29]:
df3=list_data[2]
#Se realiza una copia del DF como punto de control 
hist_vel=df3.copy()
#Se verifica que todo se realizó correctamente 
hist_vel.head()

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)
0,2022,1,Buenos Aires,63
1,2022,1,Capital Federal,88
2,2022,1,Catamarca,51
3,2022,1,Chaco,46
4,2022,1,Chubut,13


In [30]:
hist_vel.columns

Index(['Año', 'Trimestre', 'Provincia', 'Mbps (Media de bajada)'], dtype='object')

In [31]:
hist_vel[['Año', 'Provincia', 'Mbps (Media de bajada)']].groupby([ 'Provincia','Año']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Mbps (Media de bajada)
Provincia,Año,Unnamed: 2_level_1
Buenos Aires,2014,4.00
Buenos Aires,2015,4.50
Buenos Aires,2016,5.50
Buenos Aires,2017,8.75
Buenos Aires,2018,15.75
...,...,...
Tucumán,2018,13.75
Tucumán,2019,21.25
Tucumán,2020,34.00
Tucumán,2021,41.25


La tabla nos muestra el promedio de la velocidad de bajada en las diferentes provincias de Argentina a lo largo de los años 
#### **Se toma en cuenta para el análisis profundo 

In [119]:
hist_vel.to_csv('C:/Users/mecad/python/Henry/PI/DataAnalyst/Datasets/Selecionados/vel_hist_prov.csv', encoding= 'utf-8')

## Historico velocidad internet serie historica

In [32]:
df4=list_data[3]
#Se realiza una copia de seguridad como punto de control 
vel_nac=df4.copy()
#Se verifica que se ha realizado correctamente el proceso 
vel_nac.head()

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada),Trimestre.1
0,2022,1,55.11,Ene-Mar 2022
1,2021,4,52.34,Oct-Dic 2021
2,2021,3,48.46,Jul-Sept 2021
3,2021,2,45.63,Abr-Jun 2021
4,2021,1,43.11,Ene-Mar 2021


In [34]:
#la columna 'Trimestre.1' es información redundante por lo que se elimina
vel_nac = vel_nac.drop(['Trimestre.1'], axis=1)
vel_nac.head()

Unnamed: 0,Año,Trimestre,Mbps (Media de bajada)
0,2022,1,55.11
1,2021,4,52.34
2,2021,3,48.46
3,2021,2,45.63
4,2021,1,43.11


Aunque nos indica información sobre la velocidad en toda la nación, se vuelve información redundante para el análisis profundo 
#### **No se toma en cuenta para el análisis profundo 

## Internet Accesos por tecnologia provincia


In [35]:
#Obtenemos el dataframe correspondiente
df5=list_data[4]
#Se realiza una copia de seguridad para prevenir cualquier cambio no deseado
acces_tec=df5.copy()
acces_tec.head()

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,1,Buenos Aires,392045.0,2.728.865,1.242.121,125.521,66872.0,4555424.0
1,2022,1,Capital Federal,102290.0,1.217.225,62.308,5.784,29934.0,1417541.0
2,2022,1,Catamarca,14181.0,15.517,29.118,1.328,2234.0,62378.0
3,2022,1,Chaco,32391.0,64.546,36.662,8.164,2356.0,144119.0
4,2022,1,Chubut,44133.0,66.667,9.184,30.592,21052.0,171628.0


In [36]:
#Se da un pantallazo general 
acces_tec.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 793 entries, 0 to 792
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Año           793 non-null    object 
 1   Trimestre     793 non-null    object 
 2   Provincia     792 non-null    object 
 3   ADSL          792 non-null    float64
 4   Cablemodem    792 non-null    object 
 5   Fibra óptica  792 non-null    object 
 6   Wireless      792 non-null    object 
 7   Otros         792 non-null    float64
 8   Total         792 non-null    float64
dtypes: float64(3), object(6)
memory usage: 55.9+ KB


In [37]:
#Se observa que en todas las columnas hay un valor faltante
#Se buscan valores vacios 
acces_tec.isna()

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...,...
788,False,False,False,False,False,False,False,False,False
789,False,False,False,False,False,False,False,False,False
790,False,False,False,False,False,False,False,False,False
791,False,False,False,False,False,False,False,False,False


In [38]:
#se observa que en la fila con indice 792 toda la fila se encuentran Nan por los que se procede a eliminarla 
acces_tec.drop([792], axis=0, inplace=True)
acces_tec.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Año           792 non-null    object 
 1   Trimestre     792 non-null    object 
 2   Provincia     792 non-null    object 
 3   ADSL          792 non-null    float64
 4   Cablemodem    792 non-null    object 
 5   Fibra óptica  792 non-null    object 
 6   Wireless      792 non-null    object 
 7   Otros         792 non-null    float64
 8   Total         792 non-null    float64
dtypes: float64(3), object(6)
memory usage: 55.8+ KB


In [39]:
#Se observa que los datos numéricos se encuentran como texto, por lo que se procede a cambiar estos valores
#Se obtienes los nombre de las columnas para guardar en una lista aquellas columnas que se modificarán
acces_tec.columns

Index(['Año', 'Trimestre', 'Provincia', 'ADSL', 'Cablemodem', 'Fibra óptica',
       'Wireless', 'Otros', 'Total'],
      dtype='object')

In [40]:
#Se observa que en la columan 'Otros' los valores son de tipo float, sin embargo se tratan de miles y no se esta representando esto. 
#Por lo que se convierte a str para aplicar el mismotratamiento que con las columnas de tipo object

acces_tec['Otros']=acces_tec['Otros'].astype(str)

In [43]:
#se extraen aquellas columans que se desea modificar 
list_col_at=['Año', 'Trimestre', 'ADSL', 'Cablemodem', 'Fibra óptica', 'Wireless', 'Otros', 'Total']
#Se transforman los datos
rem_int_col(acces_tec, list_col_at, '.', '')


acces_tec.head()

  data_frame[i]=data_frame[i].str.replace(carac_old,carac_new)


Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,1,Buenos Aires,392045.0,2728865,1242121,125521,668720,4555424.0
1,2022,1,Capital Federal,102290.0,1217225,62308,5784,299340,1417541.0
2,2022,1,Catamarca,14181.0,15517,29118,1328,22340,62378.0
3,2022,1,Chaco,32391.0,64546,36662,8164,23560,144119.0
4,2022,1,Chubut,44133.0,66667,9184,30592,210520,171628.0


In [44]:
#se transforman los datos de las columnas de interes a int
col_trans(acces_tec,list_col_at, int)        

ValueError: invalid literal for int() with base 10: '2019 *'

In [None]:
#ValueError:  invalid literal for int() with base 10: '2019 *'
#Se encuentra que en los años existen datos erroneos, se procede a investigarlos 

In [45]:
#se investiga la columna de año en busca del error
acces_tec.Año.value_counts()

2021      96
2020      96
2018      96
2017      96
2016      96
2015      96
2014      96
2019 *    72
2022      24
2019      24
Name: Año, dtype: int64

In [46]:
#Observamos que el valor '2019 *' corresonde a tres trimestres del año, procedemos a investigar estos datos 
acces_tec[(acces_tec['Año']=='2019 *')]

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
240,2019 *,3 *,Buenos Aires,1277249.0,2144956,425386,85572,270700,3960233.0
241,2019 *,3 *,Capital Federal,300288.0,1080973,24900,3895,311550,1441211.0
242,2019 *,3 *,Catamarca,24349.0,5543,13,244,22510,32400.0
243,2019 *,3 *,Chaco,50416.0,49156,8063,5224,15920,114451.0
244,2019 *,3 *,Chubut,37298.0,27090,1917,15149,75510,89005.0
...,...,...,...,...,...,...,...,...,...
307,2019 *,1 *,Santa Cruz,10659.0,4615,382,6514,27350,24905.0
308,2019 *,1 *,Santa Fe,340038.0,340344,15621,23215,178600,737078.0
309,2019 *,1 *,Santiago Del Estero,25337.0,61547,23,2847,990,89853.0
310,2019 *,1 *,Tierra Del Fuego,19789.0,23549,1623,- 0,14860,46447.0


In [47]:
#Existe un "*" en el año y el trimestre por lo que se procede a eliminar estos caracteres
for i in acces_tec:
    if i not in ['Trimestre']:
        pass
    else:
        acces_tec[i]=acces_tec[i].str.replace('*','')
for i in acces_tec:
    if i not in ['Año']:
        pass
    else:
        acces_tec[i]=acces_tec[i].replace('2019 *','2019')


  acces_tec[i]=acces_tec[i].str.replace('*','')


In [48]:
#Se verifica la acción
acces_tec[(acces_tec['Año']=='2019')].tail()

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
307,2019,1,Santa Cruz,10659.0,4615,382,6514,27350,24905.0
308,2019,1,Santa Fe,340038.0,340344,15621,23215,178600,737078.0
309,2019,1,Santiago Del Estero,25337.0,61547,23,2847,990,89853.0
310,2019,1,Tierra Del Fuego,19789.0,23549,1623,- 0,14860,46447.0
311,2019,1,Tucumán,159215.0,11670,118,678,3210,172002.0


In [49]:
#ValueError: invalid literal for int() with base 10: '- 0'
#Existe un valor erroneo correspondiente a '- 0'
#Se procede a eliminar este valor 
lista_0= ['Cablemodem', 'Fibra óptica', 'Wireless', 'Otros', 'Total']
rem_int_col(acces_tec, lista_0, '-', '')

In [50]:
col_trans(acces_tec, list_col_at, int)
#Se verifica la acción
acces_tec.dtypes

Año              int32
Trimestre        int32
Provincia       object
ADSL             int32
Cablemodem       int32
Fibra óptica     int32
Wireless         int32
Otros            int32
Total            int32
dtype: object

In [51]:
acces_tec.head()

Unnamed: 0,Año,Trimestre,Provincia,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,1,Buenos Aires,392045,2728865,1242121,125521,668720,4555424
1,2022,1,Capital Federal,102290,1217225,62308,5784,299340,1417541
2,2022,1,Catamarca,14181,15517,29118,1328,22340,62378
3,2022,1,Chaco,32391,64546,36662,8164,23560,144119
4,2022,1,Chubut,44133,66667,9184,30592,210520,171628


In [52]:
ac_tri=acces_tec.groupby(['Año', 'Trimestre']).sum()
ac_tri.head()

  ac_tri=acces_tec.groupby(['Año', 'Trimestre']).sum()


Unnamed: 0_level_0,Unnamed: 1_level_0,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
Año,Trimestre,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2014,1,3697066,2407330,150323,70749,729300,6398398
2014,2,3708882,2461670,149363,72405,721480,6464468
2014,3,3714764,2569868,155494,85096,700490,6595271
2014,4,3764038,2536219,149682,76984,715730,6598496
2015,1,3756153,2668248,168188,79098,660450,6737732


La tabla nos indica el total de ingresos por las tecnologías de mayor afluencia en la nación.
Brinda información sobre que tecnología ha sido utilizada a lo largo de los años
### Se toma en cuenta para el análisis porfundo

In [120]:
ac_tri.to_csv('C:/Users/mecad/python/Henry/PI/DataAnalyst/Datasets/Selecionados/tecnologia_year_prov.csv', encoding= 'utf-8')

##  Acceso a Internet por tecnologia en localidad


In [54]:
df6= list_data[5]
#Se crea una copia de seguridad como punto de control
tec_loc=df6.copy()
#Se verifica que se cargó correctamente
tec_loc.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general,Unnamed: 13
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,914,4.704,- 0,5,- 0,975,- 0,664,7.262,
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,- 0,- 0,- 0,10,1,- 0,- 0,192.0,
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,- 0,- 0,- 0,- 0,- 0,- 0,- 0,181,181.0,
3,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,- 0,782,- 0,- 0,18,- 0,- 0,327,1.127,
4,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,- 0,- 0,- 0,- 0,- 0,- 0,- 0,6,6.0,


In [55]:
#Se da un pantallazo general a los datos 
tec_loc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3127 entries, 0 to 3126
Data columns (total 14 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Provincia      3127 non-null   object 
 1   Partido        3127 non-null   object 
 2   Localidad      3127 non-null   object 
 3   Link Indec     3127 non-null   object 
 4   ADSL           3127 non-null   object 
 5   CABLEMODEM     3127 non-null   object 
 6   DIAL UP        3127 non-null   object 
 7   FIBRA OPTICA   3127 non-null   object 
 8   OTROS          3127 non-null   object 
 9   SATELITAL      3127 non-null   object 
 10  WIMAX          3127 non-null   object 
 11  WIRELESS       3127 non-null   object 
 12  Total general  3127 non-null   object 
 13  Unnamed: 13    0 non-null      float64
dtypes: float64(1), object(13)
memory usage: 342.1+ KB


In [56]:
#la columna 'Unnamed: 13', no posee ninguna información por lo que se procede a eliminar del DF
tec_loc=tec_loc.drop(['Unnamed: 13'], axis=1)
#Se verifica la acción
tec_loc.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,914,4.704,- 0,5,- 0,975,- 0,664,7.262
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,- 0,- 0,- 0,10,1,- 0,- 0,192.0
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,- 0,- 0,- 0,- 0,- 0,- 0,- 0,181,181.0
3,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,- 0,782,- 0,- 0,18,- 0,- 0,327,1.127
4,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,- 0,- 0,- 0,- 0,- 0,- 0,- 0,6,6.0


In [57]:
#Se obtienen las columnas del DF 
tec_loc.columns
#Se almacena el resultado en una lista 
col_TL= ['ADSL', 'CABLEMODEM','DIAL UP', 'FIBRA OPTICA', 'OTROS', 'SATELITAL', 'WIMAX', 'WIRELESS','Total general']

In [58]:
#Existe un valor erroneo correspondiente a '- 0'. Se procede a eliminar este valor 

rem_int_col(tec_loc, col_TL,'-','')
#Se verifica la acción
tec_loc.head()

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,914,4.704,0,5,0,975,0,664,7.262
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,0.0,0,0,10,1,0,0,192.0
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,0.0,0,0,0,0,0,181,181.0
3,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,0,782.0,0,0,18,0,0,327,1.127
4,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,0,0.0,0,0,0,0,0,6,6.0


In [59]:
#Los datos numéricos aparecen como 'object' por lo que se procede a su transformación
#Se observa un punto no deseado en los datos 
rem_int_col(tec_loc, col_TL,'.','')
#Se verifica la acción
tec_loc.head()

  data_frame[i]=data_frame[i].str.replace(carac_old,carac_new)


Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,914,4704,0,5,0,975,0,664,7262
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,0,0,0,10,1,0,0,192
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,0,0,0,0,0,0,181,181
3,BUENOS AIRES,25 de Mayo,Norberto de la Riestra,6854060,0,782,0,0,18,0,0,327,1127
4,BUENOS AIRES,25 de Mayo,Lucas Monteverde,6854050,0,0,0,0,0,0,0,6,6


In [60]:
#Se transforman los datos de las columnas a 'int'
col_trans(tec_loc, col_TL, int)
#Se verifica la acción
tec_loc.dtypes

Provincia        object
Partido          object
Localidad        object
Link Indec       object
ADSL              int32
CABLEMODEM        int32
DIAL UP           int32
FIBRA OPTICA      int32
OTROS             int32
SATELITAL         int32
WIMAX             int32
WIRELESS          int32
Total general     int32
dtype: object

La tabla nos indica el número de ingresos realizados por tecnología en cada localidad
El análisis se enfoca en la provincia y no de forma específica en las localidades 
### No se toma en cuenta para el análisis profundo 

 ## Accesos a Internet por tecnologia serie trimestral


In [61]:
df7=list_data[6]
#Se crea una copia de seguridad como punto de control 
acces_tec_trim=df7.copy()
#Se verfica la acción
acces_tec_trim.head()

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total,Periodo
0,2022,1,1533240,6073426,2219533,545814,251996,10624009,Ene-Mar 2022
1,2021,4,1657615,5984240,2072236,523107,252596,10489794,Oct-Dic 2021
2,2021,3,1950631,5826257,1566048,492415,250190,10085541,Jul-Sept 2021
3,2021,2,2018587,5641731,1472246,476968,253552,9863084,Abr-Jun 2021
4,2021,1,2175211,5424782,1362976,434548,250455,9647972,Ene-Mar 2021


In [62]:
#Se da un pantallazo general a los datos 
acces_tec_trim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Año           33 non-null     int64 
 1   Trimestre     33 non-null     int64 
 2   ADSL          33 non-null     int64 
 3   Cablemodem    33 non-null     int64 
 4   Fibra óptica  33 non-null     int64 
 5   Wireless      33 non-null     int64 
 6   Otros         33 non-null     int64 
 7   Total         33 non-null     int64 
 8   Periodo       33 non-null     object
dtypes: int64(8), object(1)
memory usage: 2.4+ KB


In [63]:
#La columna 'Periodo' se convierte en información redundante por lo que se procede a eliminar
acces_tec_trim=acces_tec_trim.drop(['Periodo'], axis=1)
# Se verifica la acción
acces_tec_trim.head()

Unnamed: 0,Año,Trimestre,ADSL,Cablemodem,Fibra óptica,Wireless,Otros,Total
0,2022,1,1533240,6073426,2219533,545814,251996,10624009
1,2021,4,1657615,5984240,2072236,523107,252596,10489794
2,2021,3,1950631,5826257,1566048,492415,250190,10085541
3,2021,2,2018587,5641731,1472246,476968,253552,9863084
4,2021,1,2175211,5424782,1362976,434548,250455,9647972


In [64]:
#Se da un pantallazo general 
acces_tec_trim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 8 columns):
 #   Column        Non-Null Count  Dtype
---  ------        --------------  -----
 0   Año           33 non-null     int64
 1   Trimestre     33 non-null     int64
 2   ADSL          33 non-null     int64
 3   Cablemodem    33 non-null     int64
 4   Fibra óptica  33 non-null     int64
 5   Wireless      33 non-null     int64
 6   Otros         33 non-null     int64
 7   Total         33 non-null     int64
dtypes: int64(8)
memory usage: 2.2 KB


In [65]:
acces_tec_trim[acces_tec_trim['Año']== 2021].max()

Año                 2021
Trimestre              4
ADSL             2175211
Cablemodem       5984240
Fibra óptica     2072236
Wireless          523107
Otros             253552
Total           10489794
dtype: int64

La tabla indica el numeor de conexiones de forma general en la nación
Se busca información específica de cada provincia
## No se toma  en cuenta para el análisis profundo 

##  Accesos a Internet por velocidad distribucion accesos nacionales

In [66]:
df8=list_data[7]
#Se crea una copia de seguridad como punto de control 
acces_vel_dis=df8.copy()
#Se verifica la acción
acces_vel_dis.head()

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total,Unnamed: 11
0,2022,1,34890,104840,1263273,1209148,967508,509830,6336187,198333,10624009,
1,2021,4,41262,28521,1413208,1245333,976539,558358,6032322,194251,10489794,
2,2021,3,40174,41437,2550229,1095772,710122,536364,4948174,163269,10085541,
3,2021,2,40172,42024,2531271,1080279,693277,647401,4661291,167369,9863084,
4,2021,1,39487,41674,2593477,1072722,737930,595920,4379965,186797,9647972,


In [67]:
#Se da un pantallazo un general del DF
acces_vel_dis.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 12 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Año                      33 non-null     int64  
 1   Trimestre                33 non-null     int64  
 2   Hasta 512 kbps           33 non-null     int64  
 3   Entre 512 Kbps y 1 Mbps  33 non-null     int64  
 4   Entre 1 Mbps y 6 Mbps    33 non-null     int64  
 5   Entre 6 Mbps y 10 Mbps   33 non-null     int64  
 6   Entre 10 Mbps y 20 Mbps  33 non-null     int64  
 7   Entre 20 Mbps y 30 Mbps  33 non-null     int64  
 8   Más de 30 Mbps           33 non-null     int64  
 9   OTROS                    33 non-null     int64  
 10  Total                    33 non-null     int64  
 11  Unnamed: 11              0 non-null      float64
dtypes: float64(1), int64(11)
memory usage: 3.2 KB


In [68]:
#Se observa que la columna 'Unnamed: 11' posee solo valores nulos por lo que se procede a eliminarla 
acces_vel_dis=acces_vel_dis.drop(['Unnamed: 11'], axis=1)
#Se verifica la acción
acces_vel_dis.head()

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total
0,2022,1,34890,104840,1263273,1209148,967508,509830,6336187,198333,10624009
1,2021,4,41262,28521,1413208,1245333,976539,558358,6032322,194251,10489794
2,2021,3,40174,41437,2550229,1095772,710122,536364,4948174,163269,10085541
3,2021,2,40172,42024,2531271,1080279,693277,647401,4661291,167369,9863084
4,2021,1,39487,41674,2593477,1072722,737930,595920,4379965,186797,9647972


La tabla nos indica los ingresos nacionales de acuerdo a la velocidad alcanzada
Se busca información específica de cada provincia
## No se toma  en cuenta para el análisis profundo 

##  Accesos Internet por velocidad provincia


In [70]:
df9=list_data[8]
#Se crea una copia de seguridad como punto de control 
acces_velocidad_prov=df9.copy()
#Se verifica la acción
acces_velocidad_prov.head()

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,70 Mbps,71 Mbps,75 Mbps,77 Mbps,78 Mbps,80 Mbps,81 Mbps,83 Mbps,82 Mbps,86 Mbps
0,2022,2,Buenos Aires,65849,19,- 0,- 0,30.428,192,4611,...,3163,- 0,104021,- 0,2,216,- 0,1,- 0,- 0
1,2022,2,Capital Federal,105607,31,- 0,- 0,451.0,35,1307,...,3,- 0,32185,- 0,- 0,8,- 0,- 0,- 0,- 0
2,2022,2,Catamarca,2207,- 0,- 0,- 0,34.0,37,- 0,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0
3,2022,2,Chaco,3708,- 0,225,111,234.0,2,- 0,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0
4,2022,2,Chubut,20021,8,- 0,- 0,69.0,32,836,...,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0,- 0


In [71]:
#Se da un pantallazo general al DF
acces_velocidad_prov.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 456 entries, 0 to 455
Data columns (total 97 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Año         456 non-null    int64  
 1   Trimestre   456 non-null    int64  
 2   Provincia   456 non-null    object 
 3   Otros       456 non-null    object 
 4   0,256 Mbps  456 non-null    object 
 5   0,375 Mbps  456 non-null    object 
 6   0,625 Mbps  456 non-null    object 
 7   0,5 Mbps    456 non-null    float64
 8   0,512 Mbps  456 non-null    object 
 9   0,75 Mbps   456 non-null    object 
 10  1 Mbps      456 non-null    object 
 11  1,2 Mbps    456 non-null    object 
 12  1,25 Mbps   456 non-null    object 
 13  1,5 Mbps    456 non-null    object 
 14  2 Mbps      456 non-null    object 
 15  2,2 Mbps    456 non-null    object 
 16  2,5 Mbps    456 non-null    object 
 17  6,7 Mbps    456 non-null    object 
 18  3 Mbps      456 non-null    float64
 19  3,2 Mbps    456 non-null    o

In [72]:
#Se extrae las columnas para las transformaciones pertinentes
acces_velocidad_prov.columns
lista_avelp=['Otros', '0,256 Mbps', '0,375 Mbps',
       '0,625 Mbps', '0,5 Mbps', '0,512 Mbps', '0,75 Mbps', '1 Mbps',
       '1,2 Mbps', '1,25 Mbps', '1,5 Mbps', '2 Mbps', '2,2 Mbps', '2,5 Mbps',
       '6,7 Mbps', '3 Mbps', '3,2 Mbps', '3,3 Mbps', '3,5 Mbps', '4 Mbps',
       '4,5 Mbps', '5 Mbps', '6 Mbps', '6,4 Mbps', '7 Mbps', '7,5 Mbps',
       '8 Mbps', '9 Mbps', '10 Mbps', '10,6 Mbps', '11 Mbps', '12 Mbps',
       '13 Mbps', '14 Mbps', '15 Mbps', '16 Mbps', '17 Mbps', '18 Mbps',
       '19 Mbps', '20 Mbps', '21 Mbps', '22 Mbps', '23 Mbps', '24 Mbps',
       '25 Mbps', '25,1 Mbps', '25,11 Mbps', '25,5 Mbps', '26 Mbps', '28 Mbps',
       '29 Mbps', '30 Mbps', '31 Mbps', '32 Mbps', '34 Mbps', '35 Mbps',
       '36 Mbps', '37 Mbps', '38 Mbps', '39 Mbps', '40 Mbps', '41 Mbps',
       '45 Mbps', '46 Mbps', '47 Mbps', '48 Mbps', '49 Mbps', '50 Mbps',
       '51 Mbps', '52 Mbps', '54 Mbps', '55 Mbps', '56 Mbps', '58 Mbps',
       '59 Mbps', '60 Mbps', '61 Mbps', '62 Mbps', '63 Mbps', '64 Mbps',
       '65 Mbps', '66 Mbps', '67 Mbps', '68 Mbps', '70 Mbps', '71 Mbps',
       '75 Mbps', '77 Mbps', '78 Mbps', '80 Mbps', '81 Mbps', '83 Mbps',
       '82 Mbps', '86 Mbps']

In [73]:
#Se remplaza el caracter '-' de las columnas de velocidad
rem_int_col(acces_velocidad_prov, lista_avelp, '-', '')
#Se verifica la acción 
acces_velocidad_prov.head()

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,70 Mbps,71 Mbps,75 Mbps,77 Mbps,78 Mbps,80 Mbps,81 Mbps,83 Mbps,82 Mbps,86 Mbps
0,2022,2,Buenos Aires,65849,19,0,0,30.428,192,4611,...,3163,0,104021,0,2,216,0,1,0,0
1,2022,2,Capital Federal,105607,31,0,0,451.0,35,1307,...,3,0,32185,0,0,8,0,0,0,0
2,2022,2,Catamarca,2207,0,0,0,34.0,37,0,...,0,0,0,0,0,0,0,0,0,0
3,2022,2,Chaco,3708,0,225,111,234.0,2,0,...,0,0,0,0,0,0,0,0,0,0
4,2022,2,Chubut,20021,8,0,0,69.0,32,836,...,0,0,0,0,0,0,0,0,0,0


In [74]:
#Se remplaza el caracter ',' de las columnas de velocidad
rem_int_col(acces_velocidad_prov, lista_avelp, ',', '')
#Se verifica la acción 
acces_velocidad_prov.head()

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,70 Mbps,71 Mbps,75 Mbps,77 Mbps,78 Mbps,80 Mbps,81 Mbps,83 Mbps,82 Mbps,86 Mbps
0,2022,2,Buenos Aires,65849,19,0,0,30.428,192,4611,...,3163,0,104021,0,2,216,0,1,0,0
1,2022,2,Capital Federal,105607,31,0,0,451.0,35,1307,...,3,0,32185,0,0,8,0,0,0,0
2,2022,2,Catamarca,2207,0,0,0,34.0,37,0,...,0,0,0,0,0,0,0,0,0,0
3,2022,2,Chaco,3708,0,225,111,234.0,2,0,...,0,0,0,0,0,0,0,0,0,0
4,2022,2,Chubut,20021,8,0,0,69.0,32,836,...,0,0,0,0,0,0,0,0,0,0


In [75]:
#Se tranforma los valores a enteros
col_trans(acces_velocidad_prov, lista_avelp, int)
#Se verifica la acción
acces_velocidad_prov.dtypes

Año            int64
Trimestre      int64
Provincia     object
Otros          int32
0,256 Mbps     int32
               ...  
80 Mbps        int32
81 Mbps        int32
83 Mbps        int32
82 Mbps        int32
86 Mbps        int32
Length: 97, dtype: object

In [76]:
acces_velocidad_prov.Año.unique()

array([2022, 2021, 2020, 2019, 2018, 2017], dtype=int64)

La tabla indica los ingresos a internet de acuerdo a la velocidad por provincia 
Sin embargo no se requiere la información detallada de cada velocidad en la que se ha ingresado
#### **No se toma en cuenta para el análisis profundo 

 ## Accesos Internet por velocidad rangos provincia

In [77]:
df10=list_data[9]
#Se crea una copia de seguridad como punto de control 
acces_vel_prov=df10.copy()
#Se verifica la acción
acces_vel_prov.head()

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2022,1,Buenos Aires,31591,30056,313382,321756,290127,161183,3381049,26280.0,4555424
1,2022,1,Capital Federal,527,5575,39918,77390,61053,43289,1188072,1717.0,1417541
2,2022,1,Catamarca,71,456,4386,7009,8773,3761,35715,2207.0,62378
3,2022,1,Chaco,461,1099,16888,21235,20898,13012,62946,7580.0,144119
4,2022,1,Chubut,113,1677,61369,31856,33080,13871,14055,15607.0,171628


In [78]:
#Se da un pantallazo general del DF
acces_vel_prov.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Año                  792 non-null    int64  
 1   Trimestre            792 non-null    int64  
 2   Provincia            792 non-null    object 
 3   HASTA 512 kbps       792 non-null    int64  
 4   + 512 Kbps - 1 Mbps  792 non-null    int64  
 5   + 1 Mbps - 6 Mbps    792 non-null    int64  
 6   + 6 Mbps - 10 Mbps   792 non-null    int64  
 7   + 10 Mbps - 20 Mbps  792 non-null    int64  
 8   + 20 Mbps - 30 Mbps  792 non-null    int64  
 9   + 30 Mbps            792 non-null    int64  
 10  OTROS                786 non-null    float64
 11  Total                792 non-null    int64  
dtypes: float64(1), int64(10), object(1)
memory usage: 74.4+ KB


In [79]:
acces_vel_prov[acces_vel_prov['OTROS'].isnull()]

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
265,2019,2,Capital Federal,74,1027,281370,124087,239691,296155,475991,,1418395
275,2019,2,La Rioja,9,11,39819,4297,4857,13,1298,,50304
276,2019,2,Mendoza,20,2522,205165,2971,10092,1256,234,,222260
283,2019,2,Santa Cruz,25,84,24861,3806,1202,28,4,,30010
286,2019,2,Tierra Del Fuego,6,123,41824,4241,1573,96,32,,47895
287,2019,2,Tucumán,16,157,78891,44296,24291,628,18394,,166673


In [80]:
#Se observa que en la columa otros existen valores nulos, al no ser datos realcionados no es posible impotar estos valores con alguna metrica, 
# por lo que se rellena con 0 estos valores faltantess
acces_vel_prov[['OTROS']]=acces_vel_prov[['OTROS']].fillna(0)
#Se verifica la acción
acces_vel_prov.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Año                  792 non-null    int64  
 1   Trimestre            792 non-null    int64  
 2   Provincia            792 non-null    object 
 3   HASTA 512 kbps       792 non-null    int64  
 4   + 512 Kbps - 1 Mbps  792 non-null    int64  
 5   + 1 Mbps - 6 Mbps    792 non-null    int64  
 6   + 6 Mbps - 10 Mbps   792 non-null    int64  
 7   + 10 Mbps - 20 Mbps  792 non-null    int64  
 8   + 20 Mbps - 30 Mbps  792 non-null    int64  
 9   + 30 Mbps            792 non-null    int64  
 10  OTROS                792 non-null    float64
 11  Total                792 non-null    int64  
dtypes: float64(1), int64(10), object(1)
memory usage: 74.4+ KB


In [81]:
acces_vel_prov[acces_vel_prov['Provincia']=='Buenos Aires'].groupby(['Año']).sum()

  acces_vel_prov[acces_vel_prov['Provincia']=='Buenos Aires'].groupby(['Año']).sum()


Unnamed: 0_level_0,Trimestre,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
2014,10,30952,594642,9100616,622326,268741,1730,17984,0.0,10636993
2015,10,33942,468432,9087702,1000697,727559,10048,28312,0.0,11356690
2016,10,30048,425491,8699738,1422330,1448609,165057,52059,0.0,12243332
2017,10,24007,237847,7252527,1277621,2485488,659948,328624,114182.0,12380244
2018,10,138187,310340,5773391,973420,2916503,2863343,886426,346048.0,14207658
2019,10,634690,191333,5476391,905405,1522703,2015276,4402878,120232.0,15268908
2020,10,150238,131119,4474958,954710,915052,802611,7959106,79037.0,15466831
2021,10,149145,104540,3666307,1063966,742748,847776,10325976,52661.0,16953119
2022,1,31591,30056,313382,321756,290127,161183,3381049,26280.0,4555424


La tabla indica los ingresos a internet de acuerdo a la velocidad en rango por provincia.


Brinda información relevante sobre cuales son las velocidad alcanzadas a los largo de los años
#### **Se toma en cuenta para el análisis profundo 

In [121]:
acces_vel_prov.to_csv('C:/Users/mecad/python/Henry/PI/DataAnalyst/Datasets/Selecionados/velocidad_prov.csv', encoding= 'utf-8')

## Internet Banda Ancha Fija provincia

In [83]:
df11=list_data[10]
#Se crea una copia de seguridad como punto de control
BAF_prov=df11.copy()
#Se verifica la acción
BAF_prov.head()

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,1,Buenos Aires,4549131,6.293,4555424
1,2022,1,Capital Federal,1415378,2.163,1417541
2,2022,1,Catamarca,62377,1.0,62378
3,2022,1,Chaco,144114,5.0,144119
4,2022,1,Chubut,170701,927.0,171628


In [84]:
BAF_prov.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               792 non-null    int64 
 1   Trimestre         792 non-null    int64 
 2   Provincia         792 non-null    object
 3   Banda ancha fija  792 non-null    int64 
 4   Dial up           790 non-null    object
 5   Total             792 non-null    int64 
dtypes: int64(4), object(2)
memory usage: 37.2+ KB


In [85]:
BAF_prov.columns

Index(['Año', 'Trimestre', 'Provincia', 'Banda ancha fija', 'Dial up',
       'Total'],
      dtype='object')

In [86]:
#Se observa dos valores nulos en la columna 'Dial up', se procede a investigar estos datos 
BAF_prov[BAF_prov['Dial up'].isnull()]

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
368,2018,2,Formosa,44554,,44554
373,2018,2,Misiones,106147,,106147


In [87]:
#los valores corresponden a número de ingreso, por lo que los valores nulos indican que no se han realizado ingresos por la tecnología. Se procede a reemplazar los valores con 0
BAF_prov['Dial up']=BAF_prov['Dial up'].fillna('0')
#Se verifica la acción
BAF_prov.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               792 non-null    int64 
 1   Trimestre         792 non-null    int64 
 2   Provincia         792 non-null    object
 3   Banda ancha fija  792 non-null    int64 
 4   Dial up           792 non-null    object
 5   Total             792 non-null    int64 
dtypes: int64(4), object(2)
memory usage: 37.2+ KB


In [88]:
#Se observa que las columnas numéricas son de tipo 'object' por lo que se procede a transformarlas quitando el punto de mil
#Se extraen las columnas que se pretende transformar
lista_baf=['Banda ancha fija', 'Dial up','Total']
rem_int_col(BAF_prov,lista_baf, '.','' )
#Se verifica la acción
BAF_prov.head()

  data_frame[i]=data_frame[i].str.replace(carac_old,carac_new)


Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,1,Buenos Aires,4549131,6293,4555424
1,2022,1,Capital Federal,1415378,2163,1417541
2,2022,1,Catamarca,62377,1,62378
3,2022,1,Chaco,144114,5,144119
4,2022,1,Chubut,170701,927,171628


In [89]:
#Se transforma los datos a entero 
col_trans(BAF_prov,lista_baf, int)
#Se verifica la acción 
BAF_prov.dtypes()

ValueError: invalid literal for int() with base 10: '- 0'

In [90]:
#ValueError: invalid literal for int() with base 10: '- 0'
# Se procede a eliminar el caracter '-'
rem_int_col(BAF_prov,['Dial up'], '-','')

In [91]:
#Se transforma los datos a entero 
col_trans(BAF_prov,lista_baf, int)
#Se verifica la acción 
BAF_prov.dtypes

Año                  int64
Trimestre            int64
Provincia           object
Banda ancha fija     int32
Dial up              int32
Total                int32
dtype: object

In [92]:
BAF_prov.head()

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,1,Buenos Aires,4549131,6293,4555424
1,2022,1,Capital Federal,1415378,2163,1417541
2,2022,1,Catamarca,62377,1,62378
3,2022,1,Chaco,144114,5,144119
4,2022,1,Chubut,170701,927,171628


In [93]:
BAF_prov.loc[BAF_prov.Total.idxmin()]

Año                     2014
Trimestre                  1
Provincia           San Luis
Banda ancha fija       12193
Dial up                  364
Total                  12557
Name: 786, dtype: object

La tabla nos indica el número de ingresos a internet por banda ancha fija por provincia 

La información se vuelve redundante para el análisis 
### No se toma en cuenta para el análisis profundo 

Internet BAF total accesos


In [94]:
df12=list_data[11]
#Se crea una copia de seguridad como punto de control 
baf_acces_tot=df12.copy()
#Se verifica la acción
baf_acces_tot.head()

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total,Periodo
0,2022,1,10611390,12619,10624009,Ene-Mar 2022
1,2021,4,10476933,12861,10489794,Oct-Dic 2021
2,2021,3,10075184,10357,10085541,Jul-Sept 2021
3,2021,2,9852702,10382,9863084,Abr-Jun 2021
4,2021,1,9637956,10016,9647972,Ene-Mar 2021


In [95]:
#Se realiza un pantallazo general del DF
baf_acces_tot.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               33 non-null     int64 
 1   Trimestre         33 non-null     int64 
 2   Banda ancha fija  33 non-null     int64 
 3   Dial up           33 non-null     int64 
 4   Total             33 non-null     int64 
 5   Periodo           33 non-null     object
dtypes: int64(5), object(1)
memory usage: 1.7+ KB


In [96]:
#La columna 'Periodo' se convierte en información redundante por lo que se procede a eliminar
baf_acces_tot=baf_acces_tot.drop(['Periodo'], axis=1)
# Se verifica la acción
baf_acces_tot.head()

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total
0,2022,1,10611390,12619,10624009
1,2021,4,10476933,12861,10489794
2,2021,3,10075184,10357,10085541
3,2021,2,9852702,10382,9863084
4,2021,1,9637956,10016,9647972


In [97]:
baf_acces_tot.loc[baf_acces_tot[['Año','Trimestre']].idxmin()]

Unnamed: 0,Año,Trimestre,Banda ancha fija,Dial up,Total
29,2014,4,6559172,39324,6598496
0,2022,1,10611390,12619,10624009


La tabla nos indica el número de ingresos a internet por banda ancha fija en la nación

La información se vuelve redundante para el análisis 
### No se toma en cuenta para el análisis profundo 

## Ingresos monetarios por el rubro Internet 


In [98]:
df13=list_data[12]
#Se crea una copia de seguridad como punto de control
int_ing=df13.copy()
#Se verfica la acción
int_ing.head()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo
0,2022,1,51432896,Ene-Mar 2022
1,2021,4,45467887,Oct-Dic 2021
2,2021,3,42999944,Jul-Sept 2021
3,2021,2,38239667,Abr-Jun 2021
4,2021,1,36676371,Ene-Mar 2021


In [99]:
#Se da un pantallazo general
int_ing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Año                        33 non-null     int64 
 1   Trimestre                  33 non-null     int64 
 2   Ingresos (miles de pesos)  33 non-null     int64 
 3   Periodo                    33 non-null     object
dtypes: int64(3), object(1)
memory usage: 1.2+ KB


In [100]:
# columa periodo contiene información redundante por lo que se procede a eliminarla 
int_ing=int_ing.drop(['Periodo'], axis=1)
#Se verfica la acción
int_ing.head()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos)
0,2022,1,51432896
1,2021,4,45467887
2,2021,3,42999944
3,2021,2,38239667
4,2021,1,36676371


In [101]:
int_ing.loc[int_ing[['Año']].idxmax()]

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos)
0,2022,1,51432896


La tabla nos indica el total de ingresos en miles de pesos por el rubro internet

A pesar de no ser específico por cada provincia nos brinda un mapeo general del dinero total generado

### ** Se toma en cuenta para el análisis profundo

In [122]:
int_ing.to_csv('C:/Users/mecad/python/Henry/PI/DataAnalyst/Datasets/Selecionados/ingresos_nac.csv', encoding= 'utf-8')

 ## Penetración del servicio de Internet  100 hogares


In [105]:
df14=list_data[13]
#Se crea una copia de seguridad como punto de control
pen_100=df14.copy()
#Se verfica la acción
pen_100.head(20)

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2022,1,Buenos Aires,76.08
1,2022,1,Capital Federal,111.8
2,2022,1,Catamarca,58.21
3,2022,1,Chaco,44.06
4,2022,1,Chubut,88.05
5,2022,1,Córdoba,85.76
6,2022,1,Corrientes,47.64
7,2022,1,Entre Ríos,63.7
8,2022,1,Formosa,34.96
9,2022,1,Jujuy,58.06


In [103]:
#Se da un pantallazo general
pen_100.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 4 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           792 non-null    int64  
 1   Trimestre                     792 non-null    int64  
 2   Provincia                     792 non-null    object 
 3   Accesos por cada 100 hogares  792 non-null    float64
dtypes: float64(1), int64(2), object(1)
memory usage: 24.9+ KB


In [106]:
pen_100.groupby(['Año']).sum()

  pen_100.groupby(['Año']).sum()


Unnamed: 0_level_0,Trimestre,Accesos por cada 100 hogares
Año,Unnamed: 1_level_1,Unnamed: 2_level_1
2014,240,3541.64
2015,240,3763.04
2016,240,3829.42
2017,240,4082.47
2018,240,4653.84
2019,240,5152.0
2020,240,5388.54
2021,240,5949.93
2022,24,1581.61


La tabla nos indica el alcance obtenido del servicio de internet cada 100 hogares a nivel de provincia 
### ** Se toma en cuenta para el análisis profundo 

In [123]:
pen_100.to_csv('C:/Users/mecad/python/Henry/PI/DataAnalyst/Datasets/Selecionados/pentracion_prov.csv', encoding= 'utf-8')

 Penetración del servicio de Internet a nivel nacional


In [107]:
df15=list_data[14]
#Se crea una copia de seguridad como punto de control
pen_nac=df15.copy()
#Se verfica la acción
pen_nac.head()

Unnamed: 0,Año,Trimestre,Accesos por cada 100 hogares,Accesos por cada 100 hab,Periodo
0,2022,1,73.88,23.05,Ene-Mar 2022
1,2021,4,73.18,22.81,Oct-Dic 2021
2,2021,3,70.58,21.98,Jul-Sept 2021
3,2021,2,69.24,21.55,Abr-Jun 2021
4,2021,1,67.95,21.13,Ene-Mar 2021


In [108]:
#Se da un pantallazo general
pen_nac.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           33 non-null     int64  
 1   Trimestre                     33 non-null     int64  
 2   Accesos por cada 100 hogares  33 non-null     float64
 3   Accesos por cada 100 hab      33 non-null     float64
 4   Periodo                       33 non-null     object 
dtypes: float64(2), int64(2), object(1)
memory usage: 1.4+ KB


In [109]:
# columa periodo contiene información redundante por lo que se procede a eliminarla 
pen_nac=pen_nac.drop(['Periodo'], axis=1)
#Se verifica la accion 
pen_nac.head()

Unnamed: 0,Año,Trimestre,Accesos por cada 100 hogares,Accesos por cada 100 hab
0,2022,1,73.88,23.05
1,2021,4,73.18,22.81
2,2021,3,70.58,21.98
3,2021,2,69.24,21.55
4,2021,1,67.95,21.13


In [110]:
pen_nac.loc[pen_nac['Accesos por cada 100 hab'].idxmin()]

Año                             2014.00
Trimestre                          1.00
Accesos por cada 100 hogares      49.55
Accesos por cada 100 hab          15.05
Name: 32, dtype: float64

La tabla nos indica el alcance obtenido del servicio de internet cada 100 hogares a nivel nacional

Sin embargo la información se vuelve redundante 
### ** No se toma en cuenta para el análisis profundo

## Listado de localidades con conectividad a internet

In [111]:
df16=list_data[15]
#Se crea una copia de seguridad como punto de control
loc_con_int=df16.copy()
#Se verfica la acción
loc_con_int.head()

Unnamed: 0,Provincia,Partido,Localidad,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,4G,3G,TELEFONIAFIJA,WIRELESS,SATELITAL
0,BUENOS AIRES,25 de Mayo,25 de Mayo,SI,SI,--,SI,SI,SI,SI,SI,SI
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,--,--,--,--,--,--,SI,--,--
2,BUENOS AIRES,25 de Mayo,Del Valle,SI,--,--,--,SI,SI,--,--,SI
3,BUENOS AIRES,25 de Mayo,Ernestina,SI,--,--,--,--,--,--,--,--
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,--,--,--,--,--,--,--,SI,--


In [112]:
#Se da un pantallazo general
loc_con_int.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4312 entries, 0 to 4311
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Provincia      4312 non-null   object
 1   Partido        4312 non-null   object
 2   Localidad      4312 non-null   object
 3   ADSL           4312 non-null   object
 4   CABLEMODEM     4312 non-null   object
 5   DIALUP         4312 non-null   object
 6   FIBRAOPTICA    4312 non-null   object
 7   4G             4312 non-null   object
 8   3G             4312 non-null   object
 9   TELEFONIAFIJA  4312 non-null   object
 10  WIRELESS       4312 non-null   object
 11  SATELITAL      4312 non-null   object
dtypes: object(12)
memory usage: 404.4+ KB


In [113]:
#Se observa que cuando no existe conexion se coloca'--' para una mejor comprension del DF se cambará por "NO"
for i in loc_con_int:
    loc_con_int[i].replace('--','NO',inplace=True)
#Se verifica la acción 
loc_con_int.head()

Unnamed: 0,Provincia,Partido,Localidad,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,4G,3G,TELEFONIAFIJA,WIRELESS,SATELITAL
0,BUENOS AIRES,25 de Mayo,25 de Mayo,SI,SI,NO,SI,SI,SI,SI,SI,SI
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,NO,NO,NO,NO,NO,NO,SI,NO,NO
2,BUENOS AIRES,25 de Mayo,Del Valle,SI,NO,NO,NO,SI,SI,NO,NO,SI
3,BUENOS AIRES,25 de Mayo,Ernestina,SI,NO,NO,NO,NO,NO,NO,NO,NO
4,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,NO,NO,NO,NO,NO,NO,NO,SI,NO


Se observa que el conjunto de datos se corresponde con el dataframe conec_loc, siendo información redundantes
### ** No se toma en cuenta para el análisis profundo 