# Análisis Exploratorio de Datos (EDA) sobre Servicios de Internet en Argentina

## Introducción al Análisis Exploratorio de Datos

El acceso a internet se ha convertido en un pilar fundamental para el desarrollo económico y social de Argentina. La conectividad no solo facilita la comunicación y el acceso a la información, sino que también es clave para la educación, la salud, y la economía digital. Sin embargo, la calidad y disponibilidad del servicio de internet varían considerablemente entre regiones, lo que hace necesario un análisis detallado para entender estas diferencias y su evolución en el tiempo.

Este análisis exploratorio de datos (EDA) busca evaluar cómo han cambiado los patrones de uso, la velocidad de conexión, y otros indicadores clave del servicio de internet a nivel nacional entre 2014 y 2024. El objetivo es identificar tendencias y oportunidades para mejorar la infraestructura de telecomunicaciones en todo el país, proporcionando insights que puedan guiar tanto a los responsables de políticas como a las empresas del sector en sus decisiones para mejorar la conectividad en todas las provincias.


-----

## 0. PreAnálisis

Antes de empezar con el análisis mas profundo vi por encima los 6 datasets que elegi para este proyecto, para poder contar que datos registra cada uno:

1. Accesos_por_velocidad.csv: compuesto por casi 985 filas y 11 columnas, nos muestra datos desde 2014 a 2024, divididos por trimestres, teniendo en cuenta las 23 provincias argentinas y la capital federal, el rango de banda ancha y cuantos hogares tienen acceso en esas localidades a cada rango de velocidad.

2. Totales_Accesos_por_velocidad.csv: compuesto por 42 filas y 12 columnas, muestra datos desde 2014 a 2024, de distintos rangos de banda ancha(velocidad), y cuantos hogares(es lo que supongo por los numeros) tienen acceso a esos rangos de banda ancha.

3. Velocidad_por_provincia.csv: compuesto por 985 filas y 4 columnas, muestra datos desde 2014 a 2024, divididos por trimestres, de las 23 provincias argentinas y la capital federal, cual es la media de bajada de cada una en Mbps.

4. Internet_IngresosTotalesxTrimestre.csv: compuesto por 43 filas y 4 columnas, muestra datos desde 2014 a 2024, divididos por trimestre, de la cantidad ingresos totales de los servicios de Internet a nivel nacional.

5. Penetracion-hogares.csv: compuesto por 985 filas y 4 columnas, muestra datos desde 2014 a 2024, divididos por trimestre, mostrando los accesos cada 100 hogares por provincia.

6. Penetracion-totales.csv: compuesto por 42 filas y 5 columnas, muestrados desde 2014 a 2024, divididos por trimestre, mostrando los accesos cada 100 hogares, y tambien por cada 100 habitantes, en total del pais.


Empiezo importando las librerias necesarias para realizar el análisis

In [29]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np


Elijo los CSV que me parecen importantes para realizarles un análisis, teniendo en cuenta que necesito conocer los aspectos mas importantes del comportamiento de los servicios de Internet a nivel nacional (Argentina).

In [30]:
# Leo y cargo en un DataFrame cada uno de los 6 CSVs que elegi guiandome por los datos que vi por encima en libreOffice
accesos_Provincia_Por_Velocidad = pd.read_csv('Dataset_Internet/00Accesos/Accesos_por_velocidad.csv', encoding='latin1')
totalesarg_Accesos_Por_Velocidad = pd.read_csv('Dataset_Internet/00Accesos/Totales_Accesos_por_velocidad.csv', encoding='latin1')
velocidad_Total_Por_Provincia = pd.read_csv('Dataset_Internet/03Velocidad/Velocidad_por_provincia.csv', encoding='latin1')
internet_IngresosTotalesxTrimestre = pd.read_csv('Dataset_Internet/02Totales/Internet_IngresosTotalesxTrimestre.csv', encoding='latin1')
penetracion_Hogares = pd.read_csv('Dataset_Internet/01Penetracion/Penetracion-hogares.csv', encoding='latin1')
penetracion_Totalesarg = pd.read_csv('Dataset_Internet/01Penetracion/Penetracion-totales.csv', encoding='latin1')


## Mi enfoque en el análisis

Ahora voy a ir por cada uno de los datasets analizando detenidamente las siguientes cosas:
1. Aspectos Generales del dataset: 
    Como el tipo de variables (ya sean categoricas o numericas), la cantidad de filas y columnas, valores nulos o faltantes.
2. Descripcion Estadistica:
 
    Medidas de tendencia central:
    
    Media
    
    Mediana

    Medidas de Variabilidad:

    Desviacion Estandar
    
    Rango Intercuartil

3. Visualizacion de los datos:
    Histograma
    Boxplot (para intercuartiles)

4. Analisis Bivariado y Multivariado:
    Grafica de dispersion >>> Para ver aumento lineal
    Indice de Correlacion Lineal entre variables: Positiva, Inversa o no hay Correlacion.
    Grafico de Violin
    Comparar una variable categorica y una numerica
5. Correlacion

----

## 1. Análisis de accesos_Provincia_Por_Velocidad

In [31]:
accesos_Provincia_Por_Velocidad.head()

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2024,1,Buenos Aires,26.002,22.51,221.185,233.225,241.778,106.418,4.068.292,125.147,5.044.557
1,2024,1,Capital Federal,516.0,5.418,29.753,51.415,37.369,5.957,1.374.283,0.0,1.504.711
2,2024,1,Catamarca,71.0,176.0,2.872,3.424,4.204,1.822,62.294,70.0,74.933
3,2024,1,Chaco,236.0,416.0,14.156,9.044,5.533,5.718,116.624,3.816,155.543
4,2024,1,Chubut,111.0,1.083,43.828,31.885,23.024,20.261,33.844,16.64,170.676


Con este .head() miro por encima que tengo datos categoricos, y datos numericos discretos. Ademas de la distribucion de las columnas.

In [32]:
accesos_Provincia_Por_Velocidad.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 984 entries, 0 to 983
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Año                  984 non-null    int64  
 1   Trimestre            984 non-null    int64  
 2   Provincia            984 non-null    object 
 3   HASTA 512 kbps       984 non-null    float64
 4   + 512 Kbps - 1 Mbps  984 non-null    float64
 5   + 1 Mbps - 6 Mbps    984 non-null    object 
 6   + 6 Mbps - 10 Mbps   984 non-null    float64
 7   + 10 Mbps - 20 Mbps  984 non-null    float64
 8   + 20 Mbps - 30 Mbps  984 non-null    float64
 9   + 30 Mbps            984 non-null    object 
 10  OTROS                978 non-null    float64
 11  Total                984 non-null    object 
dtypes: float64(6), int64(2), object(4)
memory usage: 92.4+ KB


De este .info() puedo ver los tipos de datos de cada columnas, donde tenemos integers, floats y objetos, determino tambien que solo hay valores faltantes en la columna OTROS, luego de revisarlos con una herramienta llamada "Data Wrangler" que me permite ver el dataset completo, llegue a la conclusion de que puedo transformar los nulos a 0 para tener mas limpio el df.

In [33]:
accesos_Provincia_Por_Velocidadsinnulos = accesos_Provincia_Por_Velocidad.fillna(0)

In [34]:
accesos_Provincia_Por_Velocidadsinnulos.head()

Unnamed: 0,Año,Trimestre,Provincia,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 1 Mbps - 6 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,+ 30 Mbps,OTROS,Total
0,2024,1,Buenos Aires,26.002,22.51,221.185,233.225,241.778,106.418,4.068.292,125.147,5.044.557
1,2024,1,Capital Federal,516.0,5.418,29.753,51.415,37.369,5.957,1.374.283,0.0,1.504.711
2,2024,1,Catamarca,71.0,176.0,2.872,3.424,4.204,1.822,62.294,70.0,74.933
3,2024,1,Chaco,236.0,416.0,14.156,9.044,5.533,5.718,116.624,3.816,155.543
4,2024,1,Chubut,111.0,1.083,43.828,31.885,23.024,20.261,33.844,16.64,170.676


Con el siguiente .describe() puedo ver datos como la media, la variacion estandar, los valores minimos y maximos y los cuartiles.

In [35]:
accesos_Provincia_Por_Velocidadsinnulos.describe()

Unnamed: 0,Año,Trimestre,HASTA 512 kbps,+ 512 Kbps - 1 Mbps,+ 6 Mbps - 10 Mbps,+ 10 Mbps - 20 Mbps,+ 20 Mbps - 30 Mbps,OTROS
count,984.0,984.0,984.0,984.0,984.0,984.0,984.0,984.0
mean,2018.658537,2.463415,125.137505,113.846218,67.191319,72.670988,95.233803,42.64042
std,3.002418,1.12887,179.963132,226.362816,131.867857,159.612597,200.540263,151.249149
min,2014.0,1.0,1.007,0.0,0.0,0.0,0.0,-1.945
25%,2016.0,1.0,15.0,3.0345,5.977,5.48575,2.4395,0.0
50%,2019.0,2.0,57.0,8.3075,20.337,15.4,10.328,1.6045
75%,2021.0,3.0,130.0,97.0,59.11925,42.56525,63.054,10.47925
max,2024.0,4.0,998.0,999.0,917.0,978.0,997.0,999.0


In [36]:
accesos_Provincia_Por_Velocidadsinnulos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 984 entries, 0 to 983
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Año                  984 non-null    int64  
 1   Trimestre            984 non-null    int64  
 2   Provincia            984 non-null    object 
 3   HASTA 512 kbps       984 non-null    float64
 4   + 512 Kbps - 1 Mbps  984 non-null    float64
 5   + 1 Mbps - 6 Mbps    984 non-null    object 
 6   + 6 Mbps - 10 Mbps   984 non-null    float64
 7   + 10 Mbps - 20 Mbps  984 non-null    float64
 8   + 20 Mbps - 30 Mbps  984 non-null    float64
 9   + 30 Mbps            984 non-null    object 
 10  OTROS                984 non-null    float64
 11  Total                984 non-null    object 
dtypes: float64(6), int64(2), object(4)
memory usage: 92.4+ KB


Paso el csv limpio de accesos_Provincia_Por_Velocidad a un archivo .csv

In [37]:
accesos_Provincia_Por_Velocidadsinnulos.to_csv('accesos_Provincia_Por_Velocidad_Limpio.csv', index=False)

----

## 2. Análisis de totalesarg_Accesos_Por_Velocidad

Repito el mismo proceso hecho anteriormente ahora con el siguiente dataframe

In [38]:
totalesarg_Accesos_Por_Velocidad.head()

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,Entre 1 Mbps y 6 Mbps,Entre 6 Mbps y 10 Mbps,Entre 10 Mbps y 20 Mbps,Entre 20 Mbps y 30 Mbps,Más de 30 Mbps,OTROS,Total
0,2024,1,28.801,69.355,866.152,950.930,672.155,353.896,8.363.694,328.173,11.633.156
1,2023,4,29.708,71.742,900.253,978.108,697.232,350.29,8.224.736,295.592,11.547.661
2,2023,3,30.274,80.609,945.608,998.725,720.084,350.918,8.003.269,277.421,11.406.908
3,2023,2,30.827,79.405,963.510,1.028.250,734.125,364.73,7.775.095,275.955,11.251.897
4,2023,1,31.437,82.048,1.001.553,1.060.321,729.194,357.769,7.564.819,414.754,11.241.895


Con el .info() me doy cuenta de que todas las filas tienen datos que no son nulos, por lo cual decido no transformar este dataset.

In [39]:
totalesarg_Accesos_Por_Velocidad.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 11 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   Año                      41 non-null     int64  
 1   Trimestre                41 non-null     int64  
 2   Hasta 512 kbps           41 non-null     float64
 3   Entre 512 Kbps y 1 Mbps  41 non-null     float64
 4   Entre 1 Mbps y 6 Mbps    41 non-null     object 
 5   Entre 6 Mbps y 10 Mbps   41 non-null     object 
 6   Entre 10 Mbps y 20 Mbps  41 non-null     object 
 7   Entre 20 Mbps y 30 Mbps  41 non-null     object 
 8   Más de 30 Mbps           41 non-null     object 
 9   OTROS                    41 non-null     float64
 10  Total                    41 non-null     object 
dtypes: float64(3), int64(2), object(6)
memory usage: 3.7+ KB


No hay nulos

In [40]:
totalesarg_Accesos_Por_Velocidad.describe()

Unnamed: 0,Año,Trimestre,Hasta 512 kbps,Entre 512 Kbps y 1 Mbps,OTROS
count,41.0,41.0,41.0,41.0,41.0
mean,2018.634146,2.463415,47.21039,219.239463,149.513098
std,2.997967,1.142313,49.441162,193.062661,130.707129
min,2014.0,1.0,5.675,28.521,0.0
25%,2016.0,1.0,29.708,71.742,0.0
50%,2019.0,2.0,35.03,195.706,167.369
75%,2021.0,3.0,41.064,294.413,238.455
max,2024.0,4.0,241.713,687.619,414.754


----

## 3. Análisis de velocidad_Total_Por_Provincia

Reviso de que trata el dataframe, veo que tengo datos categoricos y numericos

In [41]:
velocidad_Total_Por_Provincia.head()

Unnamed: 0,Año,Trimestre,Provincia,Mbps (Media de bajada)
0,2024,1,Buenos Aires,15913
1,2024,1,Capital Federal,22994
2,2024,1,Catamarca,9145
3,2024,1,Chaco,10751
4,2024,1,Chubut,2050


Veo que no hay nulos asi que no transformo los datos, se los tipos de datos que tengo, tanto objetos como integers, la cantidad de filas(984) y la cantidad de columnas(4)

In [42]:
velocidad_Total_Por_Provincia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 984 entries, 0 to 983
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   Año                     984 non-null    int64 
 1   Trimestre               984 non-null    int64 
 2   Provincia               984 non-null    object
 3   Mbps (Media de bajada)  984 non-null    object
dtypes: int64(2), object(2)
memory usage: 30.9+ KB


In [43]:
velocidad_Total_Por_Provincia.describe()

Unnamed: 0,Año,Trimestre
count,984.0,984.0
mean,2018.634146,2.463415
std,2.962686,1.12887
min,2014.0,1.0
25%,2016.0,1.0
50%,2019.0,2.0
75%,2021.0,3.0
max,2024.0,4.0


---

## 4. Análisis de internet_IngresosTotalesxTrimestre

In [44]:
internet_IngresosTotalesxTrimestre.head()

Unnamed: 0,Año,Trimestre,Ingresos (miles de pesos),Periodo
0,2024,1,"280.419.124,08",Ene-Mar 2024
1,2023,4,"167.376.014,80",Oct-Dic 2023
2,2023,3,"133.106.593,41",Jul-Sept 2023
3,2023,2,"118.060.280,28",Jun-Mar 2023
4,2033,1,"104.134.992,81",Ene-Mar 2023


In [45]:
internet_IngresosTotalesxTrimestre.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   Año                        41 non-null     int64 
 1    Trimestre                 41 non-null     int64 
 2   Ingresos (miles de pesos)  41 non-null     object
 3    Periodo                   41 non-null     object
dtypes: int64(2), object(2)
memory usage: 1.4+ KB


In [46]:
internet_IngresosTotalesxTrimestre.describe()

Unnamed: 0,Año,Trimestre
count,41.0,41.0
mean,2018.878049,2.463415
std,3.68914,1.142313
min,2014.0,1.0
25%,2016.0,1.0
50%,2019.0,2.0
75%,2021.0,3.0
max,2033.0,4.0


---

## 5. Análisis de penetracion_Hogares

In [47]:
penetracion_Hogares.head()

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2024,1,Buenos Aires,8110
1,2024,1,Capital Federal,11953
2,2024,1,Catamarca,6882
3,2024,1,Chaco,4670
4,2024,1,Chubut,8489


In [48]:
penetracion_Hogares.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 984 entries, 0 to 983
Data columns (total 4 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Año                           984 non-null    int64 
 1    Trimestre                    984 non-null    int64 
 2    Provincia                    984 non-null    object
 3   Accesos por cada 100 hogares  984 non-null    object
dtypes: int64(2), object(2)
memory usage: 30.9+ KB


In [49]:
penetracion_Hogares.describe()

Unnamed: 0,Año,Trimestre
count,984.0,984.0
mean,2018.634146,2.463415
std,2.962686,1.12887
min,2014.0,1.0
25%,2016.0,1.0
50%,2019.0,2.0
75%,2021.0,3.0
max,2024.0,4.0


Para poder hacer el primer KPI, una buena idea era unir las columas año y trimestre, asi que primero renombre la columna 'Trimestre' porque me daba error, luego las junte y las hice un csv para poder trabajar despues en power bi

In [54]:
penetracion_Hogares.rename(columns={' Trimestre ': 'Trimestre'}, inplace=True)

In [55]:
penetracion_Hogares['Año-Trimestre'] = penetracion_Hogares['Año'].astype(str) + '-Q' + penetracion_Hogares['Trimestre'].astype(str)

In [56]:
penetracion_Hogares.head()

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares,Año-Trimestre
0,2024,1,Buenos Aires,8110,2024-Q1
1,2024,1,Capital Federal,11953,2024-Q1
2,2024,1,Catamarca,6882,2024-Q1
3,2024,1,Chaco,4670,2024-Q1
4,2024,1,Chubut,8489,2024-Q1


In [57]:
penetracion_Hogares.to_csv('penetracion_Hogares_AT.csv')

----

## 6. Análisis de penetracion_Totalesarg

In [None]:
penetracion_Totalesarg.head()

In [None]:
penetracion_Totalesarg.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 41 entries, 0 to 40
Data columns (total 5 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Año                           41 non-null     int64 
 1   Trimestre                     41 non-null     int64 
 2   Accesos por cada 100 hogares  41 non-null     object
 3   Accesos por cada 100 hab      41 non-null     object
 4   Periodo                       41 non-null     object
dtypes: int64(2), object(3)
memory usage: 1.7+ KB


In [None]:
penetracion_Totalesarg.describe()

----