# **<span style="color: #800080; font-size: 36px;">Paso 1: Importar librerias y frameworks y cargar los datos</span>**

In [1]:
#Librerias y frameworks
import pandas as pd
import numpy as np
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
pd.set_option('display.max_columns', 200) #Mostrar todas las columnas
pd.set_option('display.float_format', '{:.2f}'.format) #No mostrar notación científica
from dotenv import load_dotenv
import os
from sqlalchemy import create_engine 
load_dotenv("config.env")

True

## **<span style="color: #DDA0DD; font-size: 30px;">Establecer la conexión con el servidor MySQL:</span>**

In [2]:
db_user = os.getenv("USER")
db_password = os.getenv("PASSWORD")
db_host = os.getenv("HOST")
db_name = os.getenv("DATABASE")
connection_string = f'mysql+mysqlconnector://{db_user}:{db_password}@{db_host}/{db_name}'

In [3]:
engine = create_engine(connection_string)

In [4]:
query = "SELECT * FROM dataLocalidad"
dataLocalidad = pd.read_sql(query, engine)
engine.dispose()

In [5]:
query = "SELECT * FROM dataProvincia"
dataProvincia = pd.read_sql(query, engine)
engine.dispose()

In [6]:
query = "SELECT * FROM dataGlobal"
dataGlobal = pd.read_sql(query, engine)
engine.dispose()

# **<span style="color: #800080; font-size: 36px;">Paso 2: Comprensión de los datos (Data Understanding)</span>**

    - 📌 Dataframe shape
    - 📌 Head and tail
    - 📌 Dtypes
    - 📌 Describe

## **2.1 - dataLocalidad**

#### **Dataframe Shape**

In [7]:
dataLocalidad.shape

(2974, 22)

📝 Dataframe dataLocalidad, tiene información agrupada por provincia, región y localidad de Argentina. Las columnas se pueden agrupar de la siguiente manera:

        - Las primeras 8 columnas relacionadas con Mbps tienen información sobre la cantidad de accesos a internet fijo en esos rangos de velocidad
        - Las siguientes 9 columnas relacionadas con tecnologías tienen información sobre la cantidad de acceso dependiendo del tipo de tecnología.
        - Las dos últimas son las coordenadas de cada localidad.
        - Está información es la correspondiente al 3 trimestre del año 2022⚠️, data más actualizada en el portal de datos abiertos de ENACOM para esta categoría 
        - Se puede observar que el dataframe se encuentra ordenado por provincia-región y localidad.

#### **Head and Tail**

In [8]:
dataLocalidad.head(2)

Unnamed: 0,provincia,region,localidad,de0a9Mbps,de10a20Mbps,de21a49Mbps,de50a99Mbps,de100a199Mbps,de200a499Mbps,de500a1024Mbps,otros,adsl,cableModem,dialUp,fibraOptica,otros_tec,satelital,wimax,wireless,totalTecnologia,latitud,longitud
0,Buenos Aires,Provincia de Buenos Aires,11 De Septiembre,32,30,11,518,549,67,14,1,34,1181,0,5,1,1,0,0,1222,-34.57,-58.62
1,Buenos Aires,Provincia de Buenos Aires,12 De Octubre,11,0,0,0,0,0,0,0,0,0,0,0,0,0,0,19,19,-35.61,-60.92


In [9]:
dataLocalidad.tail(2)

Unnamed: 0,provincia,region,localidad,de0a9Mbps,de10a20Mbps,de21a49Mbps,de50a99Mbps,de100a199Mbps,de200a499Mbps,de500a1024Mbps,otros,adsl,cableModem,dialUp,fibraOptica,otros_tec,satelital,wimax,wireless,totalTecnologia,latitud,longitud
2972,Tucumán,Norte Grande Argentino,Villa Quinteros,393,11,1,0,0,0,0,0,14,0,0,0,0,0,0,391,405,-27.25,-65.55
2973,Tucumán,Norte Grande Argentino,Yerba Buena - Marcos Paz,40,2021,232,5849,6556,995,1,176,129,203,0,15511,33,0,0,0,15876,-26.81,-65.31


#### **Data types**

📝 Los tipos de datos corresponden a lo esperado, enteros para las cantidades y object para las variables del tipo string.

In [10]:
dataLocalidad.dtypes

provincia           object
region              object
localidad           object
de0a9Mbps            int64
de10a20Mbps          int64
de21a49Mbps          int64
de50a99Mbps          int64
de100a199Mbps        int64
de200a499Mbps        int64
de500a1024Mbps       int64
otros                int64
adsl                 int64
cableModem           int64
dialUp               int64
fibraOptica          int64
otros_tec            int64
satelital            int64
wimax                int64
wireless             int64
totalTecnologia      int64
latitud            float64
longitud           float64
dtype: object

#### **Describe**

📝 En cuanto a las variables cuantitativas se observa:

        -  Las primeras 8 columnas relacionadas con Mbps tienen información sobre la cantidad de accesos a internet fijo en esos rangos de velocidad
        -  Las últimas 9 columnas relacionadas con tecnologías tienen información sobre la cantidad de acceso dependiendo del tipo de tecnología.

In [11]:
dataLocalidad[['de0a9Mbps','de10a20Mbps','de21a49Mbps','de50a99Mbps','de100a199Mbps','de200a499Mbps','de500a1024Mbps','otros']].describe()

Unnamed: 0,de0a9Mbps,de10a20Mbps,de21a49Mbps,de50a99Mbps,de100a199Mbps,de200a499Mbps,de500a1024Mbps,otros
count,2974.0,2974.0,2974.0,2974.0,2974.0,2974.0,2974.0,2974.0
mean,494.74,589.18,449.09,1057.06,846.96,140.88,18.69,55.93
std,1920.14,3728.9,2742.98,10897.64,11146.32,2470.46,375.05,502.3
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,52.0,12.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,321.5,254.5,3.0,0.0,0.0,0.0,0.0,1.0
max,57291.0,103113.0,81909.0,489369.0,560701.0,129613.0,20205.0,15008.0


📝 Respecto a las columnas relacionadas con velocidad de descarga se observa:

       - Promedios: Los promedios proporcionan una idea de la cantidad promedio de accesos a cada rango de velocidad por localidad. Por ejemplo, en promedio, las localidades tienen alrededor de 494 accesos a velocidades de 0 a 9 Mbps, 588 accesos a velocidades de 10 a 20 Mbps y así sucesivamente. Podemos observar que para el rango de 50 a 99 Mbps y 100 a 199Mbps se encuentran los promedios más grandes 💡. 

       La tabla describe la distribución de los accesos a diferentes velocidades de descarga de internet en las localidades. Proporciona información sobre promedios, dispersión, valores extremos y cuartiles, lo que puede ayudar a comprender mejor la disponibilidad y la variabilidad de las velocidades de descarga en diferentes localidades.

In [12]:
dataLocalidad[['adsl','cableModem','dialUp','fibraOptica','otros_tec','satelital','wimax','wireless','totalTecnologia']].describe()

Unnamed: 0,adsl,cableModem,dialUp,fibraOptica,otros_tec,satelital,wimax,wireless,totalTecnologia
count,2974.0,2974.0,2974.0,2974.0,2974.0,2974.0,2974.0,2974.0,2974.0
mean,468.73,2026.22,4.18,963.93,57.26,1.05,0.71,184.91,3706.99
std,3336.06,24345.39,45.94,6383.99,716.21,18.01,15.3,700.71,32422.73
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,27.0
50%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,25.0,171.0
75%,141.0,22.0,0.0,74.75,0.0,1.0,0.0,123.75,1065.0
max,140791.0,1240125.0,2145.0,208950.0,29585.0,975.0,444.0,18447.0,1547679.0


📝 Respecto a las columnas relacionadas con tipo de tecnología:

       - Promedios: Los promedios proporcionan una idea de la cantidad promedio de accesos por tipo de tecnología por localidad. Por ejemplo, en promedio, las localidades tienen alrededor de 468 accesos con tecnología ADSL, mientras que con cableModem tiene en promedio 2023 accesos y en fibra óptica 962💡.

       La tabla describe la distribución de los accesos a diferentes tipos de tecnología en las localidades. Proporciona información sobre promedios, dispersión, valores extremos y cuartiles, lo que puede ayudar a comprender mejor la disponibilidad y la variabilidad en el tipo de tecnología en diferentes localidades.

## **2.2 - dataProvincia**

#### **Dataframe Shape**

In [13]:
dataProvincia.shape

(840, 24)

📝 Dataframe dataProvincia, tiene información agrupada por provincia, región y año y trimestre. Las columnas se pueden agrupar de la siguiente manera:

        - Las primeras 3 columnas relacionadas con cantidad de accesos de Banda Ancha fija y dial Up ("banda angosta"), además del total. 
        - Las siguientes dos columnas tienen la cantidad de accesos por cada 100habitantes y por cada 100 hogares.
        - Las siguientes seis columnas tienen información sobre la cantidad de accesos por tecnología. 
        - Luego hay una columna que muestra la velocidad media de descargar.
        - Finalmente, las últimas 9 columnas tienen información de cantidad de accesos por rango de velocidad.
        - Está información está por trimestre desde el año 2014 al 3er trimestre del 2022, sin embargo la información para los rangos de velocidades solo está disponible desde 2018⚠️
        - Se puede observar que el dataframe se encuentra ordenado por año y trimestre.

#### **Head and Tail**

In [14]:
dataProvincia.head(2)

Unnamed: 0,anio,trimestre,provincia,region,bandaAnchaFija,dialUp,total_ba_du,accesx100hab,accesx100hog,adsl,cableModem,fibraOptica,wireless,otras_tecno,total_tec,velocidadMediaDesc,de0a9Mbps,de10a20Mbps,de21a49Mbps,de50a99Mbps,de100a199Mbps,de200a499Mbps,de500a10000Mbps,otros
0,2022,3,Buenos Aires,Provincia de Buenos Aires,4715469,6199,4721668,26.38,78.1,339648.0,2748325.0,1436433.0,126846.0,70416.0,4721668.0,70.19,430296.0,482672.0,849061.0,1466679.0,1210649.0,182661.0,33829.0,65821.0
1,2022,3,Ciudad De Buenos Aires,Provincia de Buenos Aires,1545534,2145,1547679,50.22,122.25,140791.0,1240125.0,129218.0,5758.0,31787.0,1547679.0,101.05,57292.0,103113.0,81909.0,489369.0,560701.0,129613.0,20205.0,105477.0


In [15]:
dataProvincia.tail(2)

Unnamed: 0,anio,trimestre,provincia,region,bandaAnchaFija,dialUp,total_ba_du,accesx100hab,accesx100hog,adsl,cableModem,fibraOptica,wireless,otras_tecno,total_tec,velocidadMediaDesc,de0a9Mbps,de10a20Mbps,de21a49Mbps,de50a99Mbps,de100a199Mbps,de200a499Mbps,de500a10000Mbps,otros
838,2014,1,Tierra Del Fuego - Antártida E Islas Del Atlán...,Patagonia,27272,766,28038,19.11,63.97,21618.0,2837.0,648.0,1.0,2934.0,28038.0,3.45,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
839,2014,1,Tucumán,Norte Grande Argentino,129944,88,130032,8.3,33.4,129717.0,83.0,121.0,13.0,98.0,130032.0,3.21,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### **Data types**

📝 Los tipos de datos corresponden a lo esperado, enteros para las cantidades, float para las cantidades promediadas y object para las variables del tipo string.

In [16]:
dataProvincia.dtypes

anio                    int64
trimestre               int64
provincia              object
region                 object
bandaAnchaFija          int64
dialUp                  int64
total_ba_du             int64
accesx100hab          float64
accesx100hog          float64
adsl                  float64
cableModem            float64
fibraOptica           float64
wireless              float64
otras_tecno           float64
total_tec             float64
velocidadMediaDesc    float64
de0a9Mbps             float64
de10a20Mbps           float64
de21a49Mbps           float64
de50a99Mbps           float64
de100a199Mbps         float64
de200a499Mbps         float64
de500a10000Mbps       float64
otros                 float64
dtype: object

#### **Describe**

📝 En cuanto a las variables cuantitativas se observa:

In [17]:
dataProvincia[['bandaAnchaFija', 'dialUp','total_ba_du', 'accesx100hab', 'accesx100hog', 'adsl', 'cableModem', 'fibraOptica', 'wireless', 'otras_tecno', 'total_tec', 'velocidadMediaDesc']].describe()

Unnamed: 0,bandaAnchaFija,dialUp,total_ba_du,accesx100hab,accesx100hog,adsl,cableModem,fibraOptica,wireless,otras_tecno,total_tec,velocidadMediaDesc
count,840.0,840.0,840.0,840.0,840.0,840.0,840.0,840.0,840.0,840.0,840.0,840.0
mean,344767.38,974.31,345741.69,14.65,49.07,127566.81,171775.05,29911.86,10345.0,6142.96,345741.69,13.86
std,740050.3,2418.32,741943.58,8.98,23.15,255054.3,422166.1,123501.26,18192.02,10572.15,741943.58,14.67
min,12193.0,0.0,12557.0,2.69,9.34,6842.0,0.0,0.0,0.0,2.0,12557.0,2.57
25%,51922.25,9.0,52029.75,8.35,32.1,22479.25,8599.75,186.0,253.0,307.25,52029.75,4.25
50%,102936.0,148.0,103489.5,12.7,45.91,48596.0,34984.0,1093.0,4261.5,1852.0,103489.5,7.1
75%,177868.5,619.0,177914.75,19.03,61.86,104569.5,70748.5,13862.5,12435.0,6915.5,177914.75,18.32
max,4715469.0,15229.0,4721668.0,52.25,124.06,1586343.0,2748325.0,1436433.0,126887.0,73415.0,4721668.0,101.05


📝 Respecto a las columnas relacionadas con tipo de tecnología y velocidad media de descarga (Este primer analisis es preliminar pues luego hay que desagrupar por trimestres y años para obtener un mejor análisis):

       - Al comparar bandaAncha Fija con DialUp se observa que en promedio en todas las provincias es la que prevalece.
       - Con repecto a las tecnologías las relacionadas con conexiones alambricas tienen mayor acojida (adsl, cablemodem, fibraOptica)
       - La velocidad media de descarga en los datos es 2.51 y la máxima es de 101.05

In [18]:
dataProvincia[['de0a9Mbps', 'de10a20Mbps', 'de21a49Mbps','de50a99Mbps', 'de100a199Mbps', 'de200a499Mbps', 'de500a10000Mbps','otros']].describe()


Unnamed: 0,de0a9Mbps,de10a20Mbps,de21a49Mbps,de50a99Mbps,de100a199Mbps,de200a499Mbps,de500a10000Mbps,otros
count,840.0,840.0,840.0,840.0,840.0,840.0,840.0,840.0
mean,70489.95,47989.59,23487.1,46135.78,24594.98,3359.69,339.07,4956.28
std,203906.89,121514.04,93829.46,183327.99,114054.89,16891.29,2503.92,12155.3
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,22410.5,6025.0,43.5,9.0,1.0,0.0,0.0,0.0
75%,60866.5,40307.5,7970.25,12781.75,4816.25,76.0,0.0,5017.75
max,1731680.0,1166290.0,950900.0,1556811.0,1210649.0,182661.0,33829.0,120987.0


📝 Respecto a las columnas relacionadas rangos de velocidad de descarga (Este primer analisis es preliminar pues luego hay que desagrupar por trimestres y años para obtener un mejor análisis):

       - Se observa que los rangos menores tienen medias más altas, sin embargo, esto puede estar influenciado porque los datos pertenecen a diferentes momentos históricos.

## **2.3 - dataGlobal**

#### **Dataframe Shape**

In [19]:
dataGlobal.shape

(35, 4)

📝 Dataframe dataGlobal, tiene información global por año y trimestre. Las columnas se pueden agrupar de la siguiente manera:

        - Velocidad media de descarga global.
        - Ingresos por los servicios 


#### **Head and Tail**

In [20]:
dataGlobal.head(2)

Unnamed: 0,anio,trimestre,velocidadMediaDesc,ingresos
0,2022,3,62.46,67055929.82
1,2022,2,58.44,60335723.87


In [21]:
dataGlobal.tail(2)

Unnamed: 0,anio,trimestre,velocidadMediaDesc,ingresos
33,2014,2,3.76,3270816.2
34,2014,1,3.62,2984054.21


#### **Data types**

📝 Los tipos de datos corresponden a lo esperado, enteros para los años y trimestres y float para las varables numéricas.

In [22]:
dataGlobal.dtypes

anio                    int64
trimestre               int64
velocidadMediaDesc    float64
ingresos              float64
dtype: object

#### **Describe**

📝 En cuanto a las variables cuantitativas se observa:

In [23]:
dataGlobal[['velocidadMediaDesc','ingresos']].describe()

Unnamed: 0,velocidadMediaDesc,ingresos
count,35.0,35.0
mean,21.83,20588449.39
std,19.23,17742137.55
min,3.62,2984054.21
25%,5.25,6235542.74
50%,13.85,14319467.46
75%,39.5,32049960.26
max,62.46,67055929.82


📝 Respecto a las columnas (Este primer analisis es preliminar pues luego hay que desagrupar por trimestres y años para obtener un mejor análisis):


# **<span style="color: #800080; font-size: 36px;">Paso 3: Comprensión de las características (Feature Understanding)</span>**

(Univariable analysis)
- Plotting Feature Distributions

    - 📌 Histogram
    - 📌 KDE
    - 📌 Boxplot


## **3.1 - dataGlobal**

#### **3.1.1 - Ingresos por año**

In [24]:
data = dataGlobal.groupby('anio')['ingresos'].sum().reset_index()

fig = px.bar(data, x='anio', y='ingresos', title='Ingresos por año global')
fig.show()

![figura1](src/figura1.jpg)

📝 En el gráfico de barras podemos observar una tendencia a incrementar la cantidad de ingresos cada año por la prestación del servicio de internet.

#### **3.1.2 - Velocidad media de descarga por año y trimestre**

In [25]:
anio_trimestre = dataGlobal['anio'].astype(str) + '-' + dataGlobal['trimestre'].astype(str)
velocidad = dataGlobal['velocidadMediaDesc']

data = pd.DataFrame({'anio_trimestre': anio_trimestre, 'velocidad': velocidad})

fig = px.line(data, x='anio_trimestre', y='velocidad', title='Velocidad Media Desc por Año y Trimestre')

fig.show()

![figura2](src/figura2.jpg)

📝 En el gráfico podemos observar una tendencia a incrementar la velocidad de descarga cada año a nivel global, se puede notar además una variación en la pendiente a partir del 2019.

#### **3.1.3 - Boxplot de velocidad media por año**

In [26]:
data_by_year = []
for year in sorted(set(dataGlobal['anio'])):
    data_year = dataGlobal[dataGlobal['anio'] == year]['velocidadMediaDesc']
    data_by_year.append(data_year)

fig = px.box(pd.DataFrame(data_by_year), x=dataGlobal['anio'], y=dataGlobal['velocidadMediaDesc'], title='Velocidad Media por Año')

fig.update_xaxes(title='Año', type='category')
fig.update_yaxes(title='Velocidad Media')

fig.update_xaxes(autorange="reversed")

fig.show()

![figura3](src/figura3.jpg)

📝 En el gráfico podemos observar la distribución de velocidades de descarga por cada año, teniendo una mayor distribución a partir del 2019, se presume mayor creación de planes y servicios de internet.

## **3.2 - dataProvincia**

In [27]:
dataProvincia.head(3)

Unnamed: 0,anio,trimestre,provincia,region,bandaAnchaFija,dialUp,total_ba_du,accesx100hab,accesx100hog,adsl,cableModem,fibraOptica,wireless,otras_tecno,total_tec,velocidadMediaDesc,de0a9Mbps,de10a20Mbps,de21a49Mbps,de50a99Mbps,de100a199Mbps,de200a499Mbps,de500a10000Mbps,otros
0,2022,3,Buenos Aires,Provincia de Buenos Aires,4715469,6199,4721668,26.38,78.1,339648.0,2748325.0,1436433.0,126846.0,70416.0,4721668.0,70.19,430296.0,482672.0,849061.0,1466679.0,1210649.0,182661.0,33829.0,65821.0
1,2022,3,Ciudad De Buenos Aires,Provincia de Buenos Aires,1545534,2145,1547679,50.22,122.25,140791.0,1240125.0,129218.0,5758.0,31787.0,1547679.0,101.05,57292.0,103113.0,81909.0,489369.0,560701.0,129613.0,20205.0,105477.0
2,2022,3,Catamarca,Norte Grande Argentino,70292,1,70293,16.62,65.3,10010.0,10495.0,46224.0,1329.0,2235.0,70293.0,60.99,3564.0,10486.0,3737.0,31597.0,16458.0,2242.0,1.0,2208.0


#### **3.2.1 - Acceso a banda ancha y banda angosta (DialUp)**

In [28]:
df1 = dataProvincia[['anio','trimestre','provincia','region','bandaAnchaFija','dialUp','total_ba_du']]
df1.head(3)

Unnamed: 0,anio,trimestre,provincia,region,bandaAnchaFija,dialUp,total_ba_du
0,2022,3,Buenos Aires,Provincia de Buenos Aires,4715469,6199,4721668
1,2022,3,Ciudad De Buenos Aires,Provincia de Buenos Aires,1545534,2145,1547679
2,2022,3,Catamarca,Norte Grande Argentino,70292,1,70293


In [29]:
lista_regiones = ['Provincia de Buenos Aires', 'Norte Grande Argentino', 'Patagonia', 'Centro', 'Nuevo Cuyo']

fig = make_subplots(rows=1, cols=2, column_widths=[0.7, 0.3])

traces = []
for r in lista_regiones:
    df_region = df1[df1['trimestre'] == 3].reset_index()
    df_region = df_region.groupby(['region', 'anio'])[['bandaAnchaFija', 'dialUp']].sum().reset_index()
    df_region = df_region[df_region['region'] == r]
    df_region.sort_values(by='anio', inplace=True)

    anio = df_region['anio']
    bandaAnchaFija = df_region['bandaAnchaFija']
    dialUp = df_region['dialUp']

    trace_bandaAnchaFija = go.Scatter(x=anio, y=bandaAnchaFija, name='Banda Ancha Fija', legendgroup=r, showlegend=False)
    traces.append(trace_bandaAnchaFija)
    trace_dialUp = go.Scatter(x=anio, y=dialUp, name='Dial-Up', legendgroup=r, showlegend=False)
    traces.append(trace_dialUp)

    fig.add_trace(trace_bandaAnchaFija, row=1, col=1)
    fig.add_trace(trace_dialUp, row=1, col=1)

fig.update_traces(showlegend=True)  # Mostrar la leyenda

fig.update_layout(
    title='Cantidad de accesos Banda Ancha Fija y Dial-Up',
    xaxis=dict(title='Año', tickangle=90),
    yaxis=dict(title='Cantidad de accesos'),
    legend=dict(orientation='h', x=0, y=-0.2),
    showlegend=True
)

buttons = []
for r in lista_regiones:
    visible_indices = [i for i in range(len(traces)) if traces[i]['legendgroup'] == r]
    visible = [False] * len(traces)
    for i in visible_indices:
        visible[i] = True
    button = dict(
        label=r,
        method='update',
        args=[{'visible': visible}, {'title': f'Cantidad de accesos Banda Ancha Fija y Dial-Up en {r}'}]
    )
    buttons.append(button)

fig.update_layout(
    updatemenus=[dict(
        type='buttons',
        buttons=buttons,
        active=0,
        direction='down',
        x=1.1,
        y=0.5
    )]
)

fig.show()

![figura4](src/figura4.jpg)

📝 En todas las regiones se ve una tendencia a la alza de la banda ancha mientras que la banda angosta se mantiene o baja:
Áreas rurales: En algunas zonas rurales o remotas, puede ser difícil o costoso implementar infraestructuras de banda ancha. En tales casos, el acceso dial-up puede ser una opción más viable para tener conectividad básica a Internet.

Limitaciones económicas: En áreas donde el acceso asequible a Internet de banda ancha no está ampliamente disponible, algunas personas o empresas pueden optar por servicios dial-up debido a su menor costo en comparación con las opciones de banda ancha.

#### **3.2.2 - Acceso a banda ancha por cada 100 habitantes y por cada 100 hogares**

In [30]:
df2 = dataProvincia[['anio','trimestre','provincia','region','accesx100hab','accesx100hog']]
df2.head(3)

Unnamed: 0,anio,trimestre,provincia,region,accesx100hab,accesx100hog
0,2022,3,Buenos Aires,Provincia de Buenos Aires,26.38,78.1
1,2022,3,Ciudad De Buenos Aires,Provincia de Buenos Aires,50.22,122.25
2,2022,3,Catamarca,Norte Grande Argentino,16.62,65.3


In [31]:
lista_regiones = ['Provincia de Buenos Aires', 'Norte Grande Argentino', 'Patagonia', 'Centro', 'Nuevo Cuyo']

fig = make_subplots(rows=1, cols=2, column_widths=[0.7, 0.3])

traces = []
for r in lista_regiones:
    df_region = df2[df2['trimestre'] == 3].reset_index()
    df_region = df_region.groupby(['region', 'anio'])[['accesx100hab', 'accesx100hog']].sum().reset_index()
    df_region = df_region[df_region['region'] == r]
    df_region.sort_values(by='anio', inplace=True)

    anio = df_region['anio']
    accesx100hab = df_region['accesx100hab']
    accesx100hog = df_region['accesx100hog']

    trace_accesx100hab = go.Scatter(x=anio, y=accesx100hab, name='Acceso por cada 100 habitantes', legendgroup=r, showlegend=False)
    traces.append(trace_accesx100hab)
    trace_accesx100hog = go.Scatter(x=anio, y=accesx100hog, name='Acceso por cada 100 hogares', legendgroup=r, showlegend=False)
    traces.append(trace_accesx100hog)

    fig.add_trace(trace_accesx100hab, row=1, col=1)
    fig.add_trace(trace_accesx100hog, row=1, col=1)

fig.update_traces(showlegend=True)  # Mostrar la leyenda

fig.update_layout(
    title='Cantidad de accesos por cantidad de hogares y habitantes',
    xaxis=dict(title='Año', tickangle=90),
    yaxis=dict(title='Cantidad de accesos'),
    legend=dict(orientation='h', x=0, y=-0.2),
    showlegend=True
)

buttons = []
for r in lista_regiones:
    visible_indices = [i for i in range(len(traces)) if traces[i]['legendgroup'] == r]
    visible = [False] * len(traces)
    for i in visible_indices:
        visible[i] = True
    button = dict(
        label=r,
        method='update',
        args=[{'visible': visible}, {'title': f'Cantidad de accesos por cantidad de hogares y habitantes en {r}'}]
    )
    buttons.append(button)

fig.update_layout(
    updatemenus=[dict(
        type='buttons',
        buttons=buttons,
        active=0,
        direction='down',
        x=1.1,
        y=0.5
    )]
)

fig.show()

![figura5](src/figura5.jpg)

📝 En todas las regiones se ve una tendencia a la alza en ambas variables. 

#### **3.2.3 - Acceso a internet por tecnología**

In [32]:
df3 = dataProvincia[['anio','trimestre','provincia','region','adsl','cableModem','fibraOptica','wireless','otras_tecno','total_tec']]
df3.head(3)

Unnamed: 0,anio,trimestre,provincia,region,adsl,cableModem,fibraOptica,wireless,otras_tecno,total_tec
0,2022,3,Buenos Aires,Provincia de Buenos Aires,339648.0,2748325.0,1436433.0,126846.0,70416.0,4721668.0
1,2022,3,Ciudad De Buenos Aires,Provincia de Buenos Aires,140791.0,1240125.0,129218.0,5758.0,31787.0,1547679.0
2,2022,3,Catamarca,Norte Grande Argentino,10010.0,10495.0,46224.0,1329.0,2235.0,70293.0


In [33]:
lista_regiones = ['Provincia de Buenos Aires', 'Norte Grande Argentino', 'Patagonia', 'Centro', 'Nuevo Cuyo']

fig = make_subplots(rows=1, cols=2, column_widths=[0.7, 0.3])

traces = []
for r in lista_regiones:
    df_region = df3[df3['trimestre'] == 3].reset_index()
    df_region = df_region.groupby(['region', 'anio'])[['adsl', 'cableModem', 'fibraOptica', 'wireless', 'otras_tecno']].sum().reset_index()
    df_region = df_region[df_region['region'] == r]
    df_region.sort_values(by='anio', inplace=True)

    anio = df_region['anio']
    adsl = df_region['adsl']
    cableModem = df_region['cableModem']
    fibraOptica = df_region['fibraOptica']
    wireless = df_region['wireless']
    otras_tecno = df_region['otras_tecno']

    trace_adsl = go.Scatter(x=anio, y=adsl, name='adsl', legendgroup=r, visible=False)
    traces.append(trace_adsl)
    trace_cableModem = go.Scatter(x=anio, y=cableModem, name='cableModem', legendgroup=r, visible=False)
    traces.append(trace_cableModem)
    trace_fibraOptica = go.Scatter(x=anio, y=fibraOptica, name='fibraOptica', legendgroup=r, visible=False)
    traces.append(trace_fibraOptica)
    trace_wireless = go.Scatter(x=anio, y=wireless, name='wireless', legendgroup=r, visible=False)
    traces.append(trace_wireless)
    trace_otras_tecno = go.Scatter(x=anio, y=otras_tecno, name='otras_tecno', legendgroup=r, visible=False)
    traces.append(trace_otras_tecno)

    fig.add_trace(trace_adsl, row=1, col=1)
    fig.add_trace(trace_cableModem, row=1, col=1)
    fig.add_trace(trace_fibraOptica, row=1, col=1)
    fig.add_trace(trace_wireless, row=1, col=1)
    fig.add_trace(trace_otras_tecno, row=1, col=1)

fig.update_layout(
    title='Cantidad de accesos por tecnología',
    xaxis=dict(title='Año', tickangle=90),
    yaxis=dict(title='Cantidad de accesos'),
    legend=dict(orientation='h', x=0, y=-0.2),
    showlegend=True
)

buttons = []
for r in lista_regiones:
    visible_indices = [i for i in range(len(traces)) if traces[i]['legendgroup'] == r]
    visible = [False] * len(traces)
    for i in visible_indices:
        visible[i] = True
    button = dict(
        label=r,
        method='update',
        args=[{'visible': visible}, {'title': f'Cantidad de accesos por tecnología en {r}'}]
    )
    buttons.append(button)

fig.update_layout(
    updatemenus=[dict(
        type='buttons',
        buttons=buttons,
        active=0,
        direction='down',
        x=1.1,
        y=0.5
    )]
)

fig.show()

![figura6](src/figura6.jpg)

📝 En todas las regiones se ve una tendencia a la alza de tecnologías relacionadas a Fibra óptica y una disminución en conexiones como ADSL.

#### **3.2.4 - Velocidad media de descarga por región**

In [34]:
df4 = dataProvincia[['anio','trimestre','provincia','region','velocidadMediaDesc']]
df4.head(3)

Unnamed: 0,anio,trimestre,provincia,region,velocidadMediaDesc
0,2022,3,Buenos Aires,Provincia de Buenos Aires,70.19
1,2022,3,Ciudad De Buenos Aires,Provincia de Buenos Aires,101.05
2,2022,3,Catamarca,Norte Grande Argentino,60.99


In [35]:
lista_regiones = ['Provincia de Buenos Aires', 'Norte Grande Argentino', 'Patagonia', 'Centro', 'Nuevo Cuyo']

fig = make_subplots(rows=1, cols=1)

traces = []
for r in lista_regiones:
    df_region = df4[df4['trimestre'] == 3].reset_index()
    df_region = df_region.groupby(['region', 'anio'])[['velocidadMediaDesc']].mean().reset_index()
    df_region = df_region[df_region['region'] == r]
    df_region.sort_values(by='anio', inplace=True)

    anio = df_region['anio']
    velocidadMediaDesc = df_region['velocidadMediaDesc']

    trace = go.Scatter(x=anio, y=velocidadMediaDesc, name=r)
    traces.append(trace)

for trace in traces:
    fig.add_trace(trace)

fig.update_layout(
    title='Velocidad media de descarga por región',
    xaxis=dict(title='Año', tickangle=90),
    yaxis=dict(title='Velocidad Media de Descarga'),
    legend=dict(orientation='h', x=0, y=-0.2),
    showlegend=True
)

fig.show()

![figura7](src/figura7.jpg)

📝 En todas las regiones podemos observar como cada año la velocidad de descarga va aumentando.

#### **3.2.5 - Velocidad media de descarga por provincia**

In [36]:
lista_regiones = ['Provincia de Buenos Aires', 'Norte Grande Argentino', 'Patagonia', 'Centro', 'Nuevo Cuyo']
lista_anios = [2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022]

fig = go.Figure()

for anio in reversed(lista_anios):
    df_año = df4[df4['anio'] == anio].reset_index()
    df_año = df_año.groupby(['provincia', 'anio'])[['velocidadMediaDesc']].mean().reset_index()

    provincia = df_año['provincia']
    provincia = provincia.str.replace('Tierra Del Fuego - Antártida E Islas Del Atlántico Sur','Tierra del Fuego')
    velocidadMediaDesc = df_año['velocidadMediaDesc']

    fig.add_trace(go.Scatter(x=provincia, y=velocidadMediaDesc, name=f'Año {anio}', fill='tozeroy'))

fig.update_layout(
    title='Velocidad media de descarga por año',
    xaxis=dict(title='Provincias'),
    yaxis=dict(title='Mbps'),
    legend=dict(x=1, y=0.5),
    margin=dict(l=20, r=20, t=60, b=20),
    showlegend=True
)

fig.show()

![figura8](src/figura8.jpg)

📝 En todas las provincias podemos observar como cada año la velocidad de descarga va aumentando cada año, se puede notar que la brecha entre los años cada vez es un poco más grande. También se pueden observar cuales son las provincias con una velocidad de descarga más baja como: Chubut, La Pampa, San Juan, San Luis, Santa Cruz, Santiago del Estero y Tierra del Fuego.

## **3.3 - dataLocalidad**

In [37]:
dataLocalidad.head(3)

Unnamed: 0,provincia,region,localidad,de0a9Mbps,de10a20Mbps,de21a49Mbps,de50a99Mbps,de100a199Mbps,de200a499Mbps,de500a1024Mbps,otros,adsl,cableModem,dialUp,fibraOptica,otros_tec,satelital,wimax,wireless,totalTecnologia,latitud,longitud
0,Buenos Aires,Provincia de Buenos Aires,11 De Septiembre,32,30,11,518,549,67,14,1,34,1181,0,5,1,1,0,0,1222,-34.57,-58.62
1,Buenos Aires,Provincia de Buenos Aires,12 De Octubre,11,0,0,0,0,0,0,0,0,0,0,0,0,0,0,19,19,-35.61,-60.92
2,Buenos Aires,Provincia de Buenos Aires,20 De Junio,21,28,3,319,306,20,13,0,26,682,4,0,0,0,0,1,713,-34.79,-58.72


In [38]:
dataLocalidad.columns

Index(['provincia', 'region', 'localidad', 'de0a9Mbps', 'de10a20Mbps',
       'de21a49Mbps', 'de50a99Mbps', 'de100a199Mbps', 'de200a499Mbps',
       'de500a1024Mbps', 'otros', 'adsl', 'cableModem', 'dialUp',
       'fibraOptica', 'otros_tec', 'satelital', 'wimax', 'wireless',
       'totalTecnologia', 'latitud', 'longitud'],
      dtype='object')

#### **3.3.1 - Acceso a fibra optica por localidad**

In [39]:
import json
import plotly.graph_objects as go

df = dataLocalidad

with open('data/ProvinciasArgentina.geojson') as f:
    data_provincias = json.load(f)

fig = go.Figure()

# Agregar capa de las divisiones de provincias
fig.add_trace(go.Choroplethmapbox(geojson=data_provincias, featureidkey='properties.nombre'))

# Agregar capa de los marcadores de las localidades
fig.add_trace(go.Scattermapbox(
    lat=df['latitud'],
    lon=df['longitud'],
    mode='markers',
    marker=dict(
        size=5,
        color=df['fibraOptica'],
        colorscale="RdYlbu",
        cmin=36,
        cmax=114,
        opacity=0.8,
        colorbar=dict(title="fibraOptica")
    ),
    hovertemplate='<b>%{text}</b><br>fibraOptica: %{marker.color:.2f}<extra></extra>',
    text=df['localidad']
))

# Configurar diseño del mapa
fig.update_layout(
    mapbox=dict(
        style="open-street-map",
        center=dict(lat=-38.40, lon=-63.60),
        zoom=3
    ),
    margin=dict(r=0, t=0, l=0, b=0)
)

fig.show()

![figura9](src/figura9.jpg)

📝 En el gradiente cercano al color azul podemos ver las localidades en donde el acceso a fibraoptica es más alto. En color rojo vemos las localidades en donde está tecnología no es muy común. Por ejemplo en las localidades de Buenos Aires, Mendoza, Cordoba, Rosario y Neuquen vemos mayor acceso a esta tecnología.

#### **3.3.2 - Rangos de velocidad de descarga por localidad**

In [141]:
import json
import plotly.graph_objects as go
from ipywidgets import interact, Dropdown
from IPython.display import display

df = dataLocalidad

with open('data/ProvinciasArgentina.geojson') as f:
    data_provincias = json.load(f)

def update_graph(medida):
    fig = go.Figure()

    # Agregar capa de las divisiones de provincias
    fig.add_trace(go.Choroplethmapbox(geojson=data_provincias, featureidkey='properties.nombre'))

    # Filtrar los datos según la medida seleccionada
    filtered_df = df[['latitud', 'longitud', 'localidad', medida]].copy()

    # Agregar capa de los marcadores de las localidades
    fig.add_trace(go.Scattermapbox(
        lat=filtered_df['latitud'],
        lon=filtered_df['longitud'],
        mode='markers',
        marker=dict(
            size=5,
            color=filtered_df[medida],
            colorscale="Viridis",
            opacity=1,
            colorbar=dict(title=medida)
        ),
        hovertemplate='<b>%{text}</b><br>' + medida + ': %{marker.color:.2f}<extra></extra>',
        text=filtered_df['localidad']
    ))

    # Configurar diseño del mapa
    fig.update_layout(
        mapbox=dict(
            style="open-street-map",
            center=dict(lat=-38.40, lon=-63.60),
            zoom=3
        ),
        margin=dict(r=0, t=0, l=0, b=0)
    )

    fig.show()

# Crear el dropdown con las opciones de medida
medida_dropdown = Dropdown(options=['de0a9Mbps', 'de10a20Mbps', 'de21a49Mbps', 'de50a99Mbps', 'de100a199Mbps', 'de200a499Mbps', 'de500a1024Mbps', 'otros'])

# Definir la función que se ejecutará cuando se seleccione una medida
def on_dropdown_change(change):
    medida = change.new
    update_graph(medida)

# Vincular la función de cambio al dropdown
medida_dropdown.observe(on_dropdown_change, 'value')

# Mostrar el dropdown y el gráfico inicial
display(medida_dropdown)
update_graph('de500a1024Mbps')  # Medida inicial

Dropdown(options=('de0a9Mbps', 'de10a20Mbps', 'de21a49Mbps', 'de50a99Mbps', 'de100a199Mbps', 'de200a499Mbps', …

![figura10](src/figura10.jpg)