<span style="color: rgb(22,98,126); font-size: 24px;">**IMPORTAR PAQUETES**</span>

In [None]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt
import seaborn as sns
import datetime
import math

<span style="color: rgb(22,98,126); font-size: 24px;">**FUNCIONES DE AYUDA**</span>

In [None]:
def detectar_outliers(df, columna):
    """
    Función para detectar outliers en una columna de un DataFrame usando el método del rango intercuartílico (IQR).
    
    Parámetros:
    df (pd.DataFrame): DataFrame que contiene los datos.
    columna (str): El nombre de la columna en la que se buscan outliers.
    
    Retorna:
    outliers: una lista con los indices donde se encuentran los outliers
    """
    # Calcular Q1 (primer cuartil) y Q3 (tercer cuartil)
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    
    # Calcular el rango intercuartílico (IQR)
    IQR = Q3 - Q1
    
    # Definir los límites para detectar outliers
    limite_inf = Q1 - 1.5 * IQR
    limite_sup = Q3 + 1.5 * IQR
    
    # Identificar los outliers
    outliers = df[(df[columna] < limite_inf) | (df[columna] > limite_sup)].index.tolist()
    
    # Imprimir los resultados
    print(f"Los Outliers en la columna '{columna}' tiene los indices:\n", outliers)
    
    return outliers


<span style="color: rgb(22,98,126); font-size: 24px;">**CARGA DE DATOS**</span>

In [None]:
df_vel_media_provincia = pd.read_excel('./Datasets/Internet.xlsx', sheet_name = 'Velocidad % por prov')
df_tecnologia_provincia= pd.read_excel('./Datasets/Internet.xlsx', sheet_name = 'Accesos Por Tecnología')
df_penetracion_poblac = pd.read_excel('./Datasets/Internet.xlsx', sheet_name = 'Penetración-poblacion')
df_penetracion_hogar= pd.read_excel('./Datasets/Internet.xlsx', sheet_name = 'Penetracion-hogares')
df_Acceso_rango_provincia  = pd.read_excel('./Datasets/Internet.xlsx', sheet_name = 'Accesos por velocidad')
df_ingresos_total = pd.read_excel('./Datasets/Internet.xlsx', sheet_name = 'Ingresos ')

<span style="color: rgb(22,98,126); font-size: 24px;">**VISUALIZACION Y CREACION DEL DATASET**</span>

<span style="color:  	rgb(59,134,150); font-size: 18px;">**PENETRACION POR HOGAR Y PENETRACION POR HABITANTES**</span>

<span style="color:  	rgb(59,134,150); font-size: 14px;">**PENETRACION POR HOGAR**</span>

In [None]:

#Ver Forma y Caracteristicas de los datasets
print(df_penetracion_hogar.shape)
print(df_penetracion_hogar.info())

In [None]:
#Revisar si existen cvalores nulos dentro del datasets
df_penetracion_hogar.isnull().sum()

<span style="color: rgb(94,154,171); font-size: 16px;">**OUTLIERS**</span>

In [None]:
#GRAFICO DE BOXPLOT PARA DETACTAR OUTLIERS 
plt.figure(figsize=(12, 8))
sns.boxplot(x='Provincia', y='Accesos por cada 100 hogares', data=df_penetracion_hogar)

#Títulos y etiquetas
plt.title(f'Boxplot de Penetracion Hogares por Provincia', fontsize=16)
plt.xlabel('Provincia', fontsize=14)
plt.ylabel('Accesos por 100 Hogares', fontsize=14)
plt.xticks(rotation=90)
plt.show()

<span style="color: rgb(22,98,126); font-size: 14x;">**Se observa en las graficas la presencia de Outlier en la Provincia de Santa Cruz. Se utilizara la funcion para calcular outliers e identificarlos**</span>

In [None]:
outliers = detectar_outliers(df_penetracion_hogar[df_penetracion_hogar['Provincia'] == 'Santa Cruz'], 'Accesos por cada 100 hogares')

<span style="color:  	rgb(59,134,150); font-size: 14px;">**PENETRACION POR HABITANTE**</span>

In [None]:
#OBSERVAR TAMANO E INFORMACION DEL DATASET
print(df_penetracion_poblac.shape)
print(df_penetracion_poblac.info())

In [None]:
#DETECCION DE NULOS
df_penetracion_poblac.isnull().sum()

<span style="color: rgb(94,154,171); font-size: 16px;">**OUTLIERS**</span>

In [None]:
#GRAFICO DE BOXPLOT PARA OBSERVAR OUTLIERS

plt.figure(figsize=(12, 8))
sns.boxplot(x='Provincia', y='Accesos por cada 100 hab', data=df_penetracion_poblac)

#Títulos y etiquetas
plt.title(f'Boxplot de Penetracion Personas por Provincia', fontsize=16)
plt.xlabel('Provincia', fontsize=14)
plt.ylabel('Accesos por 100 Habitantes', fontsize=14)
plt.xticks(rotation=90)
plt.show()

<span style="color: rgb(22,98,126); font-size: 14x;">**Se observa en las graficas la presencia de Outlier en la Provincia de Santa Cruz Y Capital Federal. Se utilizara la funcion para calcular outliers e identificarlos**</span>

In [None]:
detectar_outliers(df_penetracion_poblac[df_penetracion_poblac['Provincia'] == 'Santa Cruz'], 'Accesos por cada 100 hab')
detectar_outliers(df_penetracion_poblac[df_penetracion_poblac['Provincia'] == 'Capital Federal'], 'Accesos por cada 100 hab')

In [None]:
## Combinar Columnas Año y Trimestre a columna Fecha tipo datetime
df_penetracion_poblac['Fecha'] = pd.to_datetime(df_penetracion_poblac['Año'].astype(str) + '-' + (df_penetracion_poblac['Trimestre']*3-2).astype(str) + '-1')
df_penetracion_poblac.drop(columns=['Año','Trimestre'], inplace=True)

df_penetracion_hogar['Fecha'] = pd.to_datetime(df_penetracion_hogar['Año'].astype(str) + '-' + (df_penetracion_hogar['Trimestre']*3-2).astype(str) + '-1')
df_penetracion_hogar.drop(columns=['Año','Trimestre'], inplace=True)

<span style="color:  	rgb(59,134,150); font-size: 18px;">**ACCESOS PROVINCIAS POR RANGOS**</span>

In [None]:
print(df_Acceso_rango_provincia.shape)
print(df_Acceso_rango_provincia.info())

In [None]:
### Combinar Columnas Año y Trimestre a columna Fecha tipo datetime
df_Acceso_rango_provincia['Fecha'] = pd.to_datetime(df_Acceso_rango_provincia['Año'].astype(str) + '-' + (df_Acceso_rango_provincia['Trimestre']*3-2).astype(str) + '-1')
df_Acceso_rango_provincia.drop(columns=['Año','Trimestre'], inplace=True)


In [None]:
df_Acceso_rango_provincia.isnull().sum()

In [None]:
# Se tratan los valores faltantes de la columna 'OTROS' con la media
indices_faltantes = df_Acceso_rango_provincia[df_Acceso_rango_provincia.isnull().any(axis=1)].index.tolist()
df_Acceso_rango_provincia.loc[indices_faltantes,'OTROS'] = round(df_Acceso_rango_provincia['OTROS'].fillna(df_Acceso_rango_provincia['OTROS'].mean()),2)

<span style="color: rgb(94,154,171); font-size: 16px;">**OUTLIERS**</span>


In [None]:
#SE REVISARAN LOS  OUTLIERS POR PROVINCIA

<span style="color: rgb(94,154,171); font-size: 13px;">**BUENOS AIRES**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Buenos Aires']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

In [None]:
# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
# Graficar boxplots individuales de las velocidades donde existen Outlies para ver que como corregir

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='HASTA 512 kbps', orient='h')
media = datos_2['HASTA 512 kbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('HASTA 512 kbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 6 Mbps - 10 Mbps', orient='h')
media = datos_2['+ 6 Mbps - 10 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 6 Mbps - 10 Mbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 10 Mbps - 20 Mbps', orient='h')
media = datos_2['+ 10 Mbps - 20 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 10 Mbps - 20 Mbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 20 Mbps - 30 Mbps', orient='h')
media = datos_2['+ 20 Mbps - 30 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 20 Mbps - 30 Mbps')
plt.show()


In [None]:
#Separar Data para tratarla segun velocidades
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 10 Mbps - 20 Mbps')
outlines_4 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')


In [None]:
# Corregir Outliers por la media o mediana, segun sea conveniente segun como se distribuyen los datos
indice = datos_2.index.difference(outlines_1)
df_Acceso_rango_provincia.loc[outlines_1,'HASTA 512 kbps'] = math.floor(datos_2.loc[indice, 'HASTA 512 kbps'].median())

indice = datos_2.index.difference(outlines_2)
df_Acceso_rango_provincia.loc[outlines_2,'+ 6 Mbps - 10 Mbps'] = math.floor(datos_2.loc[indice, '+ 6 Mbps - 10 Mbps'].mean())

indice = datos_2.index.difference(outlines_3)
df_Acceso_rango_provincia.loc[outlines_3,'+ 10 Mbps - 20 Mbps'] = math.floor(datos_2.loc[indice, '+ 10 Mbps - 20 Mbps'].median())

indice = datos_2.index.difference(outlines_4)
df_Acceso_rango_provincia.loc[outlines_4,'+ 20 Mbps - 30 Mbps'] = math.floor(datos_2.loc[indice, '+ 20 Mbps - 30 Mbps'].median())



<span style="color: rgb(94,154,171); font-size: 13px;">**CAPITAL FEDERAL**</span>

In [None]:
# Se realiza el procedimiento anterior en todas las provincias

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Capital Federal']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')
outlines_4 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_5 = detectar_outliers(datos_2, 'OTROS')


In [None]:
# Graficar boxplot para ver que como corregir los Otliers

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='HASTA 512 kbps', orient='h')
media = datos_2['HASTA 512 kbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('HASTA 512 kbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 512 Kbps - 1 Mbps', orient='h')
media = datos_2['+ 512 Kbps - 1 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 512 Kbps - 1 Mbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 6 Mbps - 10 Mbps', orient='h')
media = datos_2['+ 6 Mbps - 10 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 6 Mbps - 10 Mbps')
plt.show()



plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 20 Mbps - 30 Mbps', orient='h')
media = datos_2['+ 20 Mbps - 30 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 20 Mbps - 30 Mbps')
plt.show()


plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='OTROS', orient='h')
media = datos_2['OTROS'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('OTROS')
plt.show()

In [None]:
# Corregir Outliers por la media
indice = datos_2.index.difference(outlines_1)
df_Acceso_rango_provincia.loc[outlines_1,'HASTA 512 kbps'] = math.floor(datos_2.loc[indice, 'HASTA 512 kbps'].median())

indice = datos_2.index.difference(outlines_2)
df_Acceso_rango_provincia.loc[outlines_2,'+ 512 Kbps - 1 Mbps'] = math.floor(datos_2.loc[indice, '+ 512 Kbps - 1 Mbps'].mean())

indice = datos_2.index.difference(outlines_3)
df_Acceso_rango_provincia.loc[outlines_3,'+ 6 Mbps - 10 Mbps'] = math.floor(datos_2.loc[indice, '+ 6 Mbps - 10 Mbps'].median())

indice = datos_2.index.difference(outlines_4)
df_Acceso_rango_provincia.loc[outlines_4,'+ 20 Mbps - 30 Mbps'] = math.floor(datos_2.loc[indice, '+ 20 Mbps - 30 Mbps'].median())

indice = datos_2.index.difference(outlines_5)
df_Acceso_rango_provincia.loc[outlines_5,'OTROS'] = math.floor(datos_2.loc[indice, 'OTROS'].median())



<span style="color: rgb(94,154,171); font-size: 13px;">**CATAMARCA**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Catamarca']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_2 = detectar_outliers(datos_2, 'OTROS')

In [None]:
plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 20 Mbps - 30 Mbps', orient='h')
media = datos_2['+ 20 Mbps - 30 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 20 Mbps - 30 Mbps')
plt.show()


plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='OTROS', orient='h')
media = datos_2['OTROS'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('OTROS')
plt.show()

In [None]:
indice = datos_2.index.difference(outlines_1)
df_Acceso_rango_provincia.loc[outlines_1,'+ 20 Mbps - 30 Mbps'] = math.floor(datos_2.loc[indice, '+ 20 Mbps - 30 Mbps'].median())

indice = datos_2.index.difference(outlines_2)
df_Acceso_rango_provincia.loc[outlines_2,'OTROS'] = math.floor(datos_2.loc[indice, 'OTROS'].median())

<span style="color: rgb(94,154,171); font-size: 13px;">**CHACO**</span>


In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Chaco']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')

In [None]:
## No se Corregiran Outlier ya que al estar al comienzo y al final del periodo, tienen tendencia normal de subida y bajada

<span style="color: rgb(94,154,171); font-size: 13px;">**CHUBUT**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Chubut']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 30 Mbps')

In [None]:
# No se Corregiran Outlier ya que al estar al comienzo y al final del periodo, tienen tendencia normal de subida y bajada

<span style="color: rgb(94,154,171); font-size: 13px;">**CORDOBA**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Córdoba']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 10 Mbps - 20 Mbps')
outlines_4 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_5 = detectar_outliers(datos_2, 'OTROS')

In [None]:
plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='OTROS', orient='h')
media = datos_2['OTROS'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('OTROS')
plt.show()

In [None]:
#se corrige por la media
indice = datos_2.index.difference(outlines_5)
df_Acceso_rango_provincia.loc[outlines_5,'OTROS'] = math.floor(datos_2.loc[indice, 'OTROS'].median())

<span style="color: rgb(94,154,171); font-size: 13px;">**CORRIENTES**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Corrientes']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 30 Mbps')


In [None]:
## No se Corregiran Outlier ya que al estar al comienzo y al final del periodo, tienen tendencia normal de subida y bajada

<span style="color: rgb(94,154,171); font-size: 13px;">**ENTRE RIOS**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Entre Ríos']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()


In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')


In [None]:
plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='HASTA 512 kbps', orient='h')
media = datos_2['HASTA 512 kbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('OTROS')
plt.show()

In [None]:
# como los datos llevan una tendencia, se corregira el outlier con interpolacion
datos_2.loc[outlines_1,'HASTA 512 kbps'] = np.nan
df_Acceso_rango_provincia.loc[outlines_1,'HASTA 512 kbps'] = datos_2["HASTA 512 kbps"].interpolate()

datos_2.loc[415,'+ 512 Kbps - 1 Mbps'] = np.nan 
interpolate =  datos_2['+ 512 Kbps - 1 Mbps'].interpolate()
df_Acceso_rango_provincia.loc[415,'+ 512 Kbps - 1 Mbps'] = interpolate[415]

<span style="color: rgb(94,154,171); font-size: 13px;">**FORMOSA**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Formosa']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()


In [None]:

outlines_1 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_3 = detectar_outliers(datos_2, 'OTROS')


In [None]:

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 6 Mbps - 10 Mbps', orient='h')
media = datos_2['+ 6 Mbps - 10 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 6 Mbps - 10 Mbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 20 Mbps - 30 Mbps', orient='h')
media = datos_2['+ 20 Mbps - 30 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 20 Mbps - 30 Mbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='OTROS', orient='h')
media = datos_2['OTROS'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('OTROS')
plt.show()

In [None]:
indice = datos_2.index.difference(outlines_1)
df_Acceso_rango_provincia.loc[outlines_1,'+ 6 Mbps - 10 Mbps'] = math.floor(datos_2.loc[indice, '+ 6 Mbps - 10 Mbps'].median())

indice = datos_2.index.difference(outlines_3)
df_Acceso_rango_provincia.loc[outlines_3,'OTROS'] = math.floor(datos_2.loc[indice, 'OTROS'].median())

<span style="color: rgb(94,154,171); font-size: 13px;">**JUJUY**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Jujuy']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_5 = detectar_outliers(datos_2, 'OTROS')

In [None]:
indice = datos_2.index.difference(outlines_5)
df_Acceso_rango_provincia.loc[outlines_5,'OTROS'] = math.floor(datos_2.loc[indice, 'OTROS'].median())

<span style="color: rgb(94,154,171); font-size: 13px;">**LA PAMPA**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'La Pampa']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_4 = detectar_outliers(datos_2, '+ 30 Mbps')
outlines_5 = detectar_outliers(datos_2, 'OTROS')

In [None]:
indice = datos_2.index.difference(outlines_5)
df_Acceso_rango_provincia.loc[outlines_5,'OTROS'] = math.floor(datos_2.loc[indice, 'OTROS'].median())

<span style="color: rgb(94,154,171); font-size: 13px;">**LA RIOJA**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'La Rioja']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_5 = detectar_outliers(datos_2, 'OTROS')

In [None]:
indice = datos_2.index.difference(outlines_5)
df_Acceso_rango_provincia.loc[outlines_5,'OTROS'] = math.floor(datos_2.loc[indice, 'OTROS'].median())

<span style="color: rgb(94,154,171); font-size: 13px;">**MENDOZA**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Mendoza']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 1 Mbps - 6 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_4 = detectar_outliers(datos_2, '+ 30 Mbps')
outlines_5 = detectar_outliers(datos_2, 'OTROS')

In [None]:

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='HASTA 512 kbps', orient='h')
media = datos_2['HASTA 512 kbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('HASTA 512 kbps')
plt.show()



In [None]:
indice = datos_2.index.difference(outlines_1)
df_Acceso_rango_provincia.loc[outlines_1,'HASTA 512 kbps'] = math.floor(datos_2.loc[indice, 'HASTA 512 kbps'].median())


<span style="color: rgb(94,154,171); font-size: 13px;">**MISIONES**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Misiones']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 30 Mbps')

In [None]:
# No se Corregiran Outlier ya que al estar al comienzo y al final del periodo, tienen tendencia normal de subida y bajada

<span style="color: rgb(94,154,171); font-size: 13px;">**NEUQUEN**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Neuquén']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 10 Mbps - 20 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_5 = detectar_outliers(datos_2, 'OTROS')

<span style="color: rgb(94,154,171); font-size: 13px;">**RIO NEGRO**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Río Negro']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 1 Mbps - 6 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')
outlines_5 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')

<span style="color: rgb(94,154,171); font-size: 13px;">**SALTA**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Salta']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')

In [None]:
#Corregir Outlies con Interpolacion
datos_2.loc[outlines_1,'HASTA 512 kbps'] = np.nan
df_Acceso_rango_provincia.loc[outlines_1,'HASTA 512 kbps'] = datos_2["HASTA 512 kbps"].interpolate()

<span style="color: rgb(94,154,171); font-size: 13px;">**SAN JUAN**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'San Juan']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 1 Mbps - 6 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')
outlines_4 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_5 = detectar_outliers(datos_2, '+ 30 Mbps')
outlines_3 = detectar_outliers(datos_2, 'OTROS')

In [None]:
#Corregir Outlier
df_Acceso_rango_provincia.loc[outlines_1[-1],'HASTA 512 kbps'] = datos_2["HASTA 512 kbps"].mean()

<span style="color: rgb(94,154,171); font-size: 13px;">**SAN LUIS**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'San Luis']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 1 Mbps - 6 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 6 Mbps - 10 Mbps')
outlines_4 = detectar_outliers(datos_2, '+ 30 Mbps')

In [None]:
plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 1 Mbps - 6 Mbps', orient='h')
media = datos_2['+ 1 Mbps - 6 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 1 Mbps - 6 Mbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 6 Mbps - 10 Mbps', orient='h')
media = datos_2['+ 6 Mbps - 10 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 6 Mbps - 10 Mbps')
plt.show()




In [None]:
#Corregir Outlier
df_Acceso_rango_provincia.loc[outlines_2,'+ 1 Mbps - 6 Mbps'] = datos_2['+ 1 Mbps - 6 Mbps'].mean()
df_Acceso_rango_provincia.loc[outlines_3,'+ 6 Mbps - 10 Mbps'] = datos_2['+ 6 Mbps - 10 Mbps'].mean()

<span style="color: rgb(94,154,171); font-size: 13px;">**SANTA CRUZ**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Santa Cruz']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 1 Mbps - 6 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_4 = detectar_outliers(datos_2, '+ 30 Mbps')
outlines_5 = detectar_outliers(datos_2, 'OTROS')
outlines_6 = detectar_outliers(datos_2, 'Total')

<span style="color: rgb(94,154,171); font-size: 13px;">**SANTA FE**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Santa Fe']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 10 Mbps - 20 Mbps')

In [None]:
# No se Corregiran Outlier ya que al estar al comienzo y al final del periodo, tienen tendencia normal de subida y bajada

<span style="color: rgb(94,154,171); font-size: 13px;">**SANTIAGO DEL ESTERO**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Santiago Del Estero']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, 'HASTA 512 kbps')
outlines_2 = detectar_outliers(datos_2, '+ 1 Mbps - 6 Mbps')
outlines_3 = detectar_outliers(datos_2, '+ 10 Mbps - 20 Mbps')
outlines_4 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_5 = detectar_outliers(datos_2, '+ 30 Mbps')
outlines_4 = detectar_outliers(datos_2, 'OTROS')

In [None]:
plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 1 Mbps - 6 Mbps', orient='h')
media = datos_2['+ 1 Mbps - 6 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 1 Mbps - 6 Mbps')
plt.show()

plt.figure(figsize=(8, 1))
sns.boxplot(data=datos_2, x='+ 10 Mbps - 20 Mbps', orient='h')
media = datos_2['+ 10 Mbps - 20 Mbps'].mean()
plt.scatter(media, 0, color='red', label='Media', zorder=3, s=50, marker='o')
plt.xlabel("Cantidad Accesos", fontsize=12)
plt.title('+ 10 Mbps - 20 Mbps')
plt.show()





In [None]:
#Corregir Outlier
datos_2.loc[outlines_2,'+ 1 Mbps - 6 Mbps'] = np.nan
df_Acceso_rango_provincia.loc[outlines_2,'+ 1 Mbps - 6 Mbps'] = datos_2['+ 1 Mbps - 6 Mbps'].interpolate()

#Corregir Outlier
datos_2.loc[outlines_3,'+ 10 Mbps - 20 Mbps'] = np.nan
df_Acceso_rango_provincia.loc[outlines_3,'+ 10 Mbps - 20 Mbps'] = datos_2['+ 10 Mbps - 20 Mbps'].interpolate()

<span style="color: rgb(94,154,171); font-size: 13px;">**TIERRA DEL FUEGO**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Tierra Del Fuego']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 30 Mbps')

<span style="color: rgb(94,154,171); font-size: 13px;">**TUCUMAN**</span>

In [None]:
datos_2 =df_Acceso_rango_provincia[df_Acceso_rango_provincia['Provincia'] == 'Tucumán']
datos_2 = datos_2[['HASTA 512 kbps', '+ 512 Kbps - 1 Mbps','+ 1 Mbps - 6 Mbps', '+ 6 Mbps - 10 Mbps', '+ 10 Mbps - 20 Mbps', '+ 20 Mbps - 30 Mbps', '+ 30 Mbps', 'OTROS', 'Total']]

# Crear un DataFrame en formato largo para generar boxplots combinados

df_melted = datos_2.melt()

# Generar un solo gráfico con boxplots de todas las columnas
plt.figure(figsize=(12, 8))
sns.boxplot(x='variable', y='value', data=df_melted)

# Añadir títulos y etiquetas
plt.title("Boxplots de varias velocidades", fontsize=16)
plt.xlabel("Velocidades", fontsize=12)
plt.ylabel("Valor", fontsize=12)

# Mostrar el gráfico
plt.xticks(rotation=90)
plt.show()

In [None]:
outlines_1 = detectar_outliers(datos_2, '+ 512 Kbps - 1 Mbps')
outlines_2 = detectar_outliers(datos_2, '+ 20 Mbps - 30 Mbps')
outlines_3 = detectar_outliers(datos_2, 'OTROS')

In [None]:
df_vel_media_provincia

<span style="color:  	rgb(59,134,150); font-size: 18px;">**VELOCIDAD MEDIA POR PROVINCIA**</span>

In [None]:
print(df_vel_media_provincia.shape)
print(df_vel_media_provincia.info())

In [None]:
df_vel_media_provincia.isnull().sum()

In [None]:
## Combinar Columnas Año y Trimestre a columna Fecha tipo datetime
df_vel_media_provincia['Fecha'] = pd.to_datetime(df_vel_media_provincia['Año'].astype(str) + '-' + (df_vel_media_provincia['Trimestre']*3-2).astype(str) + '-1')
df_vel_media_provincia.drop(columns=['Año','Trimestre'], inplace=True)

In [None]:
#redondeo a dos cifras decimales de la velocidad media
df_vel_media_provincia.loc[:,'Mbps (Media de bajada)']= df_vel_media_provincia['Mbps (Media de bajada)'].round(2)

In [None]:
df_vel_media_provincia

In [None]:
#Reorganizar el dataframe con las provincias como columnas
df_pivot = df_vel_media_provincia.pivot(index='Fecha', columns='Provincia', values= 'Mbps (Media de bajada)')

In [None]:
#Dividir en dos grupos las provincias para graficar las tendencias de crecimiento y observar si hay valores atipicos 
provincias = df_pivot.columns
grupo1 = provincias[:len(provincias) // 2]
grupo2 = provincias[len(provincias) // 2:]

# Crear el primer gráfico
plt.figure(figsize=(10, 6))
for provincia in grupo1:
    plt.plot(df_pivot.index, df_pivot[provincia], marker='o', label=provincia)
plt.title("Velocidad por Provincia (Grupo 1)", fontsize=14)
plt.xlabel("Fecha", fontsize=12)
plt.ylabel("Velocidad", fontsize=12)
plt.legend(title="Provincias", loc="center left", bbox_to_anchor=(1, 0.5))
plt.grid(True, linestyle="--", alpha=0.6)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Crear el segundo gráfico
plt.figure(figsize=(10, 6))
for provincia in grupo2:
    plt.plot(df_pivot.index, df_pivot[provincia], marker='o', label=provincia)
plt.title("Velocidad por Provincia (Grupo 2)", fontsize=14)
plt.xlabel("Fecha", fontsize=12)
plt.ylabel("Velocidad", fontsize=12)
plt.legend(title="Provincias", loc="center left", bbox_to_anchor=(1, 0.5))
plt.grid(True, linestyle="--", alpha=0.6)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

<span style="color:  	rgb(59,134,150); font-size: 18px;">**TECNOLOGIAS POR PROVINCIA**</span>

In [None]:
print(df_tecnologia_provincia.shape)
print(df_tecnologia_provincia.info())

In [None]:
df_tecnologia_provincia.isnull().sum()

In [None]:
df_tecnologia_provincia


In [None]:
#Se eliminan las dos ultimas filas

df_tecnologia_provincia = df_tecnologia_provincia.drop(df_tecnologia_provincia.tail(2).index)

In [None]:
#se observa en el dataset valores con asteriscos

df_tecnologia_provincia['Año'] = df_tecnologia_provincia['Año'].replace({r'\*': ''}, regex=True)
df_tecnologia_provincia['Año'] = pd.to_numeric(df_tecnologia_provincia['Año'], errors='coerce')

df_tecnologia_provincia['Trimestre'] = df_tecnologia_provincia['Trimestre'].replace({r'\*': ''}, regex=True)
df_tecnologia_provincia['Trimestre'] = pd.to_numeric(df_tecnologia_provincia['Trimestre'], errors='coerce')

In [None]:
# Se convierte los valores a Numericos
df_tecnologia_provincia['Año'] = pd.to_numeric(df_tecnologia_provincia['Año'])
df_tecnologia_provincia['Trimestre'] = pd.to_numeric(df_tecnologia_provincia['Trimestre'])

In [None]:
#Combinar Columnas Año y Trimestre a columna Fecha tipo datetime
# Asegúrate de que las columnas sean enteros
df_tecnologia_provincia['Año'] = df_tecnologia_provincia['Año'].astype(int)
df_tecnologia_provincia['Trimestre'] = df_tecnologia_provincia['Trimestre'].astype(int)

df_tecnologia_provincia['Fecha'] = pd.to_datetime(df_tecnologia_provincia['Año'].astype(str) + '-' + (df_tecnologia_provincia['Trimestre'] * 3 - 2).astype(str) + '-1')

# Eliminar las columnas originales
df_tecnologia_provincia.drop(columns=['Año', 'Trimestre'], inplace=True)

In [None]:
df_tecnologia_provincia

<span style="color: rgb(94,154,171); font-size: 16px;">**OUTLIERS**</span>



In [None]:
#SE graficaran las tendencias de tecnologias para observar outliers visualmente. se separaran las provincoias en dos Grupos
tecnologias = ['ADSL', 'Cablemodem', 'Fibra óptica', 'Wireless', 'Otros', 'Total' ]
data = df_tecnologia_provincia
# Dividir las provincias en dos grupos
provincias = data['Provincia'].unique()
grupo_1 = provincias[:len(provincias)//2]  # Primera mitad
grupo_2 = provincias[len(provincias)//2:]  # Segunda mitad

# Función para graficar un grupo de provincias
def graficar_tendencias(tecnologia, grupo_provincias, grupo_num):
    plt.figure(figsize=(12, 6))
    for provincia in grupo_provincias:
        provincia_data = data[data['Provincia'] == provincia]
        plt.plot(provincia_data['Fecha'], provincia_data[tecnologia], label=provincia)
    
    plt.title(f"Tendencia de {tecnologia} - Grupo {grupo_num}")
    plt.xlabel("Fecha")
    plt.ylabel(f"Conexiones de {tecnologia}")
    plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')
    plt.grid(True)
    plt.tight_layout()
    plt.show()

# Graficar por tecnología y por grupo de provincias
for tecnologia in tecnologias:
    graficar_tendencias(tecnologia, grupo_1, 1)
    graficar_tendencias(tecnologia, grupo_2, 2)

<span style="color:  	rgb(59,134,150); font-size: 18px;">**INGRESOS TOTALES**</span>

In [None]:
#Ver Forma y Caracteristicas de los datasets
print(df_ingresos_total.shape)
print(df_ingresos_total.info())

In [None]:
## Combinar Columnas Año y Trimestre a columna Fecha tipo datetime
df_ingresos_total['Fecha'] = pd.to_datetime(df_ingresos_total['Año'].astype(str) + '-' + (df_ingresos_total['Trimestre']*3-2).astype(str) + '-1')
df_ingresos_total.drop(columns=['Año','Trimestre'], inplace=True)


In [None]:
# Redondear la columna 'Ingresos (miles de pesos)' a dos cifras decimales
df_ingresos_total['Ingresos (miles de pesos)'] = df_ingresos_total['Ingresos (miles de pesos)'].round(2)

In [None]:
plt.figure(figsize=(12, 6))
plt.plot(df_ingresos_total['Fecha'], df_ingresos_total['Ingresos (miles de pesos)'], marker='o', linestyle='-')
plt.title('Tendencia de los Ingresos (miles de pesos)', fontsize=14)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Ingresos (miles de pesos)', fontsize=12)
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()

# Mostrar el gráfico
plt.show()

In [None]:
#Se observa un registro erroneo en el año

# Corregir el año en la fila 4
df_ingresos_total.loc[4, 'Fecha'] = pd.to_datetime('2023-01-01')



In [None]:
plt.figure(figsize=(12, 6))
plt.plot(df_ingresos_total['Fecha'], df_ingresos_total['Ingresos (miles de pesos)'], marker='o', linestyle='-')
plt.title('Tendencia de los Ingresos (miles de pesos)', fontsize=14)
plt.xlabel('Fecha', fontsize=12)
plt.ylabel('Ingresos (miles de pesos)', fontsize=12)
plt.grid(True)
plt.xticks(rotation=45)
plt.tight_layout()

# Mostrar el gráfico
plt.show()

In [None]:
# Guardar los datasets


df_ingresos_total.to_csv('./Datasets/ingresos_total.csv', index=False)
df_vel_media_provincia.to_csv('./Datasets/vel_media_provincia.csv', index=False)
df_tecnologia_provincia.to_csv('./Datasets/tecnologia_provincia.csv', index=False)
df_penetracion_poblac.to_csv('./Datasets/penetracion_poblac.csv', index=False)
df_penetracion_hogar.to_csv('./Datasets/penetracion_hogar.csv', index=False)
df_Acceso_rango_provincia.to_csv('./Datasets/Acceso_rango_provincia.csv', index=False)
