In [2]:
import pandas as pd
import streamlit as st
import matplotlib.pyplot as plt
import seaborn as sns

***EDA en los DataFrames Seleccionados***

In [3]:
df_accesos= pd.read_excel('Internet.xlsx', sheet_name='Accesos por velocidad')
penetracion_hogares = pd.read_excel('Internet.xlsx', sheet_name='Penetracion-hogares')
totales_vmd = pd.read_excel('Internet.xlsx', sheet_name='Totales VMD')

***ACCESO POR VELOCIDAD***


 Accesos por velocidad:

* Verificar las columnas disponibles y su contenido.
* Asegurarse de que las provincias estén bien representadas.
* Comprobar si hay valores nulos o inconsistentes en los datos de accesos.

In [None]:
df_accesos

In [5]:
# Mostrar las primeras filas y la estructura del DataFrame
print(df_accesos.head())
print(df_accesos.info())

# Verificar si hay valores nulos
print(df_accesos.isnull().sum())

    Año  Trimestre        Provincia  HASTA 512 kbps  + 512 Kbps - 1 Mbps  \
0  2024          1     Buenos Aires         26002.0              22510.0   
1  2024          1  Capital Federal           516.0               5418.0   
2  2024          1        Catamarca            71.0                176.0   
3  2024          1            Chaco           236.0                416.0   
4  2024          1           Chubut           111.0               1083.0   

   + 1 Mbps - 6 Mbps  + 6 Mbps - 10 Mbps  + 10 Mbps - 20 Mbps  \
0           221185.0            233225.0             241778.0   
1            29753.0             51415.0              37369.0   
2             2872.0              3424.0               4204.0   
3            14156.0              9044.0               5533.0   
4            43828.0             31885.0              23024.0   

   + 20 Mbps - 30 Mbps  + 30 Mbps     OTROS      Total  
0             106418.0  4068292.0  125147.0  5044557.0  
1               5957.0  1374283.0     

*Conclusiones preliminares*

* Columnas disponibles y contenido: El DataFrame tiene una estructura adecuada para analizar los accesos por velocidad, con columnas claramente definidas para cada categoría de velocidad.

* Representación de provincias: Es importante confirmar que todas las provincias están bien representadas. Esto se puede verificar contando las ocurrencias de cada provincia.

* Valores nulos: Hay algunos valores nulos en la columna OTROS, pero esto se puede manejar fácilmente rellenándolos con 0, ya que representan una pequeña fracción del total.



In [4]:
# manejo de nulos
df_accesos['OTROS'].fillna(0, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_accesos['OTROS'].fillna(0, inplace=True)


In [5]:
# Verificar si hay filas duplicadas
duplicated_rows = df_accesos.duplicated()
print(f"Número de filas duplicadas: {duplicated_rows.sum()}")

# Eliminar filas duplicadas
df_accesos = df_accesos.drop_duplicates()


Número de filas duplicadas: 0


In [6]:
# Estandarizar nombres de columnas
df_accesos.columns = [
    'año', 'trimestre', 'provincia', 'hasta_512_kbps', 'entre_512kbps_y_1mbps', 
    'entre_1mbps_y_6mbps', 'entre_6mbps_y_10mbps', 'entre_10mbps_y_20mbps', 
    'entre_20mbps_y_30mbps', 'mas_de_30mbps', 'otros', 'total'
]

# Verificar los nombres de las columnas
print(df_accesos.columns)

Index(['año', 'trimestre', 'provincia', 'hasta_512_kbps',
       'entre_512kbps_y_1mbps', 'entre_1mbps_y_6mbps', 'entre_6mbps_y_10mbps',
       'entre_10mbps_y_20mbps', 'entre_20mbps_y_30mbps', 'mas_de_30mbps',
       'otros', 'total'],
      dtype='object')


*Cálculo del KPI Propuesto*

*KPI Propuesto:* Aumento del 2% en el acceso a internet cada 100 hogares por provincia

In [7]:
# Calcular el acceso actual por provincia (suponiendo que 'total' representa el acceso actual)
df_accesos['Accesos_Actuales'] = df_accesos['total']

# Proyección del nuevo acceso (simulando un aumento del 2%)
df_accesos['Nuevo_Acceso'] = df_accesos['Accesos_Actuales'] * 1.02

# Calcular el KPI
df_accesos['KPI'] = ((df_accesos['Nuevo_Acceso'] - df_accesos['Accesos_Actuales']) / df_accesos['Accesos_Actuales']) * 100

# Ver resultados
print(df_accesos[['provincia', 'Accesos_Actuales', 'Nuevo_Acceso', 'KPI']])

               provincia  Accesos_Actuales  Nuevo_Acceso  KPI
0           Buenos Aires         5044557.0    5145448.14  2.0
1        Capital Federal         1504711.0    1534805.22  2.0
2              Catamarca           74933.0      76431.66  2.0
3                  Chaco          155543.0     158653.86  2.0
4                 Chubut          170676.0     174089.52  2.0
..                   ...               ...           ...  ...
979           Santa Cruz           26760.0      27295.20  2.0
980             Santa Fe          506013.0     516133.26  2.0
981  Santiago Del Estero           37113.0      37855.26  2.0
982     Tierra Del Fuego           31527.0      32157.54  2.0
983              Tucumán          130032.0     132632.64  2.0

[984 rows x 4 columns]


**conclusiones de los Resultados**

* Incremento Uniforme del 2%: El análisis muestra que todas las provincias tienen un incremento uniforme del 2% en el acceso a internet, cumpliendo con el KPI propuesto. Esto refleja un aumento positivo en cada provincia, aunque el impacto absoluto varía según el número de accesos actuales.

* Provincias con Mayor Impacto Absoluto: Las provincias con mayores números absolutos de nuevos accesos son Buenos Aires, Capital Federal, y Santa Fe. Esto se debe a su mayor base de accesos actuales, lo que implica que cualquier incremento porcentual resulta en un mayor número absoluto de nuevos accesos.

* Provincias con Menor Impacto Absoluto: Las provincias como Catamarca, Santiago Del Estero y Tierra Del Fuego tienen menores incrementos absolutos debido a su base de accesos actuales más baja, aunque el incremento porcentual es el mismo.

**Implementación**

Para implementar estas propuestas, se pueden seguir los siguientes pasos:

*Evaluación Inicial:*

* Realizar un diagnóstico detallado de la infraestructura actual y la penetración del acceso a internet en cada provincia.
Identificar áreas prioritarias para la expansión y mejora de servicios.
Planificación y Presupuesto:

* Desarrollar un plan de acción detallado que incluya un cronograma y un presupuesto para cada iniciativa.
Asignar recursos y definir responsabilidades para la ejecución de cada componente del plan.

*Ejecución y Monitoreo:*

* Implementar las acciones planificadas, asegurando la coordinación entre las diferentes partes involucradas.

* Monitorear el progreso y los resultados de manera continua, ajustando las estrategias según sea necesario.

*Informe y Comunicación:*

* Informar a todas las partes interesadas sobre el progreso y los resultados alcanzados.

* Mantener una comunicación abierta y transparente con la población sobre las mejoras y las oportunidades de acceso a internet.

***Gráfico de Barras del Número de Accesos Actuales y Proyectados por Provincia***

In [10]:
# 1. Gráfico de Barras
plt.figure(figsize=(14, 8))
sns.barplot(x='provincia', y='Accesos_Actuales', data=df_accesos, color='blue', label='Accesos Actuales')
sns.barplot(x='provincia', y='Nuevo_Acceso', data=df_accesos, color='orange', alpha=0.6, label='Accesos Proyectados')
plt.xlabel('Provincia')
plt.ylabel('Número de Accesos')
plt.title('Accesos Actuales y Proyectados por Provincia')
plt.xticks(rotation=90)
plt.legend()
plt.savefig('accesos_actuales_proyectados.png')  # Guardar el gráfico como un archivo de imagen
plt.close()  # Cerrar la figura

***Mapa de Calor del Aumento Porcentual de Accesos por Provincia***

In [11]:
# 2. Mapa de Calor
plt.figure(figsize=(14, 8))
heatmap_data = df_accesos.pivot_table(index='provincia', values='KPI')
sns.heatmap(heatmap_data, annot=True, cmap='YlGnBu', cbar_kws={'label': 'Porcentaje de Aumento (%)'})
plt.xlabel('KPI')
plt.ylabel('Provincia')
plt.title('Mapa de Calor del Aumento Porcentual de Accesos por Provincia')
plt.savefig('mapa_calor_aumento_accesos.png')  # Guardar el gráfico como un archivo de imagen
plt.close()  # Cerrar la figura


***Gráfico de Dispersión Mostrando la Relación entre los Accesos Actuales y el Incremento Absoluto Proyectado***

In [16]:
# 3. Gráfico de Dispersión
plt.figure(figsize=(14, 8))
sns.scatterplot(data=df_accesos,x='Accesos_Actuales', y='Incremento_Absoluto', hue='provincia', palette='tab10', s=100)
plt.xlabel('Accesos Actuales')
plt.ylabel('Incremento Absoluto Proyectado')
plt.title('Relación entre los Accesos Actuales y el Incremento Absoluto Proyectado')
plt.savefig('dispersión_accesos_incremento.png')  # Guardar el gráfico como un archivo de imagen
plt.close()  # Cerrar la figura

***PENETRACION HOGARES***

***TOTALES VMD***
