# Exploratory Data Analysis (EDA)
En este notebook realizaremos un Análisis Exploratorio de Datos (EDA) sobre el sector de telecomunicaciones en Argentina. Los datos fueron obtenidos del ENACOM y contienen información sobre accesos a internet, tecnologías utilizadas, velocidad de conexión y penetración en la población y hogares. El objetivo es identificar patrones y comportamientos en el sector.

In [15]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


Comenzaremos con el EDA para realizar el analisis del area clave:   

1.1 Penetración del Servicio

Objetivo: Evaluar qué tan extendido está el servicio de internet en la población y en los hogares.
Hojas relevantes:
- Penetración-poblacion
- Penetracion-hogares
- Penetracion-totales

Preguntas clave:
¿Qué porcentaje de la población tiene acceso a internet en cada provincia?
¿Cómo varía la penetración de internet en los hogares según la región?
¿Cuáles son las tendencias en la penetración total a lo largo del tiempo?

Pasos:

Carga y Exploración Inicial
Cargar las hojas Penetración-poblacion, Penetracion-hogares y Penetracion-totales.
Inspeccionar las primeras filas, tipos de datos y verificar la presencia de valores faltantes o inconsistencias.

Análisis Exploratorio de cada hoja:

1.1.1 Penetración en la Población
Evaluar qué porcentaje de la población tiene acceso a internet por provincia.
Crear un gráfico de barras para visualizar la penetración por provincia.
Identificar provincias con mayor y menor acceso.

1.1.2 Penetración en los Hogares
Evaluar la penetración de internet en hogares por región.
Comparar regiones para identificar disparidades.
Crear un mapa o gráfico de barras agrupado por región.

1.1.3 Tendencias en la Penetración Total
Analizar cómo ha evolucionado la penetración de internet en el tiempo.
Crear una gráfica de líneas para visualizar las tendencias.

Carga de Datos y Exploración Inicial

In [14]:
# Carga de las hojas relevantes
penetracion_poblacion = pd.read_csv("Penetracion_poblacion_limpio.csv")
penetracion_hogares = pd.read_csv("Penetracion_hogares_limpio.csv")
penetracion_totales = pd.read_csv("Penetracion_totales_limpio.csv")

# Vista preliminar
print(penetracion_poblacion.head())
print(penetracion_hogares.head())
print(penetracion_totales.head())

# Información general y valores faltantes
print(penetracion_poblacion.info())
print(penetracion_hogares.info())
print(penetracion_totales.info())


    Año  Trimestre        Provincia  Accesos por cada 100 hab
0  2024          2     Buenos Aires                     27.43
1  2024          2  Capital Federal                     47.44
2  2024          2        Catamarca                     17.50
3  2024          2            Chaco                     11.78
4  2024          2           Chubut                     26.46
    Año  Trimestre        Provincia  Accesos por cada 100 hogares
0  2024          2     Buenos Aires                         79.84
1  2024          2  Capital Federal                        116.37
2  2024          2        Catamarca                         68.81
3  2024          2            Chaco                         44.06
4  2024          2           Chubut                         86.33
    Año  Trimestre  Accesos por cada 100 hogares  Accesos por cada 100 hab  \
0  2024          2                         78.13                     24.57   
1  2024          1                         78.89                     24.79  

In [11]:
# Verificar valores únicos en columnas clave
print(penetracion_poblacion['Provincia'].unique())
print(penetracion_totales['Periodo'].unique())

# Descripción estadística
print(penetracion_poblacion.describe())
print(penetracion_hogares.describe())
print(penetracion_totales.describe())

['Buenos Aires' 'Capital Federal' 'Catamarca' 'Chaco' 'Chubut' 'Córdoba'
 'Corrientes' 'Entre Ríos' 'Formosa' 'Jujuy' 'La Pampa' 'La Rioja'
 'Mendoza' 'Misiones' 'Neuquén' 'Río Negro' 'Salta' 'San Juan' 'San Luis'
 'Santa Cruz' 'Santa Fe' 'Santiago Del Estero' 'Tierra Del Fuego'
 'Tucumán']
['Abr-Jun 2024' 'Ene-Mar 2024' 'Oct-Dic 2023' 'Jul-Sept 2023'
 'Abr-Jun 2023' 'Ene-Mar 2023' 'Oct-Dic 2022' 'Jul-Sept 2022'
 'Abr-Jun 2022' 'Ene-Mar 2022' 'Oct-Dic 2021' 'Jul-Sept 2021'
 'Abr-Jun 2021' 'Ene-Mar 2021' 'Oct-Dic 2020' 'Jul-Sept 2020'
 'Abr-Jun 2020' 'Ene-Mar 2020' 'Oct-Dic 2019' 'Jul-Sept 2019'
 'Abr-Jun 2019' 'Ene-Mar 2019' 'Oct-Dic 2018' 'Jul-Sept 2018'
 'Abr-Jun 2018' 'Ene-Mar 2018' 'Oct-Dic 2017' 'Jul-Sept 2017'
 'Abr-Jun 2017' 'Ene-Mar 2017' 'Oct-Dic 2016' 'Jul-Sept 2016'
 'Abr-Jun 2016' 'Ene-Mar 2016' 'Oct-Dic 2015' 'Jul-Sept 2015'
 'Abr-Jun 2015' 'Ene-Mar 2015' 'Oct-Dic 2014' 'Jul-Sept 2014'
 'Abr-Jun 2014' 'Ene-Mar 2014']
               Año    Trimestre  Accesos por cada 100 ha

Análisis de Datos Presentados:
Provincias:
Las provincias incluidas en los datos son un conjunto representativo de Argentina, como Buenos Aires, Capital Federal, Córdoba, Santa Fe, entre otras, sumando un total de 24 provincias.

Periodos:
Los periodos están distribuidos de manera trimestral, abarcando desde el primer trimestre de 2014 hasta el segundo trimestre de 2024, lo que permite analizar una década de evolución en los accesos por cada 100 habitantes y por cada 100 hogares.

Estadísticas Generales:
Datos de Accesos por cada 100 habitantes:
Promedio: 15.73 accesos por cada 100 habitantes.
Desviación estándar: 9.24, indicando una dispersión significativa.
Rango:
Mínimo: 2.72 (probablemente en regiones con menor conectividad o al inicio de los periodos).
Máximo: 52.23 (en áreas más urbanizadas y en periodos recientes).
Datos de Accesos por cada 100 hogares:
Promedio: 52.79 accesos por cada 100 hogares.
Desviación estándar: 24.13, con un rango amplio.
Rango:
Mínimo: 9.51 (corresponde a periodos más antiguos o zonas rurales).
Máximo: 124.06 (en áreas urbanas con alta densidad de conectividad).
Estadísticas por Trimestre (42 observaciones):
Estos datos sintetizan la evolución por trimestres:

Accesos por cada 100 hogares:
Promedio: 63.20, mayor que el promedio general (refleja una tendencia al alza).
Mínimo: 49.54, con un crecimiento hasta 78.89 (en trimestres recientes).
Accesos por cada 100 habitantes:
Promedio: 19.57, más alto que el promedio general, lo que podría indicar una mejora consistente.
Rango: De 15.05 a 24.79, con una menor dispersión.
Observaciones:
Crecimiento Sostenido: Los datos muestran un incremento constante en la conectividad tanto por hogar como por habitante.
Brechas Geográficas: Las estadísticas sugieren variaciones significativas entre provincias urbanas y rurales.
Tendencias: Es necesario explorar visualizaciones para identificar patrones anuales o trimestrales.

TODAVIA MO EJECUTE: ESTOY AQUIIII

2. Análisis: Penetración de Internet en la Población por Provincia

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Filtrar columnas clave
penetracion_poblacion_filtered = penetracion_poblacion[["Provincia", "Accesos por cada 100 hab"]]

# Ordenar para visualización
penetracion_poblacion_sorted = penetracion_poblacion_filtered.sort_values(by="Accesos por cada 100 hab", ascending=False)

# Gráfico de barras
plt.figure(figsize=(12, 6))
sns.barplot(data=penetracion_poblacion_sorted, x="Provincia", y="Accesos por cada 100 hab", palette="viridis")
plt.xticks(rotation=90)
plt.title("Accesos por cada 100 habitantes en las provincias", fontsize=16)
plt.ylabel("Accesos por cada 100 habitantes")
plt.xlabel("Provincia")
plt.tight_layout()
plt.show()


Conclusiones esperadas
Provincias con mayor y menor penetración.
Detectar si existe una brecha significativa entre regiones.

3. Análisis: Penetración de Internet en los Hogares por Región

In [None]:
# Ordenar para visualización
penetracion_hogares_sorted = penetracion_hogares.sort_values(by="Accesos por cada 100 hogares", ascending=False)

# Gráfico de barras
plt.figure(figsize=(10, 6))
sns.barplot(data=penetracion_hogares_sorted, x="Provincia", y="Accesos por cada 100 hogares", palette="cubehelix")
plt.xticks(rotation=90)
plt.title("Accesos por cada 100 hogares en las provincias", fontsize=16)
plt.ylabel("Accesos por cada 100 hogares")
plt.xlabel("Provincia")
plt.tight_layout()
plt.show()


Conclusiones esperadas
Provincias con mayor acceso por hogar.
Comparativa con el análisis de la población.

4. Tendencias de Penetración Total a lo Largo del Tiempo

In [None]:
# Gráfico de línea para tendencias
plt.figure(figsize=(12, 6))
sns.lineplot(data=penetracion_totales, x="Periodo", y="Accesos por cada 100 hogares", marker="o", label="Hogares", color="blue")
sns.lineplot(data=penetracion_totales, x="Periodo", y="Accesos por cada 100 hab", marker="o", label="Habitantes", color="green")
plt.title("Tendencias de Accesos por cada 100 hogares y habitantes", fontsize=16)
plt.ylabel("Accesos por cada 100")
plt.xlabel("Periodo")
plt.xticks(rotation=45)
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()


Conclusiones esperadas
Identificación de tendencias a largo plazo.
Comparación entre hogares y población.

5. Verificación de Valores Faltantes y Registros Duplicados

In [None]:
# Verificar valores faltantes
print(penetracion_poblacion.isnull().sum())
print(penetracion_hogares.isnull().sum())
print(penetracion_totales.isnull().sum())

# Verificar registros duplicados
print(penetracion_poblacion.duplicated().sum())
print(penetracion_hogares.duplicated().sum())
print(penetracion_totales.duplicated().sum())


Conclusiones esperadas
Confirmar si es necesario realizar imputaciones o limpiezas.
Identificar y eliminar duplicados si los hay.

Entrega Final
El notebook incluirá celdas Markdown con explicaciones claras para cada paso, resúmenes de los análisis y gráficos generados. Esto garantizará un entregable prolijo y útil para la toma de decisiones.