# Análisis Exploratorio de Datos

In [1]:
# Importación de librerías
import pandas as  pd
from pandas_profiling import ProfileReport

Tenemos una serie de datasets con información relacionada a las telecomunicaciones en Argentina, principalmente en lo referente al acceso a internet.

Los datasets originales se encuentran en formato 'csv'.  Al darle una mirada general podemos ver que los datasets se podrían dividir en tres grandes categorías: de nivel nacional, de nivel provincial, y a nivel localidades.

Nuestro trabajo primeramente consistirá en hacer un EDA teniendo en cuenta esta división, aunque tomaremos únicamente los datasets de nivel nacional y provincial para no extender mucho este trabajo. 

#### Datasets de nivel Nacional

In [2]:
# Ingestamos los datasets
nac1 = pd.read_csv('Datasets_Originales/Internet_Penetracion.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
nac2 = pd.read_csv('Datasets_Originales/historico_velocidad_internet.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
nac3 = pd.read_csv('Datasets_Originales/Internet_Accesos-por-tecnologia.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
nac4 = pd.read_csv('Datasets_Originales/Internet_Accesos-por-velocidad.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
nac5 = pd.read_csv('Datasets_Originales/Internet_BAF.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
nac6 = pd.read_csv('Datasets_Originales/Internet_Ingresos.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")

In [3]:
# Le damos una primera mirada a las tablas
nac1.head(15)
# nac2.head(15)
# nac3.head(15)
# nac4.head(15)
# nac5.head(15)
# nac6.head(15)


Unnamed: 0,Año,Trimestre,Accesos por cada 100 hogares,Accesos por cada 100 hab,Periodo
0,2022,1,73.88,23.05,Ene-Mar 2022
1,2021,4,73.18,22.81,Oct-Dic 2021
2,2021,3,70.58,21.98,Jul-Sept 2021
3,2021,2,69.24,21.55,Abr-Jun 2021
4,2021,1,67.95,21.13,Ene-Mar 2021
5,2020,4,67.62,21.01,Oct-Dic 2020
6,2020,3,66.31,20.59,Jul-Sept 2020
7,2020,2,64.21,19.92,Abr-Jun 2020
8,2020,1,62.86,19.48,Ene-Mar 2020
9,2019,4,62.92,19.49,Oct-Dic 2019


De nuestro primer contacto con los datasets podemos decir:
- En nac1 tenemos la columna 'Periodo' que está de más, ya que se puede inferir esto de las columnas 'Año' y 'Trimestre'
- En nac2 pasa lo mismo con la columna 'Trimestre.1'
- En nac3 pasa lo mismo con la columna 'Periodo'
- En nac4 tenemos una columna vacía
- En nac5 mismo caso que en nac1
- En nac6 idem al anterior

In [4]:
# Procedemos a eliminar las columnas indeseadas de los dataframes
nac1.drop('Periodo', inplace=True, axis=1)
nac2.drop('Trimestre.1', inplace=True, axis=1)
nac3.drop('Periodo', inplace=True, axis=1)
nac4.dropna(how='all', inplace=True, axis=1)
nac5.drop('Periodo', inplace=True, axis=1)
nac6.drop('Periodo', inplace=True, axis=1)

In [5]:
# Analizamos nombres de columnas, cantidades y tipos de datos
nac1.info()
# nac2.info()
# nac3.info()
# nac4.info()
# nac5.info()
# nac6.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33 entries, 0 to 32
Data columns (total 4 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           33 non-null     int64  
 1   Trimestre                     33 non-null     int64  
 2   Accesos por cada 100 hogares  33 non-null     float64
 3   Accesos por cada 100 hab      33 non-null     float64
dtypes: float64(2), int64(2)
memory usage: 1.2 KB


Para cada tabla encontramos que:
- El dataframe nac1 no requiere modificaciones en este punto
- El dataframe nac2 no requiere modificaciones en este punto
- El dataframe nac3 no requiere modificaciones en este punto
- El dataframe nac4 no requiere modificaciones en este punto
- El dataframe nac5 no requiere modificaciones en este punto
- El dataframe nac6 no requiere modificaciones en este punto

Adicionalmente vemos que cuentan con la misma cantidad de registros (33).

In [6]:
# Buscamos saber la cantidad de valores únicos, o si se repiten valores que a simple vista parezcan incoherentes.
nac1.nunique()
# nac2.nunique()
# nac3.nunique()
# nac4.nunique()
# nac5.nunique()
# nac6.nunique()

Año                              9
Trimestre                        4
Accesos por cada 100 hogares    33
Accesos por cada 100 hab        33
dtype: int64

Luego de este paso podemos observar que los dataframes parecen no presentar inconsistencias.

Por lo que hemos visto hasta ahora, los datos están completos y no requieren mayor procesamiento. Adicionalmente observamos que para cada dataframe tenemos la misma cantidad de años y trimestres, columnas que se repiten para todos ellos. Esto nos servirá en pasos posteriores para poder relacionar las tablas dentro de Power BI y hacer un dashboard para visualizar la información.

Adicionalmente, a forma de complemento, utilizaremos la libreria 'Pandas Profiling', que nos resume parte de lo que ya hemos expuesto y suma otros tipos de análisis. Esta libreria nos permite hacer un EDA rápido y bastante completo, al menos para casos como este.

In [7]:
reporte_nac1 = ProfileReport(nac1, title="Report")
# reporte_nac2 = ProfileReport(nac2, title="Report")
# reporte_nac3 = ProfileReport(nac3, title="Report")
# reporte_nac4 = ProfileReport(nac4, title="Report")
# reporte_nac5 = ProfileReport(nac5, title="Report")
# reporte_nac6 = ProfileReport(nac6, title="Report")

In [8]:
reporte_nac1

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



La información generada por el reporte no excede demasiado a lo que ya sabíamos pero nos confirma que estos dataframes ya están listo para ser exportados.

In [9]:
# Exportamos los dataframes a archivos csv para tenerlos disponibles para utilizar con otra herramienta
nac1.to_csv('Datasets_Procesados/internet_nac_penetracion.csv', index=False)
nac2.to_csv('Datasets_Procesados/internet_nac_historico_velocidad.csv', index=False)
nac3.to_csv('Datasets_Procesados/internet_nac_accesos_tecnologia.csv', index=False)
nac4.to_csv('Datasets_Procesados/internet_nac_accesos_velocidad.csv', index=False)
nac5.to_csv('Datasets_Procesados/internet_nac_baf.csv', index=False)
nac6.to_csv('Datasets_Procesados/internet_nac_ingresos.csv', index=False)

#### Datasets de nivel Provincial

In [10]:
# Ingestamos los datasets
prov1 = pd.read_csv('Datasets_Originales/Internet_Penetracion_por_provincia.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
prov2 = pd.read_csv('Datasets_Originales/historico_velocidad_internet_por_provincia.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
prov3 = pd.read_csv('Datasets_Originales/Internet_Accesos-por-tecnologia_por_provincia.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
prov4 = pd.read_csv('Datasets_Originales/Internet_Accesos-por-velocidad_por_provincia.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
prov5 = pd.read_csv('Datasets_Originales/Internet_BAF_por_provincia.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")

In [11]:
# Le damos una primera mirada a las tablas
prov1.head(15)
# prov2.head(15)
# prov3.head(15)
# prov4.head(15)
# prov5.head(15)

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2022,1,Buenos Aires,76.08
1,2022,1,Capital Federal,111.8
2,2022,1,Catamarca,58.21
3,2022,1,Chaco,44.06
4,2022,1,Chubut,88.05
5,2022,1,Córdoba,85.76
6,2022,1,Corrientes,47.64
7,2022,1,Entre Ríos,63.7
8,2022,1,Formosa,34.96
9,2022,1,Jujuy,58.06


In [12]:
# Analizamos nombres de columnas, cantidades y tipos de datos
prov1.info()
# prov2.info()
# prov3.info()
# prov4.info()
# prov5.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 4 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Año                           792 non-null    int64  
 1   Trimestre                     792 non-null    int64  
 2   Provincia                     792 non-null    object 
 3   Accesos por cada 100 hogares  792 non-null    float64
dtypes: float64(1), int64(2), object(1)
memory usage: 24.9+ KB


In [13]:
# Buscamos saber la cantidad de valores únicos, o si se repiten valores que a simple vista parezcan incoherentes.
prov1.nunique()
# prov2.nunique()
# prov3.nunique()
# prov4.nunique()
# prov5.nunique()

Año                               9
Trimestre                         4
Provincia                        24
Accesos por cada 100 hogares    733
dtype: int64

In [14]:
reporte_prov1 = ProfileReport(prov1, title="Report")
# reporte_prov2 = ProfileReport(prov2, title="Report")
# reporte_prov3 = ProfileReport(prov3, title="Report")
# reporte_prov4 = ProfileReport(prov4, title="Report")
# reporte_prov5 = ProfileReport(prov5, title="Report")

In [15]:
reporte_prov1

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [16]:
# Exportamos los archivos resultantes
prov1.to_csv('Datasets_Procesados/internet_prov_penetracion.csv', index=False)
prov2.to_csv('Datasets_Procesados/internet_prov_historico_velocidad.csv', index=False)
prov3.to_csv('Datasets_Procesados/internet_prov_acceso_tecnologia.csv', index=False)
prov4.to_csv('Datasets_Procesados/internet_prov_acceso_velocidad.csv', index=False)
prov5.to_csv('Datasets_Procesados/internet_prov_baf.csv', index=False)

#### Datasets de telefonía fija y móvil
Ahora incluiremos algunos datasets relacionados a la telefonía fija y móvil dentro de Argentina. La idea es poder cruzar información con los datasets relacionados a internet y de ahí poder hacer un análisis más profundo de la telecomunicaciones en el país.

In [53]:
# Ingestamos los datasets
fija1 = pd.read_csv('Datasets_Originales/telefonia_fija_Acceso_por_provincia.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
fija2 = pd.read_csv('Datasets_Originales/telefonia_fija_Ingresos.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
fija3 = pd.read_csv('Datasets_Originales/telefonia_fija_Penetracion_por_provincia.csv', delimiter=',', decimal=".")
fija4 = pd.read_csv('Datasets_Originales/telefonia_fija_penetracion.csv', delimiter=',', decimal=",")
movil1 = pd.read_csv('Datasets_Originales/Telefonia_movil_Acceso.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
movil2 = pd.read_csv('Datasets_Originales/Telefonia_movil_Penetracion.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")
tv1 = pd.read_csv('Datasets_Originales\Television_penetracion_por_provincia.csv', delimiter=',', quotechar='"', decimal=",", thousands=".")


In [34]:
# Le damos una primera mirada a las tablas
fija1.head(15)
# fija2.head(15)
# fija3.head(15)
# fija4.head(15)
# movil1.head(15)
# movil2.head(15)
# tv1.head(15)

Unnamed: 0,Año,Trimestre,Accesos telefonía fija por cada 100 hab,Accesos telefonía fija por cada 100 hogares
0,2022,2,16.84,54.27
1,2022,1,16.96,54.71
2,2021,4,16.74,53.88
3,2021,3,15.41,49.64
4,2021,2,15.62,50.35
5,2021,1,15.92,51.36
6,2020,4,16.16,52.03
7,2020,3,16.35,52.68
8,2020,2,16.46,53.06
9,2020,1,16.7,53.89


In [54]:
# Para fija1 nos quedaremos solo con los valores totales:
fija1.drop(fija1.iloc[:, 4:],axis = 1, inplace=True)

# Para movil1 nos quedaremos solo con los valores totales y también eliminaremos el Periodo
movil1.drop(movil1.columns[[2, 3, 5]],axis = 1, inplace=True)

# Para movil2 también eliminaremos Periodo
movil2.drop('Periodo', axis=1, inplace=True)

In [36]:
# Analizamos nombres de columnas, cantidades y tipos de datos
fija1.info()
# fija2.info()
# fija3.info()
# fija4.info()
# movil1.info()
# movil2.info()
# tv1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 792 entries, 0 to 791
Data columns (total 8 columns):
 #   Column                              Non-Null Count  Dtype 
---  ------                              --------------  ----- 
 0   Año                                 792 non-null    int64 
 1   Trimestre                           792 non-null    int64 
 2   Provincia                           792 non-null    object
 3   Accesos telefonía fija (total)      792 non-null    int64 
 4   Accesos telefonía fija (hogares)    792 non-null    int64 
 5   Accesos telefonía fija (comercial)  792 non-null    int64 
 6   Accesos telefonía fija (gobierno)   792 non-null    int64 
 7   Accesos telefonía fija (otros)      792 non-null    int64 
dtypes: int64(7), object(1)
memory usage: 49.6+ KB


In [44]:
# Buscamos saber la cantidad de valores únicos, o si se repiten valores que a simple vista parezcan incoherentes.
fija1.nunique()
# fija2.nunique()
# fija3.nunique()
# fija4.nunique()
# movil1.nunique()
# movil2.nunique()
# tv1.nunique()

Año                                     9
Trimestre                               4
Provincia                              24
Accesos telefonía fija (total)        587
Accesos telefonía fija (hogares)      624
Accesos telefonía fija (comercial)    610
Accesos telefonía fija (gobierno)     433
Accesos telefonía fija (otros)        601
dtype: int64

Notamos que los datasets de telefonía móvil tienen una año extra de registros. Borraremos ese dato para unificar todos los datasets y que queden con igual cantidad de registros.

In [55]:
# Eliminamos los registros de 2013
movil1.drop(movil1[movil1['Año'] == 2013].index, inplace = True)

movil2.drop(movil2[movil2['Año'] == 2013].index, inplace = True)

In [50]:
reporte_fija1 = ProfileReport(fija1, title="Report")
# reporte_fija2 = ProfileReport(fija2, title="Report")
# reporte_fija3 = ProfileReport(fija3, title="Report")
# reporte_fija4 = ProfileReport(fija4, title="Report")
# reporte_movil1 = ProfileReport(movil1, title="Report")
# reporte_movil2 = ProfileReport(movil2, title="Report")
# reporte_tv1 = ProfileReport(tv1, title="Report")

In [51]:
reporte_fija1

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]



In [56]:
# Exportamos los archivos resultantes
fija1.to_csv('Datasets_Procesados/tel_fija_prov_acceso.csv', index=False)
fija2.to_csv('Datasets_Procesados/tel_fija_ingresos.csv', index=False)
fija3.to_csv('Datasets_Procesados/tel_fija_prov_penetracion.csv', index=False)
fija4.to_csv('Datasets_Procesados/tel_fija_nac_penetracion.csv', index=False)
movil1.to_csv('Datasets_Procesados/tel_movil_acceso.csv', index=False)
movil2.to_csv('Datasets_Procesados/tel_movil_penetracion.csv', index=False)
tv1.to_csv('Datasets_Procesados/tv_prov_penetracion.csv', index=False)