# Transformación de Datos y análisis preliminar

En primer lugar, realizaremos un proceso de ETL para determinar los datos de utilidad a los efectos de obtener información relevante.

In [1]:
import pandas as pd

In [2]:
#Crearemos un DataFrame a partir del dataset "Internet.xlsx"
df_internet = pd.ExcelFile(r"C:\Users\GASTON\Desktop\PI2\DATA\Internet.xlsx")
df_internet.sheet_names

['Acc_vel_loc_sinrangos',
 'Velocidad_sin_Rangos',
 'Accesos_tecnologia_localidad',
 'Velocidad % por prov',
 'Totales VMD',
 'Totales Accesos Por Tecnología',
 'Accesos Por Tecnología',
 'Penetración-poblacion',
 'Penetracion-hogares',
 'Penetracion-totales',
 'Totales Accesos por velocidad',
 'Accesos por velocidad',
 'Dial-BAf',
 'Totales Dial-BAf',
 'Ingresos ']

Analizaremos los datos que nos ofrece cada hoja, para determinar si nos es de utilidad. 
En esta instancia, se pretende hacer un primer análisis de la información más relevante, y se revisarán los valores nulos y eventualmente limpieza de sus campos.
Sin embargo, los duplicados, outliers y faltantes serán analizados en el Análisis Exploratorio de Datos

# Datos de acceso por localidad sin rangos de velocidad.

In [4]:
df1 = pd.read_excel(df_internet, sheet_name='Acc_vel_loc_sinrangos')
df1.head(3)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,Otros,"0,256 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",1 Mbps,...,680 Mbps,700 Mbps,800 Mbps,850 Mbps,900 Mbps,999 Mbps,1000 Mbps,1024 Mbps,4000 Mbps,10000 Mbps
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,,,2.0,,19.0,,...,,,,,,,,,,
1,BUENOS AIRES,25 de Mayo,Agustín Mosconi,6854010,,,,,,,...,,,,,,,,,,
2,BUENOS AIRES,25 de Mayo,Del Valle,6854020,,,1.0,,,,...,,,,,,,,,,


In [12]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3065 entries, 0 to 3064
Columns: 125 entries, Provincia to 10000 Mbps
dtypes: float64(121), object(4)
memory usage: 2.9+ MB


A primera vista se pueden observar una gran cantidad de campos nulos.

In [10]:
valores_nulos_por_columna = df1.isnull().sum()
print(valores_nulos_por_columna)


Provincia        0
Partido          0
Localidad        0
Link Indec       0
Otros         2035
              ... 
999 Mbps      3048
1000 Mbps     2645
1024 Mbps     3063
4000 Mbps     3064
10000 Mbps    3063
Length: 125, dtype: int64


In [9]:
total_celdas = df1.size
total_nulos = df1.isnull().sum().sum()

porcentaje_total_nulos = (total_nulos / total_celdas) * 100
print(f"Total de valores nulos en el DataFrame: {total_valores_nulos}")
print(f"Porcentaje total de valores nulos en el DataFrame: {porcentaje_total_nulos:.2f}%")


Total de valores nulos en el DataFrame: 351902
Porcentaje total de valores nulos en el DataFrame: 91.85%


Como podemos observar, esta tabla no nos ofrece información relevante.

# Velocidad sin rangos

In [14]:
df2 = pd.read_excel(df_internet, sheet_name='Velocidad_sin_Rangos')
df2.head(3)

Unnamed: 0,Año,Trimestre,Provincia,Otros,"0,256 Mbps","0,375 Mbps","0,625 Mbps","0,5 Mbps","0,512 Mbps","0,75 Mbps",...,2048 Mbps,2529 Mbps,3072 Mbps,4000 Mbps,5000 Mbps,5125 Mbps,6000 Mbps,7000 Mbps,8000 Mbps,10000 Mbps
0,2024.0,1.0,Buenos Aires,125147.0,18.0,0.0,0.0,25815.0,169.0,4611.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,2024.0,1.0,Capital Federal,0.0,31.0,0.0,0.0,451.0,34.0,1307.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2024.0,1.0,Catamarca,70.0,0.0,0.0,0.0,34.0,37.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [15]:
df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 625 entries, 0 to 624
Columns: 193 entries, Año to 10000 Mbps
dtypes: float64(191), int64(1), object(1)
memory usage: 942.5+ KB


Este DataFrame me ofrece información sobre la velocidad de conexión, por Provincia y por trimestre.

In [17]:
valores_nulos_por_columna = df2.isnull().sum()
print(valores_nulos_por_columna)

Año           1
Trimestre     1
Provincia     1
Otros         1
0,256 Mbps    1
             ..
5125 Mbps     1
6000 Mbps     1
7000 Mbps     1
8000 Mbps     1
10000 Mbps    1
Length: 193, dtype: int64


In [16]:
total_celdas = df2.size
total_nulos = df2.isnull().sum().sum()

porcentaje_total_nulos = (total_nulos / total_celdas) * 100
print(f"Total de valores nulos en el DataFrame: {total_valores_nulos}")
print(f"Porcentaje total de valores nulos en el DataFrame: {porcentaje_total_nulos:.2f}%")


Total de valores nulos en el DataFrame: 351902
Porcentaje total de valores nulos en el DataFrame: 0.16%


Podemos observar: 1) que el dataframe no tiene valores faltantes (todos se encuentran con valor 0). 2) Que los valores nulos son irrelevantes, y no tienen gran implicancia en la información aportada. Por ese motivo, procedemos a eliminarlos.

In [18]:
df2 = df2.dropna()

In [19]:
total_nulos = df2.isnull().sum().sum()
total_nulos

0

# Accesos a internet por tipo de tecnología y localidad.

In [20]:
df3 = pd.read_excel(df_internet, sheet_name='Accesos_tecnologia_localidad')
df3.head(3)

Unnamed: 0,Provincia,Partido,Localidad,Link Indec,ADSL,CABLEMODEM,DIAL UP,FIBRA OPTICA,OTROS,SATELITAL,WIMAX,WIRELESS,Total general
0,BUENOS AIRES,25 de Mayo,25 de Mayo,6854100,755,4600,0,2,0,742,0,727,6826
1,BUENOS AIRES,25 de Mayo,Del Valle,6854020,181,0,0,0,10,1,0,0,192
2,BUENOS AIRES,25 de Mayo,Gobernador Ugarte,6854040,0,0,0,0,0,0,0,181,181


In [21]:
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3352 entries, 0 to 3351
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Provincia      3072 non-null   object
 1   Partido        3072 non-null   object
 2   Localidad      3072 non-null   object
 3   Link Indec     3072 non-null   object
 4   ADSL           3352 non-null   int64 
 5   CABLEMODEM     3352 non-null   int64 
 6   DIAL UP        3352 non-null   int64 
 7   FIBRA OPTICA   3352 non-null   int64 
 8   OTROS          3352 non-null   int64 
 9   SATELITAL      3352 non-null   int64 
 10  WIMAX          3352 non-null   int64 
 11  WIRELESS       3352 non-null   int64 
 12  Total general  3352 non-null   int64 
dtypes: int64(9), object(4)
memory usage: 340.6+ KB


Este Dataframe ofrece información sobre los accesos a distintas teconologías según las localidades, aunque no tiene un seguimiento histórico.