## PASO 0: Importar bibliotecas y leer datos

In [30]:
import pandas as pd
from unidecode import unidecode

In [31]:
df = pd.read_csv(r'dataset_raw\Provincia_tec_habil.csv')
df

Unnamed: 0,Provincia,Partido,Localidad,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,4G,3G,TELEFONIAFIJA,WIRELESS,SATELITAL
0,BUENOS AIRES,Bahía Blanca,Villa Bordeau,--,--,--,--,SI,SI,--,--,--
1,BUENOS AIRES,Bahía Blanca,Villa Espora,--,--,--,--,--,--,--,--,--
2,BUENOS AIRES,Balcarce,Balcarce,SI,SI,SI,SI,SI,SI,SI,SI,--
3,BUENOS AIRES,Balcarce,Los Pinos,--,--,--,--,--,--,SI,SI,--
4,BUENOS AIRES,Balcarce,Napaleofú,--,--,--,SI,SI,SI,SI,SI,--
...,...,...,...,...,...,...,...,...,...,...,...,...
4307,CHACO,Quitilipi,Quitilipi,SI,--,--,SI,SI,SI,SI,SI,--
4308,CHACO,Quitilipi,Villa El Palmar,--,--,--,--,SI,--,--,SI,--
4309,CHACO,San Fernando,Barranqueras,SI,SI,--,SI,SI,SI,SI,SI,--
4310,CHACO,San Fernando,Basail,SI,SI,--,--,SI,SI,SI,SI,SI


In [32]:
pd.set_option('display.max.columns', 200)
pd.set_option('display.max.rows', 200)

'''Pandas por defecto no te muestra todas las columnas del dataframe.
Es util para la exploracion de datos tener un limite bastante alto.
Correr despues de haber creado el dataframe, sino da error.
'''

'Pandas por defecto no te muestra todas las columnas del dataframe.\nEs util para la exploracion de datos tener un limite bastante alto.\nCorrer despues de haber creado el dataframe, sino da error.\n'

---

## PASO 1: Comprensión de datos

- Dataframe `info`
- Dataframe `shape`
- `head` y `tail`
- Duplicados

In [33]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4312 entries, 0 to 4311
Data columns (total 12 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   Provincia      4312 non-null   object
 1   Partido        4312 non-null   object
 2   Localidad      4312 non-null   object
 3   ADSL           4312 non-null   object
 4   CABLEMODEM     4312 non-null   object
 5   DIALUP         4312 non-null   object
 6   FIBRAOPTICA    4312 non-null   object
 7   4G             4312 non-null   object
 8   3G             4312 non-null   object
 9   TELEFONIAFIJA  4312 non-null   object
 10  WIRELESS       4312 non-null   object
 11  SATELITAL      4312 non-null   object
dtypes: object(12)
memory usage: 404.4+ KB


In [34]:
df.shape

(4312, 12)

In [35]:
# Verificar si hay filas completas duplicadas
duplicates = df[df.duplicated(keep=False, subset=df.columns)]
duplicates

Unnamed: 0,Provincia,Partido,Localidad,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,4G,3G,TELEFONIAFIJA,WIRELESS,SATELITAL
650,TUCUMAN,Cruz Alta,Lastenia,--,--,--,--,SI,SI,--,--,--
651,TUCUMAN,Cruz Alta,Lastenia,--,--,--,--,SI,SI,--,--,--
3365,BUENOS AIRES,La Plata,ruta del sol,SI,--,--,--,SI,SI,--,--,--
3366,BUENOS AIRES,La Plata,ruta del sol,SI,--,--,--,SI,SI,--,--,--


In [36]:
df.drop_duplicates(inplace=True)

In [37]:
df.columns

Index(['Provincia', 'Partido', 'Localidad', 'ADSL', 'CABLEMODEM', 'DIALUP',
       'FIBRAOPTICA', '4G', '3G', 'TELEFONIAFIJA', 'WIRELESS', 'SATELITAL'],
      dtype='object')

In [38]:
df.head(5)

Unnamed: 0,Provincia,Partido,Localidad,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,4G,3G,TELEFONIAFIJA,WIRELESS,SATELITAL
0,BUENOS AIRES,Bahía Blanca,Villa Bordeau,--,--,--,--,SI,SI,--,--,--
1,BUENOS AIRES,Bahía Blanca,Villa Espora,--,--,--,--,--,--,--,--,--
2,BUENOS AIRES,Balcarce,Balcarce,SI,SI,SI,SI,SI,SI,SI,SI,--
3,BUENOS AIRES,Balcarce,Los Pinos,--,--,--,--,--,--,SI,SI,--
4,BUENOS AIRES,Balcarce,Napaleofú,--,--,--,SI,SI,SI,SI,SI,--


---

## PASO 2: Preparación de datos

- Quitar columnas y filas irrelevantes
- Renombrar columnas
- Identificar columnas y filas duplicadas


In [39]:
df = df[['Provincia','Localidad', 'ADSL', 'CABLEMODEM', 'DIALUP',
       'FIBRAOPTICA', '4G', '3G', 'TELEFONIAFIJA', 'WIRELESS', 'SATELITAL']]

df.head(5)

Unnamed: 0,Provincia,Localidad,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,4G,3G,TELEFONIAFIJA,WIRELESS,SATELITAL
0,BUENOS AIRES,Villa Bordeau,--,--,--,--,SI,SI,--,--,--
1,BUENOS AIRES,Villa Espora,--,--,--,--,--,--,--,--,--
2,BUENOS AIRES,Balcarce,SI,SI,SI,SI,SI,SI,SI,SI,--
3,BUENOS AIRES,Los Pinos,--,--,--,--,--,--,SI,SI,--
4,BUENOS AIRES,Napaleofú,--,--,--,SI,SI,SI,SI,SI,--


In [40]:
df.isna().sum()   # Checkeamos Nulos por columna

Provincia        0
Localidad        0
ADSL             0
CABLEMODEM       0
DIALUP           0
FIBRAOPTICA      0
4G               0
3G               0
TELEFONIAFIJA    0
WIRELESS         0
SATELITAL        0
dtype: int64

In [41]:
# Reemplazar '--' con 0 para facilitar el cálculo
df.replace('--', '0', inplace=True)
# Reemplazar 'SI' con 1 para facilitar el cálculo
df.replace('SI', '1', inplace=True)
df[['ADSL', 'CABLEMODEM', 'DIALUP',
    'FIBRAOPTICA', '4G', '3G', 'TELEFONIAFIJA', 'WIRELESS', 'SATELITAL']] = df[['ADSL', 'CABLEMODEM', 'DIALUP',
    'FIBRAOPTICA', '4G', '3G', 'TELEFONIAFIJA', 'WIRELESS', 'SATELITAL']].astype(int)

# Agrupar por Provincia y calcular el total de cada tecnología por provincia
grouped_tech = df.groupby('Provincia')[['ADSL', 'CABLEMODEM', 'DIALUP',
       'FIBRAOPTICA', '4G', '3G', 'TELEFONIAFIJA', 'WIRELESS', 'SATELITAL']].sum()

# Contar la cantidad de localidades por provincia
counts_localidades = df.groupby('Provincia')['Localidad'].count().reset_index()

# Combinar los resultados en un solo DataFrame
df = pd.merge(grouped_tech, counts_localidades, on='Provincia')

df

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.replace('--', '0', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df.replace('SI', '1', inplace=True)
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[['ADSL', 'CABLEMODEM', 'DIALUP',


Unnamed: 0,Provincia,ADSL,CABLEMODEM,DIALUP,FIBRAOPTICA,4G,3G,TELEFONIAFIJA,WIRELESS,SATELITAL,Localidad
0,BUENOS AIRES,354,345,213,443,654,589,548,497,157,900
1,CABA,48,48,48,48,48,48,48,48,48,48
2,CATAMARCA,7,3,1,23,57,29,31,33,48,182
3,CHACO,28,14,1,45,75,44,47,46,43,92
4,CHUBUT,13,11,15,13,38,31,54,31,49,90
5,CORDOBA,181,89,5,172,344,277,310,292,73,556
6,CORRIENTES,21,9,1,12,70,39,51,45,55,78
7,ENTRE RIOS,47,39,4,44,128,78,128,130,22,194
8,FORMOSA,13,3,0,16,42,16,30,59,23,63
9,JUJUY,20,15,0,44,45,28,36,39,44,160


In [42]:
df = df[['Provincia','Localidad', 'ADSL', 'CABLEMODEM', 'DIALUP',
       'FIBRAOPTICA', '4G', '3G', 'TELEFONIAFIJA', 'WIRELESS', 'SATELITAL']]

In [43]:
# Convertir los registros a minúsculas y eliminar las tildes
df['Provincia'] = df['Provincia'].apply(lambda x: unidecode(x.lower()))

In [44]:
df.dtypes

Provincia        object
Localidad         int64
ADSL              int32
CABLEMODEM        int32
DIALUP            int32
FIBRAOPTICA       int32
4G                int32
3G                int32
TELEFONIAFIJA     int32
WIRELESS          int32
SATELITAL         int32
dtype: object

In [46]:
# Guardar DataFrame como un archivo CSV
df.to_csv(r'..\EDA\dataset_processed\Provincia_tec_habil_prces', index=False)