## PASO 0: Importar bibliotecas y leer datos

In [16]:
import pandas as pd
from unidecode import unidecode

In [17]:
df = pd.read_csv(r'datasets\raw\Internet_Penetracion.csv')
df

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2022,3,Buenos Aires,7811
1,2022,3,Capital Federal,12228
2,2022,3,Catamarca,6533
3,2022,3,Chaco,4386
4,2022,3,Chubut,8438
...,...,...,...,...
835,2014,1,Santa Cruz,2894
836,2014,1,Santa Fe,4785
837,2014,1,Santiago Del Estero,1631
838,2014,1,Tierra Del Fuego,6397


In [18]:
pd.set_option('display.max.columns', 200)
pd.set_option('display.max.rows', 200)

'''Pandas por defecto no te muestra todas las columnas del dataframe.
Es util para la exploracion de datos tener un limite bastante alto.
Correr despues de haber creado el dataframe, sino da error.
'''

'Pandas por defecto no te muestra todas las columnas del dataframe.\nEs util para la exploracion de datos tener un limite bastante alto.\nCorrer despues de haber creado el dataframe, sino da error.\n'

---

## PASO 1: Comprensión de datos

- Dataframe `info`
- Dataframe `shape`
- `head` y `tail`
- Duplicados

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 4 columns):
 #   Column                        Non-Null Count  Dtype 
---  ------                        --------------  ----- 
 0   Año                           840 non-null    int64 
 1   Trimestre                     840 non-null    int64 
 2   Provincia                     840 non-null    object
 3   Accesos por cada 100 hogares  840 non-null    object
dtypes: int64(2), object(2)
memory usage: 26.4+ KB


In [20]:
df.shape

(840, 4)

In [21]:
# Verificar si hay filas completas duplicadas
duplicates = df[df.duplicated(keep=False, subset=df.columns)]
duplicates

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares


In [22]:
df.drop_duplicates(inplace=True)

In [23]:
df.columns

Index(['Año', 'Trimestre', 'Provincia', 'Accesos por cada 100 hogares'], dtype='object')

In [24]:
df.head(5)

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2022,3,Buenos Aires,7811
1,2022,3,Capital Federal,12228
2,2022,3,Catamarca,6533
3,2022,3,Chaco,4386
4,2022,3,Chubut,8438


---

## PASO 2: Preparación de datos

- Quitar columnas y filas irrelevantes
- Renombrar columnas
- Identificar columnas y filas duplicadas


In [25]:
df.isna().sum()   # Checkeamos Nulos por columna

Año                             0
Trimestre                       0
Provincia                       0
Accesos por cada 100 hogares    0
dtype: int64

In [26]:
# Convertir los registros a minúsculas y eliminar las tildes
df['Provincia'] = df['Provincia'].apply(lambda x: unidecode(x.lower()))

In [27]:
df['Accesos por cada 100 hogares'] = df['Accesos por cada 100 hogares'].str.replace(',','.').astype(float)

In [28]:
df.head(15)

Unnamed: 0,Año,Trimestre,Provincia,Accesos por cada 100 hogares
0,2022,3,buenos aires,78.11
1,2022,3,capital federal,122.28
2,2022,3,catamarca,65.33
3,2022,3,chaco,43.86
4,2022,3,chubut,84.38
5,2022,3,cordoba,88.31
6,2022,3,corrientes,48.21
7,2022,3,entre rios,63.67
8,2022,3,formosa,43.76
9,2022,3,jujuy,58.91


In [30]:
df.dtypes

Año                               int64
Trimestre                         int64
Provincia                        object
Accesos por cada 100 hogares    float64
dtype: object

In [29]:
# Guardar DataFrame como un archivo CSV
df.to_csv(r'datasets\processed\Internet_Penetracion_prces', index=False)