## PASO 0: Importar bibliotecas y leer datos

In [1]:
import pandas as pd
from unidecode import unidecode

In [2]:
df = pd.read_csv(r'dataset_raw\Internet_BAF_prov.csv')
df

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,3,Buenos Aires,4.715.469,6.199,4.721.668
1,2022,3,Capital Federal,1.545.534,2.145,1.547.679
2,2022,3,Catamarca,70.292,1,70.293
3,2022,3,Chaco,144.141,5,144.146
4,2022,3,Chubut,164.874,904,165.778
...,...,...,...,...,...,...
835,2014,1,Santa Cruz,26.304,460,26.764
836,2014,1,Santa Fe,506.000,612,506.612
837,2014,1,Santiago Del Estero,37.124,9,37.133
838,2014,1,Tierra Del Fuego,27.272,766,28.038


In [3]:
pd.set_option('display.max.columns', 200)
pd.set_option('display.max.rows', 200)

'''Pandas por defecto no te muestra todas las columnas del dataframe.
Es util para la exploracion de datos tener un limite bastante alto.
Correr despues de haber creado el dataframe, sino da error.
'''

'Pandas por defecto no te muestra todas las columnas del dataframe.\nEs util para la exploracion de datos tener un limite bastante alto.\nCorrer despues de haber creado el dataframe, sino da error.\n'

---

## PASO 1: Comprensión de datos

- Dataframe `info`
- Dataframe `shape`
- `head` y `tail`
- Duplicados

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 840 entries, 0 to 839
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Año               840 non-null    int64 
 1   Trimestre         840 non-null    int64 
 2   Provincia         840 non-null    object
 3   Banda ancha fija  840 non-null    object
 4   Dial up           838 non-null    object
 5   Total             840 non-null    object
dtypes: int64(2), object(4)
memory usage: 39.5+ KB


In [5]:
df.shape

(840, 6)

In [6]:
# Verificar si hay filas completas duplicadas
duplicates = df[df.duplicated(keep=False, subset=df.columns)]
duplicates

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total


In [7]:
df.drop_duplicates(inplace=True)

In [8]:
df.columns

Index(['Año', 'Trimestre', 'Provincia', 'Banda ancha fija', 'Dial up',
       'Total'],
      dtype='object')

In [9]:
df.head(5)

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija,Dial up,Total
0,2022,3,Buenos Aires,4.715.469,6.199,4.721.668
1,2022,3,Capital Federal,1.545.534,2.145,1.547.679
2,2022,3,Catamarca,70.292,1.0,70.293
3,2022,3,Chaco,144.141,5.0,144.146
4,2022,3,Chubut,164.874,904.0,165.778


---

## PASO 2: Preparación de datos

- Quitar columnas y filas irrelevantes
- Renombrar columnas
- Identificar columnas y filas duplicadas


In [10]:
df = df[['Año', 'Trimestre', 'Provincia', 'Banda ancha fija']]

df.head(5)

Unnamed: 0,Año,Trimestre,Provincia,Banda ancha fija
0,2022,3,Buenos Aires,4.715.469
1,2022,3,Capital Federal,1.545.534
2,2022,3,Catamarca,70.292
3,2022,3,Chaco,144.141
4,2022,3,Chubut,164.874


In [11]:
df.isna().sum()   # Checkeamos Nulos por columna

Año                 0
Trimestre           0
Provincia           0
Banda ancha fija    0
dtype: int64

In [12]:
# Convertir los registros a minúsculas y eliminar las tildes
df['Provincia'] = df['Provincia'].apply(lambda x: unidecode(x.lower()))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Provincia'] = df['Provincia'].apply(lambda x: unidecode(x.lower()))


In [13]:
df['Banda ancha fija'] = df['Banda ancha fija'].str.replace(".", "").astype(int)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['Banda ancha fija'] = df['Banda ancha fija'].str.replace(".", "").astype(int)


In [14]:
df.dtypes

Año                  int64
Trimestre            int64
Provincia           object
Banda ancha fija     int32
dtype: object

In [15]:
# Guardar DataFrame como un archivo CSV
df.to_csv(r'..\EDA\dataset_processed\Internet_BAF_prov_prces.csv', index=False)