In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
provincias = pd.read_csv('../datasets/provicias_datos_2022.csv',
                   delimiter=';',
                   header=3)

In [3]:
provincias.head()

Unnamed: 0,PROVINCIa,población (miles),hogares (miles),ingresos laborales (miles pesos),tasa de empleo (%),superficie (km2),exportaciones (mill usd)
0,Ciudad Autónoma de Buenos Aires,3.004,1.263,211.877.384,47,2059,311163
1,Buenos Aires,17.292,5.738,623.250.917,87,"305.907,40",33024657
2,Catamarca,336.0,102.0,8.460.986,73,"101.486,10",20103
3,Chaco,3.477,1.251,122.790.341,65,"99.763,30",516336
4,Chubut,967.0,287.0,24.733.558,53,"224.302,30",2575372


# Limpieza de datos

In [4]:
provincias.rename(
    columns={
        'PROVINCIa': 'provincia',
        'población (miles)': 'poblacion',
        'hogares (miles)': 'hogares',
        'ingresos laborales (miles pesos)': 'ingresos_laborales',
        'tasa de empleo (%)': 'tasa_empleo',
        'superficie (km2)': 'superficie',
        'exportaciones (mill usd)': 'exportaciones_usd'
    },
    inplace=True
)

Multiplicamos por mil ciertas columnas porque en la carga se leyeron como números con decimales, por ejemplo en la primer entrada el campo `poblacion` es `3.004` cuando debería ser `3004`.

Además una de las entradas tiene este campo vacío, por ahora lo asumimos como `0` para poder castear la columna y luego lo imputaremos.

In [5]:
provincias.poblacion = provincias.poblacion * 1000
provincias.poblacion.fillna(0, inplace=True)

In [6]:
provincias.hogares = provincias.hogares * 1000

In [7]:
provincias[provincias.columns[1:3]] = \
    provincias[provincias.columns[1:3]].astype('int64')

Una de las entradas no tiene valor en el campo `ingresos_laborales`, primero la reemplazamos por `0` para poder castear la columna a tipo entero, después imputaremos ese valor faltante.

In [8]:
provincias.ingresos_laborales = \
    provincias.ingresos_laborales\
    .str.replace('.', '', regex=False)\
    .fillna(0)\
    .astype('int64')

In [9]:
provincias.tasa_empleo = \
    provincias.tasa_empleo\
        .str.replace(',', '.', regex=False)\
        .astype('float64')

In [10]:
provincias.superficie = \
    provincias.superficie\
        .str.replace('.', '', regex=False)\
        .str.replace(',', '.', regex=False)\
        .astype('float64')

In [11]:
provincias.exportaciones_usd = \
    provincias.exportaciones_usd\
    .str.replace(',', '', regex=False)\
    .astype('int64')

In [12]:
provincias.head()

Unnamed: 0,provincia,poblacion,hogares,ingresos_laborales,tasa_empleo,superficie,exportaciones_usd
0,Ciudad Autónoma de Buenos Aires,3004,1263,211877384,4.7,205.9,311163
1,Buenos Aires,17292,5738,623250917,8.7,305907.4,33024657
2,Catamarca,336000,102000,8460986,7.3,101486.1,20103
3,Chaco,3477,1251,122790341,6.5,99763.3,516336
4,Chubut,967000,287000,24733558,5.3,224302.3,2575372


### **Preguntar como imputar los datos faltantes de la población e ingresos laborales, preguntar que hacer con el valor 110 de la tase de empleo**

# Exploración de datos

In [13]:
provincias.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 7 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   provincia           24 non-null     object 
 1   poblacion           24 non-null     int64  
 2   hogares             24 non-null     int64  
 3   ingresos_laborales  24 non-null     int64  
 4   tasa_empleo         24 non-null     float64
 5   superficie          24 non-null     float64
 6   exportaciones_usd   24 non-null     int64  
dtypes: float64(2), int64(4), object(1)
memory usage: 1.4+ KB
