# Universidad del Desarrollo
## Magister Data Science - Macroeconomía
### Grupo N°2: (Región de los Lagos)
* Jose Pedro
* Cristian
* Paul
* Max
* Hernan


# Imputación de los datos

In [1]:
import pandas as pd
import seaborn as sns
from scipy.stats.mstats import gmean

In [2]:
df = pd.read_csv('output/rlagos_canasta.csv')

In [3]:
df.head()

Unnamed: 0,Calidad,Mes/Año,Momento,Precio máximo,Precio mínimo,Precio promedio,Procedencia,Producto,Sector,Tipo,Tipo punto monitoreo,Unidad,Variedad
0,,08/2014,2014-08,2249,1129,1558.2966,,Maravilla,Osorno,Aceite,,$/litro,
1,,08/2014,2014-08,1735,790,1410.9042,,Vegetal,Osorno,Aceite,,$/litro,
2,,08/2014,2014-08,1719,1220,1516.6203,,Maravilla,Puerto Montt,Aceite,,$/litro,
3,,08/2014,2014-08,1749,809,1357.3113,,Vegetal,Puerto Montt,Aceite,,$/litro,
4,,09/2014,2014-09,1768,1589,1680.2222,,Maravilla,Frutillar,Aceite,,$/litro,


In [4]:
df.shape

(32362, 13)

In [5]:
df.Tipo.value_counts()

Carnes       10631
Hortaliza     8078
Frutas        5867
Lacteos       2239
Pan           1868
Legumbre      1205
Cereales       900
Harina         450
Aceite         450
Huevos         449
Azucar         225
Name: Tipo, dtype: int64

In [6]:
df[df.Tipo == 'Legumbre'].Producto.value_counts()

Poroto Hallado             225
Garbanzos sin piel         225
Poroto Tórtola             225
Lentejas 6 mm              223
Arvejas verdes partidas    154
Poroto Negro               153
Name: Producto, dtype: int64

In [7]:
df[df.Tipo == 'Hortaliza'].Producto.value_counts()

Lechuga             834
Cebolla             550
Papa                517
Tomate              493
Pepino ensalada     483
Zapallo italiano    478
Zanahoria           434
Repollo             421
Brócoli             411
Coliflor            396
Pimiento            391
Zapallo             391
Apio                378
Choclo              377
Ajo                 368
Poroto verde        254
Espinaca            219
Melón               205
Alcachofa           134
Sandia              132
Poroto granado      114
Haba                 69
Arveja Verde         27
Locoto                2
Name: Producto, dtype: int64

In [8]:
df[df.Tipo == 'Frutas'].Producto.value_counts()

Manzana            949
Limón              659
Palta              616
Naranja            545
Pera               484
Plátano            442
Nectarín           353
Durazno            316
Kiwi               270
Uva                267
Mandarina          249
Mango              239
Ciruela            157
Frutilla            83
Cereza              82
Chirimoya           72
Damasco             39
Arándano (blue)     16
Frambuesa           15
Tuna                14
Name: Producto, dtype: int64

### Paso 1: buscar todos los promedios geometricos

Creamos un dataset nuevo con todas las combinaciones Tipo / Sector

In [9]:
Combos = df.groupby(['Tipo','Producto','Sector']).count().reset_index()[['Tipo','Producto','Sector']]

In [10]:
Combos.head()

Unnamed: 0,Tipo,Producto,Sector
0,Aceite,Maravilla,Frutillar
1,Aceite,Maravilla,Llanquihue
2,Aceite,Maravilla,Osorno
3,Aceite,Maravilla,Puerto Montt
4,Aceite,Maravilla,Puerto Varas


Una prueba para ver como calculamos el promedio geometrico de una combinación a mano, antes de crear una función:

In [11]:
gmean(df[(df.Tipo == 'Aceite') & (df.Producto == 'Maravilla') & (df.Sector == 'Osorno')]['Precio promedio'])

1619.1497080362053

Creamos una función que calcula el promedio geometrico en base al dataframe completo, pero filtrado por el dataframe Tipo / Producto / Sector

In [12]:
def calc_gmean(row):
    Tipo = row['Tipo']
    Producto = row['Producto']
    Sector = row['Sector']
    a = gmean(df[(df.Tipo == Tipo) & (df.Producto == Producto) & (df.Sector == Sector)]['Precio promedio'])
    return a

Aplicamos la función a cada fila del dataframe con las combinaciones Tipo / Producto / Sector

In [13]:
Combos['PromGeo'] = Combos.apply(calc_gmean, axis=1)

In [14]:
Combos.sample(10)

Unnamed: 0,Tipo,Producto,Sector,PromGeo
400,Hortaliza,Poroto granado,Frutillar,1768.590511
19,Carnes,Abastero,Puerto Varas,5180.849074
153,Carnes,Pollo Pechuga Deshuesada,Frutillar,3995.343094
286,Frutas,Nectarín,Frutillar,1282.025803
292,Frutas,Palta,Llanquihue,3209.198059
62,Carnes,Chuleta (centro),Osorno,4114.882353
466,Lacteos,Leche en Polvo Entera,Llanquihue,4215.352481
291,Frutas,Palta,Frutillar,3002.639154
499,Lacteos,Yoghurt (vainilla ó frutilla),Puerto Varas,167.454648
109,Carnes,Palanca,Frutillar,6548.892927


### Paso 2: Rellenar lo faltante

Estrategia:

1. Crear un dataframe con todas las fechas (momentos) del periodo.
1. A partir de cada columna en el dataframe *Combos*, crear un dataframe de una combinación Tipo/Producto/Sector
1. Hacer un merge entre el dataset de los momentos y el dataset Tipo/Producto/Sector para ver qué son los *momentos* que no tienen valores
1. Llenar los NaN con el promedio geometrico (y otros datos faltantes dado que estas filas no existían antes)
1. Crear un nuevo dataframe donde vamos agregando los dataframes de Tipo/Producto/Sector a medida que se completen.

In [15]:
df_momentos = pd.DataFrame(df['Momento'])
df_momentos.drop_duplicates(subset='Momento', keep='first', inplace=True)
df_momentos.reset_index()
df_momentos.shape

(47, 1)

In [16]:
df_final = pd.DataFrame([])

def fill_nans(row):
    global df_final
    Tipo = row['Tipo']
    Producto = row['Producto']
    Sector = row['Sector']
    PromGeo = row['PromGeo']
    # Creamos un dataset con la combinación
    data = df[(df.Tipo == Tipo) & (df.Producto == Producto) & (df.Sector == Sector)][['Momento','Precio promedio','Tipo','Producto','Sector']]
    # Hacemos merge con el dataset que contiene todos los momentos
    data = pd.merge(df_momentos, data, on='Momento', how='left')
    # Llenamos los NaN
    data['Precio promedio'].fillna(PromGeo, inplace=True)
    data['Tipo'].fillna(Tipo, inplace=True)
    data['Producto'].fillna(Producto, inplace=True)
    data['Sector'].fillna(Sector, inplace=True)
    # Agregamos la data al dataframe completo
    df_final = df_final.append(data)

In [17]:
Combos.apply(fill_nans, axis=1)
df_final.head()

Unnamed: 0,Momento,Precio promedio,Tipo,Producto,Sector
0,2014-08,1807.484158,Aceite,Maravilla,Frutillar
1,2014-09,1680.2222,Aceite,Maravilla,Frutillar
2,2014-10,1651.9047,Aceite,Maravilla,Frutillar
3,2014-11,1807.484158,Aceite,Maravilla,Frutillar
4,2014-12,1807.484158,Aceite,Maravilla,Frutillar


In [18]:
df_final.shape

(38500, 5)

In [19]:
df_final.reset_index(inplace=True)

Test con los que sabemos que estaban missing:

In [20]:
df_final[(df_final.Tipo == 'Hortaliza') & (df_final.Producto == 'Repollo') & (df_final.Sector == 'Frutillar') & (df_final.Momento == '2014-08')]

Unnamed: 0,index,Momento,Precio promedio,Tipo,Producto,Sector
29741,0,2014-08,1205.594772,Hortaliza,Repollo,Frutillar


In [21]:
dx = df_final.groupby(["Momento", "Sector"])['Producto'].size().unstack()

mycolor=['black', 'red', 'green', 'blue', 'cyan']

dx.plot(kind='bar', stacked=True, figsize=(20, 6), color=mycolor, rot=45)

<matplotlib.axes._subplots.AxesSubplot at 0x118718160>

In [22]:
df = df_final[["Momento", "Sector", "Tipo", "Producto", "Precio promedio"]]

In [23]:
df.rename(columns={'Producto': 'Variedad', 'Precio promedio': 'Promedio', 'Tipo': 'Producto'}, inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  return super(DataFrame, self).rename(**kwargs)


In [24]:
df.to_csv('output/canasta_ipc.csv', index=False)