# <img style="float: left; padding-right: 10px; width: 150px" src="https://sc.acamica.com/icons/1j7w9h/social-300x300.png">  Acámica DS-COR3 - Ejercicio de Data Pipelines

### Marzo 2019

<hr style="height:2pt">

## Descripción

El objetivo de este notebook es ejercitar la construcción de Data Pipelines sobre un conjunto de datos referido a revisiones de vinos. Con dichos pipelines, se debe poder "curar" el dataset a partir de un tratamiento orientado a una tarea analítica (e.g. analizar descripciones, predecir ratings, entender correlación con precios, etc) el cual debe abarcar una adecuada limpieza y transformación de las columnas. 

**Link a dataset:** https://www.kaggle.com/zynicide/wine-reviews

**Ejemplos asociados:** Dado que es un dataset popular, se puede encontrar una gran variedad de kernels disponibles para sacar ideas y corroborar otras: https://www.kaggle.com/zynicide/wine-reviews/kernels

Como guía, se pretende que el pipeline a desarrollar cubra los siguientes aspectos (no necesariamente en este estricto orden):

- **Carga de datos:** Lectura de CSV en un DataFrame (dado que es un conjunto único de datos).
    - *Ejercicio extra:* Descomponer CSV en varias tablas, y que el pipeline se encargue de cargar estos DataFrames y mergearlos en algún step del pipeline. 

- **Definición del objetivo del pipeline:** Se debe documentar de forma abstracta lo que se pretende obtener a partir del pipeline a desarrollar, en términos de una tarea analítica a desarrollar sobre los datos de entrada que agregue valor al negocio o dominio.

- **Select de columnas a utilizar:** Acotar pipeline a un conjunto conocido de columnas a ser tratadas para optimizar el desempeño computacional del mismo. 

- **Limpieza de datos:** Para remover observaciones no deseadas (e.g. outliers, valores faltantes o nulos, etc).

- **Transformación de datos:** Convertir columnas de entrada en otro formato o representación conveniente (e.g. normalizado, escalado, categorías numéricas, etc).

- **Chequeo final y guardar en disco:** Se chequea el resultado final del pipeline respecto a lo definido inicialmente.

In [4]:
import pandas as pd
import numpy as np


In [30]:
df=pd.read_csv('data/winemag-data-130k-v2.csv')


In [31]:
df1=df[['Unnamed: 0','country','description', 'designation']]

In [35]:
df1.shape

(129971, 4)

In [16]:
df.shape

(129971, 14)

In [15]:
df.count()

Unnamed: 0               129971
country                  129908
description              129971
designation               92506
points                   129971
price                    120975
province                 129908
region_1                 108724
region_2                  50511
taster_name              103727
taster_twitter_handle     98758
title                    129971
variety                  129970
winery                   129971
dtype: int64

In [20]:
df.columns

Index(['Unnamed: 0', 'country', 'description', 'designation', 'points',
       'price', 'province', 'region_1', 'region_2', 'taster_name',
       'taster_twitter_handle', 'title', 'variety', 'winery'],
      dtype='object')

In [29]:
#Validamos si la columna es duplicada
bool_series = df["Unnamed: 0"].duplicated() 
  
# display data 
df[bool_series] 

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery


In [22]:
df['Unnamed: 0'].unique()


array([     0,      1,      2, ..., 129968, 129969, 129970], dtype=int64)

In [53]:
COLUMNS = ['Unnamed: 0','country','description', 'designation']
df1=pd.DataFrame(df,columns=COLUMNS)

In [55]:
COLUMNS = ['Unnamed: 0','points','price', 'province', 'region_1']
df2=pd.DataFrame(df,columns=COLUMNS)

In [57]:
COLUMNS = ['Unnamed: 0','region_2', 'taster_name','taster_twitter_handle', 'title', 'variety', 'winery']
df3=pd.DataFrame(df,columns=COLUMNS)

In [8]:
df.shape

(129971, 14)

In [9]:
df.describe

<bound method NDFrame.describe of         Unnamed: 0      country  \
0                0        Italy   
1                1     Portugal   
2                2           US   
3                3           US   
4                4           US   
5                5        Spain   
6                6        Italy   
7                7       France   
8                8      Germany   
9                9       France   
10              10           US   
11              11       France   
12              12           US   
13              13        Italy   
14              14           US   
15              15      Germany   
16              16    Argentina   
17              17    Argentina   
18              18        Spain   
19              19           US   
20              20           US   
21              21           US   
22              22        Italy   
23              23           US   
24              24        Italy   
25              25           US   
26              26   

## Tareas:
    1.- 

In [None]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

pipe = make_pipeline(
                    )