# Tutorial - Construcción de Tuberías con Pandas-pdpipe

https://github.com/...

## Introducción 

**Pandas** es una librería parte del ecosistema de Python especializada en Analítica de Datos y Aprendizaje Automatizado (Machine Learning, ML). Ella nos permite conectar conjuntos de datos tabulares del tipo Excel(csv) y tablas SQL con las poderosas librerías de modelación como Scikit-Learn y Tensorflow. 

**Flujo de Ciencia de Datos** o **Tubería**. Consiste en una suseción de pasos o tareas que se llevan a cabo para preparar los datos para su modelado mediante algoritmos de ML. Cada tarea en esta secuancia puede realizarse de manera separada mediante una funcion o método de la librería de Pandas, sin mbargo lo más sofisticado y eficiente es ejecutarla integralmente susando una tuberia. De ésta forma podemos automatizar procesos repetitivos ahorrando tiempo y evitando potenciales errores.

**Herraminetas**. Ejemplos importantes de paqueterías para desarrollar tuberías son: *dplyr* en R y *Scikit-learn* en Python. Por otra parte Pandas ofrece además el método *.pipe* para propósitos similares usando funciones definidas por el usuario. Aquí consideraremos el caso de la maravillosa librería: **pdpipe** la cual nos permite lidiar con la tuberización usando *Pandas DataFrame*.

# Tuberías con Pandas

**Datos.** Para este tutorial utilizaremos el conjunto de datos sobre precios de casas en EUA "USA_Housing.csv" que está en la página de Kaggle (https://www.kaggle.com/vedavyasv/usa-housing).

## Importar Librerías:

In [63]:
import pandas as pd
import numpy as np
import pdpipe as pdp  # pip install pspipe (!)

## Cargar Datos:

In [100]:
df = pd.read_csv("C:/Users/ROG/0.PYTHON-JUPYTER/USA_Housing.csv")  #("USA_Housing.csv")

## Explorar Datos:

In [65]:
# Tipo:
type(df)

pandas.core.frame.DataFrame

In [66]:
# Tamaño y Forma:
df.shape

(5000, 7)

In [67]:
# Información General:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 7 columns):
Avg. Area Income                5000 non-null float64
Avg. Area House Age             5000 non-null float64
Avg. Area Number of Rooms       5000 non-null float64
Avg. Area Number of Bedrooms    5000 non-null float64
Area Population                 5000 non-null float64
Price                           5000 non-null float64
Address                         5000 non-null object
dtypes: float64(6), object(1)
memory usage: 273.6+ KB


In [68]:
# Muestreo:
round(df.sample(5),2)

Unnamed: 0,Avg. Area Income,Avg. Area House Age,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
1319,60840.49,5.41,6.5,2.47,36241.3,971099.48,"653 Elizabeth Haven Suite 794\nNew Gina, NV 81..."
4074,81745.08,7.15,7.38,3.39,21021.02,1626659.96,"3022 Bryant Junctions\nNorth Amandamouth, CA 5..."
2462,51967.24,5.59,7.11,5.1,21454.2,657169.3,USNS Johnson\nFPO AP 84758-0245
2634,42814.99,5.25,6.08,4.02,41426.39,452530.18,8901 Thomas Walk Suite 251\nEast Stephanieburg...
2158,68817.2,5.9,5.33,4.07,35621.68,1125696.86,"6322 Jensen Overpass\nPort Seth, UT 98405-6588"


In [69]:
# Estadísticos Generales:
round(df.describe().T,2)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Avg. Area Income,5000.0,68583.11,10657.99,17796.63,61480.56,68804.29,75783.34,107701.75
Avg. Area House Age,5000.0,5.98,0.99,2.64,5.32,5.97,6.65,9.52
Avg. Area Number of Rooms,5000.0,6.99,1.01,3.24,6.3,7.0,7.67,10.76
Avg. Area Number of Bedrooms,5000.0,3.98,1.23,2.0,3.14,4.05,4.49,6.5
Area Population,5000.0,36163.52,9925.65,172.61,29403.93,36199.41,42861.29,69621.71
Price,5000.0,1232072.65,353117.63,15938.66,997577.14,1232669.38,1471210.2,2469065.59


****
## Diseñar de la Tubería:

La tubería estará conformada por la sigueinte secuencia de Pasos:

**PASO 1.** Eliminar columna: 'Avg. Area House Age'

**PASO 2.** Crear columna de clasificación por Tamaño "Size_tag":
 * "Pequeño" si: $tamaño \leq 4$,
 * "Mediano" si: $ 4 < tamaño \leq 6$,
 * "Grande" si: $ tamaño > 6$.

**PASO 3.** Crear columna de clasificación por Precio "Price_tag":
 * "Comprar" si: $costo \leq 250,000$,
 * "Ignorar" si: $costo > 250,000$,

**PASO 4.** Filtrar Resultados Viables por Costo: "Comprar"

**PASO 5.** Normalizar los valores numéricos...

**PASO 6.** Toquenizar 'Address'

**PASO 7.** Agregar Columna 'Estado'

****

## Crear la Tubería:

In [206]:
# PASO1. Eliminar Columna 'Avg. Area House Age'
P1=pdp.ColDrop('Avg. Area House Age') # Definir Paso
pipeline=P1                           # Unir a la Tubería
df1 = pipeline(df)                    # Armar archivo
df1.shape

(5000, 6)

In [207]:
round(df1.sample(5),2)                # Desplegar muestra

Unnamed: 0,Avg. Area Income,Avg. Area Number of Rooms,Avg. Area Number of Bedrooms,Area Population,Price,Address
4112,72646.51,7.84,4.26,35628.83,1285019.14,"459 Hall Street Suite 619\nPamelaberg, SD 16934"
2347,51168.43,7.08,3.1,30369.19,1220987.0,"041 Amanda Port\nWest Davidfurt, NE 83057-8557"
2555,62314.21,6.1,3.21,48263.04,1030866.95,"PSC 7074, Box 4818\nAPO AE 84281"
4906,65579.38,5.83,2.33,41260.3,1063130.95,USNV Cervantes\nFPO AA 22656-4184
3286,70872.18,6.62,3.06,27501.0,1214334.97,"2053 Hammond Squares Apt. 536\nHudsonhaven, CA..."


In [223]:
# PASO 2. Añadir Columna con Clasificación por Tamaño
# Definición de Clasificador por 'Tamaño':
def size_tag(n):
    if n<=4:
        return 'Pequeño'
    elif 4<n<=6:
        return 'Mediano'
    else:
        return 'Grande'

P2=pdp.ApplyByCols('Avg. Area Number of Rooms',size_tag,'size_tag',drop=False) # Definir Paso
pipeline=P1+P2                        # Unir a la Tubería
df2 = pipeline(df)                    # Armar archivo
df2.shape

(5000, 7)

In [224]:
round(df2.sample(5),2)                # Desplegar muestra

Unnamed: 0,Avg. Area Income,Avg. Area Number of Rooms,size_tag,Avg. Area Number of Bedrooms,Area Population,Price,Address
2092,35608.99,7.83,Grande,6.35,20833.01,449331.58,"652 Stanton Island\nAdamsview, VA 56957-9960"
2580,70221.36,6.99,Grande,3.15,39692.11,1178272.3,"9863 William Falls Apt. 516\nNew Roberttown, W..."
4969,73299.38,7.01,Grande,4.46,45214.49,1260814.43,"4241 John Radial\nCampbellborough, GU 45592-6774"
2840,67433.4,6.56,Grande,3.05,41030.41,1719762.31,"PSC 3850, Box 4156\nAPO AP 93044"
3947,97076.16,6.61,Grande,2.46,39915.66,1969194.12,20831 Heather Common Suite 998\nLake Elizabeth...


In [225]:
# PASO 3. Añadir Columna 'price_tag' de Clasificación por Costo y desplegar en orden de 'price_tag'
# Definición de Clasificador por Costo:
def price_tag(x):
    if x>250000:
        return 'Comprar'
    else:
        return 'Ignorar'

P3=pdp.ApplyByCols('Price',price_tag,'price_tag',drop=False)
pipeline=P1+P2+P3                     # Unir a la Tubería
df3 = pipeline(df)                    # Armar archivo
df3.shape

(5000, 8)

In [226]:
round(df3.sort_values(by=['price_tag']),2)                # Desplegar muestra

Unnamed: 0,Avg. Area Income,Avg. Area Number of Rooms,size_tag,Avg. Area Number of Bedrooms,Area Population,Price,price_tag,Address
0,79545.46,7.01,Grande,4.09,23086.80,1059033.56,Comprar,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701..."
3337,71635.47,6.08,Grande,2.16,43555.46,1148372.40,Comprar,21042 Wilson Islands Suite 238\nFischerchester...
3336,73211.14,10.28,Grande,6.23,44198.34,2065710.16,Comprar,Unit 8831 Box 5748\nDPO AE 73012-7314
3335,86249.99,7.97,Grande,4.39,43154.84,1749820.01,Comprar,"481 Kaitlin Mission Apt. 309\nJodystad, IA 16947"
3334,70087.57,6.98,Grande,2.27,53612.28,1580951.58,Comprar,"PSC 3528, Box 7580\nAPO AE 08696-0234"
...,...,...,...,...,...,...,...,...
1356,56654.96,5.34,Mediano,3.31,25801.97,239319.93,Ignorar,"3677 Gamble Road Apt. 473\nLake Laurie, MO 963..."
1271,37971.21,5.81,Mediano,3.24,33267.77,31140.52,Ignorar,"98398 Terrance Pines\nSouth Joshua, MT 00544-8919"
2756,62173.58,5.66,Mediano,3.14,3883.45,231189.82,Ignorar,"71460 Nelson Rest\nNew Alexis, IN 90049-5470"
1661,48735.92,6.09,Grande,2.43,19682.35,151527.08,Ignorar,"3426 Vicki Track\nLake Rebeccashire, TN 53858"


In [212]:
# PASO 4. Filtrar por 'price_tag' = "Ignorar"
P4=pdp.ValDrop(['Ignorar'],'price_tag')
pipeline=P1+P2+P3+P4
df4 = pipeline(df)
df4.shape

(4990, 8)

In [213]:
round(df4.sort_values(by=['price_tag']),2)  # Verify price_tag Filter

Unnamed: 0,Avg. Area Income,Avg. Area Number of Rooms,size_tag,Avg. Area Number of Bedrooms,Area Population,Price,price_tag,Address
0,79545.46,7.01,Grande,4.09,23086.80,1059033.56,Comprar,"208 Michael Ferry Apt. 674\nLaurabury, NE 3701..."
3340,80807.73,5.82,Mediano,2.47,42405.92,1304284.23,Comprar,"75696 Adam Hollow\nMichaelmouth, IA 36655-0630"
3339,77124.80,8.22,Grande,5.37,39465.16,1814462.35,Comprar,"585 Riley Meadows\nGaryport, MH 77104"
3338,72662.41,7.46,Grande,4.05,50672.93,1371521.62,Comprar,"PSC 7034, Box 6131\nAPO AA 05662-4293"
3337,71635.47,6.08,Grande,2.16,43555.46,1148372.40,Comprar,21042 Wilson Islands Suite 238\nFischerchester...
...,...,...,...,...,...,...,...,...
1667,72488.16,8.21,Grande,4.03,41199.25,1450393.53,Comprar,"974 Austin Loop Suite 256\nThorntonberg, NH 82286"
1666,66064.53,6.88,Grande,4.40,44561.33,1444701.33,Comprar,"054 Carter Crescent Suite 674\nGlennport, WA 1..."
1665,59390.35,6.75,Grande,4.31,28995.96,788427.84,Comprar,"8460 Kathleen Mission Apt. 482\nPort Amytown, ..."
1672,49775.41,6.18,Grande,2.24,23557.36,454055.66,Comprar,"7952 Hubbard Port Apt. 171\nScottstad, FL 5093..."


In [227]:
# PASO 5. Estandarizar las colúmnas numéricas
P5=pdp.Scale('StandardScaler')
pipeline=P1+P2+P3+P4+P5
df5 = pipeline(df)
df5.shape

(4990, 8)

In [228]:
round(df5.sample(5),2)

Unnamed: 0,Avg. Area Income,Avg. Area Number of Rooms,size_tag,Avg. Area Number of Bedrooms,Area Population,Price,price_tag,Address
641,0.28,0.45,Grande,1.66,-0.72,-0.17,Comprar,"9822 Theresa Spur Suite 629\nNorth Vicki, AR 8..."
1205,-0.24,0.51,Grande,0.85,-0.78,-0.59,Comprar,"26319 Lisa Tunnel Apt. 076\nDavidhaven, FL 69932"
593,-0.68,0.1,Grande,-0.56,1.31,0.3,Comprar,USNV Shepherd\nFPO AE 34548
539,0.24,-1.13,Mediano,-0.73,0.45,-0.14,Comprar,"42039 Ashley Extension\nElizabethhaven, WY 73367"
4150,-0.5,0.97,Grande,0.14,-1.6,-0.72,Comprar,3045 Turner Squares Suite 595\nSouth Brittanyt...


In [229]:
# PASO 6. Toquenizar 'Address'
P6=pdp.TokenizeWords('Address')
pipeline=P1+P2+P3+P4+P5+P6
df6 = pipeline(df)
df6.shape

(4990, 8)

In [230]:
round(df6.sample(5),2)

Unnamed: 0,Avg. Area Income,Avg. Area Number of Rooms,size_tag,Avg. Area Number of Bedrooms,Area Population,Price,price_tag,Address
2166,-0.34,0.6,Grande,-0.69,-1.33,-0.29,Comprar,"[5299, Rodriguez, Springs, Apt, ., 297, Castil..."
897,0.37,0.06,Grande,-0.54,0.31,0.66,Comprar,"[PSC, 6728, ,, Box, 9260, APO, AA, 33818]"
3733,-1.29,0.41,Grande,1.8,1.04,-0.33,Comprar,"[83046, Hill, Spur, Suite, 365, Zunigaside, ,,..."
594,-0.97,0.41,Grande,0.93,0.89,-0.4,Comprar,"[17568, Pena, Port, Apt, ., 211, West, Joseph,..."
2133,0.66,1.46,Grande,-0.58,0.46,1.05,Comprar,"[216, Oliver, Keys, Zamorafurt, ,, GU, 66579]"


In [234]:
# PASO 7. Add 'State' Column
def extract_state(token):
    return str(token[-2])

P7=pdp.ApplyByCols('Address',extract_state,'State',drop=False)
pipeline=P1+P2+P3+P4+P5+P6+P7
df7 = pipeline(df)
df7.shape

(4990, 9)

In [235]:
round(df7.sample(5),2)

Unnamed: 0,Avg. Area Income,Avg. Area Number of Rooms,size_tag,Avg. Area Number of Bedrooms,Area Population,Price,price_tag,Address,State
2358,0.9,-0.68,Grande,0.14,2.48,1.88,Comprar,"[744, Collins, Extensions, Nicholasborough, ,,...",MS
1852,-1.25,-1.37,Mediano,0.26,-0.21,-1.91,Comprar,"[489, John, Locks, West, Kylestad, ,, IL, 5578...",IL
701,0.19,-1.24,Mediano,-1.39,-0.09,-0.43,Comprar,"[70172, Harding, Burgs, New, Elizabeth, ,, GA,...",GA
1577,0.34,-1.0,Mediano,-1.45,-0.4,-0.43,Comprar,"[59229, Allen, Viaduct, Apt, ., 806, Lake, Bra...",NV
2181,-0.78,0.65,Grande,2.0,0.22,0.37,Comprar,"[2441, Amber, Manors, Suite, 444, Kleinfort, ,...",TN


## En Resumen:

In [36]:
df = pd.read_csv("C:/Users/ROG/0.PYTHON-JUPYTER/USA_Housing.csv")  #("USA_Housing.csv")

# PASO1. Eliminar Columna 'Avg. Area House Age'
P1=pdp.ColDrop('Avg. Area House Age') # Definir Paso

# PASO 2. Añadir Columna con Clasificación por Tamaño
# Definición de Clasificador por 'Tamaño':
def size_tag(n):
    if n<=4:
        return 'Pequeño'
    elif 4<n<=6:
        return 'Mediano'
    else:
        return 'Grande'

P2=pdp.ApplyByCols('Avg. Area Number of Rooms',size_tag,'size_tag',drop=False) # Definir Paso

# PASO 3. Añadir Columna 'price_tag' de Clasificación por Costo y desplegar en orden de 'price_tag'
# Definición de Clasificador por Costo:
def price_tag(x):
    if x>250000:
        return 'Comprar'
    else:
        return 'Ignorar'

P3=pdp.ApplyByCols('Price',price_tag,'price_tag',drop=False)

# PASO 4. Filtrar por 'price_tag' = "Ignorar"
P4=pdp.ValDrop(['Ignorar'],'price_tag')

# PASO 5. Estandarizar las colúmnas numéricas
P5=pdp.Scale('StandardScaler')

# PASO 6. ??
P6=pdp.TokenizeWords('Address')

# PASO 7. Add 'State' Column
def extract_state(token):
    return str(token[-2])

P7=pdp.ApplyByCols('Address',extract_state,'State',drop=False)

# La Tubería:
pipeline=P1+P2+P3+P4+P5+P6+P7
df7 = pipeline(df)
df7.shape