# Regression with Pyspark

A diferencia de los modelos de clasificación que estan basados en representar clases de forma discreta. Los modelos de **regresión** se ocupan de predecir variables objetivo que pueden estar representadas por cualquier valor real. Los modelos de regresión pueden usarse para:

* Predecir el rendimiento de acciones y otras variables económicas.
* Predecir las pérdidas por impagos de préstamos (esto se puede combinar con un modelo de clasificación que permite predecir la probabilidad de incumplimiento, mientras que el modelo de regresión predice la cantidad en caso de que haya un impago).
* Sistemas de recomendaciónes.
* Predecir el valor de vida del cliente (CLTV) en una venta al por menor, móvil, u otro negocio, basado en el comportamiento del usuario y los patrones de gasto.


Para este ejemplo usaremos el [Bike Sharing Dataset](https://archive.ics.uci.edu/ml/datasets/Bike+Sharing+Dataset).

In [44]:
#con pandas
import pandas as pd
df_hour = pd.read_csv('/Users/user/GitHub/PySpark-Notes/Bike-Sharing-Dataset/hour.csv',\
                 names = ['instant','dteday','season',\
                          'yr','mnth','hr','holiday','weekday','workingday',\
                          'weathersit','temp','atemp','hum','windspeed'\
                          ,'casual','registered','cnt'])

df_hour.head()

Unnamed: 0,instant,dteday,season,yr,mnth,hr,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
0,1,2011-01-01,1,0,1,0,0,6,0,1,0.24,0.2879,0.81,0.0,3,13,16
1,2,2011-01-01,1,0,1,1,0,6,0,1,0.22,0.2727,0.8,0.0,8,32,40
2,3,2011-01-01,1,0,1,2,0,6,0,1,0.22,0.2727,0.8,0.0,5,27,32
3,4,2011-01-01,1,0,1,3,0,6,0,1,0.24,0.2879,0.75,0.0,3,10,13
4,5,2011-01-01,1,0,1,4,0,6,0,1,0.24,0.2879,0.75,0.0,0,1,1


In [38]:
#regresamos el numero de instancias por clase:
df_hour.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17379 entries, 0 to 17378
Data columns (total 17 columns):
instant       17379 non-null int64
dteday        17379 non-null object
season        17379 non-null int64
yr            17379 non-null int64
mnth          17379 non-null int64
hr            17379 non-null int64
holiday       17379 non-null int64
weekday       17379 non-null int64
workingday    17379 non-null int64
weathersit    17379 non-null int64
temp          17379 non-null float64
atemp         17379 non-null float64
hum           17379 non-null float64
windspeed     17379 non-null float64
casual        17379 non-null int64
registered    17379 non-null int64
cnt           17379 non-null int64
dtypes: float64(4), int64(12), object(1)
memory usage: 2.3+ MB


In [39]:
raw_data = sc.textFile('/Users/user/GitHub/PySpark-Notes/Bike-Sharing-Dataset/hour.csv')
num_data = raw_data.count()
records = raw_data.map(lambda x: x.split(","))
first = records.first()
print 'first:\n',first

print '\nnum_data:\n',num_data

first:
[u'1', u'2011-01-01', u'1', u'0', u'1', u'0', u'0', u'6', u'0', u'1', u'0.24', u'0.2879', u'0.81', u'0', u'3', u'13', u'16']

num_data:
17379


In [40]:
records.cache()

def get_mapping(rdd, idx):
    return rdd.map(lambda fields: fields[idx]).distinct().zipWithIndex().collectAsMap()

In [54]:
print get_mapping(records, 2)

{u'1': 0, u'3': 1, u'2': 2, u'4': 3}
