### Dataset con informacion financiera, gastos y entradas de personas de distinto sexo y distritos o barrios o sectores de una ciudad, estas ultimas son variables categoricas

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

In [None]:
df = pd.read_csv("../datasets/ecom-expense/Ecom Expense.csv")

In [None]:
df.head()

In [None]:
#creamos un dummy para las variables categoricas, con esto se asignan variables numericas a cada categoria
dummy_gender = pd.get_dummies(df["Gender"],prefix ="Gender")
dummy_city_tier = pd.get_dummies(df["City Tier"],prefix ="City")


In [None]:
#quedan 2 columnas para la variable categorica Gender
dummy_gender.head()

In [None]:
#quedan 3 columnas para la variable categorica City Tier
dummy_city_tier.head()

In [None]:
#Se unen estas variables dummy al dataframe principal con JOIN
column_names = df.columns.values.tolist() #se crea una lista con los nombres de columnas del df principal
column_names

In [None]:
df_new = df[column_names].join(dummy_gender)
column_names = df_new.columns.values.tolist()
df_new.head()

In [None]:
df_new = df_new[column_names].join(dummy_city_tier)
df_new.head()


In [None]:
#ahora ver como incluimos las variables dummy en el modelo lineal que buscamos crear para predecir el gasto total
feature_cols = ["Monthly Income","Transaction Time",
                "Gender_Female","Gender_Male",
                "City_Tier 1","City_Tier 2","City_Tier 3",
               "Record"]

In [None]:
#variables a usar como predictores
X = df_new[feature_cols]
#variable Y que se quiere predecir
Y = df_new["Total Spend"]

In [None]:
#ahora se crea el modelo lineal con sklearn
lm = LinearRegression()
lm.fit(X,Y)

In [None]:
print(lm.intercept_)
print(lm.coef_)

In [None]:
#se unen las columnas con con sus respectivos coeficientes
list(zip(feature_cols,lm.coef_))

In [None]:
lm.score(X,Y) #R2 sale bajo 0.19, hay que refinar el modelo, agregaremos la variable Record, ver como aumenta mucho el R2

### El modelo entonces puede ser escrito como
Total_Spend = -79.4171303013718 +'Monthly Income'*0.1475389804920574  + 'Transaction Time'*0.15494612549589393 +             
                                 'Gender_Female' *-131.02501325554675 + 'Gender_Male'*131.02501325554664       +
                                 'City_Tier 1'   *76.764326010495     + 'City_Tier 2'*55.13897430923278        +
                                 'City_Tier 3'   *-131.90330031972783 +  'Record'    *772.2334457445645
### Lo anterior es la forma global del modelo, pero se debe dividir segun las variables categoricas
    * Si es hombre y vive en CT1

In [None]:
# calculamos la desviacion tipica de los residuos RSE
df_new["prediction"] = -79.4171303013718 +df_new['Monthly Income']*0.1475389804920574  + df_new['Transaction Time']*0.15494612549589393+ df_new['Gender_Female']*(-131.02501325554675) + df_new['Gender_Male']*131.02501325554664 +  df_new['City_Tier 1']*76.764326010495 + df_new['City_Tier 2']*55.13897430923278+  df_new['City_Tier 3']*(-131.90330031972783) + df_new[ 'Record']*772.2334457445645                                                     

In [None]:
df_new.head()

In [None]:
SSD = np.sum((df_new["prediction"] - df_new["Total Spend"])**2)

In [None]:
SSD

In [None]:
RSE = np.sqrt(SSD/(len(df_new)-len(feature_cols)-1))

In [None]:
RSE

In [None]:
sales_mean =np.mean(df_new["Total Spend"])
sales_mean

In [None]:
error = RSE/sales_mean


In [None]:
error

### Eliminar variables dummies redundantes

In [None]:
dummy_gender = pd.get_dummies(df["Gender"],prefix="Gender").iloc[:,1:]
dummy_gender.head()

In [None]:
dummy_city_tier = pd.get_dummies(df["City Tier"],prefix="City").iloc[:,1:]
dummy_city_tier.head()


In [None]:
column_names = df.columns.values.tolist()
df_new = df[column_names].join(dummy_gender)
column_names = df_new.columns.values.tolist()
df_new = df_new[column_names].join(dummy_city_tier)
df_new.head()

In [None]:
feature_cols = ["Monthly Income","Transaction Time",
                "Gender_Male",
               "City_Tier 2","City_Tier 3",
               "Record"]
X = df_new[feature_cols]
Y = df_new["Total Spend"]
lm = LinearRegression()
lm.fit(X,Y)

In [None]:
print(lm.intercept_)

In [None]:
list(zip(feature_cols,lm.coef_))

In [None]:
#el modelo noha cambiado, solo lo hemos simplificado con menos variables dummies
lm.score(X,Y)

### Comparando los coeficientes de ambos implementaciones del modelo
#### Con todas las variables del modelo
* ('Monthly Income', 0.1475389804920574),
* ('Transaction Time', 0.15494612549589393),
* ('Gender_Female', -131.02501325554675),
*  ('Gender_Male', 131.02501325554664),
*  ('City_Tier 1', 76.764326010495),
*  ('City_Tier 2', 55.13897430923278),
*  ('City_Tier 3', -131.90330031972783),
*  ('Record', 772.2334457445645)]

#### luego de enmascarar las variables dummies
* ('Monthly Income', 0.14753898049205744),
* ('Transaction Time', 0.15494612549589837),
* ('Gender_Male', 262.0500265110939),
* ('City_Tier 2', -21.62535170126288),
* ('City_Tier 3', -208.66762633022293),
* ('Record', 772.2334457445637)]

#### Los cambios se reflejan al quitar el caso base de las variables que hemos elimnado, el modelo queda igual, pero los coeficientes se redistribuyen
* Gender Male
    * antes -> 131.02501325554664
    * despues -> 262.0500265110939 = 131.02501325554675 -(-131.02501325554675)
* Gender Female
    * antes-> -131.02501325554675)
    * despues-> 0 (recordar que lo hemos quitado)
* CT1
    * antes  -> 76.764326010495
    * despues-> 0 (recordar que lo hemos quitado)
* CT2
    * antes ->  55.13897430923278
    * despues ->  -21.62535170126288 = 55.13897430923278 - 76.764326010495
* CT3
    * antes  -> -131.90330031972783
    * despues -> -208.66762633022293 = -131.90330031972783 -76.764326010495

### Transformacion de variables con conseguir relacion no lineal