<img style="float: left;;" src='Figures/iteso.jpg' width="100" height="200"/></a>

# <center> <font color= #000047> Transformación Logaritmico Recíproco </font> </center>

La transformación de variables numéricas es una técnica fundamental en el preprocesamiento de datos. Permite modificar la distribución de las variables para mejorar la relación con el modelo, reducir la asimetría, estabilizar la varianza y cumplir supuestos estadísticos.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split

housing = fetch_california_housing()
df=pd.DataFrame(data=housing.data,columns=housing.feature_names)
df[housing.target_names[0]]=housing.target

In [None]:
df.info()

# Transformación logarítmica

Pensemos un momento en los logaritmos decimales (base 10). En la escala logarítmica hay la misma distancia entre 1 y 10 que entre 10 y 100 y que entre 100 y 1000. ¿Qué quiere decir esto?. Pues que si transformamos cada variable en su logaritmo, los valores entre 1 y 10 se expandirán, mientras que los más altos se comprimirán. Por eso la transformación logarítmica es útil para transformar distribuciones con sesgo positivo (con cola más larga hacia la derecha): la parte izquierda se expandirá, mientras que la derecha se comprimirá, favoreciendo que la curva resultante se ajuste mejor a una normal.


$$ X_{log} = \log(X) $$

- Reduce la asimetría positiva (colas largas a la derecha).
- Solo se aplica a valores positivos.

In [None]:
# Gráfica de X vs X'
x=np.linspace(0.1,10,100)
xp=np.log10(x)
plt.plot(x,xp)
plt.plot(x,x-1,'--k')
plt.axis([0,10,-1,5])
plt.grid()

Esta transformación logarítmica solo vale para números mayores que cero, aunque si tenemos una distribución con valores negativos podríamos **sumar una constante a cada valor** para que fuese mayor que cero antes de calcular su logaritmo. Cuando la nueva curva se ajusta a la campana se dice que sigue una distribución lognormal.

In [None]:
#restar el valor minimo de cada columna y sumarle uno para calcular después el logaritmo


In [None]:
#df_log=df.copy()


In [None]:
#Obtener el sesgo
sesgo=df.skew()
sesgo

In [None]:
sesgo_log=df_log.skew()
sesgo_log

# Transformación recíproca

En ocasiones, si la distribución está muy sesgada, puede hacerse la transformación recíproca, más potente y que produce un efecto similar a la logarítmica. Otra tercera posibilidad, menos potente que la logarítmica, es transformar calculando la raíz cuadrada de cada valor.

Convierte una variable $X$ en $1/X$.

$$ X_{rec} = \frac{1}{X} $$

- Reduce la asimetría positiva.
- No se puede aplicar si hay ceros.

In [None]:
# Gráfica X vs X'
plt.plot(x,xp+1,label='$log_{10}$')
plt.plot(x,np.log(x)+1,label='$ln$')
plt.plot(x,np.sqrt(x),label='raíz')
plt.plot(x,1/x,label='recíproco')
plt.plot(x,x,'--k')
plt.ylim([0,5])
plt.legend()
plt.grid()

In [None]:
#Histograma de la transformación reciproca
df_r=1/(df-df.min()+1)
H=df_r.hist(figsize=(10,7),bins=50)

In [None]:
sesgo

In [None]:
sesgo_log

In [None]:
sesgo_r=df_r.skew()
sesgo_r

# Ejemplos con Regresión Lineal

In [None]:
#Qué trnasformación utilizar?


In [None]:
# Aplicamos logaritmo a las variables 0,2,4,6 y 8.
# Recíproco a las variables 3 y 5.
# Y ninguna transformación a las variables 1 y 7
#


In [None]:
# Transformación para MedHouseVal -> log10


In [None]:
#Visualización de la regresión datos originales



In [None]:
#Visualización de la regresión datos transformados


In [None]:
#Visualización de los datos transformados vs sin transformar


## Ejemplo Regresión para una variable

In [None]:
# Regresión para una variable
#
df = pd.read_csv('regresion.csv')

In [None]:
df.info()

**Qué transformación elegir? (t_log, t_r)**

In [None]:
#Reg Lineal con los datos sin transformar


In [None]:
#Reg Lineal con los datos transformados


In [None]:
# Gráfica de los datos transformados


In [None]:
# Gráfica de los datos destransformados


## Resumen

- **Logarítmica y recíproca:** Útiles para reducir asimetría positiva. Solo para valores positivos.

**Ventajas:** Reduce la asimetría positiva, estabiliza la varianza, facilita la interpretación de los resultados en términos de porcentajes.

**Desventajas:** No se puede aplicar a datos con valores negativos o cero, puede exagerar las diferencias entre valores pequeños.