<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Logo%20Statsmodels.png?raw=true" width="280">
</p>

# **<font color="#07a8ed">Estadística**


<p align="justify">
Dentro del mundo de la ciencia de datos es imprescindible conocer los conceptos y modelos de estadítica. En la actualidad, es posible realizar complejos análisis estadísticos de manera sencilla gracias a lenguajes de programación como Python.  
<br><br>  
La estadística suele ser definida como la ciencia de obtener conclusiones en condiciones de incertidumbre. Se relaciona principalmente con la recolección, análisis e interpretación de datos. En definitiva, la estadística nos brinda los principios fundamentales que nos permiten extraer y entender esa información.
<br><br>
La estadística suele ser dividida en dos grandes ramas: <b>descriptiva</b> e <b>inferencial</b>.

# **<font color="#07a8ed">Estadística inferencial**

<p align="justify">
La estadística inferencial nos permite estimar parámetros poblacionales a partir de la muestra utilizada, así como realizar el contraste de hipótesis.
<br><br>
La idea general es hacer una inferencia o predicción. Por ejemplo, estimar el nivel de ventas en base a la publicidad o el salario que debería cobrar un empleado en base a su antiguedad.



# **<font color="#07a8ed">Regresión lineal**

<p align="justify">
La regresión lineal es un método estadístico que trata de modelar la relación entre una <b>variable continua</b> y una o más variables independientes mediante el ajuste de una ecuación lineal. Se llama <b>regresión lineal simple</b> cuando solo hay una variable independiente y <b>regresión lineal múltiple</b> cuando hay más de una.
<br>
<br>
A la variable dependiente también se le conoce como variable explicada o variable respuesta, y a las variables independientes como regresoras, explicativas o <i>features</i>.
<br>
<br>
Suponga que llamamos $x$ a la variable explicativa o independiente e $y$ a la variable explicada o dependiente. Entonces, para cada valor de $x$, la variable explicada $y$ responde a la expresión de la forma:
<br>
<br>
$$ y = \beta_0+\beta_1x+\epsilon $$
<br>
<br>
Donde $\epsilon$ es una variable aleatoria con distribución normal $N(0,\sigma^2)$ y $\beta_0$ y $\beta_1$ son los parámetros del modelo.
<br>
<br>
Los supuestos que se analizan más adelante son 2:
<br>
<br>

* ***Normalidad*** *: cada variable aleatoria $\epsilon_i$, i=1,...,n tiene distribución normal.*
* ***Homoscedasticidad*** *(igualdad de varianzas): $var(\epsilon_1)=var(\epsilon_2)=...=var(\epsilon_n)$*

<p align="justify">
Por lo tanto, la regresión lineal es un método estadístico para predecir o inferir el valor que tomará la variable dependiente $y$ basado en los valores de una variable independiente $x$.
<br>
<br>
Se trata de encontrar la función lineal (con sus parámetros) que predice $y$ en función de la variable $x$.



<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Regresion-lineal-001.png?raw=true" width="500">
</p>


<p align="justify">
Para calcular la función lineal se puede utilizar el <b>método de mínimos cuadrados</b>. El cual busca la recta que minimiza la distancia total de los puntos (valor real) respecto de las predicciones.

<p align="center">
<img src="https://github.com/cristiandarioortegayubro/BDS/blob/main/images/Regresion-lineal-002.png?raw=true" width="500">
</p>


# **<font color="#07a8ed">Estadística inferencial con Python**

## **<font color="#07a8ed">Librerías**

### **<font color="#07a8ed">Para análisis estadístico**

In [1]:
# Operaciones matemáticas y estadísticas
import pandas as pd
import numpy as np
from scipy.stats import pearsonr, shapiro

### **<font color="#07a8ed">Para gráficos**

In [2]:
# Visualización
import plotly.express as px
import plotly.graph_objs as go
import matplotlib.pyplot as plt

In [3]:
from termcolor import colored

### **<font color="#07a8ed">Para modelado**

In [4]:
import statsmodels.stats.api as sms
import statsmodels.formula.api as smf

## **<font color="#07a8ed">Conjunto de Datos**

In [5]:
url = "https://raw.githubusercontent.com/cristiandarioortegayubro/UNI/main/Salary_Data.csv"
datos = pd.read_csv(url)
datos.head()

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0
3,2.0,43525.0
4,2.2,39891.0


In [6]:
datos.shape

(30, 2)

In [7]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30 entries, 0 to 29
Data columns (total 2 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   YearsExperience  30 non-null     float64
 1   Salary           30 non-null     float64
dtypes: float64(2)
memory usage: 608.0 bytes


## **<font color="#07a8ed">Representación gráfica**

In [8]:
px.scatter(datos,
           x=datos.YearsExperience,
           y=datos.Salary,
           title="Distribución de Salarios y Años de Experiencia",
           template="gridon",
           labels={"YearsExperience":"Años de Experiencia",
                   "Salary":"Salario"})

## **<font color="#07a8ed">Ajuste del modelo**

[Documentación](https://www.statsmodels.org/stable/index.html)
<p align="justify">
Statsmodels es una biblioteca de Python que proporciona clases y funciones para la estimación de modelos estadísticos, así como para realizar pruebas estadísticas y exploración de datos estadísticos. Hay disponible una lista extensa de estadísticas de resultados para cada estimador. Los resultados se comparan con los paquetes estadísticos existentes para garantizar que sean correctos. Esta biblioteca tiene una sintaxis y características muy simulares a las del lenguaje R.

<p align="justify">
Se ajusta un modelo empleando como variable respuesta Salario y como predictor Años de Experiencia.

In [9]:
modelo = smf.ols(formula="Salary~YearsExperience", data=datos)
modelo = modelo.fit()
print(modelo.summary());

                            OLS Regression Results                            
Dep. Variable:                 Salary   R-squared:                       0.957
Model:                            OLS   Adj. R-squared:                  0.955
Method:                 Least Squares   F-statistic:                     622.5
Date:                Sun, 29 Sep 2024   Prob (F-statistic):           1.14e-20
Time:                        14:52:42   Log-Likelihood:                -301.44
No. Observations:                  30   AIC:                             606.9
Df Residuals:                      28   BIC:                             609.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                      coef    std err          t      P>|t|      [0.025      0.975]
-----------------------------------------------------------------------------------
Intercept        2.579e+04   2273.053     

<p align="justify">
El modelo tiene un $𝑅^2$  muy alto (0.957). Es decir, "YearsExperience" es capaz de explicar el 95.7% de la variabilidad observada en el "Salary".
<br><br>
F estadísitco grande (F-statistic =	622.5) y p-valor asociado extremadamente pequeño (Prob (F-statistic) = 1.14e-20), el modelo en su conjunto es estadísticamente significativo.
<br><br>
Tanto como la constante (Intercept), como los años de experiencia son estadísticamente significativos. Es decir, ambos explican significativamente el salario de un empleado.

## **<font color="#07a8ed">Interpretación**

In [10]:
modelo.params #parámetros (coeficientes) del modelo generado.

Unnamed: 0,0
Intercept,25792.200199
YearsExperience,9449.962321


$$Salary = \ 25792.20 + 9449.96\ YearsExperience$$

<p align="justify">
La ordenada al origen da el salario medio estimado cuando el empleado no tiene experiencia. La pendiente representa cuanto aumenta la ganancia el salario medio por cada año de experiencia adicional.
<br><br>
Esto significa que cuando el años de experiencia es 0, el salario medio es de 25792.2 y, en la medida que aumenten los años va a aumentar en 9449,96 por año.

## **<font color="#07a8ed">¿Están normalmente distribuidos y tienen igual varianza los residuos?**

In [11]:
residuos = modelo.resid
#residuos

### **<font color="#07a8ed">Normalidad**

In [12]:
px.histogram(x=residuos,
             labels={"x":"residuos"}, template = "gridon").update_layout(bargap=0.2)

In [13]:
test_result_n = shapiro(residuos)
print(f"p-valor: {test_result_n[1]:.3f}")

p-valor: 0.195


*$$H_0: La \ distribuación \ es \ normal \ versus \ H_1: La \ distribución \ no \ es \ normal$$*
<p align="justify">
El p-valor para la normalidad de los residuos con este test es 0.195, en consecuancia, no se rechaza la hipótesis nula sobre la normalidad de los residuos, y en consecuencia de la variable respuesta.

**Los residuos del modelo son normales.**



### **<font color="#07a8ed">Homoscedasticidad**

##La varianza de la variable respuesta debe ser constante en todo el rango de los predictores. Para comprobarlo suelen representarse los residuos del modelo frente a cada predictor. Si la varianza es constante, se distribuyen de forma aleatoria manteniendo una misma dispersión y sin ningún patrón específico. Una distribución cónica es un claro identificador de falta de homocedasticidad. También se puede recurrir a contrastes de homocedasticidad como el test de Breusch-Pagan.

In [14]:
px.scatter(y=residuos,
           template="gridon",
           labels={"x":"residuos"})

[Documentación](https://www.statsmodels.org/dev/generated/statsmodels.stats.diagnostic.het_breuschpagan.html)

In [15]:
test_result_h = sms.het_breuschpagan(residuos.values, modelo.model.exog)
print(f"p-valor: {test_result_h[3]:.3f}")

p-valor: 0.544


*$$H_0: s_1^2 = s_2^2 =...= s_n^2 \ versus \ H_1: s_i^2 \neq s_j^2 \ para \ al \ menos \ un \ par \ (i,j)$$*

<p align="justify">
El valor p para la homoscedasticidad de los residuos con este test es 0.544, en consecuancia, no se rechaza la hipótesis nula sobre la homoscedasticidad de los residuos.

**Las varianzas de los residuos no son significativamente diferentes.**

**El modelo es normal y homoscedastico.**

## **<font color="#07a8ed">Predicción y evaluación del modelo**

<p align="justify">
Una vez creado y ajustado el modelo, se pueden obtener predicciones.

In [16]:
X = datos[['YearsExperience']]
y = datos['Salary']

In [17]:
X.head()

Unnamed: 0,YearsExperience
0,1.1
1,1.3
2,1.5
3,2.0
4,2.2


In [18]:
prediccion = modelo.predict(X)

In [19]:
tabla = pd.DataFrame({"Prediccion":round(prediccion,1),
                      "Real":y,
                      "Residuos": (y-prediccion)})
tabla.head()

Unnamed: 0,Prediccion,Real,Residuos
0,36187.2,39343.0,3155.841248
1,38077.2,46205.0,8127.848783
2,39967.1,37731.0,-2236.143681
3,44692.1,43525.0,-1167.124842
4,46582.1,39891.0,-6691.117306


In [20]:
px.scatter(datos,
           x=X.YearsExperience,
           y=y,
           title="Distribución de Salarios y Años de Experiencia",
           template="gridon",
           trendline="ols",
           trendline_color_override="darkorange",
           labels={"Salary":"Salario","x":"Años de experiencia"})

### **<font color="#07a8ed">Predicciones con intervalo de confianza del 95%**

<p align="justify">
Además de la línea de mínimos cuadrados, es recomendable incluir los límites superior e inferior del intervalo de confianza. Esto permite identificar la región en la que, según el modelo generado y para un determinado nivel de confianza, se encuentra el valor promedio de la variable respuesta.

In [21]:
prediccion2 = modelo.get_prediction(exog = X).summary_frame(alpha=0.05)
prediccion2['x'] = X.YearsExperience
prediccion2['y'] = y
prediccion2.head()

Unnamed: 0,mean,mean_se,mean_ci_lower,mean_ci_upper,obs_ci_lower,obs_ci_upper,x,y
0,36187.158752,1914.01642,32266.473848,40107.843656,23698.920674,48675.39683,1.1,39343.0
1,38077.151217,1851.331282,34284.870996,41869.431437,25628.628836,50525.673597,1.3,46205.0
2,39967.143681,1789.657113,36301.19727,43633.090092,27556.523903,52377.763459,1.5,37731.0
3,44692.124842,1640.638443,41331.429339,48052.820345,32368.221465,57016.028218,2.0,43525.0
4,46582.117306,1583.447811,43338.571501,49825.663111,34289.64361,58874.591002,2.2,39891.0


In [22]:
fig = go.Figure([go.Scatter(x = prediccion2.x,
                            y = prediccion2.y,
                            mode = "markers",
                            showlegend = False,
                            name = "Real"),
                 go.Scatter(x = prediccion2.x,
                            y = prediccion2["mean"],
                            name = "Predicción media (OLS)"),
                 go.Scatter(x = prediccion2.x,
                            y = prediccion2.mean_ci_upper,
                            name = "Limite superior"),
                 go.Scatter(x = prediccion2.x,
                            y = prediccion2.mean_ci_lower,
                            name = "Limite inferior"),
                 ])

fig.update_layout(template =    "gridon",
                  title =       "Regresion lineal simple",
                  yaxis_title = "Salario",
                  xaxis_title = "Años de experiencia")

fig.show()

### **<font color="#07a8ed">Aplicacion del algoritmo con sklearn**

In [24]:
datos.head(3)

Unnamed: 0,YearsExperience,Salary
0,1.1,39343.0
1,1.3,46205.0
2,1.5,37731.0


In [25]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html


https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html


In [26]:
# División de los datos en train y test
# ==============================================================================
X = datos[['YearsExperience']]
y = datos['Salary']

X_train, X_test, y_train, y_test = train_test_split(
                                        X,
                                        y,
                                        train_size   = 0.8,
                                        random_state = 1234,
                                        shuffle      = True
                                    )

# Creación del modelo
# ==============================================================================
modelo = LinearRegression()
modelo.fit(X = X_train, y = y_train)

In [27]:
# Información del modelo
# ==============================================================================
print(f"Intercept: {modelo.intercept_}")
print(f"Coeficiente: {list(zip(modelo.feature_names_in_, modelo.coef_))}")
print(f"Coeficiente de determinación R^2:", modelo.score(X, y))

Intercept: 24346.350375141083
Coeficiente: [('YearsExperience', 9646.582342916585)]
Coeficiente de determinación R^2: 0.9563208965458186


##Una vez entrenado el modelo, se evalúa la capacidad predictiva empleando el conjunto de test.

In [28]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error # import the function
import numpy as np # import numpy for the square root function


In [29]:
# Error de test del modelo
# ==============================================================================
predicciones = modelo.predict(X=X_test)
rmse = np.sqrt(mean_squared_error(y_true  =y_test, y_pred = predicciones)) # calculate rmse using mean_squared_error
print(f"Primeras cinco predicciones: {predicciones[0:5]}")
print(f"El error (rmse) de test es: {rmse}")

Primeras cinco predicciones: [ 55215.41387247  61968.02151252  45568.83152956  36886.90742093
 123706.14850718]
El error (rmse) de test es: 5889.757771271846


$$Salary = \ 25792.20 + 9449.96\ YearsExperience$$

<p align="justify">
La ordenada al origen da el salario medio estimado cuando el empleado no tiene experiencia. La pendiente representa cuanto aumenta la ganancia el salario medio por cada año de experiencia adicional.
<br><br>
Esto significa que cuando el años de experiencia es 0, el salario medio es de 25792.2 y, en la medida que aumenten los años va a aumentar en 9449,96 por año.

In [30]:
from sklearn.metrics import r2_score

In [31]:
r2 = r2_score(y_true=y_test, y_pred=predicciones)
print(f"El  (R2) de test es: {r2}")

El  (R2) de test es: 0.9526132681833809


In [32]:
predicciones

array([ 55215.41387247,  61968.02151252,  45568.83152956,  36886.90742093,
       123706.14850718,  55215.41387247])

In [33]:
y_test[0:6]

Unnamed: 0,Salary
7,54445.0
10,63218.0
4,39891.0
1,46205.0
28,122391.0
8,64445.0


In [34]:
predicciones[0:6]

array([ 55215.41387247,  61968.02151252,  45568.83152956,  36886.90742093,
       123706.14850718,  55215.41387247])

In [35]:
## hacer un DataFrame con dos columnas y_test[0:6] y predicciones[0:6]
data = pd.DataFrame({'y_test':y_test[0:6], 'predicciones':predicciones[0:6]})
data

Unnamed: 0,y_test,predicciones
7,54445.0,55215.413872
10,63218.0,61968.021513
4,39891.0,45568.83153
1,46205.0,36886.907421
28,122391.0,123706.148507
8,64445.0,55215.413872
