### Cargar los datos y las librerías

> **¿Qué es un archivo `csv`?**
> 
> Un archivo csv (Comma-Separated Values) es un tipo de archivo de texto plano que almacena datos tabulares, es decir, datos dispuestos en filas y columnas. Cada fila en el archivo representa un registro o una fila de datos, y cada columna representa un campo o característica de los datos. Los valores en cada fila están separados por comas, de ahí el nombre "Comma-Separated Values". Este formato es ampliamente utilizado para el intercambio de datos entre diferentes sistemas y aplicaciones debido a su simplicidad y compatibilidad con una amplia gama de software, incluyendo hojas de cálculo como Microsoft Excel y programas de análisis de datos como Python con la biblioteca Pandas.
> 
> Los archivos csv son especialmente útiles en el campo de la ciencia de datos y el análisis de datos porque permiten una fácil importación y exportación de datos para su procesamiento y análisis. Por ejemplo, en Python, la biblioteca Pandas proporciona la función read_csv() para leer archivos csv y convertirlos en DataFrames, que son estructuras de datos bidimensionales que permiten el manejo y análisis de datos de manera eficiente.

In [1]:
import pandas as pd
import numpy as np  
import matplotlib.pyplot as plt

from sklearn.linear_model import LinearRegression

In [None]:
trainset = pd.read_csv( 'database/house-prices-train.csv' )
testset = pd.read_csv( 'database/house-prices-test.csv' )

trainset.head(3)

> **Función `describe()` de `pandas`**
>
> Genera estadísticas descriptivas de las columnas numéricas en un DataFrame. Cuando se aplica a un DataFrame que se ha creado a partir de un archivo CSV utilizando `read_csv()`, proporciona un resumen estadístico de las columnas numéricas, incluyendo el conteo, la media, la desviación estándar, los valores mínimos y máximos, y los cuartiles

In [None]:
trainset.describe()

**Explicación del resultado**

`count` $\to$ significa la cantidad de datos 

`mean` $\to$ media

`std` $\to$ desviación estándar

`min` $\to$ valor mínimo

`max` $\to$ valor máximo

`25%` $\to$ valor de la posición del primer cuartil 

`50%` $\to$ valor de la posición del segundo cuartil o mediana 

`75%` $\to$ valor de la posición del tercer cuartil 

### Cuartiles y Percentiles
Se utilizan para describir la posición de un dato específico con respecto al resto de los datos cuando están en orden por categorías

- El primer cuartil es el valor por debajo del cual se encuentra el 25% de los datos. Indica el valor más bajo que no es menor que el 25% de los datos. 
- El segundo cuartil o mediana es el valor central de un conjunto de datos
- El tercer cuartil es el valor por debajo del cual se encuentra el 75% de los datos. Específicamente, indica el valor más bajo que no es menor que el 75% de los datos

Los percentiles son puntos que dividen un conjunto de datos en 100 partes iguales. Cada percentil representa el valor por debajo del cual se encuentra un porcentaje específico de los datos. 

> Para calcular el percentil es ordenar los valores de la tabla y coger el valor que se encuentra en la posición que cae al calcular el porciento
> 

### Desviación Estándar
Es un número que describe cuán dispersas están las observaciones

In [None]:
std = np.std( trainset[ ['SalePrice'] ], axis=0 )
std

### Coeficiente de Variación
Se utiliza para tener una idea de qué tan grande es la desviación estándar. El coeficiente de variación se expresa en porcentaje y proporciona una medida de cuánto varína los datos en una relación con su media. 

Este se calcula con: $cv = std/mean$ 

In [None]:
cv = np.std( trainset[ ['SalePrice'] ], axis=0 ) / np.mean( trainset[ ['SalePrice'] ] )
cv

### Varianza


## Regresión Lineal Simple

### Desarrollo

In [None]:
trainset[ ['GrLivArea', 'SalePrice'] ].head()

In [None]:
trainset.plot.scatter( x='GrLivArea', y='SalePrice' )
plt.show()

Esta gráfica de datos podría definirse como un primer modelo de regresión (simple). En esta se puede trazar una recta y definir que existe un error. El error viene dado por la diferencia del valor de la recta y el valor correcto. Tomando la suma de estos errores y dividiendolo por la cantidad de errores existentes tenemos el *error cuadrático medio* (ECM)

In [None]:
# Parámetros de la recta
w = 120
b = 0

# Puntos de la recta 
x = np.linspace(0, trainset['GrLivArea'].max(), 100)
y = w*x + b

# Gráfica de la recta
trainset.plot.scatter(x='GrLivArea', y='SalePrice')
plt.plot(x, y, '-r')
plt.ylim(0, trainset['SalePrice'].max()*1.1)

plt.show()

### Cálculo de Predicciones (1er)


In [None]:
# Si escogemos esos parametros para el modelo cuál es el error? 

# calculo de las predicciones
trainset['pred'] = trainset['GrLivArea']*w+b

# calculo de la funcion de error 
trainset['diff'] = trainset['pred']-trainset['SalePrice']
trainset['cuad'] = trainset['diff']**2
trainset[ ['GrLivArea', 'SalePrice', 'pred', 'diff', 'cuad'] ].head()

### Usando sklearn para el 2do cálculo de predicciones

In [None]:
# definiendo input y output
X_train = np.array(trainset[ 'GrLivArea' ]).reshape((-1, 1))
Y_train = np.array(trainset[ 'SalePrice' ])

# creando modelo
model = LinearRegression(fit_intercept=True)
model.fit(X_train, Y_train)

intercept = model.intercept_
coef = model.coef_

# imprimiendo parametros
print(f"intercepto (b): {intercept}")
print(f"pendiente (w): {coef}")

In [None]:
x = np.linspace(0, trainset['GrLivArea'].max(), 100)
y = coef*x + intercept

# Gráfica de la recta
trainset.plot.scatter(x='GrLivArea', y='SalePrice')
plt.plot(x, y, '-r')
plt.ylim(0, trainset['SalePrice'].max()*1.1)

plt.show()

## FAG

### Regresión Lineal

Este se usa para intentar encontrar la relación entre las variables. La línea que se obtiene a través de la regresión lineal se llama línea de regresión. La idea es que esta línea representa la relación entre las variables de manera que la suma de las diferencias entre los valores observados y los valores predichos por la línea de regresión sea lo más chica posible

### Método de los mínimos cuadrados
Este método es utilizado para encontrar la mejor línea de ajuste (o modelo) que se ajuste a un conjunto de datos. Este método es método en regresión lineal se utiliza para minimizar la suma de los cuadrados de las diferencias entre los valores observados y los valores predichos por el modelo  

## Análisis de los Supuestos

### Supuesto de Homocedasticidad 

La prueba de Breusch-Pagan es una forma de comprobar si existe heterocedasticidad en el análisis de regresión. Una prueba de Breusch-Pagan sigue las siguientes hipótesis:
- **Hipótesis nula:** Significa que la homocedasticidad está presente.
- **Hipótesis alternativa:** Significa que la homocedasticidad no está presente (es decir, existe heterocedasticidad)

In [None]:
import numpy as np
import pandas as pd

import statsmodels.formula.api as smf
from statsmodels.compat import lzip
import statsmodels.stats.api as sms

In [13]:
# Creando un conjunto de datos
dataframe = pd.DataFrame({
  'rating': [92, 84, 87, 82, 98, 94, 75, 80, 83, 89],
  'points': [27, 30, 15, 26,27, 20, 16, 18,19, 20],
  'runs': [5000, 7000, 5102, 8019, 1200, 7210, 6200, 9214, 4012, 3102],
  'wickets': [110, 120, 110, 80, 90, 119, 116, 100, 90, 76]
})

In [None]:
# Ajustar el modelo de regresión lineal múltiple
fit = smf.ols('rating ~ points + runs + wickets', data=dataframe).fit()
print(fit.summary())

In [None]:
names = ['Lagrange multiplier statistic', 'p-value','f-value', 'f p-value']
# Obtener resultados del test
test_result = sms.het_breuschpagan(fit.resid, fit.model.exog)
lzip(names, test_result)

Dado que el valor $p$ es mayor que 0.05, no podemos rechazar la hipótesis nula. Por tanto, no tenemos pruebas suficientes para decir que la heteroscedasticidad está presente en el modelo de regresión 

#### Información de la Tabla de Regresión
##### Básicos
- `Dep. Variable` $\to$ Sería la variable dependiente. En la tabla sería `Calorie_Burnage`. La variable dependiente se explica aquí mediante `Average_Pulse`
- `Model` $\to$ OLS es Ordinary Least Squares. 
- `Date` and `Time` $\to$ Muestra la fecha y la hora de salida que fue calculado en Python

##### Seción de Coeficientes
- `coef` $\to$ es la abreviatura de coeficiente. Están las salidas de la función de la regresión lineal 
- `Intercept` y `Average_Pulse` en `coef` $\to$ hace que la función de regresión lineal pueda reescribirse de la siguiente forma: 
$$Calorie\_Burnage = 0.3296 * Average\_Pulse + 348.8662$$ 
Esos números significan que si Average_Pulse se incrementa en 1, Calorie_Burnage se incrementa en 0.3296 (0.3 redondeado). Si Average_Pulse = 0, the Calorie_burnage es igual a 346.8662 (346.9 redondeado). 
- `Intercept` es usada para ajustar el modelo de precisión de la predición 

##### Seción de las Estadísticas de los Coeficientes 
Esta seción sirve para testear si los componentes de la función de regresión lineal tiene un impacto significativo en la variable dependiente (`Calorie_Burnage`). En otras palabras, probar si existe una relación entre `Average_Pulse` y `Calorie_Burnage`, usando las pruebas de estadística

**Existen 4 componentes que explican las estadísticas de los coeficientes**
- `str err` que sería el error estándar 
- `t` que sería el valor `t` del coeficiente 
- `P>|t|` que sería el valor `P`
- `[0.025 0.975]` representa el intervalo de confianza de los coeficientes

##### El valor `P`
El valor `P` es el valor `p` asociado con el coeficiente de una variable independiente en el modelo. Este valor `p` es el resultado de una prueba de hipótesis que se utiliza para determinar si el coeficiente de la variable independiente es significativamente diferente de 0. El valor `P` ayuda a responder la pregunta de si la variable independiente tiene un efecto significativo sobre la variable dependiente. 

Este valor se calcula utilizando los residuos del modelo y los coeficientes estimados. Un valor `p` bajo ($< 0.05$) indica que es muy poco probable que el coeficiente observado se deba al azar, lo que sugiere que hay una relación significativa entre la variable independiente y la variable dependiente. 

Un valor `p` alto ($> 0.05$) indica que no hay suficiente evidencia para rechazar la hipótesis nula de que el coeficiente es igual a cero, lo que sugiere que la variable independiente no tiene un efecto significativo sobre la variable dependiente 

> Si el valor `P` es alto también puede llamarse valor `P` insignificante

##### `R-squared` y `Adj. R-squared`
`R-squared` es una medida estadística que indica la proporción de la variación en la variable dependiente que es explicada por la(s) variable(s) independiente(s) en el modelo. Es el coeficiente de determinación, que mide qué tan bien el modelo de regresión lineal se ajusta a los datos. 

Este valor varía entre 0 y 1, donde: 
- El valor de 0 indica que el modelo no explica ninguna de las variaciones en la variable dependiente 
- El valor de 1 indica que el modelo explica todas las variaciones en la variable dependiente 
- Un valor entre 0 y 1 indica la proporción de la variación dependiente que es explicada por el modelo

**Ejemplo:** un valor de $0.85$ significa que el 85% de la variación en la variable dependiente puede ser explicada por las variables independientes en el modelo 

> Que el modelo de regresión lineal no explica ninguna de las variaciones en la variable dependiente, significa que el modelo de regresión lineal no puede predecir o explicar ningún cambio o variación en los valores de la variable dependiente basándose en los valores de las variables independientes. El modelo no tiene ninguna relación entre las variables independientes y la variable dependiente 

Que el valor sea 0 puede ser resultado de varias situaciones: 
- *Variables independientes irrelevantes:* las variables independientes seleccionadas no tienen ninguna relación con la variable dependiente. Esto podría deberse a que las variables independientes no son predictivas de la variable dependiente o que no se han seleccionado adecuadamente 
- *Errores en la recopilación de datos:* puede haber errores en la recopilación de datos que hacen que las variables independientes no estén relacionadas con la variable dependiente 
- *Modelo incorrecto:* el modelo de regresión lineal no es el más adecuado para los datos. 

### Modelo OLS 
OLS significa Ordinary Least Squares (Mínimos Cuadrados Ordinarios). En el contexto de una tabla de regresión lineal, el modelo OLS es un método estadístico utilizado para estimar los parámetros de una regresión lineal, como la pendiente y la intersección en el eje `y`, basándose en el conjunto de datos observado. 

El objetivo del modelo es minimizar la suma de los cuadrados de las diferencias entre los valores observados y los valores predichos por el modelo. Esto se logra encontrando la línea que mejor se ajusta a los datos, es decir, la línea que minimiza la distancia total entre los puntos de datos y la línea 

### Otros modelos
**Regresión de mínimos cuadrados generalizados (GLS):** este modelo es una extensión del modelo OLS que permite manejar errores con varianzas diferentes y autocorrelacionados. Para hacer esto se ajusta una matriz de pesos a los residuos del modelo OLS, lo que resulta en una estimación más precisa de los parámetros 

**Regresión de mínimos cuadrados robustos (RMS):** modelo similar a OLS, pero utiliza una técnica de estimación de parámetros que es robusta a los errores autocorrelacionados y errores con varianzas diferentes

**Regresión de mínimos cuadrados de mínimos residuos (MMR):** modelo que busca minimizar no solo la suma de los cuadrados de los residuos, sino también la suma de los cuadrados de los residuos ponderados por el inverso de la varianza de los errores. Esto puede ser útil cuando los errores tienen una varianza que varía con los valores de `x`

**Regresión de mínimos cuadrados de mínimos residuos con ponderación (WMMR):** similar al MMR, pero utiliza una ponderación adicional para los residuos, lo que mejora la precisión de la estimación de los parámetros en ciertos casos 

**Regresión de mínimos cuadrados de mínimos residuos con ponderación de peso (WWMMR):** modelo, que es una extensión del WMMR, que utiliza una ponderación adicional basada en el peso de los residuos, lo que puede mejorar aún más la precisión de la estimación de los parámetros 

### Supuesto de Independencia
Tenemos un dataset que describe 10 jugadores de baloncesto

In [22]:
import numpy as np
import pandas as pd

from statsmodels.formula.api import ols
from statsmodels.stats.stattools import durbin_watson

In [None]:
# Creando un conjunto de datos
df = pd.DataFrame({
    'rating': [90, 85, 82, 88, 94, 90, 76, 75, 87, 86],
    'points': [25, 20, 14, 16, 27, 20, 12, 15, 14, 19],
    'assists': [5, 7, 7, 8, 5, 7, 6, 9, 9, 5],
    'rebounds': [11, 8, 10, 6, 6, 9, 6, 10, 10, 7]
})
print(df)

Supongamos que ajustamos un modelo de regresión lineal múltiple utilizando la `rating` como variable dependiente y las otras 3 como variables independientes

In [None]:
#fit multiple linear regression model
model = ols('rating ~ points + assists + rebounds', data=df).fit()

#view model summary
print(model.summary())

Ahora podemos aplicar la prueba de Durbin-Watson que trae la biblioteca `statsmodels` para determinar si los residuos del modelo de regresión están autocorrelacionados 

In [None]:
#perform Durbin-Watson test
durbin_watson(model.resid)

El estadístico de la prueba es 2.392 y dado que está dentro del rango de 1.5 y 2.5 consideraríamos que la autocorrelación no es problemática en este modelo de regresión. 

### Supuesto de Linealidad en parámetros: Prueba de RESET de Ramsey 

In [24]:

import statsmodels.api as sm
import statsmodels.formula.api as smf
import statsmodels.stats.diagnostic as smd

In [None]:
houseprices = sm.datasets.get_rdataset(dataname="HousePrices", package="AER", cache=True).data
print(houseprices.iloc[:, 0:3].head())

A continuación ajustamos el modelo `ols` utilizando variables dentro del objeto de datos `houseprices` y almacenamos los resultados dentro del objeto `mlr`. Dentro `ols`, la fórmula del parámetro se ajusta al modelo. 

In [26]:
mlr = smf.ols(formula="price ~ lotsize + bedrooms", data=houseprices).fit()

Finalmente hacemos la prueba RESET de Ramsey 

In [None]:
resettest = smd.linear_reset(res=mlr, power=2, test_type="fitted", use_f=True)
print(resettest)

### Supuesto de Normalidad: Kolmogorov-Smirnov

Esta prueba determina si dos muestras son significativamente diferentes entre sí. 

El estadístico de Kolmogorov-Smirnov cuantifica una distancia entre la función de distribución empírica de la muestra y la función acumulativa de la distribución de referencia, o entre las funciones de distribución empírica de dos muestras

La hipótesis nula supone que los números están distribuidos uniformemente entre 0-1

In [None]:
from scipy.stats import kstest
import random

# N = int(input("Enter number of random numbers: "))
N = 5

actual =[]
print("Enter outcomes: ")
for i in range(N):
	# x = float(input("Outcomes of class "+str(i + 1)+": "))
	actual.append(random.random())

print(actual)
x = kstest(actual, "uniform") 
print(x)

**KS Test** es una forma de diferenciar automáticamente muestras de una distribución diferente. La función también se puede utilizar para comprobar si los datos proporcionados siguen la distribución normal o no. Por lo tanto, la hipótesis nula supone que los números siguen la distribución normal 

In [None]:
N = 10

actual =[]
print("Enter outcomes: ")

for i in range(N):
	# x = float(input("Outcomes of class "+str(i + 1)+": "))
	actual.append(random.random())

print(actual)
x = kstest(actual, "norm") 
print(x)

### Supuesto de Normalidad: Shapiro-Wilk

El método `shapiro` tiene como parámetros
- `x`: Matrix de datos de muestra 

Retorna los siguientes valores:
- `estadística`: Estadística de prueba 
- `valor p`: El valor $p$ para la prueba de hipótesis

La hipótesis nula dice: *la muestra proviene de distribuciones normales*

En este ejemplo se va a realizar una prueba de Shapiro-Wilk en los datos generados aleatoriamente con 500 puntos de datos

In [None]:
# import useful library
import numpy as np
from scipy.stats import shapiro
from numpy.random import randn

# Create data
gfg_data = randn(500)

# conduct the Shapiro-Wilk Test
shapiro(gfg_data)

Dado que en el ejemplo anterior, el valor $p$ es 0.98, que es mayor que el umbral (0.05), entonces no podemos rechazar la hipótesis nula, es decir, no tenemos evidencia suficiente para decir que la muestra no viene de una distribución normal 

Realizar una prueba de Shapiro-Wilk a datos generados aleatoriamente a partir de los datos de distribución de Poisson con 100 puntos de datos 

In [None]:
# import useful library
import numpy as np
from numpy.random import poisson
from numpy.random import seed
from scipy.stats import shapiro
from numpy.random import randn

seed(0)
# Create data
gfg_data = poisson(5, 200)

# conduct the Shapiro-Wilk Test
shapiro(gfg_data)

Dado que en el ejemplo anterior, el valor $p$ es 0.0001 rechazamos la hipótesis nula, es decir, tenemos evidencia suficiente para decir que la muestra no proviene de una distribución normal 