<h1 align="center">Analítica de datos para la toma de decisiones empresariales</h1>
<h1 align="center">Modelos de predicción y pronóstico</h1>
<h1 align="center">Centro de Educación Continua</h1>
<h1 align="center">EAFIT</h1>
<h1 align="center">2023</h1>
<h1 align="center">MEDELLÍN - COLOMBIA </h1>

<table>
 <tr align=left><td><img align=left src="https://github.com/carlosalvarezh/CFD_Applied/blob/master/figs/CC-BY.png?raw=true">
 <td>Text provided under a Creative Commons Attribution license, CC-BY. All code is made available under the FSF-approved MIT license.(c) Carlos Alberto Alvarez Henao</td>
</table>

## Visualización de datos y variables con información compartida (Diagrama de dispersión)

### Definición y Conceptos

#### Diagrama de Dispersión

Un diagrama de dispersión, también conocido como gráfico de dispersión o scatter plot, es una representación gráfica que utiliza puntos para mostrar la relación entre dos variables. Cada punto en el gráfico representa una observación en los datos y se coloca en coordenadas definidas por los valores de las dos variables. Esta visualización nos permite identificar patrones, tendencias, correlaciones y posibles valores atípicos en los datos.

#### Variables

Las variables son atributos o características que se miden o registran en un conjunto de datos. En un diagrama de dispersión, tenemos dos tipos de variables:

- ***Variable Independiente (X):*** Es la variable que se coloca en el eje horizontal. Es la variable que se supone que causa o influye en los cambios de la otra variable.
<p>&nbsp;</p>

- ***Variable Dependiente (Y):*** Es la variable que se coloca en el eje vertical. Es la variable que se espera que responda o cambie en función de la variable independiente.

### Uso de Diagramas de Dispersión

#### Identificación de Correlación

Uno de los principales usos de los diagramas de dispersión es identificar la relación entre las variables. Podemos observar si los puntos tienden a agruparse en una forma particular, como una línea recta, lo que indica una correlación lineal. Esto nos ayuda a comprender si existe una dependencia entre las variables y cómo cambian conjuntamente.

#### Detección de Valores Atípicos

Los valores atípicos son observaciones que difieren significativamente del resto de los datos. Un diagrama de dispersión puede revelar puntos que se alejan considerablemente de la mayoría, lo que puede ser indicativo de errores en los datos, eventos raros o condiciones especiales que deben tenerse en cuenta en el análisis.

#### Visualización de Patrones

Los diagramas de dispersión también nos permiten identificar patrones o agrupamientos en los datos. Podemos observar si los puntos forman grupos o clusters, lo que puede indicar la presencia de subconjuntos dentro de los datos.

### Ejemplos Prácticos

#### Ejemplo 1: Relación entre Ventas y Gastos de Marketing

Supongamos que tenemos un conjunto de datos de una empresa que registra las ventas mensuales y los gastos en marketing durante un año. Queremos analizar si existe una relación entre los gastos en marketing y las ventas.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Generar datos de ejemplo
np.random.seed(42)
meses = np.arange(1, 13)
ventas = np.random.randint(100, 1000, size=12)
gastos_marketing = ventas * np.random.uniform(0.1, 0.5, size=12)

# Crear un DataFrame
data = pd.DataFrame({'Meses': meses, 'Ventas': ventas, 'Gastos de Marketing': gastos_marketing})

# Crear el diagrama de dispersión
plt.figure(figsize=(5, 3))
sns.scatterplot(data=data, x='Gastos de Marketing', y='Ventas', s=100, color='b', alpha=0.7)
plt.title('Relación entre Ventas y Gastos de Marketing')
plt.xlabel('Gastos de Marketing')
plt.ylabel('Ventas')
plt.grid(True)
plt.show()

En este ejemplo, podemos ver cómo se distribuyen las ventas en relación con los gastos de marketing. Si los puntos tienden a estar agrupados en una dirección ascendente, podemos inferir que existe una correlación positiva entre los gastos en marketing y las ventas.

#### Ejemplo 2: Análisis de Rendimiento de Empleados

Imaginemos que tenemos datos sobre el rendimiento de los empleados en una empresa, medido en términos de ventas generadas y horas de capacitación recibidas. Queremos analizar si hay alguna relación entre el tiempo de capacitación y el rendimiento de ventas.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Establecer la semilla para reproducibilidad
np.random.seed(123)

# Generar datos de ejemplo
num_empleados = 50
ventas_generadas = np.random.randint(1000, 10000, size=num_empleados)
horas_capacitacion = np.random.randint(10, 100, size=num_empleados)

# Crear un DataFrame
employee_data = pd.DataFrame({'Ventas Generadas': ventas_generadas, 'Horas de Capacitación': horas_capacitacion})

# Crear el diagrama de dispersión con regresión lineal y intervalo de confianza
plt.figure(figsize=(10, 6))
sns.regplot(data=employee_data, x='Horas de Capacitación', y='Ventas Generadas', scatter_kws={'s': 70}, line_kws={'color': 'red'})
plt.title('Rendimiento de Empleados: Horas de Capacitación vs. Ventas Generadas')
plt.xlabel('Horas de Capacitación')
plt.ylabel('Ventas Generadas')

# Mostrar el diagrama de dispersión con la línea de regresión y el intervalo de confianza
plt.grid(True)
plt.show()

***Análisis de Resultados:***

En el diagrama de dispersión generado, observamos puntos dispersos que representan la relación entre las horas de capacitación y las ventas generadas por los empleados. La línea roja representa la regresión lineal ajustada a los datos. Esta línea muestra la tendencia general en la relación entre las dos variables.

En el diagrama observamos que la línea de regresión tiene una pendiente muy leve y con tendencia negativa (descendiente). Esto indica una relación muy débil entre las horas de capacitación y las ventas generadas por los empleados. En otras palabras, aunque la línea tiene una pendiente negativa, la relación entre estas dos variables es prácticamente horizontal y casi sin relación aparente.

La región sombreada que rodea la línea de regresión es el intervalo de confianza para la regresión. Este intervalo de confianza nos proporciona información sobre la variabilidad y la incertidumbre en las predicciones del modelo. Cuanto más ancho sea el intervalo, mayor será la incertidumbre en las predicciones. Por el contrario, si el intervalo es más estrecho, las predicciones son más precisas y confiables. Debido a la dispersión de los puntos y la débil relación entre las variables, el intervalo de confianza es bastante amplio. Esto indica que hay mucha incertidumbre en cuanto a cómo las ventas generadas pueden variar en función de las horas de capacitación, debido a la falta de una relación clara entre estas variables.

Si la línea de regresión fuera ascendente (con pendiente positiva), significaría que existe una correlación positiva entre las horas de capacitación y las ventas generadas. En otras palabras, a medida que las horas de capacitación aumentan, se espera que las ventas generadas también aumenten.

En resumen, en este ejemplo, hemos utilizado un diagrama de dispersión con una línea de regresión y un intervalo de confianza para analizar la relación entre las horas de capacitación y las ventas generadas por los empleados. La regresión lineal y el intervalo de confianza nos proporcionan información valiosa sobre la relación entre las variables y la incertidumbre asociada a las predicciones del modelo.

#### Ejemplo 3: Análisis de Relación entre Inversión Publicitaria y Ventas Generadas

Imaginemos que trabajamos para una empresa que desea analizar la efectividad de su estrategia de publicidad en diferentes canales: televisión (TV), radio e internet. El objetivo es comprender cómo la inversión en publicidad en cada canal se relaciona con las ventas generadas por la empresa. Utilizaremos un diagrama de dispersión con colores y tamaños de puntos personalizados para visualizar esta relación y extraer conclusiones útiles para la toma de decisiones.

***Datos Generados:***
- Se han recopilado datos de inversión publicitaria y ventas generadas durante 12 meses.
- Los canales de publicidad incluyen TV, Radio e Internet.
- Cada mes se registra la inversión en cada canal y las ventas generadas.


***Pregunta de Investigación:*** 
- ¿Cómo se relaciona la inversión en publicidad en diferentes canales con las ventas generadas por la empresa?

***Análisis:***

- Utilizaremos un diagrama de dispersión para visualizar la relación entre la inversión en publicidad y las ventas generadas.
<p>&nbsp;</p>
- Los puntos en el diagrama tendrán diferentes tamaños y colores para representar las inversiones en los canales de Radio e Internet.
<p>&nbsp;</p>
- Observaremos cómo las ventas generadas varían en función de la inversión en publicidad en los diferentes canales.


***Resultados Esperados:***

- Esperamos identificar patrones o tendencias en la relación entre inversión en publicidad y ventas generadas.
<p>&nbsp;</p>

- Los puntos más grandes (mayor inversión en Internet) podrían indicar una posible relación positiva entre inversión en Internet y ventas.
<p>&nbsp;</p>

- Los colores más oscuros (mayor inversión en Radio) podrían indicar diferentes niveles de efectividad en función de la inversión en Radio.

***Acciones Potenciales:***

- Si identificamos una fuerte relación positiva entre inversión en Internet y ventas, podríamos considerar aumentar la inversión en publicidad en este canal.
<p>&nbsp;</p>

- Si la inversión en Radio no parece tener un impacto claro en las ventas, podríamos evaluar la eficacia de esta estrategia y considerar redistribuir el presupuesto.

***Conclusión:***

Mediante este análisis visual utilizando el diagrama de dispersión con colores y tamaños de puntos personalizados, esperamos obtener información valiosa sobre la relación entre inversión en publicidad y ventas generadas en diferentes canales. Esto permitirá a la empresa tomar decisiones informadas sobre cómo asignar su presupuesto de publicidad de manera efectiva para maximizar el rendimiento empresarial.



In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Establecer la semilla para reproducibilidad
np.random.seed(456)

# Generar datos de ejemplo
num_meses = 12
canales = ['TV', 'Radio', 'Internet']
inversiones_tv = np.random.randint(5000, 30000, size=num_meses)
inversiones_radio = np.random.randint(1000, 8000, size=num_meses)
inversiones_internet = np.random.randint(200, 3000, size=num_meses)
ventas_generadas = np.random.randint(20000, 80000, size=num_meses)

# Crear un DataFrame
advertising_data = pd.DataFrame({
    'Meses': np.arange(1, num_meses + 1),
    'Inversión TV': inversiones_tv,
    'Inversión Radio': inversiones_radio,
    'Inversión Internet': inversiones_internet,
    'Ventas Generadas': ventas_generadas
})

# Crear el diagrama de dispersión con diferentes tamaños y colores de puntos
plt.figure(figsize=(10, 6))
sns.scatterplot(
    data=advertising_data,
    x='Inversión TV', y='Ventas Generadas',
    size='Inversión Internet', hue='Inversión Radio', sizes=(50, 300),
    palette='viridis', alpha=0.7
)
plt.title('Relación entre Inversión Publicitaria y Ventas Generadas')
plt.xlabel('Inversión en TV')
plt.ylabel('Ventas Generadas')

# Mostrar el diagrama de dispersión con tamaños y colores de puntos personalizados
plt.legend(title='Inversión Radio', loc='upper right', bbox_to_anchor=(1.25, 1))
plt.grid(True)
plt.show()


***Análisis de resultados:***

En este ejemplo, estamos explorando la relación entre la inversión publicitaria en tres canales diferentes (TV, Radio e Internet) y las ventas generadas por una empresa en un período de tiempo de 12 meses.

- Los puntos en el diagrama de dispersión están marcados con diferentes colores, que representan la inversión en publicidad en el canal de Radio. Mientras más oscuro sea el color, mayor es la inversión en Radio.
<p>&nbsp;</p>

- Los puntos también varían en tamaño, donde el tamaño de los puntos se relaciona con la inversión en Internet. Los puntos más grandes indican una mayor inversión en publicidad en Internet.

Al observar el diagrama de dispersión, podemos obtener las siguientes conclusiones preliminares:

- Hay una tendencia general de aumento en las ventas generadas a medida que aumenta la inversión en publicidad en la televisión (canal de TV).
<p>&nbsp;</p>

- La inversión en publicidad en la radio (canal de Radio) parece tener menos influencia en las ventas generadas, ya que los puntos no muestran una relación clara entre inversión en Radio y ventas.
<p>&nbsp;</p>

- La inversión en publicidad en Internet (canal de Internet) parece estar positivamente relacionada con las ventas generadas, ya que los puntos más grandes (mayor inversión en Internet) tienden a agruparse en regiones con ventas más altas.

En este ejemplo, el uso de diferentes tamaños y colores de puntos en el diagrama de dispersión añade una dimensión adicional a la visualización, permitiéndonos explorar la relación entre variables de manera más detallada y facilitando la identificación de patrones y tendencias en los datos. Esta información puede ser crucial para la toma de decisiones empresariales, como la asignación de presupuestos de publicidad en diferentes canales para maximizar las ventas generadas.

## Técnicas estadísticas para la medición de información compartida e indicadores de dependencia (Correlaciones)

### Introducción

En este capítulo, exploraremos las técnicas estadísticas esenciales para medir la relación entre variables y comprender cómo se pueden aplicar en el análisis de datos empresariales para la toma de decisiones. Nos enfocaremos en los indicadores de dependencia, específicamente en las correlaciones, que nos permiten cuantificar la relación entre dos o más variables.

### Definición de Correlación

La [correlación](https://en.wikipedia.org/wiki/Correlation) es una medida estadística que describe la relación entre dos variables. Indica la fuerza y la dirección de la relación lineal entre las variables. Si dos variables tienen una correlación alta, significa que tienden a cambiar juntas en la misma dirección (positiva) o en direcciones opuestas (negativa). Sin embargo, es importante recordar que [***correlación no implica causalidad***](https://en.wikipedia.org/wiki/Correlation_does_not_imply_causation), es decir, que una variable cause directamente cambios en la otra. [Aquí](https://www.xataka.com/magnet/a-margarina-divorcios-11-divertidos-ejemplos-que-correlacion-no-implica-causalidad) algunos ejemplos "divertidos" de esta sentencia.

### Indicadores de Correlación

#### Coeficiente de Correlación de Pearson

El [coeficiente de correlación de Pearson](https://en.wikipedia.org/wiki/Pearson_correlation_coefficient), denotado como $r_{xy}$, mide la relación lineal entre dos variables continuas. Varía entre $-1$ y $1$, donde $-1$ representa una correlación negativa perfecta, $1$ representa una correlación positiva perfecta y $0$ indica que no hay correlación lineal. Tiene dos presentaciones:

- ***Para una población***

El *coeficiente de correlación de Pearson* cuando se aplica a una población, típicamente se representa por la letra griega 
$\rho(rho)$ y se refiere a ella como *coeficiente de correlación poblacional* o *coeficiente de correlación poblacional de Pearson*.

Dado un par de variables aleatorias $\displaystyle(X,Y)$, el *coeficiente de correlación poblacional de Pearson* (también denotado por$\displaystyle \rho_{X,Y}$) se define como:

$$\displaystyle \rho _{X,Y}={\sigma _{XY} \over \sigma _{X}\sigma _{Y}}={\frac {\operatorname {Cov} (X,Y)}{\sqrt {\operatorname {Var} (X)\operatorname {Var} (Y)}}}$$

donde

- $\displaystyle \sigma _{XY}$ es la [covarianza](https://en.wikipedia.org/wiki/Covariance) de $\displaystyle (X,Y)$
- $\displaystyle \sigma _{X}$ es la [desviación estándar](https://en.wikipedia.org/wiki/Standard_deviation) de la variable $X$
- $\displaystyle \sigma _{Y}$ es la desviación estándar de la variable $Y$
<p>&nbsp;</p>

- ***Para una muestra***

El *coeficiente de correlación de Pearson* cuando es aplicado a una muestra, se suele denotar por $\displaystyle r_{xy}$ y se refiere a este como el *coeficiente de correlación muestral* o el *coeficiente de correlación muestral de Pearson*. Dados $n$ pares de datos $\displaystyle \{(x_{i},y_{i})\}_{i=1}^{n}$, se define el *coeficiente de correlación muestral de Pearson* como:

$$r_{xy} = \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum{(x_i-\bar{x})^2}\sum{(y_i-\bar{y})^2}}}$$

#### Coeficiente de Correlación de Spearman

El [coeficiente de correlación de Spearman](https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient), denotado como $\rho(rho)$, mide la relación entre dos variables, pero no se limita a relaciones lineales. En cambio, se basa en los rangos de los valores en lugar de los valores reales. Es útil cuando la relación entre variables no es estrictamente lineal. El estadístico $\rho$ viene dado por la expresión:

$$\rho=1-\frac{6 \sum D^2}{N\left(N^2-1\right)}$$

donde $D$ es la diferencia entre los correspondientes estadísticos de orden de $x-y$. $N$ es el número de parejas de datos.

Se tiene que considerar la existencia de datos idénticos a la hora de ordenarlos, aunque si estos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de $20$ observaciones, podemos utilizar la siguiente aproximación a la distribución *t de Student*

$$ t=\frac{\rho}{\sqrt{\left(1-\rho^2\right) /(n-2)}}$$

La interpretación del *coeficiente de Spearman* es igual que la del *coeficiente de correlación de Pearson*. Oscila entre $-1$ y $+1$, indicándonos asociaciones negativas o positivas respectivamente, $0$ cero, significa no correlación pero no independencia. 

#### Coeficiente de Correlación de Kendall

El [coeficiente de correlación de Kendall](https://en.wikipedia.org/wiki/Kendall_rank_correlation_coefficient), $\tau$, mide la asociación entre dos variables ordinales. Se enfoca en la concordancia o discordancia de los órdenes relativos de los valores en ambas variables. Una prueba $\tau$ es una prueba de hipótesis no paramétrica para la dependencia estadística basada en el coeficiente $\tau$.

### Ejemplos de Aplicación

#### Ejemplo 1: Ventas y Gastos de Marketing

Supongamos que tenemos datos de ventas mensuales y gastos de marketing para una empresa durante un año. Queremos determinar si hay alguna relación entre los gastos de marketing y las ventas.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(0)

months = np.arange(1, 13)
sales = np.random.randint(100, 1000, size=12)
marketing_expenses = np.random.randint(50, 500, size=12)

data = pd.DataFrame({'Month': months, 'Sales': sales, 'Marketing Expenses': marketing_expenses})

# Calculating Pearson correlation
pearson_corr = data['Sales'].corr(data['Marketing Expenses'])

sns.scatterplot(x='Marketing Expenses', y='Sales', data=data)
plt.title(f'Correlation: Pearson r = {pearson_corr:.2f}')
plt.show()
print("pearson_corr: ", pearson_corr)

En el gráfico de dispersión, podemos observar una tendencia positiva entre los gastos de marketing y las ventas. El coeficiente de correlación de Pearson también confirma esta relación positiva (por ejemplo, $r \approx 0.73$). Esto sugiere que un aumento en los gastos de marketing se relaciona con un aumento en las ventas, aunque no implica causalidad directa.

#### Ejemplo 2: Temperatura y Consumo de Helado

Imaginemos que tenemos datos mensuales de la temperatura promedio y el consumo de helado en una ciudad. Queremos examinar si existe alguna relación entre la temperatura y el consumo de helado.

In [None]:
temperature = np.random.randint(20, 40, size=12)
ice_cream_consumption = np.random.randint(50, 300, size=12)

data = pd.DataFrame({'Temperature': temperature, 'Ice Cream Consumption': ice_cream_consumption})

# Calculating Spearman correlation
spearman_corr = data['Temperature'].corr(data['Ice Cream Consumption'], method='spearman')

sns.scatterplot(x='Temperature', y='Ice Cream Consumption', data=data)
plt.title(f'Correlation: Spearman ρ = {spearman_corr:.2f}')
plt.show()

print("spearman_corr: ", spearman_corr)

El gráfico de dispersión sugiere una relación positiva no lineal entre la temperatura y el consumo de helado. Esto se refuerza por el coeficiente de correlación de Spearman (por ejemplo, ρ ≈ 0.60), que es adecuado para capturar relaciones no lineales.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(0)

temperature = np.random.randint(20, 40, size=12)
ice_cream_consumption = np.random.randint(50, 300, size=12)

data = pd.DataFrame({'Temperature': temperature, 'Ice Cream Consumption': ice_cream_consumption})

# Calculating Spearman correlation
spearman_corr = data['Temperature'].corr(data['Ice Cream Consumption'], method='spearman')

sns.scatterplot(x='Temperature', y='Ice Cream Consumption', data=data)
plt.title(f'Correlation: Spearman ρ = {spearman_corr:.2f}')
plt.show()


Con un coeficiente de correlación de Spearman cercano a cero ($\rho \approx 0.09$), no podemos establecer una relación significativa entre la temperatura y el consumo de helado. Esto indica que los cambios en la temperatura no parecen tener un impacto claro y consistente en el consumo de helado en esta muestra de datos. Es posible que otros factores no considerados estén influyendo en el consumo de helado de manera más predominante. Por lo tanto, en función de estos datos, no se puede afirmar que haya una correlación fuerte o evidente entre la temperatura y el consumo de helado.

#### Ejemplo3: Análisis de Empleados y Productividad

Estamos interesados en comprender la relación entre la cantidad de empleados y la productividad mensual de una empresa. Queremos analizar si existe una correlación entre estos dos factores.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(0)

months = np.arange(1, 25)  # Representa dos años
employees = np.random.randint(50, 200, size=len(months))
productivity = np.random.uniform(0.5, 1.5, size=len(months))

data = pd.DataFrame({'Month': months, 'Employees': employees, 'Productivity': productivity})

# Calculating Pearson correlation
pearson_corr = data['Employees'].corr(data['Productivity'])

sns.scatterplot(x='Employees', y='Productivity', data=data)
plt.title(f'Correlation: Pearson r = {pearson_corr:.2f}')
plt.show()


El coeficiente de correlación de Pearson calculado es $\rho \approx 0.09$. El gráfico de dispersión no muestra una tendencia clara, lo que sugiere que no hay una correlación significativa entre la cantidad de empleados y la productividad. Esto indica que, en este conjunto de datos, no hay una relación fuerte entre estos dos factores. Sin embargo, se deben considerar otros factores que podrían influir en la productividad, como la capacitación y las condiciones laborales.

## Explicación de una variable en términos de otras (Modelo de regresión lineal)

### Introducción

En esta sección, exploraremos uno de los métodos más fundamentales y poderosos en el análisis de datos: el Modelo de Regresión Lineal. Este modelo nos permite comprender cómo una variable dependiente puede ser explicada en términos de una o más variables independientes. Aprenderemos los conceptos clave, cómo implementar el modelo en Python utilizando bibliotecas como NumPy y Pandas, y cómo interpretar y evaluar los resultados.

### Definición y Conceptos

#### Regresión Lineal

La [regresión lineal](https://en.wikipedia.org/wiki/Linear_regression) es una técnica estadística que busca modelar la relación entre una variable dependiente (también conocida como variable de respuesta) y una o más variables independientes (también conocidas como predictores o covariables) a través de una ecuación lineal. La forma más simple de regresión lineal se llama *regresión lineal simple*, donde hay una sola variable independiente. Cuando hay más de una variable independiente, se habla de *regresión lineal múltiple*.

#### Ecuación de Regresión Lineal Simple:

La ecuación básica para un modelo de regresión lineal simple es:

$$Y=\beta_0+\beta_1 \cdot X + \varepsilon$$

donde:

- $Y$ es la variable dependiente a predecir.
- $X$ son las variables predictoras.
- $\beta_0$ es la intersección (ordenada al origen) con el eje $Y$
- $\beta_1$ es la pendiente de la línea de regresión.
- $\varepsilon$ es el término de error

El objetivo principal es encontrar los valores de $\beta_0$ y $\beta_1$ que minimicen el error total (sumatoria de los errores al cuadrado) entre los valores reales de $Y$ y los valores predichos por el modelo.

#### Cálculo de los coeficientes estadísticos

- ***Coeficientes de Regresión:***

Los coeficientes de regresión $\beta_0$ y $\beta_1$ se calculan mediante las siguientes fórmulas:
$$
\begin{aligned}
& \beta_1=\frac{\sum_{i-1}^n\left(X_i - \bar{X}\right)\left(Y_i - \bar{Y}\right)}{\sum_{i-1}^n\left(X_i-\bar{X}\right)^2} \\
& \beta_0=\bar{Y}-\beta_1 \cdot \bar{X}
\end{aligned}
$$
Donde:
- $n$ es el número de observaciones.
- $X_i$ y $Y_i$ son los valores de la variable independiente e dependiente respectivamente en la observación $i$.
- $\bar{X}$ y $\bar{Y}$ son las medias de las variables $X$ e $Y$ respectivamente.
<p>&nbsp;</p>

- ***Coeficiente de Determinación $\left(R^2\right)$:***

El coeficiente de determinación $R^2$ mide la proporción de la variabilidad total en la variable dependiente que es explicada por la regresión. Se calcula así:

$$R^2=\frac{S S R}{S S T}$$

- $S S R$ es la suma de los cuadrados de la regresión.
- $S S T$ es la suma total de los cuadrados.
<p>&nbsp;</p>

- ***Error Estándar de Estimación (SEE):***

EI SEE es una medida de cuánto difieren los valores reales de la variable dependiente de los valores predichos por el modelo. Se calcula como:

$$S E E=\sqrt{\frac{\sum_{i=1}^n\left(Y_i-\hat{Y}_i\right)^2}{n-2}}$$

Donde:
- $Y_i$ son los valores reales de la variable dependiente.
- $\hat{Y}_i$ son los valores predichos por el modelo.

#### Indicadores de bondad de ajuste:

Para evaluar la calidad del modelo de regresión lineal, utilizamos varios indicadores:

- ***Coeficiente de Determinación ($R^2$):*** Mide la proporción de la variabilidad de la variable dependiente que es explicada por el modelo. $R^2$ varía entre $0$ y $1$, siendo $1$ indicativo de una perfecta predicción.
<p>&nbsp;</p>

- ***Error Estándar Residual (RSE):*** Estima la dispersión de los residuos (diferencias entre los valores reales y los predichos).
<p>&nbsp;</p>

- ***$p$-valor:*** Determina la significancia estadística de los coeficientes. Valores pequeños indican que la variable es relevante en el modelo.
<p>&nbsp;</p>

- ***Intervalos de Confianza para los Coeficientes:*** Ayudan a establecer el rango probable de valores para los coeficientes.

#### Implementación en Python

Vamos a explorar la implementación de un modelo de regresión lineal utilizando Python y su ecosistema de bibliotecas.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Generar datos de ejemplo
np.random.seed(42)
n_samples = 100
X = np.random.rand(n_samples) * 10
y = 2 * X + 1 + np.random.randn(n_samples)

# Crear un DataFrame
data = pd.DataFrame({'X': X, 'y': y})

# Visualización de datos
plt.figure(figsize=(10, 5))

plt.subplot(1, 2, 1)
sns.scatterplot(x='X', y='y', data=data)
plt.title('Datos de Ejemplo')
plt.xlabel('X')
plt.ylabel('y')
#plt.show()

# Ajustar el modelo de regresión lineal
model = LinearRegression()
model.fit(data[['X']], data['y'])

# Coeficientes del modelo
print('Coeficiente de intersección (beta0):', model.intercept_)
print('Coeficiente de pendiente (beta1):', model.coef_[0])

# Hacer predicciones
data['y_pred'] = model.predict(data[['X']])

# Visualización de resultados

plt.subplot(1, 2, 2)
plt.scatter(data['X'], data['y'], label='Datos reales')
plt.plot(data['X'], data['y_pred'], color='red', label='Regresión lineal')
plt.title('Modelo de Regresión Lineal')
plt.xlabel('X')
plt.ylabel('y')
plt.legend()
plt.show()

# Evaluación del modelo
mse = mean_squared_error(data['y'], data['y_pred'])
print('Error cuadrado medio:', mse)


### Ejemplos

#### Ejemplo 1: Ventas en función del Gasto en Publicidad

Supongamos que somos consultores de una empresa y queremos entender cómo el gasto en publicidad afecta las ventas de un producto. Tenemos datos históricos de gastos en publicidad (en miles de dólares) y las ventas correspondientes (en unidades).

|Gasto en Publicidad (x)|	Ventas (y)|
|:---:|:---:|
|100  |230|
|150  |315|
|200  |400|
|250  |460|
|300  |525|

In [None]:
import numpy as np
import matplotlib.pyplot as plt

X = np.array([100, 150, 200, 250, 300])
Y = np.array([230, 315, 400, 460, 525])

beta1 = np.sum((X - np.mean(X)) * (Y - np.mean(Y))) / np.sum((X - np.mean(X))**2)
beta0 = np.mean(Y) - beta1 * np.mean(X)

Y_pred = beta0 + beta1 * X

R2 = np.sum((Y_pred - np.mean(Y))**2) / np.sum((Y - np.mean(Y))**2)
SEE = np.sqrt(np.sum((Y - Y_pred)**2) / (len(X) - 2))

plt.scatter(X, Y, label='Datos reales')
plt.plot(X, Y_pred, color='red', label='Regresión lineal')
plt.xlabel('Gasto en Publicidad')
plt.ylabel('Ventas')
plt.title('Regresión Lineal: Gasto en Publicidad vs Ventas')
plt.legend()
plt.show()

print("Coeficiente beta0:", beta0)
print("Coeficiente beta1:", beta1)
print("Coeficiente R2:", R2)
print("Error Estándar de Estimación:", SEE)


En este caso, el modelo de regresión lineal muestra una relación positiva fuerte entre el gasto en publicidad y las ventas. El valor alto de $R^2=0.993$ indica que el $99.3\%$ de la variabilidad en las ventas puede ser explicada por el gasto en publicidad. El bajo valor del SEE (10.76) sugiere que las predicciones del modelo son bastante cercanas a los valores reales.

#### Ejemplo 2: Estimación de Tiempo de Entrega basado en la Distancia

Supongamos que gestionamos una empresa de mensajería y deseamos predecir el tiempo de entrega de paquetes en función de la distancia entre la oficina y el destino. Tenemos los siguientes datos:

|Distancia (X)|	Tiempo de Entrega (Y)|
|:---:|:---:|
|10|5|
|15|7|
|20|8|
|25|10|
|30|12|

In [None]:
X = np.array([10, 15, 20, 25, 30])
Y = np.array([5, 7, 8, 10, 12])

beta1 = np.sum((X - np.mean(X)) * (Y - np.mean(Y))) / np.sum((X - np.mean(X))**2)
beta0 = np.mean(Y) - beta1 * np.mean(X)

Y_pred = beta0 + beta1 * X

R2 = np.sum((Y_pred - np.mean(Y))**2) / np.sum((Y - np.mean(Y))**2)
SEE = np.sqrt(np.sum((Y - Y_pred)**2) / (len(X) - 2))

plt.scatter(X, Y, label='Datos reales')
plt.plot(X, Y_pred, color='red', label='Regresión lineal')
plt.xlabel('Distancia')
plt.ylabel('Tiempo de Entrega')
plt.title('Regresión Lineal: Distancia vs Tiempo de Entrega')
plt.legend()
plt.show()

print("Coeficiente beta0:", beta0)
print("Coeficiente beta1:", beta1)
print("Coeficiente R2:", R2)
print("Error Estándar de Estimación:", SEE)


***Cuál es su conclusión?***