# Introducción a Jupyter Python

## Regresión lineal simple
### Modelo Estadistico
El modelo estadístico en regresión lineal simple se puede escribir de la siguiente manera como se muestra a continuación.

La variable respuesta $Y$ se expresa como una suma de $\beta_0 + \beta_1 X_i$ y un error aleatorio $\epsilon_i$ el cual tiene distribución $N(0, \sigma^2)$. El modelo en esta forma se puede expresar como sigue.

\begin{align} \label{mod1}
Y_i &= \beta_0 + \beta_1X_i + \epsilon_i,\\ 
\epsilon_i &\sim N(0, \sigma^2)
\end{align}


### Usando R y la Función `lm` para hallar el modelo de regresión
La función `lm` (linear model) de R se usa para ajustar un modelo de regresión lineal simple, la estructura de esta función se muestra a continuación.

### Ejemplo 
Como ilustración vamos a usar los datos del ejemplo 2.1 del libro Montgomery(2006) En el ejemplo 2.1 los autores desean ajustar un modelo de regresión lineal simple para explicar la Resistencia de una soldadura en función de la Edad de la soldadura.


<img src="https://github.com/fhernanb/libro_regresion/blob/master/images/ilustracion_soldadura.png?raw=true" alt="soldar" width="500"/>


__Solución__

A continuación el código para cargar los datos y para mostrar las 6 primeras observaciones de la base de datos, en total tenemos 20 observaciones.

```r

file <- "https://raw.githubusercontent.com/fhernanb/datos/master/propelente"
datos <- read.table(file=file, header=TRUE)
head(datos) # shows the first 6 rows
```
```
##   Resistencia  Edad
## 1     2158.70 15.50
## 2     1678.15 23.75
## 3     2316.00  8.00
## 4     2061.30 17.00
## 5     2207.50  5.50
## 6     1708.30 19.00

```


Para crear un diagrama de dispersión que nos muestre la relación entre las dos variables usamos las siguientes instrucciones.

```r 
library(ggplot2)
ggplot(datos, aes(x=Edad, y=Resistencia)) + 
  geom_point() + theme_light()
```

<img src="https://fhernanb.github.io/libro_regresion/Regresion_con_R_files/figure-html/soldadura1-1.png" alt="plot" width="500"/>


El modelo que se va a ajustar se muestra a continuación.

\begin{align}
Resistencia_i &\sim N(\mu_i, \sigma^2), \\ 
\mu_i &= \beta_0 + \beta_1 Edad_i, \\
\end{align}

Para obtener las estimaciones de los parámetros del modelo anterior se usa el código mostrado abajo. La función `lm` se aplica con la fórmula `Resistencia ~ Edad` para indicar que Resistencia es la variable respuesta y que Edad es la variable explicativa. Los resultados del la función `lm` se almacenan en el objeto `mod1` para luego poder usar el modelo ajustado. La segunda línea del código mostrado abajo se usa para mostrar por pantalla un reporte sencillo del modelo ajustado.

```r
mod1 <- lm(Resistencia ~ Edad, data=datos)
mod1 # Para imprimir el objeto mod1
```
```
## 
## Call:
## lm(formula = Resistencia ~ Edad, data = datos)
## 
## Coefficients:
## (Intercept)         Edad  
##     2627.82       -37.15
```

Con los resultados anteriores se puede expresar el modelo ajustado como se muestra a continuación.

\begin{align}
\widehat{Resistencia}_i &\sim N(\hat{\mu}_i, \hat{\sigma}^2), \\ 
\hat{\mu}_i &= 2627.822 -37.154 \, Edad_i, \\
\end{align}


¿Cómo se pueden interpretar los efectos $\hat{\beta}$?

---
- Por cada semana que envejezca la soldadura, se espera que la __resistencia promedio__ disminuya en 37.154 psi.
- Si la soldadura es nueva ($Edad =0$), se espera que la __resistencia promedio__ sea de 2627.822 psi.
---

Para incluir la recta de regresión que representa el modelo ajustado anterior se puede usar el siguiente código.

```r 
ggplot(datos, aes(x=Edad, y=Resistencia)) + 
  geom_point() +
  geom_smooth(method='lm', formula=y~x, se=FALSE, col='dodgerblue1') +
  theme_light()
```

<img src="https://fhernanb.github.io/libro_regresion/Regresion_con_R_files/figure-html/soldadura2-1.png" alt="lm" width="500"/>


# Introduccion a Web Scraping

```python
import JSON
data = [
    
```    