# **Introducción al análisis de datos en Python** 
#### Profesor: Juan Pablo Salas
## Clase 7. Introducción a la regresión

### Regresión Lineal
La regresión lineal es una técnica estadística utilizada para analizar la relación entre una variable una variable dependiente ($Y$) y un conjunto de variables explicativas ($X$). El objetivo de la regresión lineal es encontrar la mejor línea recta que pueda explicar la relación entre las variables y predecir el valor de $Y$ para cualquier valor dado de $X$.

La ecuación de la línea recta se representa como:

$$Y = \alpha + \beta X$$

Donde $\alpha$ es la intersección en $Y$, $\beta$ es la pendiente de la línea recta y $X$ es el valor de la variable independiente. La pendiente de la línea recta indica cuánto aumenta (o disminuye) Y por cada unidad de cambio en $X$.

La regresión lineal se utiliza comúnmente en la investigación y en los negocios para predecir el valor de una variable dependiente en función de una variable independiente. Por ejemplo, se puede utilizar la regresión lineal para predecir la cantidad de ventas que una empresa puede esperar para un determinado nivel de publicidad.

In [121]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
propiedades = pd.read_csv('./co_properties.csv')
propiedades.head()

In [123]:
propiedades = propiedades[propiedades.currency=='COP']
propiedades = propiedades.dropna(subset='surface_covered')
propiedades = propiedades[(propiedades.l3=='Bogotá D.C') &(propiedades.l4=='Zona Noroccidental')]
propiedades = propiedades[(propiedades.price<1e9)&(propiedades.surface_covered<500)&(propiedades.price>1e8)]
propiedades = propiedades[(propiedades.property_type.isin(['Apartamento','Casa']))]
propiedades = propiedades[propiedades.operation_type=='Venta']

In [None]:
propiedades.shape

In [None]:
sns.jointplot(data=propiedades,x='surface_covered',y='price')

In [126]:
#!pip install statsmodels
import statsmodels.api as sm

In [127]:
y = propiedades['price']
X = propiedades['surface_covered']

$$Y = \beta X$$

In [128]:
X = sm.add_constant(X)

In [None]:
X

In [130]:
#OLS -> Regresión (Ordinary Least Squares - Mínimos Cuadrados Ordinarios)
modelo1 = sm.OLS(endog = y, exog = X)

In [131]:
# Entrenamos
resultado1 = modelo1.fit()

$y=\alpha + \beta X$

In [None]:
resultado1.summary()

$$precio = \alpha + \beta*surface\_covered$$

In [None]:
alpha = resultado1.params['const']
beta_surface_covered = resultado1.params['surface_covered']
print(f'alpha: {alpha}, beta: {beta_surface_covered}')

In [None]:
superficie = 88
precio = float(alpha+beta_surface_covered*superficie)
precio

In [135]:
# Construyamos el ajuste dentro de muestra
y_hat = resultado1.predict()

In [None]:
y_hat

In [None]:
X

In [None]:
prediccion = X.copy()
prediccion['y_pred'] = y_hat
prediccion['y_real'] = y
prediccion

In [139]:
import seaborn as sns

In [None]:
# Gráfico automático
fig, ax = plt.subplots(figsize = (10, 6))
sns.regplot(x = "surface_covered", y = "price", data = propiedades, ax = ax,
            scatter_kws = {"color": "darkblue", "s": 3}, 
            line_kws = {"color": "red", "linestyle": "--", "linewidth": 1})
plt.legend(["Real", "Predicho", "Intervalo de Confianza"])
plt.xlabel("Superficie ($m^2$)")
plt.ylabel("Precio (COP)")

In [None]:
prueba = pd.DataFrame({'surface_covered':[376,400,57,152,88,45]})
prueba

In [None]:
X

In [None]:
prueba = sm.add_constant(prueba)
prueba

In [None]:
resultado1.predict(exog=prueba)

In [145]:
prueba['precio'] = resultado1.predict(exog=prueba)

In [None]:
prueba

In [None]:
prueba.plot(kind='scatter',x='surface_covered',y='precio')

### Regresión multilineal

In [None]:
propiedades.head()

In [None]:
propiedades.columns

In [None]:
propiedades.describe()

In [151]:
propiedades = propiedades.dropna(subset=['bedrooms','bathrooms','rooms','surface_total'])

In [152]:
y = propiedades['price']
X = propiedades[['bedrooms','bathrooms','surface_covered','rooms','surface_total']]

In [None]:
X

In [154]:
X = sm.add_constant(X)

In [155]:
modelo2 = sm.OLS(endog = y, exog = X) #Construcción Regresión Lineal

In [156]:
# Entrenar el modelo de aprendizaje
resultado2 = modelo2.fit() #Calcule el modelo de regresión lineal

$precio = a*bedrooms + b*bathrooms+c*surface\_covered + d$

In [None]:
resultado2.summary()

In [158]:
# Construyamos el ajuste dentro de muestra
y_hat = resultado2.predict()

In [159]:
predicciones = X.copy()
predicciones['y_pred'] = y_hat
predicciones['y_true'] = y

In [None]:
predicciones

In [161]:
#!pip install scikit-learn

In [162]:
from sklearn.metrics import mean_absolute_percentage_error, mean_absolute_error

**Mean Absolute Percentage Error (MAPE):** Error absoluto promedio porcentual.

$$\hat{e} = \frac{|y_{real}-y_{pred}|}{y_{real}}$$

In [None]:
y_hat

In [None]:
y.values

In [None]:
print(f'{mean_absolute_percentage_error(y_hat,y):.2%}')

In [None]:
print(f'{mean_absolute_error(y_hat,y):,}')

## Introducción al webscraping

Web scraping es una técnica usada para automatizar los procesos de extracción de información de sitios web, como tablas, textos o link a otras páginas. **¿Por qué hacer web-scraping?**

-   Funciona mejor que copiar y pegar la información de la web.
-   Es rápido y replicable.

### Robots.txt

El ***robots exclusion standard***, también conocido como ***protocolo de exclusión para robots*** o simplemente `robots.txt`, es un protocolo estándar usado en algunos sitios web para comunicarse con buscadores y otros robots en la web. Este protocolo le indica a los buscadores o robots web sobre las partes de ese sitio web que no ***deben/pueden*** procesarse o escanearse. Veamos algunos ejemplos de `robots.txt`:

**Ejemplo 1: permite a cualquier robot procesar/escanear todos los elementos de la pagína**

<table style="background-color:#f9f2f4">
<tr><th><code style="background-color:#f9f2f4"> # robots.txt for https://example.com/</code></th></tr>
<tr><td><code style="background-color:#f9f2f4"> User-agent: * </code></td></tr>
<tr><td><code style="background-color:#f9f2f4"> Disallow:</code></td></tr>
</table>

**Ejemplo 2: no permite procesar/escanear ningún elemento de la pagína**

<table style="background-color:#f9f2f4">
<tr><th><code style="background-color:#f9f2f4"> # robots.txt for https://example.com/</code></th></tr>
<tr><td><code style="background-color:#f9f2f4"> User-agent: * </code></td></tr>
<tr><td><code style="background-color:#f9f2f4"> Disallow: / </code></td></tr>
</table>

**Ejemplo 3: no permite procesar/escanear ningún elemento del archivo /public/index.html**

<table style="background-color:#f9f2f4">
<tr><th><code style="background-color:#f9f2f4"> # robots.txt for https://example.com/</code></th></tr>
<tr><td><code style="background-color:#f9f2f4"> User-agent: * </code></td></tr>
<tr><td><code style="background-color:#f9f2f4"> Disallow: /public/index.html </code></td></tr>
</table>

**Ejemplo 4: no le permite al robot `BadBot` procesar/escanear ningún elemento de la pagína:**

<table style="background-color:#f9f2f4">
<tr><th><code style="background-color:#f9f2f4"> # robots.txt for https://example.com/</code></th></tr>
<tr><td> <code style="background-color:#f9f2f4"> User-agent: BadBot </code></td></tr>
<tr><td><code style="background-color:#f9f2f4"> Disallow: / </code></td></tr>
</table>

Puede accederse al protocolo de exclusión de una página agregando `robots.txt` al dominio principal de la página. Por ejemplo `https://example.com/robots.txt`

##### Abrir el archivo robots.txt de Wikipedia
https://en.wikipedia.org/robots.txt

### Hyper Text Markup Language (HTML)

Un ***Hyper Text Markup Language*** no es un lenguaje de programación, sino más bien un lenguaje de marcado de hipertexto. Un ***HTML*** se escribe en su totalidad con elementos, los que a su vez están constituidos por etiquetas, contenido y atributos (mas adelante veremos que es cada uno de ellos). Los elementos están estructurados como un árbol (tronco, ramas, hojas). Por tanto, para poder extraer un elemento (por ejemplo una hoja), se rastrear la ruta del nodo o etiqueta (indicarle el tronco y la rama que contiene la hoja). Los ***HTML*** son interpretados por los navegadores web visualizando su contenido (una página web por ejemplo) tal y como estamos acostumbrados a verlo. **Puede acceder al HTML de una página web así:**



<center>
<div>
<img src="img/view_html.gif" width="800"/>
</div>
</center>

#### Elementos en un HTML

Un elemento esta compuesto por una etiqueta `<p>`, atributos `id="texto"` (no siempre contiene atributos) y el contenido `Hola mundo`. Por ejemplo:

`<p id="texto"> Hola mundo </p>`

Las etiquetas sirven para delimitar el inicio (`< >`) y el final (`<\ >`) de un elemento. Aquí puede observar algunas etiquetas de elementos comunes en HTML:

-   `<p>`: Párrafos
-   `<head>`: Encabezado de la pagina
-   `<body>`: Cuerpo de la pagina
-   `<h1>, <h2>,...,<hi>`: Encabezados, Secciones
-   `<a>`: links
-   `<li>`: Ítem en una lista
-   `<table>`: Tablas
-   `<td>`: Una celda de datos en una tabla
-   `<div>`: División. Sirve para crear secciones o agrupar contenidos.
-   `<script>`: Se utiliza para insertar o hacer referencia a un script

Por otra parte, los atributos sirven para configurar o proveer información adicional a un elemento. Siempre se expresan en la etiqueta de inicio y tienen asignado un nombre y un valor. Por ejemplo:

`<a class="document-toc-link" col="red">Lista de Atributos</a>`

Aquí la etiqueta del elemento es `a` y tiene dos atributos `class` que indica que el contenido es un link a otro sitio web y `col` que indica que debe visualizarce de color rojo.

####  Mi primer HTML
Ya puedes escribir su primer **HTML**. Abra un archivo en el bloc de notas de su computador y copie y pegue el siguiente código:

```html
<!DOCTYPE html> 
<html>
<meta charset="utf-8">
<head>
<title> Título de la página: ejemplo de clase </title>
</head>
<body>
<h1> Title 1.</h1>
<h2> Subtitle <u>subrayado-1</u>. </h2>
<p> Este es un párrafo muy pequeño que se encuentra dentro de la etiqueta <b>p</b> de <i>html</i> </p>
</body>
</html>
```

Posteriormente guarde el archivo con el nombre que quiera, pero cámbiele la extensión de `.txt` a `.html`. Cuando abra el archivo después de guardarlo debería encontrar algo así

<center>
<div>
<img src="img/my_page.png" width="800"/>
</div>
</center>

**Ejercicio:** Modifique el archivo html que acaba de crear en el bloc de notas agregando un elemento `h1` en el que escriba su nombre y ubiquelo después del elemento `p`. Ejecute el código nuevamente y vea como cambió el html.

Ahora si, vayamos manos a la obra a traer de extraer algunas tablas de la página de Wikipedia de la Copa Mundial de Futbol.

In [169]:
#!pip install bs4
import requests
from bs4 import BeautifulSoup

In [170]:
html_copa = requests.get("https://es.wikipedia.org/wiki/Copa_Mundial_de_F%C3%BAtbol")

In [None]:
html_copa

In [None]:
html_copa.text

Ahora vamos a utilizar la librería `Beautiful Soup` para facilitar el análisis del código html. Esto nos va a permitir encontrar con mayor facilidad los diferentes elementos que queremos buscar.

In [173]:
soup = BeautifulSoup(html_copa.text, 'html.parser')

In [None]:
# Se ve igual que antes, pero en el fondo es mucho mejor. Ya veremos por qué
soup

Con el método `find_all()` vamos a poder encontrar los diferentes elementos html que nos interesen. Por ejemplo, encontremos todos los Títulos (`h1`) y los Subtítulos (`h2`).

In [None]:
# Buscar títulos
titulos = soup.find_all("h1")
titulos

In [None]:
# Naturalmente solo hay un título
len(titulos)

In [None]:
titulos[0].text

In [None]:
# Buscar subtítulos
subtitulos = soup.find_all("h2")
subtitulos

In [None]:
len(subtitulos)

In [None]:
[i.text for i in subtitulos]

Ahora hagamos algo más interesante, busquemos todas las tablas

In [None]:
# Tenemos 16 tablas!
tablas = soup.find_all("table")
len(tablas)

Veamos la primera tabla de nuestra lista

In [None]:
tablas[0]

Ni idea que será eso. De pronto viendo el texto de la tabla podemos tener una idea del tipo de información que hay en la tabla

In [None]:
tablas[0].text

Si queremos convertir la tabla en un DataFrame debemos convertir nuestro html en texto (`str`) y luego utilizar la función `pd.read_html()` de `pandas`:

In [None]:
pd.read_html(str(tablas[0]))[0]

La tabla que se extrajo fue la siguiente:
<center>
<div>
<img src="img/world_cup1.png"/>
</div>
</center>

Note que por la naturaleza de la tabla, Python no la importó a la perfección. Es necesario hacer una pequeña limpieza de datos. 

Para encontrar una tabla específica dentro de la página, puede ser algo engorrioso tratar de revisar una por una. Otra alternativa más eficiente que tenemos es usar el `Xpath`

#### Xpath

**¿Cómo se puede extraer un elemento especifico de un HTML?**. El lenguaje Xpath (*XML Path Language*) es el sistema que permite construir expresiones usadas para recorrer y consultar los elementos de un documento XML. Es decir, un `XPath` permite buscar un elemento teniendo en cuenta la estructura jerárquica del XML.

<center>
<div>
<img src="img/body_html.png"/>
</div>
</center>

Por el ejemplo, para obtener el elemento marcado con un recuadro rojo, el `xpath` le indica a Python cuál es el camino que debe recorrer para extraer ese elemento. Puede obtener el `xpath` inspeccionando el elemento así: 

<center>
<div>
<img src="img/xpath.gif"/>
</div>
</center>

Por ejemplo, busquemos el `Xpath` para sacar la tabla de goleadores.

In [185]:
goleadores_xpath = '//*[@id="mw-content-text"]/div[1]/table[7]'

In [186]:
from lxml import html
tree = html.fromstring(html_copa.content)
goleadores_table = tree.xpath(goleadores_xpath)[0]

In [None]:
pd.read_html(html.tostring(goleadores_table))[0]

In [None]:
pd.read_html(str(tablas[7]))[0]

Otra forma sencilla es hacer uso de `pandas` directamente

In [189]:
world_cup = pd.read_html("https://es.wikipedia.org/wiki/Copa_Mundial_de_F%C3%BAtbol")

In [None]:
len(world_cup)

In [None]:
world_cup[7]

In [None]:
world_cup[1]

### Ejemplo: Vehículos de TuCarro

In [193]:
url = "https://listado.tucarro.com.co/toyota#D[A:toyota]"
html_tc = requests.get(url)

In [None]:
html_tc.content

In [195]:
tree = html.fromstring(html_tc.content)
xpath_contenido = '//div[@class="poly-card__content"]'
propiedades_card = tree.xpath(xpath_contenido)

In [None]:
propiedades_card[0].getchildren()

In [None]:
propiedades_card[0].getchildren()[0].getchildren()[0].text

In [None]:
propiedades_card[0].getchildren()[1].getchildren()[0].getchildren()[0].getchildren()[1].text

In [None]:
propiedades_card[0].getchildren()[2].getchildren()[0].getchildren()[0].text

In [None]:
propiedades_card[0].getchildren()[2].getchildren()[0].getchildren()[1].text

In [202]:
datos_vehiculos = pd.DataFrame(columns=['Modelo','Precio','año','km'])

for k in range(len(propiedades_card)):
    elemento = propiedades_card[k]
    titulo = elemento.getchildren()[0].getchildren()[0].text
    precio = elemento.getchildren()[1].getchildren()[0].getchildren()[0].getchildren()[1].text
    año = elemento.getchildren()[2].getchildren()[0].getchildren()[0].text
    km = elemento.getchildren()[2].getchildren()[0].getchildren()[1].text
    datos_vehiculos.loc[len(datos_vehiculos)] = [titulo,precio,año,km]

In [None]:
datos_vehiculos