In [None]:
from IPython.display import Image

## Intro a Python

Python es un lenguaje de alto nivel con usos muy diversos como el desarrollo web, creación de juegos y el análisis de datos. Entre las ventajas de usar Python están:
* Es gratuito
* Es relativamente fácil de usar
* Es multipropósito, puede hacer muchas tareas aparte del análisis de datos.
* Tiene miles de librerias con funciones escritas por otras personas y que pueden ser descargadas.
* Es uno de los lenguajes más utilizados en el mundo, por lo que hay mucha información en internet para solucionar dudas.
* Hay una alta demanda laboral de personas que sepan análisis de datos y programación, y Python está entre los programas más demandados.

[en este blog](https://www.ibm.com/developerworks/community/blogs/jfp/entry/Why_Python?lang=en) pueden encontrar más razones para usar Python.

### Instalación
Hay varias distribuciones de Python, pero la más recomendada es la de **[Anaconda]()**, ya que incluye la mayoría de paquetes utilizados en análisis de datos.

### Abriendo Python
Podríamos usar Python directamente desde la consola de comandos de nuestra computadora, sin embargo lo usual es utilizar IDLES con una interfaz gráfica más amigable. Con anaconda se instalan dos programas con los que podemos trabajar Python: **Spyder** y **Jupyter Notebook**. En esta presentación vamos a utilizar el Jupyter notebook ya que es más apropiado para hacer web scrapping.

Para abrir Jupyter Notebook tenemos dos opciones:
1. Buscar entre nuestros programas instalados a Jupyter Notebook y abrirlo.
2. Desde la terminal de comandos, nos ubicamos en la carpeta en que queremos trabajar y escribimos: 
```
jupyter notebook
```

Se abrirá una ventana de comandos que **no debemos cerrar**.

En nuestro explorador de internet se abrirá una nueva pestaña que será el host local de Jupyter, y mostrará los archivos de ese directorio.

### Creando un nuevo notebok

* Nos vamos a la esquina superior derecha, hacemos click en el botón que dice *New* y seleccionamos *Python [root]*

* Se abrirá una nueva pestaña con un notebook y le asignamos un nombre. 

* En los notebooks se trabaja con celdas, en las que puede ir código o texto en markdown (permite incluir expresiones matemáticas de latex $\hat{\beta}^2$). En la caja superior se puede seleccionar cuál es el contenido de la celda.

* Para agregar nuevas celdas hacemos click en el el símbolo $+$ en la parte superior.

* Para ejecutar el código de una celda presionamos *ctrl + enter*. El resultado de la operación, si lo hay, se mostrará debajo de la celda, por ejemplo:

In [4]:
print 'hello world!'
# aquí imprimimmos #

hello world!


Los notebooks de Python tienen extensión .ipynb. Los scripts normales de Python tienen extensión .py

### Tipos de estructuras de datos en Python

Python tiene diferentes tipos de estructuras en las que guarda datos. Algunas vienen incluidas en el nucleo base de Python, pero otras se importan con librerías. Para el análisis de datos usamos principalmente DataFrames de la librería [Pandas](http://pandas.pydata.org/) y arrays de [NumPy](), sin embargo para este curso usaremos principalmente listas y dicccionarios, y solo veremos un poco de DataFrames. 

Veamos las estructras más básicas:
#### Listas
es un arreglo de elementos separados por comas, encerrados en corchetes []. Cada elemento puede ser un número, texto, tuplas, listas, o diccionarios.

In [20]:
L = ['Juan',89,['H',3]]

Para indexar los elementos las listas se utilizan [] y el número de posición del elemento. Hay que tener cuidado porque en Python la enumeracion de elementos empieza desde 0, por tanto el primer elemento se indexa con 0, el segundo con 1 y así sucesivamente:

#### Diccionarios

Los diccionarios son conjuntos de elementos compuestos por parejas de un nombre y su contenido, separados usando el símbolo de dos puntos $:$. Los diccionarios se definen usando llaves {} y sus elementos de un  se separan por comas. El nombre debe ser texto y los contenidos pueden ser números, texto, tuplas, listas, o diccionarios

In [76]:
D = {'nombre':'Juan',
     'apellidos':{'paterno':'Santos','materno':'Ochoa'},
     'edad':20,
    'nombre2':'Javier'}

La gran diferencia entre los diccionarios y las listas, es que los primeros se indexan con los nombres definidos, mientras que las listas con números:

### Iteración
La iteración sirve para ejecutar una tarea repetitiva en la que solo cambian uno o varios parámetros. 
En Python definimos un loop usando el comando `for`. Ejemplo:
```python
for i in range(10):
    print i
```

donde:
* `i` es el parámetro que irá cambiando en cada ciclo.
* `range(10)` es una función que genera una lista con elementos del 0 al 9
* `print` es la función que se aplicará a cada elemento `i`.

La intuición es simple: a cada elemento `i` de la lista `range(10)` se le aplicará la función `print`

Es importante notar la sintaxis del comando. Al final de la primera línea que define el `for` debe ir el símbolo $:$, y los elementos que van dentro del loop deben estar **indentados**, esto es con una tabulación (o 4 espacios simples).


### Listas por comprensión

Es una forma de definir listas usando iteraciones. Retomando el ejemplo anterior, podríamos construir una lista que contenga  los elementos del 0 al 9 elevados al cuadrado de dos formas:

In [61]:
S = [] # primero defino una lista vacía donde voy a guardar los elementos
for i in range(9):
    S += [i**2] # en cada ciclo agrego a la lista S el elemento i al cuadrado.
print S

[0, 1, 4, 9, 16, 25, 36, 49, 64]


In [72]:
# usando listas por comprensión
[[i,i**2,i**3] for i in range(10)]

[[0], [0, 1], [0, 1, 2, 3, 4, 5]]

* En las listas por comprensión definimos el loop dentro de corchetes [ ]. Colocamos primero la función que se aplicará a cada elemento y después el loop.

* También podríamos definir diccionarios usando listas por comprensión:

In [78]:
D2 = [{'lineal':i,'cuadrado':i**2} for i in range(10)]

In [97]:
[X['lineal'] for X in D2]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

## Intro a HTML

* _Hypertext Markup Language_ (HTML) es el formato en el que están escritas las páginas web. 

* En un sentido muy básico, las páginas web están compuestas de texto simple y _tags_. Los tags son la estructura básica del HTML que le da formato al contenido de las páginas.

* Los tags son como funciones que le dan formato al contenido definido dentro de ellos. Se definen con paréntesis angulares:

        <nombreTag> contenido <\nombretag>

* Por ejemplo 
```html
hola <b> mundo<\b>
```
produciría: hola **mundo**

* Los tags pueden tener atributos, que contienen información extra sobre el tipo de función que realizan o sirven para su identificación. Por ejemplo, en el elemento:
```html
    Esta es la página del <a href="www.cide.edu" id="pagina cide"> CIDE </a>
```
    * el nombre del tag es $a$
    * los atributos son `href="www.cide.edu"` y `id="pagina cide"`
    * El contenido es `CIDE`
    
Para mas detalles sobre HTML pueden consultar esta [página](http://htmldog.com/guides/html/beginner/gettingstarted/)

### Cómo ver el código html de una página

En la mayoría de los exploradores hay una opción para ver el código HTML de las páginas.
* En Google Chrome, Firefox y Safari aparece la opción _ver código fuente de la página_ al dar click derecho sobre la página 
* También en Chrome y Firefox aparece la opción _inspeccionar elemento_

---

## Web scrapping

El código de una página es una forma de datos semiestructurados, lo que intentaremos es buscar selectivamente los elementos de una página web que nos interesan. Para hacer web scrapping no hace falta manejar HTML, solo basta con poder indentificar los tags y sus atributos.

### Pasos para hacer web scrapping con Python

#### 1) Leer la página web
Para esta tarea usamos la librería requests, que debemos instalar una vez e importar cada vez que la utilizamos en un script.
> La libreria requests no viene previamente instalada, así que debemos instalarla. Para hacerlo hay que ir a la terminal de comandos de la computadora y escribir:
```
pip install request
```

In [102]:
import requests
pagina = requests.get('http://www.lnpp.cide.edu').content

En lo que se sigue del curso, nos guiaremos de un código HTML que no está en internet, así que creamos un objeto _string_ que lo contiene

In [105]:
html_doc = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,
<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and
<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>
"""

#### 2) Procesar el código HTML
Para esta tarea usamos la librería BeautifulSoup, que debemos instalar una vez e importar cada vez que la utilizamos en un script.
> La libreria BeautifulSoup no viene previamente instalada, así que debemos instalarla. Para hacerlo hay que ir a la terminal de comandos de la computadora y escribir:
```
pip install beautifulsoup4
```

In [106]:
!pip install beautifulsoup4



In [108]:
from bs4 import BeautifulSoup as Bsoup
BS = Bsoup(html_doc,'lxml')

In [112]:
BS

<html><head><title>The Dormouse's story</title></head>\n<body>\n<p class="title"><b>The Dormouse's story</b></p>\n<p class="story">Once upon a time there were three little sisters; and their names were\n<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,\n<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and\n<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>;\nand they lived at the bottom of a well.</p>\n<p class="story">...</p>\n</body></html>

#### 3) Seleccionar los elementos de los que nos interesa recuperar la información
Hay varias formas de seleccionar los elementos del código que nos interesan. Para ello ya debemos tener identificado en el código los tags y/o atributos que los identifican. La forma más fácil de obtenerlos es usando la función 
```
BS.find_all(#tag,#atributo)
```
 Esta función tiene 2 parámetros: 
* tag: este argumento puede ser texto o una lista, si son varios tags. Este argumento es opcional
* atributo:pueden ser uno o más atributos del tag, con su correspondiente valor. Es un argumento opcional

El o los resultados que arroja la función se encuentran en una lista. 

In [113]:
# Todos los elementos que tienen el tag a
BS.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [115]:
# todos los elementos que tienen el tag a o el b
BS.find_all(['a','b'])

[<b>The Dormouse's story</b>,
 <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [116]:
# el elemento con el tag a y cuyo id es link2
BS.find_all('a', id='link2')

[<a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>]

In [117]:
# el elemento cuya clase es title
BS.find_all(class_='title')
# NOTA: Cuando se usa el atributo class debe colocarse con un guión bajo al final, ya que en python el nombre class está reservado

[<p class="title"><b>The Dormouse's story</b></p>]

In [122]:
# el elemnto con el tag a, cuya clase es title y id es link3
BS.find_all('a', class_='sister',id='link3')

[<a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [125]:
import re

In [128]:
# el elemento con el tag a que contiene el texto Elsie
BS.find_all('a', string=re.compile('l'))

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

#### 4. Obtener y guardar la información de interés
Una vez tenemos los elementos, debemos obtener la información que nos interesa de cada uno de ellos. Recordemos que los resultados de `find_all()` vienen en una lista, así que tendremos que iterar a través de los elementos de esa lista.

Usualmente la información que queremos recuperar puede ser el **el valor de un atributo** o **el texto contenido**.

Supongamos que queremos obtener el link del primer elemento que hay en nuestro código html:

In [179]:
# para obtener el valor del atributo href
BS.find_all('a')[0]['href']

'http://example.com/elsie'

In [140]:
BS.find_all('a')

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,
 <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,
 <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

In [141]:
# o podríamos obtenerlos todos con un loop
[x['href'] for x in BS.find_all('a')]

['http://example.com/elsie',
 'http://example.com/lacie',
 'http://example.com/tillie']

In [142]:
# para obtener el texto:
[x.text for x in BS.find_all('a')]

[u'Elsie', u'Lacie', u'Tillie']

In [146]:
# y podemos guardarlo todo en una lista con diccionarios:
base1 = [{'nombre':x.text,'id':x['id'],'link':x['href']} for x in BS.find_all('a')]
base1

[{'id': 'link1', 'link': 'http://example.com/elsie', 'nombre': u'Elsie'},
 {'id': 'link2', 'link': 'http://example.com/lacie', 'nombre': u'Lacie'},
 {'id': 'link3', 'link': 'http://example.com/tillie', 'nombre': u'Tillie'}]

lo podemos convertir en  una base de datos y exportarlo en formato csv usando la librería `pandas`

In [147]:
import pandas as pd
data = pd.DataFrame.from_records(base1)
data

Unnamed: 0,id,link,nombre
0,link1,http://example.com/elsie,Elsie
1,link2,http://example.com/lacie,Lacie
2,link3,http://example.com/tillie,Tillie


In [194]:
# exportamos a csv
data.to_csv('datos.csv')

### Ejemplo práctico
Vamos a scrapear la sección de lacteos del supermercado Walmart. Queremos formar una base de datos con el producto, el precio y el link a la página web del producto. 

In [150]:
# página web que vamos a scrappear. 
web = 'https://super.walmart.com.mx/Lacteos/Leche-Fresca/Deslactosada-y-light/_/N-95e?storeId=0000009999'
# Hacemos el request y el procesamiento en BS en un solo paso
BS2 = Bsoup(requests.get(web).content,'lxml')

explorando el código vemos que el tag **`div`**, con el atributo **`class="product-detail-container"`** contiene los datos que nos interesan. Sin embargo, solo los que están dentro del **`div`** con **`class="listing-wrapper grid-view"`**

In [153]:
# echamos un vistazo a un elemento
elementos = BS2.find(class_="listing-wrapper grid-view").find_all(class_="product-detail-container")


[<div class="product-detail-container">\n<div class="product-title">\n<!-- Title goes here -->\n<a href="/Leche-Fresca/Leche-Alpura-deslactosada-light-250-ml/00750105590556?storeId=0000009999"><span itemprop="name">Leche Alpura deslactosada light 250 ml </span></a>\n</div>\n<div class="grid-view-promotional-row">\n</div>\n<div class="price-strikethrough">\n<span>\n</span>\n</div>\n<div class="price-wrap p-price price" itemscope="" itemtype="https://schema.org/Offer">\n<span>\n<span content="USD" itemprop="priceCurrency">$</span>\n<span content="6.5" itemprop="price">6.50</span>\n</span>\n</div>\n</div>,
 <div class="product-detail-container">\n<div class="product-title">\n<!-- Title goes here -->\n<a href="/Leche-Fresca/Leche-Parmalat-light-deslactosada-1-l/00070823698377?storeId=0000009999"><span itemprop="name">Leche Parmalat light deslactosada 1 l </span></a>\n</div>\n<div class="grid-view-promotional-row">\n</div>\n<div class="price-strikethrough">\n<span>\n</span>\n</div>\n<div cl

In [158]:
# así obtenemos el link, el nombre del producto y el precio
#link
elementos[0].find('a')['href']
# producto
elementos[0].find('a').text
# precio
elementos[0].find(itemprop='price').text

/Leche-Fresca/Leche-Alpura-deslactosada-light-250-ml/00750105590556?storeId=0000009999
Leche Alpura deslactosada light 250 ml 


u'6.50'

In [155]:
# contruimos el diccionario para la base
walmart = [{'link':elem.find('a')['href'],'producto': elem.find('a').text, 'precio':elem.find(itemprop='price').text}
           for elem in elementos]

In [157]:
lacteos = pd.DataFrame.from_records(walmart)
lacteos

Unnamed: 0,link,precio,producto
0,/Leche-Fresca/Leche-Alpura-deslactosada-light-...,6.5,Leche Alpura deslactosada light 250 ml
1,/Leche-Fresca/Leche-Parmalat-light-deslactosad...,16.2,Leche Parmalat light deslactosada 1 l
2,/Leche-Fresca/Leche-Alpura-deslactosada-250-ml...,6.5,Leche Alpura deslactosada 250 ml
3,/Leche-Fresca/Producto-lacteo-Nutri-Leche-desl...,13.9,Producto lácteo Nutri Leche deslactosado 1 l
4,/Leche-Fresca/Leche-Sello-Rojo-light-1-l/00750...,16.0,Leche Sello Rojo light 1 l
5,/Leche-Fresca/Mezcla-de-leche-Forti-Leche-con-...,14.7,Mezcla de leche Forti Leche con grasa vegetal ...
6,/Leche-Fresca/Leche-Santa-Clara-light-deslacto...,19.0,Leche Santa Clara light deslactosada 1 l
7,/Leche-Fresca/Leche-Lala-deslactosada-light-6-...,99.5,Leche Lala deslactosada light 6 pzas 1 l c/u
8,/Leche-Fresca/Leche-Sello-Rojo-deslactosada-1-...,17.0,Leche Sello Rojo deslactosada 1 l
9,/Leche-Fresca/Leche-Lala-deslactosada-6-pzas-1...,103.0,Leche Lala deslactosada 6 pzas 1 l c/u


### Selenium

In [159]:
from selenium import webdriver # Carga el módulo del web driver
# Abrimos una sesión en google chrome
driver = webdriver.Chrome("chromedriver.exe")
driver.get('https://super.walmart.com.mx/')

In [162]:
busq = driver.find_element_by_name('Ntt')
busq.send_keys('leche')
driver.find_element_by_name('submit').click()

NoSuchWindowException: Message: no such window: target window already closed
from unknown error: web view not found
  (Session info: chrome=56.0.2924.87)
  (Driver info: chromedriver=2.25.426923 (0390b88869384d6eb0d5d09729679f934aab9eed),platform=Windows NT 10.0.14393 x86_64)


In [161]:
driver.find_element_by_id('Bebés').click()

AttributeError: 'NoneType' object has no attribute 'click'

In [261]:
BS3 = Bsoup(driver.page_source)

In [265]:
elementos3 = BS3.find(class_="listing-wrapper grid-view").find_all(class_="product-detail-container")
# contruimos el diccionario para la base
dic3 = [{'link':elem.find('a')['href'],'producto': elem.find('a').text, 'precio':elem.find(itemprop='price').text}
           for elem in elementos]

In [268]:
bebes = pd.DataFrame.from_records(dic3)