# Python essentials 


## 1. Python

### 1.1 Funciones  

Las funciones son como mini programas dentro de un programa. Su objetivo es combatir la duplicación de código y granularlo en pequeñas porciones.

- El string def define la función.
- La entrada de las funciones son los argumentos.
- La salida de una función son los valores de retorno.
- Los parámetros son las variables dentro de los paréntesis en la declaración de la función.
- El valor de retorno es especificado usando la sentencia return.

Cada función tiene un valor de retorno. Si tu función no tiene una sentencia de retorno, el valor a retornar por defecto es None. 

In [1]:
import random
def randomGenerator():
    x = random.randint(1, 10)
    return x

print("the number is: " + str(randomGenerator()))

### 1.2 Alcance global y local  
- El alcance puede entenderse como cierta área en el código que contiene variables.
- El alcance global se entiende como el área fuera de las funciones. Las funciones asignadas en dicha área son llamadas variables globales. 
- Cada función tiene su propio alcance, a esto se entiende por alcance local. Las variables definidas dentro de las funciones se conocen como variables locales.
- El código de alcance global **no** puede usar variables locales.
- El código en una función con alcance local no puede usar variables de otra función con alcance local.
- Si hay una sentencia de declaración para una variable en una función, esta siempre será de alcance local.



In [2]:
var1 = 10 #global variable
def funct():
    var2 = 20 #local variable
    global var3 
    var3= 100
    
funct()
print(var1)
print(var1+var3)
#print(var2) imprime error 

10
110


### 1.3 Sentencias Try y Except 
- El error divide-by-zero ocurre cuando python divide un número por cero.
- Los errores hacen que el programa se caiga.
- Un error que ocurre dentro de un bloque try causa que se ejecute el código en el bloque except. Ese código puede manejar el error o entregar un mensaje al usuario, de esta forma el programa puede seguir funcionando.

In [3]:
def div42by(number):
    try:
        return 42/number
    except:
        print("ERROR: You tried to divide by zero. ")
print(div42by(10))
print(div42by(90))
print(div42by(0))
print(div42by(1))

4.2
0.4666666666666667
ERROR: You tried to divide by zero. 
None
42.0


### 1.4 Tipo de dato: List
Primero que todo, debes saber que en python los arreglos no son una estructura de datos nativa. Python posee 'list' o listas que son mutables, esto significa que son capaces de modificarse, cambiando el contenido que almacenan. 
Las listas pueden almacenar información de distinto tipo. Es como una mochila, dentro de esta puedes almacenar lo que quieras. 

#### los métodos más útiles para interactuar con listas: 
- **list1.insert(position, element)**,  insert an element in  position
- **list1.append(element)**,  insert an element in the top of the list
- **list1.remove(element)**, remove an element. if the element doesn't exist in list then return a ValueError. You MUST use try-except.
- **list1.extends(lista2)**, insert in the top of the list1 all the elements of list2
- **list1.count(element)**, return the number of appearances of the element in list
- **list1.index(element)**, obtain the position of the element in list. if the element doesn't exist in list then return a ValueError(use try-except)
- **list.copy()**, this make a copy of a list
- **list.sort()**, this returns the sorted list data in ascending order
- **list.reverse()**, reverse the items in any list. useful for sorting lit in descending order.
- **list.clear()**, remove all elements in list. useful for re-assigning the values of a values of a list by removing the previous items 




In [4]:
bag = ['apple', 1, True, "LOL","last_item"]
for x in range(0,len(bag)):
    print(bag[x])
print(bag[-1])
print(bag[-2])

apple
1
True
LOL
last_item
last_item
LOL


### 1.5 Tipo de dato: Diccionario
Un diccionario es una colección de muchos valores, pero a diferencia de los índices de las listas, los diccionarios pueden usar distintos tipos de datos, no solo enteros. Los índices en los diccionarios son llamados llaves y están asociados a un valor llamado valor-clave.
- Los diccionarios son mutables. Las variables tienen referencias a los valores de los diccionarios, no al valor del diccionario.
- Los diccionarios no tienen orden, no tienen un primer valor-clave.

In [5]:
myCat = {'size': 'small', 'color': 'black', 'disposition': 'loud'}
print(myCat['color'])
'color' in myCat
#if('color' in myCat != False): print('My cat has the color:'+ myCat['color'])
#if('color' not in myCat != True): print('wtf my cat does not have color')
print(list(myCat.keys()))
print(list(myCat.values()))
print(list(myCat.items()))
print('my cat color is: ' + myCat.get('color', 'does not have color :('))


black
['size', 'color', 'disposition']
['small', 'black', 'loud']
[('size', 'small'), ('color', 'black'), ('disposition', 'loud')]
my cat color is: black


EXERCISE 2: counting the characters of string

In [6]:
import pprint
longtext = 'holacomoestaijiji'
count = {}
for char in longtext.upper():
    count.setdefault(char,0)
    count[char] = count[char] + 1
pprint.pprint(list(count.items()))
    

[('H', 1),
 ('O', 3),
 ('L', 1),
 ('A', 2),
 ('C', 1),
 ('M', 1),
 ('E', 1),
 ('S', 1),
 ('T', 1),
 ('I', 3),
 ('J', 2)]


The pprint module's pprint() "pretty print" function can display a dictionary value cleanly. The pformat() function returns a string value of this output. 

### 1.6 Strings
Caracteres de escape:   
- \' = Single quote  
- \" = Double quote  
- \t = tab  
- \n = Line break  
- \\ = Backlash  


     
también, """ any_text """ es útil.   

In [7]:
print("This is a text message: 'hello  \" wut \"'")
r"That's not my cat\'s' name"
print("""h
o
l
a""")

This is a text message: 'hello  " wut "'
h
o
l
a


##### Métodos útiles 
- text.upper() or text.lower() = todos los caracteres se transforman a mayús o minús 
- text.isalpha() = sólo letras
- text.isalnum() = sólo números o letras
- text.isdecimal() = sólo numeros
- text.isspace() = sólo espacios
- text.istitle() = string que comienzan con mayús y  el resto es minús



In [8]:
text = "heLlO World"
print(text.upper())
print(text.lower())
us = ['cat','mouse','dog']
print(' and '.join(us))

HELLO WORLD
hello world
cat and mouse and dog


String formatting

In [9]:
name = 'John'
place = 'St. Clement'
time = '10'
food = 'avocado'
print('Hello %s, you are invited to a party in %s street at %s pm. Bring %s.' % (name,place, time, food))

Hello John, you are invited to a party in St. Clement street at 10 pm. Bring avocado.


### 1.7 Expresiones regulares

- Las expresiones regulares son como mini lenguajes para especificar patrones de texto. Escribir código para hacer reconocimento de patrones de texto puede resultar bastante tedioso, en estos casos, las expresiones regulares pueden ahorrarnos bastante trabajo.
- Regex strings usan \ backslashes (like \d), así que a menudo son strings del tipo: r'\d'.   
- Para emplear Regex, es necesario **importar re**.   
- Debes llamar a la función **re.compile()** para crear un objeto regex.
- \d es la regex para un digito numerico del 0 al 9.   
- \D para cualquier carácter que no es un digito numerico del 0 al 9.
- \w cualquier letra, digito numerico, o underscore character.
- \W para cualquier caracter que no sea una letra, digito o carácter subrayado
- \s para cualquier espacio, tabulacion y salto de linea
- \S para cualquier caracter que no sea espacio, tabulacion y salto de linea
- El caracter ^ antecediendo a  [aeiou] entregará todos los caracteres distintos al contenido del paréntesis

In [10]:
# Queremos un código para identificar si el texto es un número de telefono
def isPhoneNumber(text): #412-123-1231
    if(len(text)!= 12): 
        return False
    for i in range(0,3):
        if not text[i].isdecimal(): 
            return False
    if(text[3] != '-'): 
        return False
    for i in range(4,7):
        if not text[i].isdecimal():
            return False
    if(text[7]!= '-'):
        return False
    for i in range(8, 12):
        if not text[i].isdecimal():
            return False
    return True

number = '412-123-1231'
if(isPhoneNumber(number) == True):
    print('Wow. Thanks!')
else: print('error')

Wow. Thanks!


Esto es equivalente a:

In [11]:
import re
message = 'Call me 128-123-9999 tomorrow, or at 111-222-3333'
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
#mo = phoneNumRegex.search(message) //obtiene la primera ocurrencia y almacena en mo
print(phoneNumRegex.findall(message)) # Con findall encontramos todas las ocurrencias en el texto

['128-123-9999', '111-222-3333']


Es posible **agrupar** los elementos que componen a la expresión regular, de esta forma, podremos obtener partes específicas. 
Para agrupar los elementos que componen la expresión regular utilizamos peréntesis, estos deberán rodear dichos grupos.    
     
Por ejemplo: r'(\d\d\d\d)-(\d\d\d)-(\d\d\d)', está conformado por 3 grupos. 

In [12]:
phoneNumRegex = re.compile(r'(\d\d\d)-(\d\d\d)-(\d\d\d\d)')
mo = phoneNumRegex.search('Call me 128-123-9999')
mo.group(3) # despliega el grupo 3 compuesto por 9999

'9999'

El carácter **|**, conocido como pipe, permite localizar las posibles ocurrencias en un string dado un grupo de posibles candidatos.   

In [13]:
# programa que retorna la primera ocurrencia
saRegex = re.compile(r'sa(ndia|bor|bado|lud|grado)')
mo = saRegex.search("La sandia tiene un sabor sagrado")
#mo = saRegex.search("La naranja tiene un color pálido")
#mo == None
mo.group()

'sandia'

El carácter **?** en una expresión regular hace referencia a _cero o una ocurrencia_ de un grupo, por ejemplo: 

In [14]:
batRegex = re.compile(r'Bat(wo)?man') # Regex
mo = batRegex.search('The adventures of Batman')
mo.group() # print Batman
mo = batRegex.search('The adventures of Batwoman')
mo.group() # print Batwoman

'Batwoman'

El carácter * en una expresión regular hace referencia a _cero o n ocurrencias_ de un grupo, por ejemplo:

In [15]:
batRegex = re.compile(r'Bat(wo)*man') #regex
mo=batRegex.search('The adventures of Batwowowowowowowoman')
mo.group()

'Batwowowowowowowoman'

El carácter **+** en una expresión regular hace referencia a _una o más ocurrencias_ de un grupo, por ejemplo:


In [16]:
batRegex = re.compile(r'Bat(wo)+man')
mo = batRegex.search('The adventures of Batwowoman')
mo.group()

'Batwowoman'

Los curly brackets {x} indican que en una expresión regular debe presentarse un grupo una cantidad x de veces, ejemplo:


In [17]:
batRegex = re.compile(r'Bat(wo){3}man')
mo = batRegex.search('The adventures of Batwowowoman')
mo.group()

'Batwowowoman'

Cuando el curly brackets contiene dos atributos {x,y}, entonces x significa la cantidad mínima y y la cantidad máxima de el grupo de la expresión regular

In [18]:
batRegex = re.compile(r'Bat(wo){3,6}man')
mo = batRegex.search('The adventures of Batwowowowowoman')
mo.group()

'Batwowowowowoman'

El punto **.** en una expresión regular reemplaza un carácter faltante para hacer el match con un string, por ejemplo:

In [19]:
atRegex = re.compile (r'.at')
atRegex.findall("the cat en the hat sat on the flat mat")

['cat', 'hat', 'sat', 'lat', 'mat']

Utilizando findall() y agregando los elementos a un arreglo

In [20]:
lyrics = '12 Drummers Drumming, 11 Pipers Piping, 10 Lords a Leaping, 9 Ladies Dancing, 8 Maids a Milking, 7 Swans a Swimming, 6 Geese a Laying, 5 Golden Rings, 4 Calling Birds, 3 French Hens, 2 Turtle Doves, and a Partridge in a Pear Tree'
xmasRegex = re.compile(r'\d+\s\w+') #Buscar una cadena de texto con digito_letra
arr=xmasRegex.findall(lyrics)
print(arr)

['12 Drummers', '11 Pipers', '10 Lords', '9 Ladies', '8 Maids', '7 Swans', '6 Geese', '5 Golden', '4 Calling', '3 French', '2 Turtle']


Podemos substituir elementos de una Regex

In [21]:
nameRegex = re.compile(r'Agent \w+')
message = 'Agent Alice gave the secret documents to Agent Bob.'
nameRegex.findall(message)
nameRegex.sub('REDACTED', message)

'REDACTED gave the secret documents to REDACTED.'

#### Para mayor información sobre Expresiones regulares, recomiendo leer la documentación de la librería re

### 1.8 Web Scraping

Web scraping es una técnica utilizada mediante programas de software para extraer información de sitios web. Usualmente, estos programas simulan la navegación de un humano en internet, ya sea usando el protocolo HTTP manualmente, o inscrustando el navegador en una aplicación.   
Para hacer web scraping se necesita, en primera instancia, instalar en tu máquina la librería HTTP **Requests** para Python.   
```sh
$ python -m pip install requests
```


In [22]:
import requests
# vamos a intentar ingresar a Falabella
res = requests.get('https://www.falabella.com/falabella-cl/')
len(res.text) #indica la cantidad de caracteres que componen la pagina
#print(res.text) #imprime los chars de la página


455809

El siguiente paso es instalar la libreria de Python **BeautifulSoup**.
```sh
$ pip install beautifulsoup4
```

In [23]:
import bs4
#import requests
# vamos a extraer el valor del siguiente producto de falabella
res = requests.get('https://www.falabella.com/falabella-cl/product/8116897/Notebook-Intel-Core-i7-9750H-16GB-RAM-+-32GB-Intel-Optane-512GB-SSD-NVIDIA-GeForce-RTX-2080-15.6-/8116897')
res.raise_for_status() # con este metodo nos aseguramos que la petición fue realizada con éxito
#parseamos el texto a formato html
soup = bs4.BeautifulSoup(res.text, 'html.parser')
#Copiamos la ruta CSS del elemento que deseamos extraer
element = soup.select('html body.custom_class div#__next div.jsx-1987097504.main section.jsx-4234634535.pdp-body div.jsx-4234634535.container div.jsx-4234634535.productContainer div.jsx-4113348717.pdp-container section.jsx-4113348717.pdp-detail-section div div.jsx-2170457292.product-specifications div.jsx-2170457292.product-specifications-column.fa--product-specifications-column__desktop div.jsx-2170457292.price div#testId-pod-prices-8116897.jsx-1904860942.prices.prices-4_GRID ol.jsx-1904860942.ol-4_GRID.pdp-prices.fa--prices li.jsx-1904860942.price-0 div.jsx-1904860942.cmr-icon-container span.copy13.primary.high.jsx-185326735.normal')
element[0].text

'$  2.399.990 '

Sería ideal generar una función que genere estre proceso y que tenga como argumento la url del producto que deseamos scrapear

In [57]:
#import bs4, requests
import pprint
def getElements(productUrl):
    res = requests.get(productUrl)
    res.raise_for_status()
    soup = bs4.BeautifulSoup(res.text, 'html.parser')
    name = soup.findAll("b", {"class": "pod-subTitle"})
    price = soup.findAll("li", {"class": "price-0"})
    item = []
    for i in range(len(price)):
        item.append([name[i].text, price[i].text])
    return item
    
elements = getElements('https://www.falabella.com/falabella-cl/category/cat70057/Notebooks?page=2')
pprint.pprint(elements)

[['Notebook Intel Pentium Gold 4GB RAM 500GB HDD 15.6"', '$  399.990 '],
 ['Notebook 240 G7 Intel Core i3-1005G1 4GB RAM 1TB HDD 14"', '$  419.990 '],
 ['Notebook Hp 240 Cel N4020 4Gb 500Gb Win10H', '$  349.900 '],
 ['Notebook Intel Core i7-9750H 16GB RAM + 32GB Intel Optane 512GB SSD NVIDIA '
  'GeForce RTX 2080 15.6"',
  '$  2.399.990 '],
 ['Macbook Air 13" Intel Core i5 8GB RAM 512GB SSD Silver', '$  1.449.990 '],
 ['Notebook/Hp/240 G7/Intel Celeron/4Gb/500Gb/W10/14', '$  349.990 (Oferta)'],
 ['Notebook Lenovo V130 I3-7020 8Gb 1Tb W10Home', '$  489.900 '],
 ['MacBook Pro 16" Intel Core i7 16GB RAM-512GB SSD Space Gray',
  '$  2.249.990 '],
 ['Notebook 2en1 Spectre Intel Core i7 8GB RAM 512GB SSD 13,3"',
  '$  1.399.990 '],
 ['Notebook Gamer TUF Gaming A15 AMD Ryzen 7-4800H 16GB RAM 512GB SSD NVIDIA '
  'GeForce RTX 2060 15.6"',
  '$  1.299.990 '],
 ['Macbook Air 13" Intel Core i5 8GB RAM 512GB SSD Gold', '$  1.449.990 '],
 ['Notebook Swift 3 AMD Ryzen 5 16GB RAM 512GB SSD 14"', '$  

libraries like: scipy, matplotlib, numpy, pandas, django?? then ML->DL
