## Porqué python?

La mayoría de las empresas requieren que sus científicos de datos hagan más que modelado predictivo (es decir, aprendizaje automático). Al menos, probablemente se le pedirá que mantenga los flujos de datos que alimentan sus modelos, y esas canalizaciones de datos probablemente se construirán en Python. El estándar de la industria para la creación y mantenimiento de los flujos hoy en día es Airflow basado en Python. Se estima que el 100% de los científicos de datos en Facebook usan Python cada semana, mientras que tal vez el 10% o más usa activamente R. Por lo que probablemente sea más eficiente elegir Python: aunque probablemente pueda evitar usar R una vez que haya conseguido un trabajo, es poco probable que pueda evitar usar Python.

Python tiene una sólida reputación por ser fácil de aprender. Los beneficios de la facilidad de aprendizaje de Python son especialmente evidentes cuando comienza a utilizar funciones del lenguaje más allá del modelado estadístico. Esas características incluyen cosas como empaquetar los proyectos para hacer distribuciones, desarrollar interfaces de línea de comandos, modelar sus estructuras de datos con ORM como SQLAlchemy, entre otros. El uso de Python hará que sea más fácil dominar esas características y, como resultado, el usuario se beneficiará.

Por último, es probable que llegue al punto en elque se necesite que los modelos estén disponibles en tiempo real para los usuarios finales. Para resolver ese problema, deberá crear una aplicación web basada en REST, que es mucho más fácil de hacer con Python. De hecho, Python tiene algunos de los entornos de aplicaciones web más populares del mundo, a saber, Django y Flask. Es mucho más probable que las herramientas de implementación interna de la empresa sean compatibles con esos entornos y es relativamente poco probable que sean compatibles con R.

La popularidad de esos entornos también significa que están respaldados por proveedores de plataforma como servicio como Heroku o Amazon. Se pueden publicar los proyectos personales en línea por una fracción del esfuerzo que requeriría implementar los mismos proyectos en R. Esto puede llevar a que el científico sea capaz de capturar de manera autónoma más funciones para los modelos, teniendo un efecto dramático en el impacto de las soluciones que puede ofrecer.

## Qué necesitamos instalar?

* [Anaconda](https://www.anaconda.com/products/individual) versión 3.X.
* [Numpy](https://numpy.org/): Librería apta para álgebra lineal y matrices multidimensionales
* [Scipy](http://www.scipy.org/): Librería adicional para programación científica
* [Matplotlib](http://matplotlib.sf.net/): Bibliotecas para graficación
* [Pandas](http://pandas.pydata.org/):  Versión Python del dataframes de R
* [scikit-learn](http://scikit-learn.org/): biblioteca de aprendizaje automático.

## Verificando la instalación


In [1]:
import sys

print('Python version:', sys.version)

import IPython
print('IPython:', IPython.__version__)

import numpy
print('numpy:', numpy.__version__)

import scipy
print('scipy:', scipy.__version__)

import matplotlib
print('matplotlib:', matplotlib.__version__)

import pandas
print('pandas:', pandas.__version__)

import sklearn
print('scikit-learn:', sklearn.__version__)

Python version: 3.6.9 (default, Nov  7 2019, 10:44:02) 
[GCC 8.3.0]
IPython: 7.13.0
numpy: 1.18.2
scipy: 1.4.1
matplotlib: 3.2.1
pandas: 1.0.3
scikit-learn: 0.22.2.post1


## I. Usando python como calculadora

In [2]:
3+2

5

In [4]:
(3*2)/12

0.5

In [5]:
sqrt(79)

NameError: name 'sqrt' is not defined

(En Jupyter notebook presione Shift+Enter para que se ejecute una celda).

En las líneas anteriores, se han visto brevemente, dos tipos de datos diferentes: números enteros y números de punto flotante, también conocidos como números decimales.

También hemos visto la primera instancia de una declaración de importación. Python tiene una gran cantidad de bibliotecas incluidas con la distribución. La mayoría de estas variables y funciones no son accesibles desde una sesión interactiva normal de Python. En su lugar, debe importar la librería que dispone de las funciones. Por ejemplo, hay un módulo matemático que contiene muchas funciones útiles. Para acceder, digamos, a la función de raíz cuadrada, primero debe "*llamarla desde la librería correspondiente*"

In [8]:
from math import sqrt
sqrt(79)

8.888194417315589

o cargar la librería directamente.

In [10]:
import math
math.sqrt(79)

8.888194417315589

Puede crear variables usando el signo `=`.

In [12]:
r = 10
pi = math.pi
area = pi*r**2 
area

314.1592653589793

Existen algunos nombres reservados por `Python` y no pueden usarse para la creación de variables:

`and, as, assert, break, class, continue, def, del, elif, else, except, 
exec, finally, for, from, global, if, import, in, is, lambda, not, or,
pass, print, raise, return, try, while, with, yield`

Por ejemplo:

In [14]:
as = 0

SyntaxError: invalid syntax (<ipython-input-14-7190e23248fb>, line 1)

## Cadenas

Son listas de caracteres que se pueden definir utilizando comillas simples o dobles.

In [15]:
'Bienvenido a clase'

'Bienvenido a clase'

In [16]:
"Bienvenido a clase"

'Bienvenido a clase'

Estas pueden ser asignadas a variables

In [17]:
saludo = 'Bienvenido a clase'

La instrucción `print` es usada para mostrar el contenido de la variable.

In [18]:
print(saludo)

Bienvenido a clase


Y puede ser combinado con otros elementos:

In [21]:
print('Esto es un GRAN!!!!' + saludo)

Esto es un GRAN!!!!Bienvenido a clase


Sin embargo se debe tener en cuenta la correcta utilziación del tipo de datos a usar en la ptunción `print`

In [22]:
print('El área calculada es: ' + area)

TypeError: must be str, not float

In [23]:
print('El área calculada es: ' + str(area))

El área calculada es: 314.1592653589793


El operador `+` además de sumar números concatena cadenas de texto.

In [24]:
saludo2 = 'Bienvenido' + 'a' + 'clase'

In [25]:
print(saludo2)

Bienvenidoaclase


In [29]:
saludo3 = 'Bienvenido' + ' a ' + 'clase'

In [30]:
print(saludo3)

Bienvenido a clase


# Listas

En el procesamiento es necesario algunas veces mantener *juntos* un grupo de elementos delmismo tipo. Python permite lo antertior usando un tipo de datos llamado **listas**.

In [31]:
nombres = ['Andrea', 'Tiago', 'Salo', 'Hela']

In [32]:
print(nombres)

['Andrea', 'Tiago', 'Salo', 'Hela']


In [33]:
print(nombres[1])

Tiago


Python indexa los elementos de sus listas de elementos desde cero, así entonces en el ejemplo 0 es "Andrea"y 1 es "Tiago". Si se necesita accesar a los últimos elementos de la lista se pueden usar números negativos, por ejemplo, -1 indexa al último elemento de la lista y -2 al penúltimo.

In [34]:
print(nombres[-1], nombres[-2])

Hela Salo


A las listas se les puede agregar elementos adicionales

In [36]:
nombres.append('Bruce')

In [37]:
print(nombres)

['Andrea', 'Tiago', 'Salo', 'Hela', 'Bruce']


El comando `range` permite generar secuencias de números, `range(n)` inicia en 0 y genera una secuencia de valores hasta $n-1$. También puede definir un punto de partida (start) ode parada (stop)

In [38]:
numeros = list(range(15))
print(numeros)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]


In [39]:
numeros2 = list(range(3,20))
numeros2

[3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19]

Igualmente puede definir un rango de valores que presente saltos cada cierto valor

In [40]:
numeros2 = list(range(3,20,2))
numeros2

[3, 5, 7, 9, 11, 13, 15, 17, 19]

Una lista puede contener elementos de diferente tipo, sin embargo, es deseable que tengan siempre el mismo tipo.

In [42]:
varios = [1, 'frebrero', 9.999, math.sqrt(2)]
varios

[1, 'frebrero', 9.999, 1.4142135623730951]

Puede conocer cuál es el tamaño de una lista con la función `len`

In [43]:
len(varios)

4

## Iteraciones

In [44]:
for nombre in nombres:
    print(nombre)

Andrea
Tiago
Salo
Hela
Bruce


In [45]:
dia = ['lunes', 'martes', 'miércoles', 'jueves', 'viernes', 'sábado', 'domingo']

In [46]:
for k in dia:
    texto = 'Este es el ' + k
    print(texto)

Este es el lunes
Este es el martes
Este es el miércoles
Este es el jueves
Este es el viernes
Este es el sábado
Este es el domingo


también es posible iterar sobre un rango de valores:

In [47]:
for ii in range(20):
    print('La raiz cuadrada de ', ii, ' es: ', math.sqrt(ii))

La raiz cuadrada de  0  es:  0.0
La raiz cuadrada de  1  es:  1.0
La raiz cuadrada de  2  es:  1.4142135623730951
La raiz cuadrada de  3  es:  1.7320508075688772
La raiz cuadrada de  4  es:  2.0
La raiz cuadrada de  5  es:  2.23606797749979
La raiz cuadrada de  6  es:  2.449489742783178
La raiz cuadrada de  7  es:  2.6457513110645907
La raiz cuadrada de  8  es:  2.8284271247461903
La raiz cuadrada de  9  es:  3.0
La raiz cuadrada de  10  es:  3.1622776601683795
La raiz cuadrada de  11  es:  3.3166247903554
La raiz cuadrada de  12  es:  3.4641016151377544
La raiz cuadrada de  13  es:  3.605551275463989
La raiz cuadrada de  14  es:  3.7416573867739413
La raiz cuadrada de  15  es:  3.872983346207417
La raiz cuadrada de  16  es:  4.0
La raiz cuadrada de  17  es:  4.123105625617661
La raiz cuadrada de  18  es:  4.242640687119285
La raiz cuadrada de  19  es:  4.358898943540674


In [48]:
for ii in range(20):
    print('La raiz cuadrada de %s es: %s' % (ii, math.sqrt(ii)))

La raiz cuadrada de 0 es: 0.0
La raiz cuadrada de 1 es: 1.0
La raiz cuadrada de 2 es: 1.4142135623730951
La raiz cuadrada de 3 es: 1.7320508075688772
La raiz cuadrada de 4 es: 2.0
La raiz cuadrada de 5 es: 2.23606797749979
La raiz cuadrada de 6 es: 2.449489742783178
La raiz cuadrada de 7 es: 2.6457513110645907
La raiz cuadrada de 8 es: 2.8284271247461903
La raiz cuadrada de 9 es: 3.0
La raiz cuadrada de 10 es: 3.1622776601683795
La raiz cuadrada de 11 es: 3.3166247903554
La raiz cuadrada de 12 es: 3.4641016151377544
La raiz cuadrada de 13 es: 3.605551275463989
La raiz cuadrada de 14 es: 3.7416573867739413
La raiz cuadrada de 15 es: 3.872983346207417
La raiz cuadrada de 16 es: 4.0
La raiz cuadrada de 17 es: 4.123105625617661
La raiz cuadrada de 18 es: 4.242640687119285
La raiz cuadrada de 19 es: 4.358898943540674


## Slicing

Las listas y cadenas pueden tratarse como secuencias, por lo cual es posible iterar sobre ellas:

In [49]:
for letra in "Santo Tomás":
    print(letra)

S
a
n
t
o
 
T
o
m
á
s


In [50]:
dia[0]

'lunes'

In [51]:
dia[0:2]

['lunes', 'martes']

In [52]:
dia[:2]

['lunes', 'martes']

In [55]:
dia[2:]

['miércoles', 'jueves', 'viernes', 'sábado', 'domingo']

In [56]:
dia[-3:]

['viernes', 'sábado', 'domingo']

In [57]:
dia[2:4]

['miércoles', 'jueves']

In [59]:
habil = dia[:-2]
habil

['lunes', 'martes', 'miércoles', 'jueves', 'viernes']

In [64]:
lista_num = list(range(0, 60))
salto = lista_num[2::4]
salto

[2, 6, 10, 14, 18, 22, 26, 30, 34, 38, 42, 46, 50, 54, 58]

## Booleanos y Condicionales

Indudablemente, se requiere algún concepto de manejo de flujos condicionales en la programación para controlar el comportamiento de las decisiones, para hacer que un programa reaccione de manera diferente a diferentes situaciones. Si esta lloviendo, sacar sombrilla, pero si es soleado, no sacar sombrilla. En Python se usa una combinación de variables `booleanas`, que evalúan como `True` o `False`, y las declaraciones `if` cuya acción se basa en valores booleanos.

In [68]:
clima = 'llueve'
if clima == "llueve":
    print("Quedarse en casa")
else:
    print("salir al parque")

Quedarse en casa


In [69]:
clima == "llueve"

True

La evaluación de la condicióncomose observa, retorna un valor booleano, `True`. El operador `==` realiza la prueba comparativa de igualdad. Si los dos elementos son iguales, devuelve `True`; de lo contrario retorna `False`.
A la instrucción `if` que contiene la prueba de condición la sigue un bloque de código (dos puntos seguidos de un bloque de código identado). Si el booleano es `True`, ejecuta el código en ese bloque,cuando es `False` se ejecuta el bloque de código que va seguido de la instrucción `else`.

* Probar otros operadores de comparación: ==, >=, <=, !=, <, >

In [70]:
1 is 1.0

False

In [80]:
bool(1)

True

In [81]:
bool(0)

False

La sentencia `elif` permite agregar mas instrucciones al proceso

In [82]:
clima = 'nublado'
if clima == "llueve":
    print("Llevar abrigo y paraguas")
elif clima == "nublado":
    print("Llevar abrigo")
else:
    print("llevar ropa fresca")

Llevar abrigo


Se pueden usar los flujos condicionales en iteraciones:

In [83]:
clima = ['llueve', 'soleado', 'nublado']
for kk in clima:
    if kk == "llueve":
        print("El clima es %s, entonces llevar abrigo y paraguas" % (kk))
    elif kk == "nublado":
        print("El clima es %s, entonces llevar abrigo" % (kk))
    else:
        print("El clima es %s, entonces llevar llevar ropa fresca" % (kk))

El clima es llueve, entonces llevar abrigo y paraguas
El clima es soleado, entonces llevar llevar ropa fresca
El clima es nublado, entonces llevar abrigo


## Ejemplo: Sucesión de Fibonacci

La [Sucesión de Fibonacci](https://es.wikipedia.org/wiki/Sucesi%C3%B3n_de_Fibonacci) es una sucesión infinita de números naturales que inicia conlos números 0 y 1 respectivamente y a partir de estos el siguiente corresponde a la suma de los dos números anteriores.

In [89]:
n = 20
serie_f = [0,1]
for ii in range(2,n):
    serie_f.append(serie_f[ii-2] + serie_f[ii-1])
serie_f

[0,
 1,
 1,
 2,
 3,
 5,
 8,
 13,
 21,
 34,
 55,
 89,
 144,
 233,
 377,
 610,
 987,
 1597,
 2584,
 4181]

## Funciones

Es posible que se desee usar el codigo de la Sucesión de Fibonacci con diferentes rango. Una opción sería cortar y pegar el código en otra celda, actualizando el valor de n, pero es más fácil y más útil hacer una función del código. Para ello, se hace uso de la sentencia `def`:

In [98]:
def fibonacci(n):
    ## Inicializar los dos primeros números de la serie
    serie_f = [0,1]
    ## Sumar iterativamente los dos números previos para calcular el nuevo número
    for ii in range(2,n):
        serie_f.append(serie_f[ii-2] + serie_f[ii-1])
    return serie_f

In [99]:
fibonacci(20)

[0,
 1,
 1,
 2,
 3,
 5,
 8,
 13,
 21,
 34,
 55,
 89,
 144,
 233,
 377,
 610,
 987,
 1597,
 2584,
 4181]

In [100]:
fibonacci(12)

[0, 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89]

## Tuplas

Una tupla es un objeto que contiene una secuencia de elementos, algo así como una lista o una cadena. Se construye agrupando una secuencia de objetos con comas, ya sea sin corchetes o con paréntesis:

In [104]:
t = (12,24,'tupla',9.5, math.sqrt(2))
t

(12, 24, 'tupla', 9.5, 1.4142135623730951)

In [105]:
t[1]

24

Las tuplas son objetos *inmutables*, por lo que no pueden ser cambiadas.

In [106]:
t.append(7)

AttributeError: 'tuple' object has no attribute 'append'

In [108]:
t[0] = 43

TypeError: 'tuple' object does not support item assignment

## Diccionarios

Los diccionarios son objetos que permiten "mapear" o asociar características de los objetos. El índice en un diccionario se llama `key` y la entrada correspondiente del diccionario es el valor característico. Un diccionario puede usar casi cualquier cosa como `key`, mientras que las listas se forman con barras cuadradas [], los diccionarios usan corchetes {}:


In [111]:
cursos = {"Muestreo": 25, "Estadistica 1": 12, "Minería": 18}
print("Minería tiene un cupo de %s alumnos" % (cursos["Minería"]))

Minería tiene un cupo de 18 alumnos


Hay una función que también permite crear diccionarios:

In [113]:
cursos2 = dict(Muestreo=25, Estadistica_1=12, Minería=18)
print("Muestreo tiene un cupo de %s alumnos" % (cursos["Muestreo"]))

Muestreo tiene un cupo de 25 alumnos
