## ¿Por qué elegir Python para Análisis de Datos?

Python es el lenguaje de programación de elección para muchos científicos, en gran medida porque ofrece una gran cantidad de poder para analizar y modelar datos con relativamente pocos gastos generales en términos de tiempo de aprendizaje, instalación o desarrollo.

El [tutorial de Python](http://docs.python.org/3/tutorial/) es un excelente lugar para comenzar a familiarizarse con el lenguaje. Aquí hay algunos motivos que favorecen el aprendizaje de Python:

- De código abierto - gratis para instalar
- Impresionante comunidad en línea
- Muy fácil de aprender
- Puede convertirse en un lenguaje común para la ciencia de datos y la producción de productos analíticos basados en la web.

<img src="images/python_growing.jpg" width="400">

## Pero ... y si ya sabemos R?

... ¿Cuál es mejor? Es una pregunta difícil de responder, pero aquí dejamos algunos artículos que tratan de resaltar las ventajas y desventajas de cada uno.

https://www.datanami.com/2018/07/19/python-gains-traction-among-data-scientists/

https://elitedatascience.com/r-vs-python-for-data-science

https://www.datacamp.com/community/tutorials/r-or-python-for-data-analysis

http://www.kdnuggets.com/2015/05/r-vs-python-data-science.html

http://www.kdnuggets.com/2015/03/the-grammar-data-science-python-vs-r.html

https://www.dataquest.io/blog/python-vs-r/

http://www.dataschool.io/python-or-r-for-data-science/

https://www.digitalvidya.com/blog/r-vs-python/

### Validemos la instalación de los paquetes de Anaconda

Tu puedes ejecutar el siguiente código para revisar las versiones de los paquetes que deberían estár instalados.

* [Python](http://www.python.org): Usaremos la version 3.6.
* [Numpy](http://www.numpy.org): Extensión numérica para cálculos de algebra lineal y con matrices multidimensionales.
* [Scipy](http://www.scipy.org): Libería adicional para programación científica.
* [Matplotlib](http://matplotlib.sf.net): Librería para realizar gráficas y ploteos.
* [IPython](http://ipython.org): Librería para manejar la interfaz del notebook.
* [Pandas](http://pandas.pydata.org/): Librería para análisis de datos.
* [Seaborn](stanford.edu/~mwaskom/software/seaborn/): Librería usado principalmente para gráficos con estilos.
* [scikit-learn](http://scikit-learn.org), Librería de Machine learning.

In [4]:
!pip freeze

adal==0.6.0
alabaster==0.7.10
anaconda-client==1.6.14
anaconda-navigator==1.8.3
anaconda-project==0.8.0
asn1crypto==0.22.0
astroid==1.5.3
astropy==2.0.2
attrs==18.1.0
awscli==1.15.39
azure==3.0.0
azure-batch==4.1.3
azure-common==1.1.11
azure-cosmosdb-nspkg==2.0.2
azure-cosmosdb-table==1.0.2
azure-datalake-store==0.0.19
azure-eventgrid==0.1.0
azure-graphrbac==0.40.0
azure-keyvault==0.3.7
azure-mgmt==2.0.0
azure-mgmt-advisor==1.0.1
azure-mgmt-applicationinsights==0.1.1
azure-mgmt-authorization==0.30.0
azure-mgmt-batch==5.0.0
azure-mgmt-batchai==0.2.0
azure-mgmt-billing==0.1.0
azure-mgmt-cdn==2.0.0
azure-mgmt-cognitiveservices==2.0.0
azure-mgmt-commerce==1.0.1
azure-mgmt-compute==3.0.1
azure-mgmt-consumption==2.0.0
azure-mgmt-containerinstance==0.3.1
azure-mgmt-containerregistry==1.0.1
azure-mgmt-containerservice==3.0.1
azure-mgmt-cosmosdb==0.3.1
azure-mgmt-datafactory==0.4.0
azure-mgmt-datalake-analytics==0.3.0
azure-mgmt-datalake-nspkg==2.0.0
azure-mgmt-datalake-store==0.3.0
azure-mgmt-

In [5]:
!dir

 Volume in drive D has no label.
 Volume Serial Number is 80BD-A8D7

 Directory of D:\Clases\Segundo_Curso\Material

21/07/2018  03:15 p.m.    <DIR>          .
21/07/2018  03:15 p.m.    <DIR>          ..
21/07/2018  03:02 p.m.    <DIR>          .ipynb_checkpoints
04/07/2018  02:44 p.m.           254,853 01_Instrucciones_de_como_usar_Python.html
21/07/2018  03:15 p.m.           169,731 02_Introduccion_a_Python.ipynb
21/07/2018  08:10 a.m.            10,357 03_Introduccion_a_Numpy.ipynb
21/07/2018  07:28 a.m.            43,106 04_Introduccion_a_Pandas.ipynb
21/07/2018  08:10 a.m.    <DIR>          data
21/07/2018  07:55 a.m.             5,702 Ejercicios - Introducción a Python.ipynb
21/07/2018  07:44 a.m.    <DIR>          images
21/07/2018  03:02 p.m.           277,843 Resolucion.ipynb
               6 File(s)        761,592 bytes
               5 Dir(s)  707,657,175,040 bytes free


<div class="alert alert-info" role="alert">
  <strong>Nota:</strong> Para ejecutar el contenido de una celda presionar **`shift` + `enter`**
</div>

In [6]:
import sys

print('Versión de Python:', sys.version)

import IPython
print('IPython:', IPython.__version__)

import numpy
print('Numpy:', numpy.__version__)

import scipy
print('Scipy:', scipy.__version__)

import matplotlib
print('Matplotlib:', matplotlib.__version__)

import pandas
print('Pandas:', pandas.__version__)

import sklearn
print('Scikit-learn:', sklearn.__version__)

import seaborn
print('Seaborn', seaborn.__version__)

Versión de Python: 3.6.3 |Anaconda custom (64-bit)| (default, Oct 15 2017, 03:27:45) [MSC v.1900 64 bit (AMD64)]
IPython: 6.1.0
Numpy: 1.13.3
Scipy: 0.19.1
Matplotlib: 2.1.0
Pandas: 0.20.3
Scikit-learn: 0.19.1
Seaborn 0.8.0


En este notebook tendremos una introducción a Python. Existen muchos recursos en línea donde se puede aprender este lenguaje con mayor profundidad. El [Tutorial de Python](http://docs.python.org/2/tutorial/) es un buen punto de partida. Aquí listo algunos de los más importantes:

1. [Udemy](https://www.udemy.com/)
2. [DataCamp](https://www.datacamp.com/)
3. [DataQuest](https://www.dataquest.io/)
4. [Coursera](https://www.coursera.org/)
5. [Udacity](https://www.udacity.com/)
6. [Analytics Vidya](https://www.analyticsvidhya.com/)
7. [Databricks](https://databricks.com/) (Uso del Api de Python para Spark)
8. [Towards Data Science](https://towardsdatascience.com/)
9. [Kdnuggets](https://www.kdnuggets.com/)

Durante las sesiones de clase, haremos uso de los Notebooks. Una buena introducción a los notebooks se puede encontrar en la [Documentación de Jupyter](https://jupyter-notebook.readthedocs.io/en/stable/).

De forma general, los notebooks tiene celdas de código (que por lo general son seguidas de celdas de resultados) y de texto. Un ejemplo de celda de texto es lo que estas leyendo ahora. Las celdas de código se reconocen fácilmente porque empiezan con **`In []:`** y con algún número, por lo general entre los corchetes, una vez que son ejecutados. Si ubicas tu cursor en una de las celdas de código y presionas **`shift` + `enter`**, el código se ejecutará en el intérprete de Python y el resultado se pintará en la celda de salida o resultado.

<img src="images/blank-notebook-ui.png" width="700">

# I. Tipos de variables

Python es un lenguaje de tipado dinámico, o sea que las variables no tienen un tipo y por lo tanto no deben ser declaradas. Los valores, sin embargo, tienen tipo. Puedes consultar a una variable el tipo de valor que contiene.

Estos tipos son,

| Nro | Tipo de Dato |
|------|------|
| 1. |   Booleanos  |
| 2. |   Numéricos  |
| 3. |   Cadenas de caractéres o Strings  |
| 4. |   Datos binarios o Bytes  |
| 5. |   Listas  |
| 6. |   Tuplas  |
| 7. |   Rangos  |
| 8. |   Conjuntos o Sets  |
| 9. |   Diccionarios  |

## 1. Booleanos

Los tipos de datos booleanos pueden tomar dos valores: Verdadero (True) o Falso (False). Se pueden declarar variables con un valor de tipo booleano y también evaluar expresiones para obtener un valor tipo booleano.

In [7]:
# Declarar una variable con un valor del tipo booleano
var = True
print(var, type(var))

True <class 'bool'>


In [8]:
# Declarar una variable con un valor resultado de una expresión
x = 24
var = (x > 20)
print(var, type(var))

True <class 'bool'>


## 2. Numéricos

Los tipos de datos numéricos son ampliamente usados en Python. Existen 3 tipos importantes,

- Números enteros ("int" del inglés integer, entero)
- Números racionales ("float" del inglés floating point, punto flotante)
- Números complejos ("complex" del inglés complex, complejo)

En Python 2 existía int (entero corto) y long (entero largo). En Python 3 sólo existe int.

### Tipo de dato entero

In [9]:
# Declarar un variable con un valor entero
x = 24
print(x, type(x))

24 <class 'int'>


In [10]:
# Declarar una variable con un valor numérico usando la función int
x = int(3.1416)
print(x, type(x))

3 <class 'int'>


<div class="alert alert-info" role="alert">
  <strong>Nota:</strong> Help es uno de los comandos utilizados para obtener documentación sobre objetos definidos en el scope actual, tanto los incorporados como los definidos por el usuario.
</div>

In [5]:
help(int)

Help on class int in module builtins:

class int(object)
 |  int(x=0) -> integer
 |  int(x, base=10) -> integer
 |  
 |  Convert a number or string to an integer, or return 0 if no arguments
 |  are given.  If x is a number, return x.__int__().  For floating point
 |  numbers, this truncates towards zero.
 |  
 |  If x is not a number or if base is given, then x must be a string,
 |  bytes, or bytearray instance representing an integer literal in the
 |  given base.  The literal can be preceded by '+' or '-' and be surrounded
 |  by whitespace.  The base defaults to 10.  Valid bases are 0 and 2-36.
 |  Base 0 means to interpret the base from the string as an integer literal.
 |  >>> int('0b100', base=0)
 |  4
 |  
 |  Methods defined here:
 |  
 |  __abs__(self, /)
 |      abs(self)
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __and__(self, value, /)
 |      Return self&value.
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __ceil__(...)
 |      Ceiling of

In [11]:
??int

In [12]:
help(x)

Help on int object:

class int(object)
 |  int(x=0) -> integer
 |  int(x, base=10) -> integer
 |  
 |  Convert a number or string to an integer, or return 0 if no arguments
 |  are given.  If x is a number, return x.__int__().  For floating point
 |  numbers, this truncates towards zero.
 |  
 |  If x is not a number or if base is given, then x must be a string,
 |  bytes, or bytearray instance representing an integer literal in the
 |  given base.  The literal can be preceded by '+' or '-' and be surrounded
 |  by whitespace.  The base defaults to 10.  Valid bases are 0 and 2-36.
 |  Base 0 means to interpret the base from the string as an integer literal.
 |  >>> int('0b100', base=0)
 |  4
 |  
 |  Methods defined here:
 |  
 |  __abs__(self, /)
 |      abs(self)
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __and__(self, value, /)
 |      Return self&value.
 |  
 |  __bool__(self, /)
 |      self != 0
 |  
 |  __ceil__(...)
 |      Ceiling of an Integral retur

Los métodos que empiezan y terminan con doble guión bajo (\_\_) se usan para indicar que son objetos o atributos mágicos. Estos métodos pueden ser invocados directamente, pero su propósito es ser ejecutados de manera indirecta.

In [13]:
x.__abs__()

3

In [14]:
abs(x)

3

### Tipo de dato de punto flotante

In [15]:
# Declarar un variable con un valor del tipo punto flotante

x = 24.0
print(x, type(x))

24.0 <class 'float'>


In [16]:
# Declarar una variable con un valor numérico usando la función float

x = float(24)
print(x, type(x))

24.0 <class 'float'>


### Tipo de dato complejo

In [17]:
# Declarar un variable con un valor del tipo complejo

var = 24 + 20j
print(var, type(var))

(24+20j) <class 'complex'>


In [18]:
# Declarar una variable con un un para de valores numéricos usando la función complex

var = complex(24, 20)
print(var, type(var))

(24+20j) <class 'complex'>


In [19]:
print(var.real)
print(var.imag)

24.0
20.0


## 3. Cadenas de caractéres

Los tipos de datos string o cadenas de caractéres son ampliamente usados en la administración y análisis de datos. Python soporta el uso de dos diversos tipo de cadenas: ASCII y Unicode. 

- Las cadenas ASCII se delimitan por '...', "..." o """...""". Las comillas triples delimitan cadenas multilínea. Las cadenas Unicode comienzan con un `u` seguido por la cadena conteniendo caracteres Unicode.

- Unicode es un estándar de codificación de caracteres diseñado para facilitar el tratamiento de textos de múltiples lenguajes. Una cadena Unicode puede convertirse en una cadena ASCII seleccionando una codificación, por ejemplo el utf-8.

<div class="alert alert-info" role="alert">
  <strong>Nota:</strong> En Python 3.x todas las cadenas de texto cuando se declaran son secuencias de caracteres Unicode, es decir no existen cadenas codificadas en CP-1252 o en UTF-8 y, por tanto, no sería correcto hablar de codificaciones específicas si no es para decir que es posible convertir una cadena de caracteres en una secuencia de bytes (o viceversa) con una codificación determinada (como UTF-8, por poner un ejemplo)
</div>

In [20]:
a = 'Aprender Python es fácil'
b = u'Aprender Python es fácil'
c = b.encode('utf-8')
d = b.encode('utf-16')
e = b.encode('latin-1')
print(a,  type(a), '\n', b, type(b), '\n', c, type(c), '\n', d, type(d), '\n', e, type(e))

Aprender Python es fácil <class 'str'> 
 Aprender Python es fácil <class 'str'> 
 b'Aprender Python es f\xc3\xa1cil' <class 'bytes'> 
 b'\xff\xfeA\x00p\x00r\x00e\x00n\x00d\x00e\x00r\x00 \x00P\x00y\x00t\x00h\x00o\x00n\x00 \x00e\x00s\x00 \x00f\x00\xe1\x00c\x00i\x00l\x00' <class 'bytes'> 
 b'Aprender Python es f\xe1cil' <class 'bytes'>


In [21]:
# ¿Que pasa si queremos codificar esa cadena en una codificación ascii?
f = b.encode('ascii')
print(f, type(b))

UnicodeEncodeError: 'ascii' codec can't encode character '\xe1' in position 20: ordinal not in range(128)

In [22]:
b'í'

SyntaxError: bytes can only contain ASCII literal characters. (<ipython-input-22-e54473af05cc>, line 1)

Además es posible utilizar variables en cadenas de distintas formas:

In [25]:
print('La versión de Python es ' + str(3) + '.' + str(6))
print('La versión de Python es %s.%s' % (3, 6))
print('La versión de Python es %.1f' % (3.6))
print('La versión de Python es %.3f' % (3.611232138167))
print('La versión de Python es %(numero)s.%(decimal)s' % dict(numero=3, decimal=6))
print('La versión de Python es {0}.{1}'.format(3, 6))
print('La versión de Python es {0:.1f}'.format(3.611232138167))
print('La versión de Python es {numero}.{decimal}'.format(numero=3, decimal=6))
print('La versión de Python es {numero:.1f}'.format(numero=3.611232138167))

La versión de Python es 3.6
La versión de Python es 3.6
La versión de Python es 3.6
La versión de Python es 3.611
La versión de Python es 3.6
La versión de Python es 3.6
La versión de Python es 3.6
La versión de Python es 3.6
La versión de Python es 3.6


In [26]:
# Definición de variables con tipo de valor 'str' (Unicode)

x=str('"Machine Learning con Python"')
print(x, type(x))

"Machine Learning con Python" <class 'str'>


In [27]:
x='Machine Learning con Python'
print(x, type(x))

Machine Learning con Python <class 'str'>


In [28]:
x="Machine Learning con Python"
print(x, type(x))

Machine Learning con Python <class 'str'>


In [29]:
help(str)

Help on class str in module builtins:

class str(object)
 |  str(object='') -> str
 |  str(bytes_or_buffer[, encoding[, errors]]) -> str
 |  
 |  Create a new string object from the given object. If encoding or
 |  errors is specified, then the object must expose a data buffer
 |  that will be decoded using the given encoding and error handler.
 |  Otherwise, returns the result of object.__str__() (if defined)
 |  or repr(object).
 |  encoding defaults to sys.getdefaultencoding().
 |  errors defaults to 'strict'.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __format__(...)
 |      S.__format__(format_spec) -> str
 |      
 |      Return a formatted version of S as described by format_spec.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getatt

Algunos métodos con las cadenas

In [30]:
x.lower()

'machine learning con python'

In [31]:
x.upper()

'MACHINE LEARNING CON PYTHON'

In [24]:
x.title()

'Machine Learning Con Python'

In [32]:
x.split(" ")

['Machine', 'Learning', 'con', 'Python']

In [33]:
x=" Machine Learning con Python "
print(x, type(x))

 Machine Learning con Python  <class 'str'>


In [35]:
x.strip()

'Machine Learning con Python'

In [36]:
x = "123"

In [37]:
x.zfill(10)

'0000000123'

In [38]:
??x.zfill()

## 4. Datos binarios: Bytes y arreglos de Bytes

Las variables tipo bytes corresponden a secuencias inmutables de enteros pequeños en el rango 0 <= x < 256. Se pueden crear usando la función bytes().

Las variables tipo bytearray corresponden a secuencias mutables de enteros pequeños en el rango 0 <= x < 256. Se pueden crear usando la función bytearray().

bytes() comparte los mismos métodos que bytearray(), simplemente es una versión inmutable.

### Tipo de datos bytes

In [39]:
# Creación de un objeto tipo bytes que contiene el valor 1

x1=bytes([1])
print(x1, type(x1), len(x1))

b'\x01' <class 'bytes'> 1


In [40]:
# Otro manera de crear bytes esa usando el prefijo b

x2=b'1'
print(x2, type(x2), len(x2))

b'1' <class 'bytes'> 1


In [41]:
x1 == x2

False

In [42]:
x1=bytes("1", encoding="ascii")
print(x1, type(x1), len(x1))

b'1' <class 'bytes'> 1


In [43]:
x1 == x2

True

In [44]:
# Transformar a str

x1.decode("ascii")

'1'

In [45]:
# Creación de un objeto tipo bytes de largo 10

x=bytes(10)
print(x, type(x), len(x))

b'\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00' <class 'bytes'> 10


In [46]:
# Acceder al elemento 0 de la secuencia

x[0]

0

In [47]:
# Cambiar el valor del elemento 0

x[0]=1
x

TypeError: 'bytes' object does not support item assignment

In [48]:
# Crear un objeto tipo bytearray a partir de un string

x=bytearray("Aprender python es facil", "utf8")
print(x, type(x), len(x))

bytearray(b'Aprender python es facil') <class 'bytearray'> 24


In [49]:
help(bytearray)

Help on class bytearray in module builtins:

class bytearray(object)
 |  bytearray(iterable_of_ints) -> bytearray
 |  bytearray(string, encoding[, errors]) -> bytearray
 |  bytearray(bytes_or_buffer) -> mutable copy of bytes_or_buffer
 |  bytearray(int) -> bytes array of size given by the parameter initialized with null bytes
 |  bytearray() -> empty bytes array
 |  
 |  Construct a mutable bytearray object from:
 |    - an iterable yielding integers in range(256)
 |    - a text string encoded using the specified encoding
 |    - a bytes or a buffer object
 |    - any object implementing the buffer API.
 |    - an integer
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __alloc__(...)
 |      B.__alloc__() -> int
 |      
 |      Return the number of bytes actually allocated.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |   

In [50]:
# Usar el método decode() para transformarlo en string

x.decode()

'Aprender python es facil'

In [51]:
# Usar el método hex() para transformarlo en hexadecimal

x.hex()

'417072656e64657220707974686f6e20657320666163696c'

In [52]:
# Acceder al elemento 0 de la secuencia

x[0]

65

In [53]:
# Podemos cambiar el valor del primer elemento

x[0]=73
x

bytearray(b'Iprender python es facil')

## 5. Listas

Una lista es una secuencia ordenada de valores. Son mutables, es decir, puede redefinirse el número de elementos y cambiar sus valores. Se pueden crear usando la función list() o los símbolos [ ].

Las listas son el tipo de variables más usadas en Python, dada su facilidad y flexibilidad para almacenar diferentes tipos de valores.

### Definir un objeto tipo lista

In [54]:
# Crear una lista vacía

x=list()
print(x, type(x), len(x))

[] <class 'list'> 0


In [55]:
# Crear una lista que contiene un par de valores enteros

x=list([1,2,3])
print(x, type(x), len(x))

[1, 2, 3] <class 'list'> 3


In [56]:
# Crear una lista que mezcla enteros, punto flotante y string

x=list([1,2.,'3',4.])
print(x, type(x), len(x))

[1, 2.0, '3', 4.0] <class 'list'> 4


In [48]:
x[2]

'3'

In [57]:
x[1]

2.0

In [58]:
# Crear una lista usando los símbolos []

x=[1,2.,'3',4.]
print(x, type(x), len(x))

[1, 2.0, '3', 4.0] <class 'list'> 4


### Acceder a un elemento y cambiar su valor

In [59]:
# Acceder al primer elemento de la lista

x[0]

1

In [60]:
# Cambiar el valor del elemento 0

x[0]='Machine Learning con Python'
x

['Machine Learning con Python', 2.0, '3', 4.0]

In [61]:
x[3]

4.0

In [63]:
# Acceder al último elemento de la lista

x[-2]

'3'

### Acceder a un slice de la lista

In [64]:
# Acceder a un slice desde el primer elemento hasta el segundo elemento. Usamos los indices 0 y 2

x[0:2]

['Machine Learning con Python', 2.0]

In [65]:
x[:2]

['Machine Learning con Python', 2.0]

In [66]:
# Acceder a un slice desde el tercer elemento hasta el último elemento. Usamos los índices 2 y el último lo dejamos en blanco

x[2:]

['3', 4.0]

In [67]:
# Acceder a los últimos dos elementos de la lista. Usamos los índices -2 y dejamos en blanco el último

x[-3:]

[2.0, '3', 4.0]

### Agregar elementos a la lista

In [68]:
# Usar el operador suma

x=x+[5,'6']
x

['Machine Learning con Python', 2.0, '3', 4.0, 5, '6']

In [69]:
# Usar el método append. El nuevo elemento se agrega al final de la lista.
# En caso que el elemento sea una lista, esta se agrega tal cual

x.append(7.)
x

['Machine Learning con Python', 2.0, '3', 4.0, 5, '6', 7.0]

In [70]:
x.append([8,'9'])
x

['Machine Learning con Python', 2.0, '3', 4.0, 5, '6', 7.0, [8, '9']]

In [71]:
# Usar el método extend. El nuevo elemento se agrega al final de la lista.
# En caso de ser una lista, cada elemento se agrega por separado

x.extend([10,'11','6'])
x

['Machine Learning con Python',
 2.0,
 '3',
 4.0,
 5,
 '6',
 7.0,
 [8, '9'],
 10,
 '11',
 '6']

In [61]:
x.extend([10,'11',['6', 7, 8.0]])
x

['Machine Learning con Python',
 2.0,
 '3',
 4.0,
 5,
 '6',
 7.0,
 [8, '9'],
 10,
 '11',
 '6',
 10,
 '11',
 ['6', 7, 8.0]]

### Buscar elementos en una lista

In [77]:
# Usar el método count() para contar ocurrencias de algún elemento

x.count(5)

1

In [74]:
# Usar la función in para determinar si elemento existe en la lista

'5' in x

False

In [79]:
# Determinar el índice en el cual se encuentra el elemento

x.index('6')
help(x.index)

Help on built-in function index:

index(...) method of builtins.list instance
    L.index(value, [start, [stop]]) -> integer -- return first index of value.
    Raises ValueError if the value is not present.



In [80]:
# ¿Que suecede si buscamos un valor que no se encuentra en la lista?

x.index(894556456465456)

ValueError: 894556456465456 is not in list

### Eliminar elementos de una lista

In [81]:
x

['Machine Learning con Python',
 2.0,
 '3',
 4.0,
 5,
 '6',
 7.0,
 [8, '9'],
 10,
 '11',
 '6']

In [82]:
# Eliminar elementos usando el indice

del x[0]
x

[2.0, '3', 4.0, 5, '6', 7.0, [8, '9'], 10, '11', '6']

In [83]:
# Eliminar elementos usando el método remove(). Elimina la primera ocurrencia del elemento

x.remove('6')
x

[2.0, '3', 4.0, 5, 7.0, [8, '9'], 10, '11', '6']

In [84]:
# ¿Que suecede si borramos un elemento que no existe en la lista?

x.remove(20)
x

ValueError: list.remove(x): x not in list

In [85]:
x

[2.0, '3', 4.0, 5, 7.0, [8, '9'], 10, '11', '6']

In [86]:
# Eliminar elementos usando el método pop().
# Este método extrae una copia del último elemento de la lista y lo remueve

y=x.pop()
print(y)
print(x)

6
[2.0, '3', 4.0, 5, 7.0, [8, '9'], 10, '11']


In [87]:
y=x.pop(0)
print(y)
print(x)

2.0
['3', 4.0, 5, 7.0, [8, '9'], 10, '11']


In [88]:
help(x)

Help on list object:

class list(object)
 |  list() -> new empty list
 |  list(iterable) -> new list initialized from iterable's items
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iadd__(self, value, /)
 |      Implement self+=value.
 |  
 |  __imul__(self, value, /)
 |      Implement self*=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __le__(self, value, /

### List Comprehensions
Las comprensiones son constructos que permiten que las secuencias se construyan a partir de otras secuencias.


<img src="images/listComprehensions.gif" width="700">

In [89]:
# Definimos una lista

x = [1, 2, 3, 4]
x

[1, 2, 3, 4]

In [90]:
# ¿Qué hacemos si queremos elevar al cuadrado a todos los elementos de la lista definida?

x2 = [e ** 2 for e in x]
print(x2)

[1, 4, 9, 16]


In [97]:
x2 = [e ** 2 for e in x if e < 3]
print(x2)

[1, 4]


In [98]:
# Agregemos un elemento más a la lista

x.append("Machine Learning con Pyhthon")
x

[1, 2, 3, 4, 'Machine Learning con Pyhthon']

In [99]:
#  Ahora ... ¿Qué hacemos si queremos elevar al cuadrado a todos los elementos enteros de la lista definida?

x2 = [e ** 2 for e in x]
print(x2)

TypeError: unsupported operand type(s) for ** or pow(): 'str' and 'int'

In [100]:
# Agreguemos una condición de que el tipo de valor sea entero

x2 = [e ** 2 for e in x if type(e) == int]
print(x2)

[1, 4, 9, 16]


In [101]:
x

[1, 2, 3, 4, 'Machine Learning con Pyhthon']

In [109]:
# Otra forma de resolverlo (... las funciones map, filter y lambda los veremos más adelante)

x2_ = list(filter(lambda e: type(e) == int, x))

In [110]:
x2_

[1, 2, 3, 4]

In [104]:
x2 = list(map(lambda e: e**2, x2_))
x2

[1, 4, 9, 16]

## 6. Tuplas

Una tupla es una lista inmutable. Una tupla no puede ser alterada de ninguna manera una vez definida.

Se pueden crear usando la función tuple() o los símbolos ( ).

Las tuplas no tienen los métodos append(), extend(), insert(), remove() y pop()

### Definir un objeto tipo tupla

In [111]:
# Crear una tupla vacía

x=tuple()
print(x, type(x), len(x))

() <class 'tuple'> 0


In [112]:
# Crear una tupla usando la función tuple()

x=tuple([1,2.,'3',4.])
print(x, type(x), len(x))

(1, 2.0, '3', 4.0) <class 'tuple'> 4


In [113]:
# Crear una tupla usando los símbolos ()

x=(1,2.,'3',4.)
print(x, type(x), len(x))

(1, 2.0, '3', 4.0) <class 'tuple'> 4


### Acceder a un elemento

In [114]:
# Acceder al elemento 0 de la lista

x[0]

1

In [115]:
# ¿Que sucede si tratamos de cambiar el valor del elemento 0?

x[0]='Hola mundo'
x

TypeError: 'tuple' object does not support item assignment

### Acceder a un slice de la tupla

In [116]:
# Acceder a un slice desde el primer elemento hasta el segundo elemento. Usamos los indices 0 y 2

x[0:2]

(1, 2.0)

In [117]:
# Acceder a un slice desde el tercer elemento hasta el último elemento. Usamos los índices 2 y el último lo dejamos en blanco

x[2:]

('3', 4.0)

In [118]:
# Acceder a los últimos dos elementos de la tupla. Usamos los índices -2 y dejamos en blanco el último

x[-2:]

('3', 4.0)

## 7. Rangos

Un rango corresponde a una secuencia inmutable de números y es comúnmente usada en ciclos for para repetir un número finito de veces alguna expresión.

Los rangos se pueden crear usando la función range(). Puede ser llamada usando un sólo parámetro **range(stop)**, dos parámetros **range(start,stop)** y hasta tres parámetros **range(start, stop, step)**

En Python 2 range() era una función que creaba una lista de largo finitio, y también existía una función llamada xrange() que creaba un tipo de dato xrange(). En Python 3 la función original range() fue descontinuada y ahora range es un tipo de dato.

In [119]:
x=range(0,10)
print(x, type(x))

range(0, 10) <class 'range'>


In [120]:
for i in x:
    print(i)

0
1
2
3
4
5
6
7
8
9


In [121]:
x=range(1,10,2)
x

range(1, 10, 2)

In [122]:
for i in x:
    print(i)

1
3
5
7
9


In [123]:
# ¿Qué sucede si tratamos de crear un rango usando un paso no entero
x=range(1,10,0.1)

TypeError: 'float' object cannot be interpreted as an integer

## 8. Conjuntos

Un conjunto es una colección no ordenada y sin elementos repetidos. Los usos básicos de éstos incluyen verificación de pertenencia y eliminación de entradas duplicadas. Los conjuntos también soportan operaciones matemáticas como la unión, intersección, diferencia, y diferencia simétrica.

Los conjuntos se pueden crear usando la función set() o los símbolos {}.

### Definir un objeto tipo conjunto

In [124]:
x = set(['machine', 'learning'])
print(x, type(x), len(x))

{'learning', 'machine'} <class 'set'> 2


In [126]:
x={'machine', 'learning'}
print(x, type(x), len(x))

{'learning', 'machine'} <class 'set'> 2


In [127]:
# Crear un conjunto con múltiples elementos

element_set = {'machine', 'learning', 'python', 'sklearn', 'tpot', 'xgboost'}
print(element_set)

{'machine', 'xgboost', 'tpot', 'python', 'sklearn', 'learning'}


In [128]:
# Determinar si elemento existe en set

'python' in element_set 

True

In [129]:
# Determinar si elemento existe en set

'deep learning' in element_set 

False

### Definir un conjunto usando letras únicas de palabras

In [136]:
x=set('machine')
y=set('python')

print("Letras únicas en x: ", x)
print("Letras únicas en y: ", y)

Letras únicas en x:  {'m', 'a', 'n', 'i', 'h', 'e', 'c'}
Letras únicas en y:  {'t', 'o', 'p', 'n', 'h', 'y'}


In [131]:
# letras en x pero no en y

x-y

{'a', 'c', 'e', 'i', 'm'}

In [132]:
# letras en a o en b o en ambas

x | y

{'a', 'c', 'e', 'h', 'i', 'm', 'n', 'o', 'p', 't', 'y'}

In [133]:
# letras en a y en b

x & y

{'h', 'n'}

In [134]:
# letras en x o y pero no en ambos

x ^ y

{'a', 'c', 'e', 'i', 'm', 'o', 'p', 't', 'y'}

In [139]:
print(2)
print(1)

2
1


## 9. Diccionarios

Otro tipo de dato útil incluído en Python es el diccionario. Los diccionarios se encuentran a veces en otros lenguajes como "memorias asociativas" o "arreglos asociativos". A diferencia de las secuencias, que se indexan mediante un rango numérico, los diccionarios se indexan con claves, que pueden ser cualquier tipo inmutable; las cadenas y números siempre pueden ser claves.

Las tuplas pueden usarse como claves si solamente contienen cadenas, números o tuplas; si una tupla contiene cualquier objeto mutable directa o indirectamente, no puede usarse como clave. No se pueden usar listas como claves, ya que las listas pueden modificarse.

Lo mejor es pensar en un diccionario como un conjunto no ordenado de pares clave: valor, con el requisito de que las claves sean únicas (dentro de un diccionario en particular).

Los diccionarios se pueden crear usando la función dict() o los símbolos {}.

### Definir un objeto tipo diccionario

In [140]:
x = dict()
print(x, type(x), len(x))

{} <class 'dict'> 0


In [141]:
# Crear un diccionario que contiene la cantidad de goles realizados por los países de Sudamérica en la fase de grupos 
# del Mundial de Rusia 2018

goles={'Perú': 2, 'Brasil': 5, 'Colombia': 5, 'Argentina': 3, 'Uruguay': 5, 'Chile': 0}

print(goles, type(goles))

{'Perú': 2, 'Brasil': 5, 'Colombia': 5, 'Argentina': 3, 'Uruguay': 5, 'Chile': 0} <class 'dict'>


In [146]:
# Recuperar las claves de la variable goles

paises = list(goles.keys())
paises

['Perú', 'Brasil', 'Colombia', 'Argentina', 'Uruguay', 'Chile']

In [145]:
paises[0]

'Perú'

In [148]:
# Recuperar los valores de la variable goles

list(goles.values())

[2, 5, 5, 3, 5, 0]

In [149]:
# Recuperar la cantidad de goles de un país usando la clave

goles['Perú']

2

In [150]:
# Agregar un nuevo elemento al diccionario

goles['México']=3
print(goles)

{'Perú': 2, 'Brasil': 5, 'Colombia': 5, 'Argentina': 3, 'Uruguay': 5, 'Chile': 0, 'México': 3}


In [156]:
goles['prueba'] = [1, 2, 3]

In [157]:
goles

{'Argentina': 3,
 'Brasil': 5,
 'Chile': 0,
 'Colombia': 5,
 'México': 3,
 'Perú': 2,
 'Uruguay': 5,
 'prueba': [1, 2, 3]}

In [153]:
# Imprimir cada una de las claves del diccionario

for i in goles:
    print(i)

Perú
Brasil
Colombia
Argentina
Uruguay
Chile
México


In [155]:
# Imprimir cada par de clave y valor

for key, value in goles.items():
    print(key, ": ", value)

Perú :  2
Brasil :  5
Colombia :  5
Argentina :  3
Uruguay :  5
Chile :  0
México :  3


## 10. Expresiones Regulares
Las expresiones regulares se usan para identificar si un patrón existe en una secuencia dada de caracteres (cadena) o no. Ayudan a manipular datos textuales, que a menudo es un requisito previo para los proyectos de ciencia de datos que involucran la extracción de texto.
En Python, las expresiones regulares son soportadas por el módulo re.

In [158]:
import re

### Caracteres ordinarios:

Los caracteres ordinarios son las expresiones regulares más simples. Se emparejan exactamente y no tienen un significado especial en su sintaxis de expresión regular. Los caracteres comunes se pueden usar para realizar coincidencias exactas simples:

In [159]:
print("\tpython")
print(r"\tpython")

	python
\tpython


In [160]:
pattern = r"Machine"
sequence = "Machine Learning"
if re.match(pattern, sequence):
    print("Coincide!")
else:
    print("No Coincide!")

Coincide!


La función match () devuelve un objeto coincidente si el texto coincide con el patrón. De lo contrario, devuelve `None`.

Por otro lado, aquellas cadenas de caracteres que empiezan con la letra `r` son llamados `raw string` o `cadenas en crudo o sin procesar`. La diferencia con las cadenas es que por ejemplo caracteres especiales como el backslash `\` podrán ser reconocidos como unos caracteres más y no como parte de una sequencia de escape.

In [161]:
# \n es un salto de línea
print(r"\n")
print("\n")

# \t es una tabulación
print(r"\t")
print("\t")

\n


\t
	


### Caracteres comodín o `wild card`:

Los caracteres comodín son caracteres que no coinciden como se ven, sin embargo tienen un significado especial cuando se usan en una expresión regular.
Los caracteres comodín más usados son:
- `.`: Coincide con cualquier caracter, excepto el caracter de nueva línea.
- `\w`: Coincide con cualquier letra, dígito o guión bajo.
- `\W`: Coincide con cualquier caracter que no forme parte de `\w`
- `\s`: Coincide con un solo caracter en blanco como: espacio, nueva línea, tab.
- `\S`: Coincide con cualquier caracter que no forme parte de \s.
- `\t`: Coincide con tab.
- `\n`: Coincide con una nueva línea.
- `\r`: Coincide con un retorno.
- `\d`: Coincide con el dígito decimal 0-9.
- `^`: Coincide con un patrón al comienzo de la cadena.
- `$`: Coincide con un patrón al final de la cadena.
- `[abc]`: Coincide con a, b o c.
- `[a-zA-Z0-9]`: Coincide con cualquier caracter entre (a a z) o (A a Z) o (0 a 9).
- `\A`: Coincide solo al comienzo de la cadena. Funciona en múltiples líneas también.
- `\b`: Coincide solo con el principio o el final de la palabra.
- `\`: Si el caracter que sigue al backslash es un caracter de escape reconocido, entonces se toma el significado especial del término. Por ejemplo, \n se considera como una nueva línea. Sin embargo, si el caracter que sigue a \ no es un caracter de escape reconocido, entonces el \ se trata como cualquier otro caracter.

La función group () devuelve la cadena que coincide con el patrón. Veamos la aplicación de estos caracteres comodín:

In [1]:
import re

In [2]:
print(re.search(r'Mac.i.e', 'Machine Learning').group())
print(re.search(r'Lea\wn\wng', 'MachineLearning').group())
print(re.search(r'M\Wchin\W', 'M@chin€').group())
print(re.search(r'Machine\sLearning', 'Machine Learning').group())
print(re.search(r'Pyth\Sn', 'Python').group())
print(re.search(r'Machine\tLearning', 'Machine	Learning').group())
print(re.search(r'Pyth\dn', 'Pyth0n').group())
print(re.search(r'^Machine', 'Machine Learning con Python').group())
print(re.search(r'Machine Learning$', 'Machine Learning').group())
print(re.search(r'Python: [1-9] módulos', 'Python: 6 módulos').group())
print(re.search(r'Python: [^6] módulos', 'Python: 5 módulos').group())
print(re.search(r'\A[A-Q]ython', 'Cython').group())
print(re.search(r'\b[A-Z]ython', 'Python Machine Learning').group())
print(re.search(r'Machine\\Learning', 'Machine\Learning').group())
print(re.search(r'Machine\sLearning', 'Machine Learning').group())

Machine
Learning
M@chin€
Machine Learning
Python
Machine	Learning
Pyth0n
Machine
Machine Learning
Python: 6 módulos
Python: 5 módulos
Cython
Python
Machine\Learning
Machine Learning


### Repeticiones

Se vuelve bastante tedioso si buscas encontrar patrones largos en una cadena de caracteres. Afortunadamente, el módulo `re` maneja las repeticiones usando los siguientes caracteres especiales:

- `+`: Comprueba uno o más caracteres desde su izquierda.
- `*`: Comprueba cero o más caracteres desde su izquierda.
- `?`: Comprueba exactamente cero o un caracter a su izquierda.
- `{x}`: Repite x veces.
- `{x,}`: Repite como mínimo x veces
- `{x, y}`: Repite como mínimo **x** veces y máximo **y** veces.

In [164]:
re.search(r'\d{3,6}', '0987654321').group()

'098765'

In [170]:
re.search(r'\d+', '0987654321 3 Machine Learning').group()

'0987654321'

In [172]:
re.search(r'\d*', 'aaaaa').group()

''

In [173]:
re.search(r'\d?', 'aaaaa').group()

''

### Groups and Grouping

Imaginemos que queremos validar direcciones de correo electrónico y verificar el nombre de usuario y host por separado. Para ello podemos hacer uso de la función group, que nos permite coger partes del texto correspondiente.

In [174]:
correo = "Por favor contactar a: machinelearning@fullstack.com"
match = re.search(r'([\w\.-]+)@([\w\.-]+)', correo)
if match:
    print(match.group(0))
    print(match.group(1))
    print(match.group(2))

machinelearning@fullstack.com
machinelearning
fullstack.com


En general, las principales funciones que la librería `re` nos proporciona son:
- **search(pattern, string, flags=0)**: Con esta función, se escanea la cadena dada buscando la primera posición donde la expresión regular (o patrón) produce una coincidencia. Devuelve un objeto de coincidencia si se encuentra una coincidencia, de lo contrario devuelve None.

In [None]:
pattern = r"Machine"
sequence = "Machine learning"

re.search(pattern, sequence).group()

- **match(pattern, string, flags=0)**: Devuelve el objeto de coincidencia correspondiente si 0 o más caracteres al comienzo de la cadena coinciden con el patrón. De lo contrario, devuelve None.

In [None]:
pattern = r"L"
sequence1 = "Machine Learning"

# No habrá match dado que "L" no está al inicio de 'Machine Learning'
re.match(pattern, sequence1)

<div class="alert alert-info" role="alert">
  <strong>Nota:</strong> La función `match()` busca una coincidencia solo al comienzo de la cadena (por defecto) mientras que la función `search()` busca una coincidencia en cualquier lugar de la cadena.
</div>

- **findall(pattern, string, flags=0)**: Encuentra todas las coincidencias posibles en toda la cadena y las devuelve como una lista de cadenas. Cada cadena devuelta representa una coincidencia.

In [None]:
mensaje = "Por favor contactar a: machinelearning@fullstack.com, deeplearning@fullstack.com, datascience@fullstack.com, bigdata@fullstack.com"

#'correos' es una lista que contiene todas las posibles coincidencias
correos = re.findall(r'[\w\.-]+@[\w\.-]+', mensaje)
for correo in correos: 
    print(correo)

- **sub(pattern, repl, string, count=0, flags=0)**: Esta es la función sustituta. Devuelve la cadena obtenida reemplazando o sustituyendo las apariciones no superpuestas más a la izquierda del patrón en cadena por la sustitución reemplazada. Si no se encuentra el patrón, la cadena se devuelve sin cambios.

In [3]:
mensaje = "Por favor contactar a: machinelearning@fullstack.com"
nuevo_mensaje = re.sub(r'([\w\.-]+)@([\w\.-]+)', r'deeplearning@fullstack.com', mensaje)
print(nuevo_mensaje)

Por favor contactar a: deeplearning@fullstack.com


- **compile(pattern, flags=0)**: Compila un patrón de expresión regular en un objeto de expresión regular. Cuando necesite usar una expresión varias veces en un solo programa, usar la función compile () para guardar el objeto de expresión regular resultante para reutilizar es más eficiente. Esto se debe a que las versiones compiladas de los patrones más recientes pasados a compilar () y las funciones de concordancia a nivel de módulo están en caché.

In [None]:
pattern = re.compile(r'([\w\.-]+)@([\w\.-]+)')
mensaje = "Por favor contactar a: machinelearning@fullstack.com"
pattern.search(mensaje).group()

In [None]:
mensajes = ["Contactarse con: machinelearning@fullstack.com",
            "Comunicarse a: deeplearning@fullstack.com",
            "Para más información con: datascientist@python.pe",
            "reinforcement@learning.pe es mi correo"]
for mensaje in mensajes:
    print(pattern.search(mensaje).group())

In [None]:
# Es lo mismo que: 
re.search(pattern, mensaje).group()

# Ejercicios

Realice los siguientes ejercicios. En caso de tener dudas, puede apoyarse con sus compañeros, preguntarle al profesor y hacer búsquedas en internet.

1. Cree una variable llamada **x** que contenga un número entero
2. Cree una variable llamada **y** que contenga un número de punto flotante
3. Cree una variable llamada **z** que contenga el nombre del tipo de dato que más le ha parecido interesante

4. Cree una variable llamada **a** que corresponda a la suma entre **x** e **y**
5. Cree una variable llamada **b** que corresponda a la suma entre **x** y **z**. En caso de fallar, determine una manera viable para sumar ambos objetos.

6. Cree una lista llamada **c** que contenga los objetos **x** y **y**.
7. Agregue a la lista **c** los objetos **a** y **b**,

1. Cree un diccionario llamado **equipos** que contenga 4 claves con nombres de equipos que estuvieron en el mundial. El valor de cada clave debe corresponder al número de goles que hizo en la fase de grupos.
2. Por cada equipo determine cuánto goles anotarán en el siguiente mundial si se estima que duplicarán su producción goleadora.

# II. Operaciones y funciones nativas
Sobre todos los tipos de objetos de Python se pueden aplicar operaciones. El tipo de operaciones varia dependiendo de cada tipo.

## Operadores booleanos

- x **or** y: Si x es falso, entonces devuelve y. Sino, devuelve x \\
- x **and** y: Si x es falso, entonces devuelve x. Sino, devuelve y \\
- **not** x: Si x es falso, entonces devuelve True. Sino, devuelve False

In [175]:
x=False
y=True
x or y

True

In [176]:
x=False
y=True
x and y

False

In [177]:
x=True
y=True
x and y

True

In [178]:
x=False
not x

True

## Operadores de comparación

- < : Estrictamente menor que
- <= : Menor o igual que
- \>	: Estrictamente mayor que
- \>= :	Mayor o igual que
- == : Igual
- != : No es igual
- is : Identidad del objeto
- is not : Negación de la identidad del objeto

In [179]:
x = 4

In [180]:
x < 10

True

In [181]:
x == 10

False

In [184]:
x != 10

True

In [185]:
x is 4

True

In [186]:
isinstance(x,int)

True

In [188]:
x is not 4

False

## Operadores para objetos del tipo numéricos

- x + y: Suma de x e y
- x - y: Diferencia de x e y
- x * y: Multipliación de x e y
- x / y: División de x e y
- x // y: Numero entero inferior más próximo de división entre x e y
- x % y: Módulo de x e y
- -x: Negación del valor de x
- +x: El valor de x no es alterado
- x \*\* y: El valor de x a la potencia de y

In [189]:
s=[1,2,3,4] ; t=[5,6,7,8]

In [190]:
1 in s

True

In [191]:
5 in s

False

In [192]:
s+t

[1, 2, 3, 4, 5, 6, 7, 8]

In [193]:
s*3

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

In [197]:
[e*3 if e < 3 else e*2 for e in s]

[3, 6, 6, 8]

In [198]:
len(s)

4

In [199]:
min(s)

1

In [200]:
max(s)

4

## Funciones nativas de Python

Python 3.6 cuenta con 68 funciones incluidas por defecto. Estas funciones son muy variadas y facilitan el análisis numérico y la evaluación de expresiones. A continuación se listan alfabéticamente.

<img src="images/python_builtin_functions.png" width=800>

In [201]:
x=-4
print(x)

-4


In [202]:
y=abs(x)
print(y)

4


In [203]:
isinstance(x,int)

True

In [204]:
isinstance(x,float)

False

In [205]:
x=4.654321
print(x)

4.654321


In [206]:
round(x)

5

In [207]:
round(x,2)

4.65

# Ejercicios

Realice los siguientes ejercicios. En caso de tener dudas, puede apoyarse con sus compañeros, preguntarle al profesor y hacer búsquedas en internet.


1. Cree una variable llamada **x** que contenga el valor 3.141592 y una variable **y** que contenga el valor 4
2. Evalue si **x** es menor que **y**
3. Cree una variable llama **z** que contenga el valor de **x** a la potencia de **y**

4. Cree una lista llamada **a** que contenga 30 veces repetido el valor de la variable **x**.
5. Cree un rango llamado **b** que parta desde el valor 0 y llegue hasta el 30.
6. Transforme la varible **b** en una tipo lista y almacene el resultado en la variable **c**
7. Cree una lista llamada **d** la cual corresponda a la suma elemento a elemento entre las listas **a** y **c** (element wise sum)

# III. Uso de sentencias de control de flujo

Python soporta las sentencias de control de flujo que podemos encontrar en otros lenguajes de programación tales como C, R y Java.

Las sentencias presentes en Python 3.6 son

- If
- Else

- While
- For
- Break
- Continue
- Pass

- Try
- With


## 1. If

La sentencia if es quizás la más conocida. Esta sentencua se usa para ejecución condicional de código.

Puede haber cero o más bloques elif, y el bloque else es opcional. La palabra reservada ‘elif‘ es una abreviación de ‘else if’, y es útil para evitar un sangrado excesivo.

Una secuencia if ... elif ... elif ... sustituye las sentencias switch o case encontradas en otros lenguajes.

In [208]:
x=-30

if x < 0:
    x = 0
    print('Negativo cambiado a cero')
elif x == 0:
    print('Cero')
elif x == 1:
    print('Igual a uno')
else:
    print('Mayor a uno')
    
print("Valor: ", x)

Negativo cambiado a cero
Valor:  0


## 2. While

La sentencia while es usada para repetir la ejecución de un código mientras la condición sea verdadera.

El primer bloque corresponde al código que se ejecuta mientras la condición sea verdadera. Se puede crear un segundo bloque opcional con la sentencia else, la cual permite ejecutar ese bloque antes de terminar la ejecución del bucle while.

Se pueden usar las sentencias **break** y **continue** en el primer bloque.

In [None]:
a=0;b=1

In [None]:
a, b = 0, 1
while b < 1000:
    print(b, end=',')
    a, b = b, a+b

In [None]:
a, b = 0, 1
while b < 1000:
    print(b, end=',')
    a, b = b, a+b
else:
    print("\nEl valor de b es mayor que 1000")

In [None]:
a, b = 0, 1
while b < 1000:
    print(b, end=',')
    a, b = b, a+b
    break

## 3. For

La sentencia for se usa para iterar sobre los elementos que pertenecen a una secuencia del tipo string, tupla, lista o cualquier otro objeto iterable.

La sentencia for en Python difiere un poco de lo que uno puede estar acostumbrado en lenguajes como C o Pascal. En lugar de siempre iterar sobre una progresión aritmética de números (como en Pascal) o darle al usuario la posibilidad de definir tanto el paso de la iteración como la condición de fin (como en C), la sentencia for de Python itera sobre los ítems de cualquier secuencia (una lista o una cadena de texto), en el orden que aparecen en la secuencia.

In [None]:
palabras = ['Machine', 'Learning', 'Data Science']
for p in palabras:
    print(p, len(p))

In [None]:
for i in range(len(palabras)):
    print(palabras[i])

## 4. Try

La sentencia try se usa para el manejo de excepciones y/o la limpieza de código para un grupo de expresiones.

Es posible escribir programas que manejen determinadas excepciones. En el siguiente ejemplo se le pide al usuario una entrada hasta que ingrese un entero válido, pero permite al usuario interrumpir el programa (usando Control-C o lo que sea que el sistema operativo soporte).

Notar que una interrupción generada por el usuario se señaliza generando la excepción KeyboardInterrupt.

In [None]:
while True:
    try:
        x = int(input("Por favor ingrese un número: "))
        break
    except ValueError:
        print("Oops! No era válido. Intente nuevamente...")

La declaración try funciona de la siguiente manera:

- Primero, se ejecuta el bloque try (el código entre las declaración try y except).
- Si no ocurre ninguna excepción, el bloque except se salta y termina la ejecución de la declaración try.
- Si ocurre una excepción durante la ejecución del bloque try, el resto del bloque se salta. Luego, si su tipo coincide con la excepción nombrada luego de la palabra reservada except, se ejecuta el bloque except, y la ejecución continúa luego de la declaración try.
- Si ocurre una excepción que no coincide con la excepción nombrada en el except, esta se pasa a declaraciones try de más afuera; si no se encuentra nada que la maneje, es una excepción no manejada, y la ejecución se frena con un mensaje como los mostrados arriba.

Una declaración try puede tener más de un except, para especificar manejadores para distintas excepciones. A lo sumo un manejador será ejecutado.

Sólo se manejan excepciones que ocurren en el correspondiente try, no en otros manejadores del mismo try. Un except puede nombrar múltiples excepciones usando paréntesis, por ejemplo:

In [None]:
while True:
    try:
        x = int(input("Por favor ingrese un número: "))
        break
    except (ValueError, RuntimeError, TypeError, NameError):
        print("Oops! No era válido. Intente nuevamente...")

In [None]:
try:
    file='data/file_01.txt'
    f = open(file)
except OSError:
    print("No se pudo abrir el archivo ", file)
else:
    print("Archivo abierto de manera correcta ", file)
    print("El archivo tiene ", len(f.readlines()), 'lineas')
    f.close()

# Ejercicios

Realice los siguientes ejercicios. En caso de tener dudas, puede apoyarse con sus compañeros, preguntarle al profesor y hacer búsquedas en internet.

1. Use un sentencia for para calcular la suma de todos los números entre el 1 y el 100. Es decir, 1+2+3+....+99+100

2. Cree una lista que contenga 10 elementos de diferentes tipos. La lista debe tener al menos dos string y dos punto flotante. Cree una expresión que recorra la lista e imprima en pantalla el tipo de variable al que corresponde el elemento.

# IV. Definición de funciones y clases


# 1. Definición de funciones

La palabra reservada **def** se usa para definir funciones. Debe seguirle el nombre de la función y la lista de parámetros formales entre paréntesis. Las sentencias que forman el cuerpo de la función empiezan en la línea siguiente, y deben estar con sangría.

La primer sentencia del cuerpo de la función puede ser opcionalmente una cadena de texto literal; esta es la cadena de texto de documentación de la función, o docstring. (Podés encontrar más acerca de docstrings en la sección Cadenas de texto de documentación.)

In [None]:
def suma(x, y=4):
    return x + y

In [None]:
# Llamamos a la función suma con un solo parámetro

suma(4)

In [None]:
# Llamamos a la función suma usando los dos parámetros

suma(2,10)

Otra forma de escribir funciones, aunque menos utilizada, es con la palabra clave lambda. Las funciones Lambda pueden ser usadas en cualquier lugar donde sea requerido un objeto de tipo función. Están sintácticamente restringidas a una sola expresión.

In [None]:
suma = lambda x, y = 2: x + y

In [None]:
suma(4)

In [None]:
suma(4,10)

## 2. Definición de clases

En el contexto de la programación orientada a objetos se habla de objetos, clases, métodos y atributos. En una clase un "método" equivale a una "función", y un "atributo" equivale a una "variable".

Las clases proveen una forma de empaquetar datos y funcionalidad juntos. Al crear una nueva clase, se crea un nuevo tipo de objeto, permitiendo crear nuevas instancias de ese tipo. Cada instancia de clase puede tener atributos adjuntos para mantener su estado. Las instancias de clase también pueden tener métodos (definidos por su clase) para modificar su estado.

Las clases de Python proveen todas las características normales de la Programación Orientada a Objetos:

- El mecanismo de la herencia de clases permite múltiples clases base
- Una clase derivada puede sobre escribir cualquier método de su(s) clase(s) base
- Un método puede llamar al método de la clase base con el mismo nombre

Los objetos pueden tener una cantidad arbitraria de datos de cualquier tipo. Igual que con los módulos, las clases participan de la naturaleza dinámica de Python: se crean en tiempo de ejecución, y pueden modificarse luego de la creación.

### Sintáxis en la definición de clases

La forma más sencilla de definición de una clase se ve así

```
class Clase:
    <declaración-1>
    .
    .
    .
    <declaración-N>
```

Las definiciones de clases, al igual que las definiciones de funciones (instrucciones def) deben ejecutarse antes de que tengan efecto alguno. Es concebible poner una definición de clase dentro de una rama de un if, o dentro de una función.

Cuando una definición de clase se finaliza normalmente se crea un objeto clase. Básicamente, este objeto envuelve los contenidos del espacio de nombres creado por la definición de la clase

### Objeto clase

Los objetos clase soportan dos tipos de operaciones: hacer referencia a atributos e instanciación.

#### Referencia a atributos

Para hacer referencia a atributos se usa la sintaxis estándar de todas las referencias a atributos en Python: objeto.nombre.

Los nombres de atributo válidos son todos los nombres que estaban en el espacio de nombres de la clase cuando ésta se creó. Por lo tanto, si la definición de la clase es así

In [None]:
class MiClase:
    """Simple clase de ejemplo"""
    i = 12345
    def f(self):
        return 'Hola mundo'

entonces MiClase.i y MiClase.f son referencias de atributos válidas, que devuelven un entero y un objeto función respectivamente.

Los atributos de clase también pueden ser asignados, o sea que se pueden cambiar el valor de MiClase.i mediante asignación.

#### Instantación de clases

La instanciación de clases usa la notación de funciones. Suponga que el objeto de clase es una función sin parámetros que devuelve una nueva instancia de la clase. Por ejemplo,

In [None]:
x=MiClase()

crea una nueva instancia de la clase y asigna este objeto a la variable local x.

Podemos ejecutar el método f() del objeto x.

In [None]:
x.f()

Cuando una clase define un método __init__(), la instanciación de la clase automáticamente invoca a __init__() para la instancia recién creada.

In [None]:
class Complejo:
    def __init__(self, partereal, parteimaginaria):
        self.r = partereal
        self.i = parteimaginaria

In [None]:
x = Complejo(3.0, -4.5)
x.r, x.i

### Variables de clase y de instancia

En general, las variables de instancia son para datos únicos de cada instancia y las variables de clase son para atributos y métodos compartidos por todas las instancias de la clase:

In [None]:
class Perro:

    tipo = 'canino'                 # variable de clase compartida por todas las instancias

    def __init__(self, nombre):
        self.nombre = nombre        # variable de instancia única para la instancia

In [None]:
d = Perro('Fido')
e = Perro('Buddy')

In [None]:
# Variable compartida por todos los perros

print(d.tipo)
print(e.tipo)

In [None]:
# Única para cada objeto

print(d.nombre)
print(e.nombre)

# Ejercicios

Realice los siguientes ejercicios. En caso de tener dudas, puede apoyarse con sus compañeros, preguntarle al profesor y hacer búsquedas en internet.


1. Cree una función llamada **resta** la cual permita restar dos valores que son ingresados como parámetros. El primer parámetro se llama x y es obligatorio, mientras que el segundo es opcional y por defecto tiene un valor igual a 0
2. Evalue la función resta de dos maneras: usando solo un parámetro y luego usando ambos parámetros de la función

1. Cree una clase llamada **Gato**, la cual debe cotener una variable llamada tipo y cuyo valor sea 'felino'. La clase debe permitir ser instanciada con dos valores, el primero que corresponda al nombre del gato y el segundo al color del pelo.
2. Cree dos objetos del tipo Gato. El primer objeto se llamara gato1, el nombre del gato es "Garfield" y el color de pelo es "naranjo". El seguno objeto se llama gato2, el nombre del gato es "Silvestre" y el color del pelo es "gris".

# Caso de Aplicación

El año pasado se realizó una clasificación de clientes a través de un algoritmo de segmentación y el algoritmo se subió al repositorio Git de la empresa. La semana pasada, solicitaron un conteo de cuántos clientes pertenecen a una categoría. Lamentablemente, el algoritmo de segmentación se subió en una rama que ya no existe y que nunca fue integrada al código base. Se perdió la lógica y nunca se grabó una columna de tipo de cliente. 

Uno de los miembros del equipo de desarrollo recordó que los identificadores de los clientes fueron creados a partir del tipo de cliente, y que en teoría podrían utilizarse para recrear el segmento al que pertenecen.

Dentro de los identificadores se encuentra el siguiente patrón:
 
●	Para los clientes tipo A, se repite un carácter justo después de otro, al menos una vez (por ejemplo, "XX" y "pppp") y al menos una vocal.

●	Para los clientes tipo B, se tienen más letras mayúsculas que minúsculas y/o al menos un dígito impar.

●	Para los clientes tipo C, se tiene al menos una de las siguientes secuencias de caracteres: "jn", "cg", "ar", "mp", "fs" o "ic"
 
Adicionalmente,

●	Un cliente no puede pertenecer a más de un segmento y las reglas están en orden prioridad (es decir, la regla para tipo A predomina sobre la tipo B; así, el cliente solo puede ser tipo B si es que no es tipo A, y solo puede ser tipo C si es que no es tipo B).

●	Si no cumple con ningún patrón, entonces es tipo D.
 
La tarea consiste en determinar cuántos clientes tipo A, B, C y D existen en la base de datos. Para este problema, utilice el archivo dentro de la carpeta Data llamado segmentacion.txt
