El propósito de los notebooks anexo es revisar material complementario a lo que se vió en la sesión correspondiente (en este caso 01), ahondando un poco más en temas de programación. No será material fundamental para aprender ciencia de datos, pero esperamos les sea útil para entender más sobre la estructura del lenguaje de programación.  

# Tipos de Variables y Jerarquía de Tipos 

Los tipos básicos de variables numéricas son `int`, `float` y `complex` como ya vimos. Hay un gran número de tipos de variables en Python, pero las más importantes están representadas en la siguiente imágen:

<img src=https://upload.wikimedia.org/wikipedia/commons/1/10/Python_3._The_standard_type_hierarchy.png width="500">

__<u>Nota:</u>__ Una lista completa de los tipos de variables puede verse en la [documentación](https://docs.python.org/3/library/stdtypes.html).

Esta imagen representa la jerarquía de tipos de variables en Python. Es un diagrama de árbol en donde se clasifica las variables por su similitud, donde los tipos de variables en la parte inferior de un árbol ( e.g. `Booleans`) pueden pensarse como "subtipos" o "casos específicos" de las que se encuentran en la parte superior. Esto es relevante para entender qué tipo de variables pueden operarse unas con otras. Cuando se operan variables de distintos tipos, Python tratará de convertirlas al tipo más "general" que pueda hacerlas compatibles para operarlas. A continuación hay algunos ejemplos:

In [10]:
True + 3 #True (booleano) se convierte a 1 (entero)

4

In [12]:
False + 5 # False se convierte en 0

5

In [8]:
True + 3.0 # Booleano se convierte a flotante 

4.0

In [13]:
True - (1+4j) # Booleano a complejo

-4j

In [18]:
(False*1j) +1 #en este caso se mantiene el tipo complejo por ser más "general" y no se interpreta como 0 + 1 (enteros)
#i.e. una vez que se sube en el diagrama a un tipo más general, no se baja automáticamente

(1+0j)

In [20]:
bool(1+0j) #la única forma de regresar a un tipo más específico es mediante una función de conversión

True

In [26]:
bool(-3.2+5j) #aunque a veces esto puede no tener sentido

True

In [4]:
2 + 2.0 , 2.0 + 2 # el orden es irrelevante para la conversión de tipo

(4.0, 4.0)

In [37]:
1 + "Hola" #por la organización de la jerarquía no se pueden operar estas variables, i.e. no hay un "supertipo" común

TypeError: unsupported operand type(s) for +: 'int' and 'str'

__<u>Nota:</u>__ Existen librerías o módulos de Python (e.g. [Numpy](https://docs.scipy.org/doc/numpy-1.15.1/reference/arrays.scalars.html)) que pueden definir sus propios tipos y jerarquías de tipos. Sin embargo, siempre podremos hacer la distinción de los tipos de variables que provienen de un módulo (como el núcleo de Python) y otro (como Numpy), incluso si tienen el mismo nombre.

__<u>Nota:<u>__ Existen lenguajes de programación (e.g. [Julia](https://www.oreilly.com/library/view/learning-julia-abstract/9781491999585/assets/acpt_01in01.png)) en donde todos los tipos de variables están contenidos dentro de un mismo árbol, por lo que pueden definirse operaciones que funcionen con cualesquiera dos tipos de variables pues pueden promoverlas hasta el tipo más general.

__<u>Nota:<u>__ Igual que en aritmética (y análogo a la jerarquía de tipos), Python también maneja una jerarquía de operaciones, por lo que se deben utilizar paréntesis para especificar claramente el órden de dichas operaciones.

In [35]:
1 + 3j / 3

(1+1j)

In [36]:
(1 + 3j) / 3

(0.3333333333333333+1j)

# Representación de Bits

Tradicionalmente, los lenguajes de programación utilizan variables numéricas que utilizan un número fijo de bits en la memoria. Esto significa que hay una cantidad finita y fija de números que un tipo de variable numérica puede representar. Por ejemplo, el lenguaje de programación C contiene la siguiente jerarquía de tipos como parte de su [jerarquía](https://en.wikipedia.org/wiki/C_data_types): 

<img src=https://www.tutorialspoint.com/cprogramming/images/usual_arithmetic_conversion.png width="150">

La variable tipo `unsinged int` tiene reservada una cantidad de 16 bits de memoria. Esto significa que puede representar $2^{16}=65,536$ números diferentes. Dado que esto incluye el 0, entonces representa números en el intervalo \[0, 65,535 \] 

La variable tipo `int` también utiliza 16 bits en la memoria, sin embargo los números que representa pueden ser tanto negativos como positivos. En este caso, se utiliza uno de los bits para representar el signo y el resto se utilizan para representar números, por lo que se pueden representar $2^{15}=32,768$ números. Dado que esto incluye el 0, entonces representa números en el intervalo \[−32,767, +32,767\].

La variable tipo `float` utiliza 32 bit en la memoria. Estas siguen un formato estándar de representación ([IEEE 754 single-precision binary floating-point format](https://en.wikipedia.org/wiki/Single-precision_floating-point_format)) que es un formato con representación más complicada. Se utilizan:
 * 1 bit para el signo
 * 8 bits para el exponente
 * 23 bits para la mantisa (también llamada fracción o significando)
 

<img src=https://upload.wikimedia.org/wikipedia/commons/thumb/d/d2/Float_example.svg/1920px-Float_example.svg.png width="1000">

Sigue la siguiente fórmula para realizar al conversión de la representación:

$$valor = (-1)^{b_{31}}\times (1,b_{22}b_{21}...b_{0})_2 \times 2^{e-127}= (-1)^{b_{31}}\times \left(1 + \sum_{i=0}^{22} b_{22-i} 2^{-i} \right)\times 2^{(e-127)}$$

__<u>Nota:<u>__ En C, si un número tiene el valor máximo que puede ser representado (e.g. 65,535 para `unsinged int`) y se le suma 1, la representación regresa al primer valor (0 en este caso). A este fenómeno se le conoce como *overflow* y es vital tenerlo en cuenta al realizar operaciones en ciertos lenguajes de programación.

__<u>Nota:<u>__ Al cambiar una variable de tipo se debe representar el mismo número, pero los bits en memoria deben ser reescritos dado que las reglas para la representación son distintas. Por lo tanto, se debe tener en cuenta que si el código que se utiliza realiza conversiones de tipo constantemente, se podrían consumir recursos de máquina de manera innecesaria.

En Python el esquema es un poco diferente. Python 3 maneja sólo un tipo de número entero: `int`, el cual permite que los números tomen valores tanto positivos y negativos. Además, una característica importante es que estos números son de **precisión arbitraria**. Estos significa que, a diferencia de C, no hay un número de bits fijo para representar enteros. Es decir, entre mayor sea el número a representar, el número de bits utilizado será más grande, sólo estando limitado por la memoria de la máquina. Veamos un ejemplo:

In [11]:
10**10000

1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000

In [10]:
print(bin(10**10000)) #representación binaria
len(bin(10**10000)[2:]) #número de bits

0b10011011100001001110101000101000010101010110101111110010011010010111111011111001110110000010110010101000011111110011100011000111101110101100100101100100101011111011110110011010111011101111110001010110111100110111011011111000100011010001001010100011001001011001110100110100101111111111001011101101100110001100000110000110111100011100000011011110001001111110110110111010100111111101110101111111011110111011000101011111011101001001010110101111011010101001100101000010010001001001111111100101110111001000110110100011000100001001001110100101000101010111100000011111100111010010111001111001110100111111101001101110001011101000110011100010101000110101111111110010000101001000111100101011101111110001111111010010111110100100000101111010010001100011100011011011011000110101011000001000010111010001000111110001011101010101111101101000011111001100001100110010111110011011001100111010000010111111110100001101101100101101000001101101011001001100001011010111111100100111011110010011111011001010110101101011000011

33220

__<u>Nota:<u>__ Python 2 manejaba 2 tipos de variables enteras: `int` y `long`, donde `int` utilizaba un número fijo de bits (24 bits), mientras que `long` era de precisión arbitraria. En Python 3 sólo existe `int` y es de precisión arbitraria.  

Por otro lado, para números de tipo `float` Python sí utiliza un número fijo de bits (64 bits), los cuales siguen el formato de representación [EEE 754 double-precision binary floating-point format](https://en.wikipedia.org/wiki/Double-precision_floating-point_format) que es análogo al de C (en realidad es igual a `double` en C). Los `float` de Python utilizan:

 * 1 bit para el signo
 * 11 bits para el exponente
 * 52 bits para la mantisa (también llamada fracción o significando)


Por lo tanto, sí existe un límite superior en los números que se pueden representar con `float` y sí debemos preocuparnos por no rebasar este límite. Recordemos que el exponente se utiliza en la representación como $2^{e-1023}$, por lo que el máximo valor del exponente es $2^{2^{11}-2-1023}=2^{2046-1023}=2^{1023}$.

__<u>Nota:<u>__ El -2 en la expresión anterior se debe a que hay dos series de bits `00000000000` y `11111111111` que se utilizan para representar el 0 y el infinito respectivamente cuando la mantisa es 0.

In [26]:
2**11 # de esta cantidad se deben restar las dos series de bits mencionadas

2048

In [48]:
1.0*2**(2046-1023) #se multiplica por 1.0 para convertirlo a flotante

8.98846567431158e+307

In [50]:
1.0*2**1024 #el tamaño impide hacer la conversión

OverflowError: int too large to convert to float

In [51]:
1e308, 1e309 #cuando se sobrepasa el valor máximo se trata como infinito, por lo que no hay que preocuparse por overflow

(1e+308, inf)

In [52]:
type(1e308),type(1e309)

(float, float)

# Tuplas e Inmutabilidad

Como ya vimos, las listas nos permiten modificar sus elementos.

In [53]:
lista_1=[1,2,3,4,5]
lista_1[0]=0
print(lista_1)

[0, 2, 3, 4, 5]


También podemos modificar conjuntos, aunque no podemos acceder directamente a los elementos.

In [57]:
conjunto_1={1,2,3}
conjunto_1.remove(2)
conjunto_1.add(0)
conjunto_1

{0, 1, 3}

Otro tipo de estructuras de datos en Python son las tuplas. Estas se denotan por paréntesis y son análogas a las listas.

In [63]:
tuple_1=(1,2,3,4)
tuple_2=("Hola",0) #pueden tener datos de distintos tipos

In [64]:
type(tuple_1),type(tuple_2)

(tuple, tuple)

In [62]:
tuple_1[2:4] #podemos acceder a sus elementos igual que con listas

(3, 4)

In [60]:
tuple(lista_1) #podemos convertir listas a tuplas

(0, 2, 3, 4, 5)

Sin embargo, no podemos cambiar ninguno de los elementos ni tampoco podemos añadir o quitar elementos. 

In [65]:
tuple_1[0]=3

TypeError: 'tuple' object does not support item assignment

A este tipo de objetos, que no podemos alterar de ningún modo, se les conoce como **inmutables**. Otros tipos de variables inmutables son: los strings, los bytes y los frozen sets.

In [68]:
string_1="actualizar"
string_1[0]="b"

TypeError: 'str' object does not support item assignment

__<u>Nota:<u>__ Es importante mencionar que, por defecto, los objetos separados por comas en la última línea de una celda de Jupyter Notebook se agrupan en tuplas.

In [69]:
1,2

(1, 2)

# Desempacar Información de Arreglos de Datos Usando *

Comúmente en cualquier lenguaje de programación nos encontraremos casos en los que utilizamos funciones que hemos definido previamente dentro de una nueva función. La función externa tendrá una serie de parámetros, mientras que la interna tendrá otra diferente. La pregunta que surge en esta situación es, ¿cómo introducir los parámetros de la función interna desde la función externa?

Cuando se tiene un arreglo de datos (listas, tuplas, etc.) es útil saber como extraer o desempacar los datos que sabemos nos serán útiles. Consideremos como ejemplo la siguiente tupla.

In [86]:
data = ("Maria", "ls01jk23", "17 Ene 2019 11:14:50 CST", "maria@outlook.com", "172.217.20.110")

Se pueden desempacar los elementos de la tupla y asignarlos a variables de la siguiente manera.

In [95]:
user_name, password, last_login, email, ip_address = data
user_name, password, last_login, email, ip_address

('Maria',
 'ns01jk23',
 '17 Ene 2019 11:14:50 CST',
 'maria@outlook.com',
 '172.217.20.110')

Es común utilizar nombre dummys para variables que no nos interesan.

In [81]:
user_name, _, _ , email, _ = data 
user_name, email, _ # _ se asigna a la variable que aparece al final  

('Elena', 'elena@outlook.com', '172.217.22.110')

Se puede utilizar `*` para agrupar varios datos en una sola variable durante la extracción (por defecto es una lista).

In [78]:
*user_details,_, email, _ = data #al principio
user_details, email

(['Elena', 'nhoj546'], 'elena@outlook.com')

In [84]:
user_name, password, *info = data #al final 
user_name, password, info

('Elena',
 'nhoj546',
 ['Mon, 7 Nov 2016 08:16:56 GMT', 'elena@outlook.com', '172.217.22.110'])

In [96]:
user_name, *details, ip_address = data # en medio
details

['ns01jk23', '17 Ene 2019 11:14:50 CST', 'maria@outlook.com']

Esto es importante para poder introducir argumentos a funciones desde una lista. El número de argumentos tambien ser indeterminado.

In [88]:
def print_info(user_name,password,email):
    print(user_name,password,email)

In [90]:
args=("ls01jk23","maria@outlook.com")
print_info("Maria",*args)

Maria ls01jk23 maria@outlook.com


In [97]:
args=("Maria","ls01jk23")
print_info(*args,"maria@outlook.com") #no siempre los argumentos puden ir al inicio

Maria ls01jk23 maria@outlook.com


Cuando los argumentos tienen palabras clave (keyword arguments) se utiliza `**`.

In [94]:
def print_info2(user_name,**info):
    print(dict({"user_name": user_name}, **info))

In [93]:
print_info2(user_name,email="maria@outlook.com",ip_addres="172.217.20.110")

{'user_name': 'Elena', 'email': 'maria@outlook.com', 'ip_addres': '172.217.20.110'}


# Véase También

 * https://data-flair.training/blogs/python-number-types-conversion/
 * https://docs.python.org/3/tutorial/floatingpoint.html
 * https://data-flair.training/blogs/python-method-and-function/