<a href="https://colab.research.google.com/github/htapiagroup/introduccion-a-numpy-JHermosillaD/blob/master/Copy_of_01_01_Understanding_Data_Types.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<!--BOOK_INFORMATION-->
<img align="left" style="padding-right:10px;" src="https://github.com/htapia/TallerPythonIntroCienciaDatos/blob/master/notebooks/figures/header_small.png?raw=1">

*Esta libreta contiene material del Taller de Python que se lleva a cabo como parte del 
evento [Data Challenge Industrial 4.0](www.lania.mx/dci). El contenido ha sido adaptado 
por HTM y GED a partir del libro [Python Data Science Handbook](http://shop.oreilly.com/product/0636920034919.do) 
de Jake VanderPlas y se mantiene la licencia sobre el texto, 
[CC-BY-NC-ND license](https://creativecommons.org/licenses/by-nc-nd/3.0/us/legalcode), 
y sobre el codigo [MIT license](https://opensource.org/licenses/MIT).*

<!--NAVIGATION-->
< [Introducción a NumPy](01.00-Introduction-to-NumPy.ipynb) | [Contenido](Index.ipynb) | [Basicos de NumPy: arreglos](01.02-The-Basics-Of-NumPy-Arrays.ipynb) >

<a href="https://colab.research.google.com/github/htapia/TallerPythonIntroCienciaDatos/blob/master/notebooks/01.01-Understanding-Data-Types.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>


# Tipos de Datos en Python

* Lenguajes de tipado estático como C o Java requieren que cada vriable sea declarada explicitamente
* Python en un lenguaje de tipado dinámico y no requiere ésta especificación
Por ejemplo en C especificamos una operación como sigue:

```C
/* codigo en C */
int result = 0;
for(int i=0; i<100; i++){
    result += i;
}
```

En Python la operación equivalente puede escribirse de la siguiente forma:

```python
# codigo en Python
result = 0
for i in range(100):
    result += i
```

La diferencia principal es 
* en C el tipo de cada variable debe especificarse explicitamente
* en Python el tipo de cada variable es inferido dinamicamente

De este modo, en Python podemos asignar cualquier tipo de datos a cualquier variables:

```python
# codigo Python
x = 4
x = "four"
```

El equivalente en C sería como sigue, sin embargo, tendría errores de compilación o consecuencias inesperadas:

```C
/* codigo C */
int x = 4;
x = "four";  // ERROR
```

* Las variables en Python son más que sólo su valor
* Contienen información extra sobre el tipo de valor, es decir el tipo de dato que representan.

## Enteros en Python

* La implementacion standard de Python está escrita en C.
* Si  definimos un entero en Python, ``x = 10000``, ``x`` es un apuntador a una estructura de C:

```C
struct _longobject {
    long ob_refcnt;
    PyTypeObject *ob_type;
    size_t ob_size;
    long ob_digit[1];
};
```

- Un entero en Python contiene cuatro partes:

 - ``ob_refcnt``, un contador que ayuda en la asignación y liberación de memoria
 - ``ob_type``, codifica el tipo de variable
 - ``ob_size``, especifica el tamaño
 - ``ob_digit``, contiene el valor asignado que representa la variable.

* Esto causa un pequeño _overhead_ cuando se crea un entero en Python en comparación con C, como se ilustra a continuación:

![Integer Memory Layout](https://github.com/htapia/TallerPythonIntroCienciaDatos/blob/master/notebooks/figures/cint_vs_pyint.png?raw=1)

## Listas en Python 

Una lista es una estructura de datos que permite colectar objetos. 
Creamos una lista de enteros de la siguiente forma:

In [0]:
L = list(range(10))
L

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [0]:
type(L[0])

int

O una lista de caracteres de texto:

In [0]:
L2 = [str(c) for c in L]
L2

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [0]:
type(L2[0])

str

Gracias al tipado dinámico podemos crear listas heterogéneas:

In [0]:
L3 = [True, "2", 3.0, 4]
[type(item) for item in L3]

[bool, str, float, int]

- Esta felixibilidad tiene un costo pues cada elemento en la lista contiene es una referencia a una estructura que define el objeto de Python.
- En el caso especial que todas las entradas son del mismo tipo habrá información redundante: - Sería mas eficiente usar un arreglo de tipo fijo
- La diferencia entre listas dinámicas y de tipo fijo (como NumPy) se ilustra en la siguiente figura:

![Array Memory Layout](https://github.com/htapia/TallerPythonIntroCienciaDatos/blob/master/notebooks/figures/array_vs_list.png?raw=1)

- El arreglo contiene un apuntador único a un bloque contiguo de datos
- La lista contiene un apuntador a un bloque de apuntadores, cada uno apuntando a un objeto de Python (como el objeto entero que vimos antes)
- La lista puede tener objetos y datos de cualquier tipo
- El arreglo fijo no puede hacerlo, pero es mas eficiente para guardar y manipular los datos

## Arreglos de Tipo Fijo en Python

- En Python hay diferentes opciones para guardar datos en buffers de tipo fijo
- El modulo interno ``array`` (disponible a partir de Python 3.3) sirve para crear arreglos densos de tipo uniforme:

In [0]:
import array
L = list(range(10))
A = array.array('i', L)
A

array('i', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

- Aquí ``'i'`` indica que las entradas son enteros.
- El objeto ``ndarray`` de la libreria NumPy  es mucho mas útil ya que implementa operaciones sobre los datos contenidos.
- Antes de explorar estas operaciones, veamos diversas maneras de crear arreglos de NumPy
- Comenzamos con la manera standard de importar NumPy, usando el alias ``np``:

In [0]:
import numpy as np

## Crear Arreglos a partir de Listas de Python

Podemos usar ``np.array`` para crear arreglos a partir de listas:

In [0]:
# integer array:
np.array([1, 4, 2, 5, 3])

array([1, 4, 2, 5, 3])

- A diferencia de las lista en Python, NumPy está restringif a arreglos que contienen el mismo tipo de datos
- Si los tipos no coinciden NumPy trata de ajustar (*upcast*, emitir) si es posible
- En el siguiente ejemplo, los enteros se emiten a punto flotante:

In [0]:
np.array([3.14, 4, 2, 3])

array([3.14, 4.  , 2.  , 3.  ])

- Podemos indicar el tipo de datos del arreglo explicitamente usando la palabra ``dtype``:

In [0]:
np.array([1, 2, 3, 4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

- A diferencia de las listas, los arreglos de NumPy pueden ser explicitamente multi-dimensionales
- A continuación, una forma de inicializar un arreglo multidimensional usando una lista de listas:

In [0]:
# nested lists result in multi-dimensional arrays
np.array([range(i, i + 3) for i in [2, 4, 6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

- Las listas interiores se toman como renglones del arreglo bidimensional resultante

## Creando Arreglos 

- Para arreglos grandes, es mas eficiente crearlos usando rutinas implementadas en NumPy:

In [0]:
# Crea arreglo de enteros de longitud-10 lleno de ceros
np.zeros(10, dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [0]:
# Crea arreglo con puntos flotantes de dimensiones 3x5 (3 renglones, 5 columnas) lleno de unos
np.ones((3, 5), dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [0]:
# Crea arreglo de 3x5 array lleno de 3.14
np.full((3, 5), 3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [0]:
# Crea arreglo lleno con una secuencia lineal de numeros
# Empieza en 0, acaba en 20, en pasos de 2
# (similar a la funcion interna range())
np.arange(0, 20, 2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [0]:
# Crea array de cinco valores igualmente espaciados entre 0 y 1
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [0]:
# Crea un arreglo de 3x3 con valores aleatorios
# distribuidos de manera uniforma entre 0 y 1
np.random.random((3, 3))

array([[0.02088768, 0.64517683, 0.72014339],
       [0.4448909 , 0.11905634, 0.479149  ],
       [0.22125209, 0.88792289, 0.00754875]])

In [0]:
# Crea un arreglo de 3x3 con valores aleatorios
# distribuidos de manera normal con media 0 y desviacion estandard 1
np.random.normal(0, 1, (3, 3))

array([[-0.49495584, -0.54841128,  0.5030196 ],
       [ 1.15545504, -1.50135543, -2.11398461],
       [ 0.42782109,  0.31153899,  0.88015027]])

In [0]:
# Crea array de 3x3 de numeros enterros aleatorios tomados del intervalo [0, 10)
np.random.randint(0, 10, (3, 3))

array([[0, 3, 1],
       [7, 6, 0],
       [3, 1, 7]])

In [0]:
# Crea matrix identidad de 3x3 (arreglo cuyas entradas son todas cero excepto las diagonales)
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [0]:
# Crea un array de tres enteros sin valores especificos
# Los valores se toman de lo que exista en esa localizacion de la memoria
np.empty(3)

array([1., 1., 1.])

## Tipos de Datos Standard de NumPy 

- Los arrays de NumPy contienen valores de un solo tipo, veamos cuales pueden ser
- NumPy está implementado en C, de modo que los tipos son similares a los usados en C, Fortran, y otros lenguajes relacionados
- La siguiente tabla enlista los tipos de datos standard de NumPy 
- Cuando construyen un array se puede especificar el tipo usando texto:

```python
np.zeros(10, dtype='int16')
```

- O usando el objeto de NumPy asociado:

```python
np.zeros(10, dtype=np.int16)
```

| Data type	    | Description |
|---------------|-------------|
| ``bool_``     | Boolean (True or False) stored as a byte |
| ``int_``      | Default integer type (same as C ``long``; normally either ``int64`` or ``int32``)| 
| ``intc``      | Identical to C ``int`` (normally ``int32`` or ``int64``)| 
| ``intp``      | Integer used for indexing (same as C ``ssize_t``; normally either ``int32`` or ``int64``)| 
| ``int8``      | Byte (-128 to 127)| 
| ``int16``     | Integer (-32768 to 32767)|
| ``int32``     | Integer (-2147483648 to 2147483647)|
| ``int64``     | Integer (-9223372036854775808 to 9223372036854775807)| 
| ``uint8``     | Unsigned integer (0 to 255)| 
| ``uint16``    | Unsigned integer (0 to 65535)| 
| ``uint32``    | Unsigned integer (0 to 4294967295)| 
| ``uint64``    | Unsigned integer (0 to 18446744073709551615)| 
| ``float_``    | Shorthand for ``float64``.| 
| ``float16``   | Half precision float: sign bit, 5 bits exponent, 10 bits mantissa| 
| ``float32``   | Single precision float: sign bit, 8 bits exponent, 23 bits mantissa| 
| ``float64``   | Double precision float: sign bit, 11 bits exponent, 52 bits mantissa| 
| ``complex_``  | Shorthand for ``complex128``.| 
| ``complex64`` | Complex number, represented by two 32-bit floats| 
| ``complex128``| Complex number, represented by two 64-bit floats| 

- Existen tipos mas avanzados; para mas información se refiere a la [documentacion de NumPy](http://numpy.org/).

<!--NAVIGATION-->
< [Introducción a NumPy](01.00-Introduction-to-NumPy.ipynb) | [Contenido](Index.ipynb) | [Basicos de NumPy: arreglos](01.02-The-Basics-Of-NumPy-Arrays.ipynb) >

<a href="https://colab.research.google.com/github/htapia/TallerPythonIntroCienciaDatos/blob/master/notebooks/01.01-Understanding-Data-Types.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory"></a>
