In [1]:
%load_ext watermark
%watermark

2019-05-03T16:57:56+02:00

CPython 3.6.5
IPython 6.4.0

compiler   : GCC 7.2.0
system     : Linux
release    : 5.0.10-arch1-1-ARCH
machine    : x86_64
processor  : 
CPU cores  : 4
interpreter: 64bit


# INTRODUCCIÓN A DATA SCIENCE
En este apartado expondremos que es el Data Science (ciencia de datos), que tipos de variables utiliza, estructuras y herramientas principales (Numpy y Pandas).


## Teoria y Definicion
La ciencia de datos es un campo interdisciplinario que involucra varios métodos cientificos para el análisis de datos.
Según la [wikipedia](https://es.wikipedia.org/wiki/Ciencia_de_datos) Data Science se define como:

"Un concepto para unificar estadísticas, análisis de datos, aprendizaje automático y sus métodos relacionados para comprender y analizar los fenómenos reales, empleando técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, la estadística, la ciencia de la información y la informática."

Para ver la actual demanda de los diez puestos mejor pagados que requieran un conocimiento de análisis de datos, visitar el siguiene enlace:  
[10 High-Paying Jobs That Require a Knowledge of Data Analytics](https://www.dataquest.io/blog/10-data-analytics-jobs/)

### El Cientifico de Datos y su futuro laboral.
Un científico de datos debe seguir una serie de pasos en cualquiera de sus proyectos:
- Extraer datos, independientemente de la fuente y de su volumen.
- Limpiar los datos, para eliminar lo que pueda sesgar los resultados.
- Procesar los datos usando métodos estadísticos como inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.
- Diseñar experimentos adicionales en caso de ser necesario.
- Crear visualizaciones graficas de los datos relevantes de la investigación.23

Por norma general las fases distinguidas son:  
***1. Definición de objetivos:***
Define los problemas a solucionar, se soluciona normalmente con el cliente y los técnicos, estudiando el objetivo a alcanzar.
Para los data scientist, un buen objetivo tiene que seguir la regla S.M.A.R.T(specific, measurable, achievable, relevant, time-bound)

***2. Obtención de datos:***
Los datos se obtienen de cualquier forma que podamos imaginar como desarrolladores, desde bases de datos, hasta archivos csv, excel etc...
La obtención de datos es una de las fases más importantes en el desarrollo del proyecto, ya que cuantas mas completos y extensos sean los registros, más preciso será el analisis


## Tipos de datos. Variables y Estructuras

Los datos puden dividirse en los siguientes tipos de variabes:
- *continuas:* edad,altura,colores RGB etc.
- *ordinales:* rating, niveles educativos etc.
- *categóricas:* valores booleanos, días de la semana etc.

A su vez, pueden categorizarse según su estructura:
-  *Estructurados <10%:*Son datos que se relacionan entre sí y comparten informacón como el catalogo de biblioteca, bases de datos sql.
- *Semiestructurados <10%: no tienen estructura, pero es facil asignarle una estructura mediante la lógica.* xml, json, csv.
- *No estructurados:* emails, fotos, pdf.
Hoy en día más del 80% de los datos son no estructurados, por lo que perdemos mucha información al dificultarnos a nosotros mismos el análisis.

## Numpy
Numpy es la piedra angular de la computación científica en Python. Nos permite trabajar con array 'n' dimensionales, los cuales nos proporcionan ventajas frente a las listas de Python.

Numpy a bajo nivel esta compilado en C, y al trabajar con arrays (la disposición en las celdas de memoria frente a las listas) es una herramienta muy potente para trabajar en Data Science con Python.

Enlace a la pagina oficial: [https://www.numpy.org/](https://www.numpy.org/)

### Preparacion  del  Entorno.
Para poder trabajar con Numpy (y más librerías detalladas en los siguietes documentos) necesitamos activar un entorno desde la terminal.

En Linux:
```bash
source activate data
```
En Windows:
```
activate data
```

En ambos casos 'data' sera el nombre del entorno. Ahora procederemos a instalar en el entorno **Numpy** mediante **conda**

```bash
conda install numpy
```
Nos preguntará si queremos instalarlo, marcamos 'y' y pulsamos 'enter'.


### Creacion de numpy arrays

In [2]:
import sys
import numpy as np

Aqui explicaremos mediante markdown el significado de las variables y para que utilizamos la herramientas.

#### Vectores.

In [3]:
#Instanciacion de un array de 1 dimension.
array_1d = np.array([4,5, 3])
type(array_1d)

numpy.ndarray

In [4]:
#np.ones genera un vector de longitud 3 inicializado con todos
#los valores a 1
print("np.ones\n",np.ones(3))

np.ones
 [1. 1. 1.]


#### Matrices.

In [5]:
#Instanciacion de una matriz
matriz = np.array([
    [ 1,2, 1 ],
    [5, 43, 5]
])

matriz

array([[ 1,  2,  1],
       [ 5, 43,  5]])

In [6]:
#np.eye genera una matriz identidad de 3x3
print("np.eye\n",np.eye(3))

np.eye
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [10]:
#np.zeros genera una matriz con todos sus valores a 0
print("np.zeros\n",np.zeros((3,2)))

np.zeros
 [[0. 0.]
 [0. 0.]
 [0. 0.]]


In [8]:
#np.random produce un array con valores aleatorios entre el intervalo [0,1]
np.random.random((2,3))

array([[0.03030156, 0.81184749, 0.97411228],
       [0.36720835, 0.7701616 , 0.14104673]])

#### Flujo de lectura y volcado en array.

In [12]:
#se puede acceder a un documento de texto y volcarlo
#a un numpy array
np_text = np.genfromtxt("../RESOURCES/np_text.txt", delimiter=",")
np_text

array([[ 1.,  2.,  3.],
       [43.,  2.,  3.],
       [34.,  1.,  1.],
       [ 0.,  1.,  1.]])

#### Seleccion por secciones y por indices (slicing e indexing)


In [13]:
#instanciamos matriz de ejemplo
matriz_34 = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
matriz_34

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [14]:
#obtenemos su primera fila como si de una lista se tratase
matriz_34[0]

array([1, 2, 3, 4])

In [15]:
#seleccionamos ahora hasta la fila 2 (fila 1 y fila 2)
matriz_34[:2]

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [16]:
#podemos tambien seleccionar el segundo elemento de cada fila
#es decir, la segunda columna
matriz_34[:,1]

array([ 2,  6, 10])

In [17]:
#al crear secciones solo obtenemos un puntero o referencia
#al mismo array, no instanciamos nuevos objetos.
seccion = matriz_34[:2,:]
print(matriz_34[0,1])
seccion[0, 0] = 0
matriz_34

2


array([[ 0,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

#### Filtrado

In [19]:
matriz_32 = np.array([[1, 4], [2, 4], [5, 0]])
matriz_32

array([[1, 4],
       [2, 4],
       [5, 0]])

In [22]:
#comprobamos aquellos elementos que sean mayores o iguales que 2
indice_fitrado = (matriz_32 >= 2)
indice_fitrado

array([[False,  True],
       [ True,  True],
       [ True, False]])

In [21]:
matriz_32[indice_fitrado]

array([4, 2, 4, 5])

#### Aritmetica con numpy arrays


In [23]:
array1 = np.array([[2,3],[0,1]])
array2 = np.array([[23,6],[0,42]])

print(array1)
print(array2)

[[2 3]
 [0 1]]
[[23  6]
 [ 0 42]]


In [24]:
array1 + array2

array([[25,  9],
       [ 0, 43]])

In [25]:
array1 * array2

array([[46, 18],
       [ 0, 42]])

Desde python 3.5, podemos usar el simbolo `@` para indicar una multiplicación de matrices (para versiones anteriores se usa la funcion `dot`

In [26]:
array1 @ array2

array([[ 46, 138],
       [  0,  42]])

este producto equivale a

In [27]:
array1.dot(array2)

array([[ 46, 138],
       [  0,  42]])

#### Ventajas de np.array vs lists.

In [1]:
lista_2d = [[1222,2222,2223], [5,23,40004]]

array_2d = np.array([[1222,2222,2223], [5,23,40004]])

print("Tamaño de la lista en memoria: {} bytes".format(sys.getsizeof(lista_2d)))
print("Tamaño del numpy array en memoria: {} bytes".format(sys.getsizeof(array_2d)))

NameError: name 'np' is not defined

In [None]:
big_list = list(range(10000))
big_array = np.array(range(100000))

print("Tamaño de la lista en memoria: {} bytes".format(sys.getsizeof(big_list)))
print("Tamaño del numpy array en memoria: {} bytes".format(sys.getsizeof(big_array)))