In [1]:
%load_ext watermark
%watermark

2019-05-17T16:17:35+02:00

CPython 3.6.5
IPython 6.4.0

compiler   : GCC 7.2.0
system     : Linux
release    : 5.0.13-arch1-1-ARCH
machine    : x86_64
processor  : 
CPU cores  : 4
interpreter: 64bit


# INTRODUCCIÓN A DATA SCIENCE
En este apartado expondremos que es el Data Science (ciencia de datos), que tipos de variables utiliza, estructuras y herramientas principales (Numpy y Pandas).


## Teoria y Definicion
La ciencia de datos es un campo interdisciplinario que involucra varios métodos cientificos para el análisis de datos.
Según la [wikipedia](https://es.wikipedia.org/wiki/Ciencia_de_datos) Data Science se define como:

"Un concepto para unificar estadísticas, análisis de datos, aprendizaje automático y sus métodos relacionados para comprender y analizar los fenómenos reales, empleando técnicas y teorías extraídas de muchos campos dentro del contexto de las matemáticas, la estadística, la ciencia de la información y la informática."

Para ver la actual demanda de los diez puestos mejor pagados que requieran un conocimiento de análisis de datos, visitar el siguiene enlace:  
[10 High-Paying Jobs That Require a Knowledge of Data Analytics](https://www.dataquest.io/blog/10-data-analytics-jobs/)

### El Cientifico de Datos y su futuro laboral.
Un científico de datos debe seguir una serie de pasos en cualquiera de sus proyectos:
- Extraer datos, independientemente de la fuente y de su volumen.
- Limpiar los datos, para eliminar lo que pueda sesgar los resultados.
- Procesar los datos usando métodos estadísticos como inferencia estadística, modelos de regresión, pruebas de hipótesis, etc.
- Diseñar experimentos adicionales en caso de ser necesario.
- Crear visualizaciones graficas de los datos relevantes de la investigación.23

Por norma general las fases distinguidas son:  
***1. Definición de objetivos:***
Define los problemas a solucionar, se soluciona normalmente con el cliente y los técnicos, estudiando el objetivo a alcanzar.
Para los data scientist, un buen objetivo tiene que seguir la regla S.M.A.R.T(specific, measurable, achievable, relevant, time-bound)

***2. Obtención de datos:***
Los datos se obtienen de cualquier forma que podamos imaginar como desarrolladores, desde bases de datos, hasta archivos csv, excel etc...
La obtención de datos es una de las fases más importantes en el desarrollo del proyecto, ya que cuantas mas completos y extensos sean los registros, más preciso será el analisis


## Tipos de datos. Variables y Estructuras

Los datos puden dividirse en los siguientes tipos de variabes:
- *continuas:* edad,altura,colores RGB etc.
- *ordinales:* rating, niveles educativos etc.
- *categóricas:* valores booleanos, días de la semana etc.

A su vez, pueden categorizarse según su estructura:
-  *Estructurados <10%:*Son datos que se relacionan entre sí y comparten informacón como el catalogo de biblioteca, bases de datos sql.
- *Semiestructurados <10%: no tienen estructura, pero es facil asignarle una estructura mediante la lógica.* xml, json, csv.
- *No estructurados:* emails, fotos, pdf.
Hoy en día más del 80% de los datos son no estructurados, por lo que perdemos mucha información al dificultarnos a nosotros mismos el análisis.

## Numpy
Numpy es la piedra angular de la computación científica en Python. Nos permite trabajar con array 'n' dimensionales, los cuales nos proporcionan ventajas frente a las listas de Python.

Numpy a bajo nivel esta compilado en C, y al trabajar con arrays (la disposición en las celdas de memoria frente a las listas) es una herramienta muy potente para trabajar en Data Science con Python.

Enlace a la pagina oficial: [https://www.numpy.org/](https://www.numpy.org/)

### Preparacion  del  Entorno.
Para poder trabajar con Numpy (y más librerías detalladas en los siguietes documentos) necesitamos activar un entorno desde la terminal.

En Linux:
```bash
source activate data
```
En Windows:
```
activate data
```

En ambos casos 'data' sera el nombre del entorno. Ahora procederemos a instalar en el entorno **Numpy** mediante **conda**

```bash
conda install numpy
```
Nos preguntará si queremos instalarlo, marcamos 'y' y pulsamos 'enter'.


### Creacion de numpy arrays

In [2]:
import sys
import numpy as np

Aqui explicaremos mediante markdown el significado de las variables y para que utilizamos la herramientas.

#### Vectores.

In [3]:
#Instanciacion de un array de 1 dimension.
array_1d = np.array([4,5, 3])
type(array_1d)

numpy.ndarray

In [4]:
#np.ones genera un vector de longitud 3 inicializado con todos
#los valores a 1
print("np.ones\n",np.ones(3))

np.ones
 [1. 1. 1.]


#### Matrices.

In [5]:
#Instanciacion de una matriz
matriz = np.array([
    [ 1,2, 1 ],
    [5, 43, 5]
])

matriz

array([[ 1,  2,  1],
       [ 5, 43,  5]])

In [6]:
#np.eye genera una matriz identidad de 3x3
print("np.eye\n",np.eye(3))

np.eye
 [[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


In [7]:
#np.zeros genera una matriz con todos sus valores a 0
print("np.zeros\n",np.zeros((3,2)))

np.zeros
 [[0. 0.]
 [0. 0.]
 [0. 0.]]


In [8]:
#np.random produce un array con valores aleatorios entre el intervalo [0,1]
np.random.random((2,3))

array([[0.11009536, 0.12225862, 0.04750853],
       [0.1812652 , 0.89785735, 0.32951389]])

#### Flujo de lectura y volcado en array.

In [9]:
#se puede acceder a un documento de texto y volcarlo
#a un numpy array
np_text = np.genfromtxt("np_text.txt", delimiter=",")
np_text

array([[ 1.,  2.,  3.],
       [43.,  2.,  3.],
       [34.,  1.,  1.],
       [ 0.,  1.,  1.]])

#### Seleccion por secciones y por indices (slicing e indexing)


In [10]:
#instanciamos matriz de ejemplo
matriz_34 = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
matriz_34

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [11]:
#obtenemos su primera fila como si de una lista se tratase
matriz_34[0]

array([1, 2, 3, 4])

In [12]:
#seleccionamos ahora hasta la fila 2 (fila 1 y fila 2)
matriz_34[:2]

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [13]:
#podemos tambien seleccionar el segundo elemento de cada fila
#es decir, la segunda columna
matriz_34[:,1]

array([ 2,  6, 10])

In [14]:
#al crear secciones solo obtenemos un puntero o referencia
#al mismo array, no instanciamos nuevos objetos.
seccion = matriz_34[:2,:]
print(matriz_34[0,1])
seccion[0, 0] = 0
matriz_34

2


array([[ 0,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

#### Filtrado

In [15]:
matriz_32 = np.array([[1, 4], [2, 4], [5, 0]])
matriz_32

array([[1, 4],
       [2, 4],
       [5, 0]])

In [16]:
#comprobamos aquellos elementos que sean mayores o iguales que 2
indice_fitrado = (matriz_32 >= 2)
indice_fitrado

array([[False,  True],
       [ True,  True],
       [ True, False]])

In [17]:
matriz_32[indice_fitrado]

array([4, 2, 4, 5])

#### Aritmetica con numpy arrays


In [18]:
array1 = np.array([[2,3],[0,1]])
array2 = np.array([[23,6],[0,42]])

print(array1)
print(array2)

[[2 3]
 [0 1]]
[[23  6]
 [ 0 42]]


In [19]:
array1 + array2

array([[25,  9],
       [ 0, 43]])

In [20]:
array1 * array2

array([[46, 18],
       [ 0, 42]])

Desde python 3.5, podemos usar el simbolo `@` para indicar una multiplicación de matrices (para versiones anteriores se usa la funcion `dot`

In [21]:
array1 @ array2

array([[ 46, 138],
       [  0,  42]])

este producto equivale a

In [22]:
array1.dot(array2)

array([[ 46, 138],
       [  0,  42]])

#### Ventajas de np.array vs lists.

In [23]:
lista_2d = [[1222,2222,2223], [5,23,40004]]

array_2d = np.array([[1222,2222,2223], [5,23,40004]])

print("Tamaño de la lista en memoria: {} bytes".format(sys.getsizeof(lista_2d)))
print("Tamaño del numpy array en memoria: {} bytes".format(sys.getsizeof(array_2d)))

Tamaño de la lista en memoria: 80 bytes
Tamaño del numpy array en memoria: 160 bytes


In [24]:
big_list = list(range(10000))
big_array = np.array(range(100000))

print("Tamaño de la lista en memoria: {} bytes".format(sys.getsizeof(big_list)))
print("Tamaño del numpy array en memoria: {} bytes".format(sys.getsizeof(big_array)))

Tamaño de la lista en memoria: 90112 bytes
Tamaño del numpy array en memoria: 800096 bytes


## Pandas.
[Pandas](https://pandas.pydata.org/) es una librería escrita como extensión de numpy para manipulación y análisis de datos para el lenguaje de programación Python.

### Preparación del Entorno
Para su instalación en el entorno pueden utilizarse los siguientes comandos:

- Via Conda:
```bash
conda install pandas
```
- Via conda forge:
```bash
conda install -c conda-forge pandas
```
- Vida PyPI:
```bash
python3 -m pip install --upgrade pandas
```  
**Las características de la biblioteca son:**  

- **El tipo de datos son DataFrame** para manipulación de datos con indexación integrada. Tiene herramientas para leer y escribir datos entre estructuras de dato en memoria y formatos de archivos variados  
- Permite la alineación de dato y manejo integrado de datos fallantes, la reestructurción y segmentación de conjuntos de datos, la segmentación vertical basada en etiquetas, indexación elegante, y segmentación horizontal de grandes conjuntos de datos, la inserción y eliminación de columnas en estructuras de datos.  
- Puedes realizar cadenas de operaciones, dividir, aplicar y combinar sobre conjuntos de datos, la mezcla y unión de datos.
- Permite realizar indexación jerárquica de ejes para trabajar con datos de altas dimensiones en estructuras de datos de menor dimensión, la funcionalidad de series de tiempo: generación de rangos de fechas y conversión de frecuencias, desplazamiento de ventanas estadísticas y de regresiones lineales, desplazamiento de fechas y retrasos.  

fuente: https://www.master-data-scientist.com/pandas-herramienta-data-science/


### Creación de un DataFrame 

In [25]:
import pandas as pd

In [26]:
pd.__version__

'0.24.2'

In [27]:
#instanciacion de un DataFrame.
rick_and_morty = pd.DataFrame(
{
    "nombre":["Rick","Morty"],
    "apellidos":["Sanchez","Smith"],
    "edad":[60,14]
})
rick_and_morty

Unnamed: 0,nombre,apellidos,edad
0,Rick,Sanchez,60
1,Morty,Smith,14


In [28]:
 #Observamos el tipo de objeto de la variable rick_and_morty
type(rick_and_morty)

pandas.core.frame.DataFrame

También podemos instanciar un dataframe pasandole listas y especificando en el segundo parámetro el nombre de las columnas

In [29]:
rick_and_morty = pd.DataFrame(
    [
        ["Rick","Sanchez",60],
        ["Morty","Smith",14]
    ],columns = ["nombre","apellidos","edad"]
)

rick_and_morty

Unnamed: 0,nombre,apellidos,edad
0,Rick,Sanchez,60
1,Morty,Smith,14


### Lectura de Ficheros CSV

Lo mas habitual al trabajar con dataframes de pandas es cargar los datos del mismo de un archivo **csv**.
Por convención, cuando trabajamos con un dataframe "generico" se le suele nombrar **df**

In [30]:
#Flujo input para leer csv
df = pd.read_csv("primary_results.csv")
df

#Flujo output para escribir csv
df.to_csv("test.csv")

### Lectura desde Clipboard
Si seleccionamos y copiamos un fragemnto de Dataframe se podra mostrar posteriormente gracias al metodo **read_clipboard**

In [31]:
df = pd.read_clipboard()
df

ParserError: Expected 24 fields in line 32, saw 31. Error could possibly be due to quotes being ignored when a multi-char delimiter is used.

### Exploración de DataFrames

Para la demostración de los métodos de exploración de Dataframes, utilizaremos el dataframe de los resultado de las votaciones primarias en Estados Unidos.

In [None]:
df = pd.read_csv("primary_results.csv")

Para obtener el numero total de registos y el total de columnas se utilizará el metodo **shape**

In [None]:
df.shape

Si queremos visualizar los cinco primeros registros para hacernos una idea de la composición del DataFrame sin tener que cargarlo entero en el notebook, se utilizará el metodo **head**

In [None]:
df.head()

Si por el contrario queremos ver los cinco últimos registros, se ejecutará el método **tail**

In [None]:
df.tail()

Otro método muy valioso para el entendimiento del DataFrames es el **dtypes**. Este metodo nos da información sobre el tipo de datos que almacena cada columna.

In [None]:
df.dtypes

Aunque si lo que se quiere conseguir es obtener información precisa acerca de los registros del dataframe se podrá utilizar el metodo **describe**

In [None]:
df.describe()

### Selección: Indexing y Slicing.
Como las listas en python se puede hacer selección mediante el indexing y el slicing
En este apartado veremos además como seleccionar por columna o incluso por campo.  

Todo dataframe contiene un **index** que aunque no es correspondiente a una columna, podemos hacer referencia a el.

In [None]:
df.head()

In [None]:
#obtenemos información del index
print(df.index)

#seleccionamos el registro con index 0
df.loc[0]

El index es un puntero que hace referencia al orden en el dataframe. Este puntero e puede cambiar a cualquier otra columna:

In [None]:
df2 = df.set_index("county")

In [None]:
df2.head()

Como podemos comprobar ahora la columna *county* será referenciado como index.

In [None]:
df2.index

Ahora que se ha cambiado el index, se puede seleccionar por condado:

In [None]:
df2.loc["Los Angeles"]

Con esto demostramos que **loc** selecciona por indice no por posición. Si lo que queremos por el contrario es seleccionar el número de fila en lugar del indice se deberá utilizar el método **iloc**

In [None]:
df2.iloc[0]

Los dataframes soportan parametros de busqueda entre corchetes como los diccionarios de Python:

In [None]:
df["state"][:10]

Saber esto es muy util, ya que nos permite acceder al contenido de las columnas. En este ejemplo se introducirá una nueva columna y se asignará como valor para esa columna el numero 1.


In [None]:
df["shape"] = 1
df.head()

Si seleccionamos una columna, obtenemos una Serie, si seleccionamos dos o más, obtenemos un dataframe.

In [None]:
type(df['county'])

In [None]:
type(df[["county", "candidate"]])

Se puede además filtrar un dataframe de la misma forma que se filtra en numpy. Además estas condiciones se pueden concatenar utilizano el operador **&**

In [None]:
df[df.votes>=590502]

In [None]:
df[(df.county=="Manhattan") & (df.party=="Democrat")]

Otro metodo muy utilizado para la selección de registros de un dataframe es el método **query** el cual nos permite hacer referencias al contenido de otras variables mediante el operador **@**.

In [None]:
county = "Manhattan"
df.query("county==@county")

## Procesado de Dataframes.
En este apartado se observarán los métodos más relevantes para procesar DataFrames.

Para ordenar un DataFrame se utilizará el método **sort_values**, el cual ordenará en función al valor de la columna que recibe como parámetro. Además como segundo parámetro se le puede ordenar que los ordene ascendente o descendentemente.

In [None]:
df_sorted = df.sort_values(by="votes", ascending=False)
df_sorted.head()

Un método que nos permite agrupar columnas es el método **groupby**. Utilizaremos este método para agrupar las columnas referentes al estado y la referente al partido político del actual dataframe. Posteriormente realizaremos una selección de la suma de sus votos.

Con esta operación obtendremos una lista con los resultados de voto por partido en los distintos estados de Estados Unidos.


In [None]:
df.groupby(["state","party"])["votes"].sum()

Mediante la función **apply** al que se puede agregar valores a una columna a través de los resultados de una función

In [None]:
#mediante esta función obtenemos la primera letra de cada estado
df.state_abbreviation.apply(lambda s:s[0])

#si esto lo agregamos a una columa podemos volcarlo al DataFrame
df["letra_estado"] = df.state_abbreviation.apply(lambda s: s[0])
df.head()

### Exportar/Importar DataFrame a excel
Además de exportar e importar ficheros csv también podemos exportar e importar de excel, pero para ello será necesario instalar el paquete *xlwt*

```bash
!conda install -y xlwt
```


In [None]:
rick_and_morty.to_excel("rick_y_morty.xls", sheet_name="personajes")

In [None]:
rick_morty2 = pd.read_excel("rick_y_morty.xls", sheet_name="personajes")

In [None]:
rick_morty2.head()