## IPython

[IPython](http://ipython.org/) promueve un ambiente de trabajo de *ejecutar-explorar* en contraposición al tradicional modelo de desarrollo de software de *editar-compilar-ejecutar*. Es decir, que el problema computacional a resolver es más visto como todo un proceso de ejecucion de tareas, en lugar del tradicional modelo de producir una respuesta(`output`) a una pregunta(`input`).  [IPython](http://ipython.org/) también provee una estrecha integración con nuestro sistema operativo, permitiendo acceder fácilmente a todos nuestros archivos desde la misma herramienta.

Algunas de las características sobresalientes de [IPython](http://ipython.org/) son:

* Su poderoso <a href='http://es.wikipedia.org/wiki/Shell_(inform%C3%A1tica)' target='_blank'>shell</a> interactivo.
* [Notebook](http://ipython.org/notebook.html), su interfase web con soporte para código, texto, expresiones matemáticas, gráficos en línea y multimedia.
* Su soporte para poder realizar visualizaciones de datos en forma interactiva. [IPython](http://ipython.org/) esta totalmente integrado con [matplotlib](http://matplotlib.org/).
* Su simple y flexible interfase para trabajar con la [computación paralela](http://es.wikipedia.org/wiki/Computaci%C3%B3n_paralela).

[IPython](http://ipython.org/) es mucho más que una librería, es todo un ambiente de trabajo que nos facilita enormemente trabajar con  [Python](http://python.org/).

# Python - Librerías esenciales para el analisis de datos


Una de las grandes ventajas que ofrece [Python](http://python.org/) sobre otros lenguajes de programación, además de que es que es mucho más fácil de aprender; es lo grande y prolifera que es la comunidad de desarrolladores que lo rodean; comunidad que ha contribuido con una gran variedad de librerías de primer nivel que extienden la funcionalidades del lenguaje. Vamos a poder encontrar una librería en [Python](http://python.org/) para prácticamente cualquier cosa que se nos ocurra.

Algunas de las librerías que se han vuelto esenciales y ya forman casi parte del lenguaje en sí mismo son las siguientes:

## Numpy

[Numpy](http://www.numpy.org/), abreviatura de Numerical [Python](http://python.org/) , es el paquete fundamental para la computación científica en [Python](http://python.org/). Dispone, entre otras cosas de:

* Un objeto <a href='http://es.wikipedia.org/wiki/Matriz_(matem%C3%A1ticas)' target='_blank'>matriz</a> multidimensional *ndarray*,rápido y eficiente.
* Funciones para realizar cálculos elemento a elemento u otras operaciones matemáticas con <a href='http://es.wikipedia.org/wiki/Matriz_(matem%C3%A1ticas)' target='_blank'>matrices</a>. 
* Herramientas para la lectura y escritura de los conjuntos de datos basados <a href='http://es.wikipedia.org/wiki/Matriz_(matem%C3%A1ticas)' target='_blank'>matrices</a>.
* Operaciones de [álgebra lineal](http://es.wikipedia.org/wiki/%C3%81lgebra_lineal), [transformaciones de Fourier](http://es.wikipedia.org/wiki/Transformada_de_Fourier), y generación de números aleatorios.
* Herramientas de integración para conectar [C](http://es.wikipedia.org/wiki/C_(lenguaje_de_programaci%C3%B3n), [C++](http://es.wikipedia.org/wiki/C%2B%2B) y [Fortran](http://es.wikipedia.org/wiki/Fortran) con [Python](http://python.org/)

Más allá de las capacidades de procesamiento rápido de <a href='http://es.wikipedia.org/wiki/Matriz_(matem%C3%A1ticas)' target='_blank'>matrices</a> que [Numpy](http://www.numpy.org/) añade a [Python](http://python.org/), uno de sus
propósitos principales con respecto al análisis de datos es la utilización de sus [estructuras de datos](http://es.wikipedia.org/wiki/Estructura_de_datos) como contenedores para transmitir los datos entre diferentes algoritmos. Para datos numéricos , las <a href='http://es.wikipedia.org/wiki/Matriz_(matem%C3%A1ticas)' target='_blank'>matrices</a> de [Numpy](http://www.numpy.org/) son una forma mucho más eficiente de almacenar y manipular datos que cualquier otra de las [estructuras de datos](http://es.wikipedia.org/wiki/Estructura_de_datos) estándar incorporadas en [Python](http://python.org/). Asimismo, librerías escritas en un lenguaje de bajo nivel, como [C](http://es.wikipedia.org/wiki/C_(lenguaje_de_programaci%C3%B3n) o [Fortran](http://es.wikipedia.org/wiki/Fortran), pueden operar en los datos almacenados en <a href='http://es.wikipedia.org/wiki/Matriz_(matem%C3%A1ticas)' target='_blank'>matrices</a> de [Numpy](http://www.numpy.org/) sin necesidad de copiar o modificar ningún dato.

Como nomenclatura general, cuando importamos la librería [Numpy](http://www.numpy.org/) en nuestro programa [Python](http://python.org/) se suele utilizar la siguiente:

In [4]:
import numpy as np
# from numpy import *

### Creando matrices en Numpy

Existen varias maneras de crear matrices en Numpy, por ejemplo desde:

* Una *lista* o *tuple* de [Python](http://python.org/)
* Funciones específicas para crear matrices como `arange`, `linspace`, etc.
* Archivos planos con datos, como por ejemplo archivos .csv

En [Numpy](http://www.numpy.org/) tanto los vectores como las matrices se crean utilizando el objeto `ndarray`

In [7]:
#Creando un vector desde una lista de Python
vector = np.array([1, 2, 3, 4])

vector

array([1, 2, 3, 4])

In [8]:
#Para crear una matriz, simplemente le pasamos una lista anidada al objeto array de Numpy
matriz = np.array([[1, 2],
                   [3, 4]])

matriz

array([[1, 2],
       [3, 4]])

In [9]:
#El tipo de objeto de tanto de los vectores como de las matrices es ndarray
type(vector), type(matriz)

(numpy.ndarray, numpy.ndarray)

In [12]:
#obtener el tipo de los elementos que contiene
vector.dtype,matriz.dtype

(dtype('int64'), dtype('int64'))

In [14]:
#Los objetos ndarray de Numpy cuentan con las propiedades shape y size que nos muestran sus dimensiones.
print(vector.shape, vector.size)

print(matriz.shape, matriz.size)

(4,) 4
(2, 2) 4


#### Utilizando funciones para crear listas y matrices

In [4]:
#arange
#La funcion arange nos facilita la creación de matrices
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [15]:
#también posible indicar un paso
x = np.arange(1, 11, 2) # argumentos: start, stop, step
x

array([1, 3, 5, 7, 9])

In [16]:
#linspace
#linspace nos devuelve un vector con la cantidad de muestras que le ingresemos y separados uniformamente entre sí.
np.linspace(1, 25, 25)  # argumentos: start, stop, samples

array([  1.,   2.,   3.,   4.,   5.,   6.,   7.,   8.,   9.,  10.,  11.,
        12.,  13.,  14.,  15.,  16.,  17.,  18.,  19.,  20.,  21.,  22.,
        23.,  24.,  25.])

In [17]:
#mgrid
#Con mgrid podemos crear arrays multimensionales.
x, y = np.mgrid[0:5, 0:5] 

x

array([[0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3],
       [4, 4, 4, 4, 4]])

In [18]:
y

array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])

In [19]:
#otra forma de crear arrays multidimensionales
np.arange(15).reshape(3,5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [45]:
array = np.arange(16).reshape(2,4,2)
array

array([[[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7]],

       [[ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15]]])

In [46]:
#obtener número de dimensiones de un array
array.ndim

3

In [48]:
#obtener tamaño de cada dimensión
array.shape

(2, 4, 2)

In [49]:
#zeros y ones
#Estas funciones nos permiten crear matrices de ceros o de unos.
np.zeros((3,3))

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

In [50]:
np.ones((3,3))

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

In [52]:
#random.randn
#Esta funcion nos permite generar una matriz con una distribución estándar de números.
np.random.randn(5,5)

array([[ 0.86022809,  0.44217811, -0.11779737,  0.1894454 ,  0.02418936],
       [ 0.74691915,  0.42171383,  0.05023118, -0.78001164, -0.29544713],
       [ 1.27880345, -1.21904946, -1.43969682,  1.05017509,  0.89821251],
       [ 0.60556352, -1.28403787, -1.34424771,  0.78675786, -0.06410215],
       [ 1.40224858,  0.5471697 , -1.40420732, -0.61960103,  0.05949483]])

In [53]:
#diag
#Nos permite crear una matriz con la diagonal de números que le ingresemos.
np.diag([1,1,1])

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

In [73]:
#operaciones basicas
a = np.array([20,30,40,50])
b = np.arange(4)
b

array([0, 1, 2, 3])

In [60]:
a-b

array([20, 29, 38, 47])

In [61]:
a*b

array([  0,  30,  80, 150])

In [64]:
#producto escalar
np.dot(a,b)

260

In [65]:
a*3

array([ 60,  90, 120, 150])

In [74]:
b+6

array([6, 7, 8, 9])

In [75]:
#obtener la suma de los elementos de un array
b.sum()

6

In [82]:
c = np.arange(15).reshape(3,5)
c

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [83]:
c.sum()

105

In [86]:
#obtener el mínimo y el máximo de un array
c.min()

0

In [87]:
c.max()

14

## Pandas

[Pandas](http://pandas.pydata.org/) es una librería [open source](http://es.wikipedia.org/wiki/C%C3%B3digo_abierto) que aporta a [Python](http://python.org/) unas estructuras de datos fáciles de user y de alta performance, junto con un gran número de funciones esenciales para el análisis de datos. Con la ayuda de [Pandas](http://pandas.pydata.org/) podemos trabajar con *datos estructurados* de una forma más rápida y expresiva.

Algunas de las cosas sobresalientes que nos aporta [Pandas](http://pandas.pydata.org/) son:

* Un rápido y eficiente objeto **`DataFrame`** para manipular datos con indexación integrada;
* herramientas para la **lectura y escritura de datos** entre estructuras de datos rápidas y eficientes manejadas en memoria, como el `DataFrame`, con la mayoría de los formatos conocidos para el manejo de datos, como ser: CSV y archivos de texto, archivos Microsoft Excel, bases de datos [SQL](http://es.wikipedia.org/wiki/SQL), y el formato científico HDF5.
* Proporciona una **alineación inteligente de datos** y un manejo integrado de los datos faltantes; con estas funciones podemos obtener una ganancia de performace en los cálculos entre `DataFrames` y una fácil manipulación y ordenamiento de los datos de nuestro `data set`;
* Flexibilidad para **manipular y redimensionar** nuestro `data set`, facilidad para construir [tablas pivote](http://es.wikipedia.org/wiki/Tabla_pivote);
* La posibilidad de **filtrar los datos, agregar o eliminar columnas** de una forma sumamente expresiva;
* Operaciones de ***merge* y *join*** altamente eficientes sobre nuestros conjuntos de datos;
* **Indexación jerárquica** que proporciona una forma intuitiva de trabajar con datos de alta dimensión en una estructura de datos de menor dimensión ;
* Posibilidad de realizar cálculos agregados o transformaciones de datos con el poderoso motor **`group by`** que nos permite dividir-aplicar-combinar nuestros conjuntos de datos;
* combina las **características de las matrices de alto rendimiento de [Numpy](http://www.numpy.org/) con las flexibles capacidades de manipulación de datos de las hojas de cálculo** y bases de datos relacionales (tales como [SQL](http://es.wikipedia.org/wiki/SQL));
* Gran número de funcionalidades para el manejo de **[series de tiempo](http://es.wikipedia.org/wiki/Serie_temporal)** ideales para el análisis financiero;
* Todas sus funciones y estructuras de datos están **optimizadas para el alto rendimiento**, con las partes críticas del código escritas en [Cython](http://www.cython.org/) o [C](http://es.wikipedia.org/wiki/C_(lenguaje_de_programaci%C3%B3n);

### Estructuras de datos de Pandas

In [1]:
# Importando pandas
import pandas as pd

#### Series

In [2]:
# Las series son matrices de una sola dimension similares a los vectores, pero con su propio indice.
# Creando una Serie
serie = pd.Series([2, 4, -8, 3])
serie

0    2
1    4
2   -8
3    3
dtype: int64

In [5]:
import pandas as pd
pd.Series([1,3,5,np.nan,6,8])

0    1.0
1    3.0
2    5.0
3    NaN
4    6.0
5    8.0
dtype: float64

In [7]:
# podemos ver tantos los índices como los valores de las Series.
print(serie.values)
print(serie.index)

[ 2  4 -8  3]
RangeIndex(start=0, stop=4, step=1)


In [8]:
# Creando Series con nuestros propios índices.
serie2 = pd.Series([2, 4, -8, 3], index=['d', 'b', 'a', 'c'])
serie2

d    2
b    4
a   -8
c    3
dtype: int64

In [10]:
# Accediendo a los datos a través de los índices
print(serie2['a'])
print(serie2[['b', 'c', 'd']])
print(serie2[serie2 > 0])

-8
b    4
c    3
d    2
dtype: int64
d    2
b    4
c    3
dtype: int64


In [11]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1], index=['a', 'c', 'e', 'f', 'g'])
s1 + s2

a    5.2
c    1.1
d    NaN
e    0.0
f    NaN
g    NaN
dtype: float64

#### DataFrame

In [13]:
# El DataFrame es una estructura de datos tabular similar a las hojas de cálculo de Excel.
# Posee tanto indices de columnas como de filas.

# Creando un DataFrame.
data = {'country': ['Spain', 'Spain', 'Italy', 'Portugal', 'France'],
        'city' : ['Barcelona', 'Sevilla', 'Milan', 'Lisboa', 'Paris'],}
frame = pd.DataFrame(data) # Creando un DataFrame desde un diccionario
frame

Unnamed: 0,city,country
0,Barcelona,Spain
1,Sevilla,Spain
2,Milan,Italy
3,Lisboa,Portugal
4,Paris,France


In [15]:
# Seleccionando una columna como una Serie
frame['city']

0    Barcelona
1      Sevilla
2        Milan
3       Lisboa
4        Paris
Name: city, dtype: object

In [16]:
# Seleccionando una línea como una Serie.
frame.ix[1]

city       Sevilla
country      Spain
Name: 1, dtype: object

In [19]:
# Verificando las columnas
frame.columns

Index(['city', 'country'], dtype='object')

In [20]:
# Verificando los índices.
frame.index

RangeIndex(start=0, stop=5, step=1)

In [21]:
#períodos de fechas
dates = pd.date_range('20170101',periods=6)
pd.DataFrame(np.random.randn(6,4),index=dates,columns=list('ABCD'))

Unnamed: 0,A,B,C,D
2017-01-01,0.635066,0.70057,0.419204,-0.788648
2017-01-02,-0.907664,0.342053,-0.952971,-0.63756
2017-01-03,-1.695253,-1.683443,-0.015519,-0.341689
2017-01-04,0.848971,-1.301252,0.814031,0.168977
2017-01-05,-1.544396,1.972132,-1.981215,-0.932095
2017-01-06,1.145683,0.158411,1.269949,-1.178829


In [23]:
# Creando un DataFrame desde un archivo csv.
file = r'titanic.csv'
df = pd.read_csv(file)
print(df)

      row.names pclass  survived  \
0             1    1st         1   
1             2    1st         0   
2             3    1st         0   
3             4    1st         0   
4             5    1st         1   
5             6    1st         1   
6             7    1st         1   
7             8    1st         0   
8             9    1st         1   
9            10    1st         0   
10           11    1st         0   
11           12    1st         1   
12           13    1st         1   
13           14    1st         1   
14           15    1st         0   
15           16    1st         1   
16           17    1st         0   
17           18    1st         0   
18           19    1st         1   
19           20    1st         1   
20           21    1st         1   
21           22    1st         0   
22           23    1st         1   
23           24    1st         1   
24           25    1st         1   
25           26    1st         0   
26           27    1st      

In [24]:
print('Max Age', df['age'].max())
print('Min Age', df['age'].min())

Max Age 71.0
Min Age 0.1667


In [25]:
print(df['name'])

0                           Allen, Miss Elisabeth Walton
1                            Allison, Miss Helen Loraine
2                    Allison, Mr Hudson Joshua Creighton
3        Allison, Mrs Hudson J.C. (Bessie Waldo Daniels)
4                          Allison, Master Hudson Trevor
5                                     Anderson, Mr Harry
6                       Andrews, Miss Kornelia Theodosia
7                                 Andrews, Mr Thomas, jr
8           Appleton, Mrs Edward Dale (Charlotte Lamson)
9                                 Artagaveytia, Mr Ramon
10                             Astor, Colonel John Jacob
11      Astor, Mrs John Jacob (Madeleine Talmadge Force)
12                          Aubert, Mrs Leontine Pauline
13                             Barkworth, Mr Algernon H.
14                                   Baumann, Mr John D.
15        Baxter, Mrs James (Helene DeLaudeniere Chaput)
16                               Baxter, Mr Quigg Edmond
17                             

In [26]:
titanicPassengers = pd.Series(df['name'])
print("titanicPassengers: \n%s" % titanicPassengers)

titanicPassengers: 
0                           Allen, Miss Elisabeth Walton
1                            Allison, Miss Helen Loraine
2                    Allison, Mr Hudson Joshua Creighton
3        Allison, Mrs Hudson J.C. (Bessie Waldo Daniels)
4                          Allison, Master Hudson Trevor
5                                     Anderson, Mr Harry
6                       Andrews, Miss Kornelia Theodosia
7                                 Andrews, Mr Thomas, jr
8           Appleton, Mrs Edward Dale (Charlotte Lamson)
9                                 Artagaveytia, Mr Ramon
10                             Astor, Colonel John Jacob
11      Astor, Mrs John Jacob (Madeleine Talmadge Force)
12                          Aubert, Mrs Leontine Pauline
13                             Barkworth, Mr Algernon H.
14                                   Baumann, Mr John D.
15        Baxter, Mrs James (Helene DeLaudeniere Chaput)
16                               Baxter, Mr Quigg Edmond
17         

In [25]:
#Indexing#
index = ['a', 'c', 'd']
columns = ['GBP', 'USD', 'EUR']
data = np.arange(9).reshape((3, 3))      # reshape 9x1 to 3x3
pd.DataFrame(data, index=index, columns=columns)

Unnamed: 0,GBP,USD,EUR
a,0,1,2
c,3,4,5
d,6,7,8


In [29]:
#Merge#
key = ['foo', 'foo']
left = pd.DataFrame({'key': key, 'lval': [1, 2]})
print(left)

   key  lval
0  foo     1
1  foo     2


In [33]:
right = pd.DataFrame({'key': key, 'rval': [4, 5]})
print(right)
pd.concat([left,right])

   key  rval
0  foo     4
1  foo     5


Unnamed: 0,key,lval,rval
0,foo,1.0,
1,foo,2.0,
0,foo,,4.0
1,foo,,5.0


In [34]:
pd.merge(left, right, on='key')

Unnamed: 0,key,lval,rval
0,foo,1,4
1,foo,1,5
2,foo,2,4
3,foo,2,5


## Otras librerías

Otras librerías que también son muy importantes para el análisis de datos con [Python](http://python.org/) son:

### SciPy

[SciPy](http://www.scipy.org/) es un conjunto de paquetes donde cada uno ellos ataca un problema distinto dentro de la computación científica y el análisis numérico. Algunos de los paquetes que incluye, son:

* **`scipy.integrate`**: que proporciona diferentes funciones para resolver problemas de integración numérica.
* **`scipy.linalg`**: que proporciona funciones para resolver problemas de álgebra lineal.
* **`scipy.optimize`**: para los problemas de optimización y minimización.
* **`scipy.signal`**: para el análisis y procesamiento de señales.
* **`scipy.sparse`**: para matrices dispersas y solucionar sistemas lineales dispersos
* **`scipy.stats`**: para el análisis de estadística y probabilidades.


### Scikit-learn

[Scikit-learn](http://scikit-learn.org/stable/) es una librería especializada en algoritmos para [data mining](http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos) y [machine learning](http://es.wikipedia.org/wiki/Machine_learning).  

Algunos de los problemas que podemos resolver utilizando las herramientas de [Scikit-learn](http://scikit-learn.org/stable/), son:

* <a href='http://scikit-learn.org/stable/supervised_learning.html#supervised-learning' target='_blank'>Clasificaciones</a>: Identificar las categorías a que cada observación del conjunto de datos pertenece.
* <a href='http://scikit-learn.org/stable/supervised_learning.html#supervised-learning' target='_blank'>Regresiones</a>: Predecire el valor continuo para cada nuevo ejemplo.
* <a href='http://scikit-learn.org/stable/modules/clustering.html#clustering' target='_blank'>Agrupaciones</a>: Agrupación automática de objetos similares en un conjunto.
* <a href='http://scikit-learn.org/stable/modules/decomposition.html#decompositions' target='_blank'>Reducción de dimensiones</a>: Reducir el número de variables aleatorias a considerar.
* <a href='http://scikit-learn.org/stable/model_selection.html#model-selection' target='_blank'>Selección de Modelos</a>: Comparar, validar y elegir parámetros y modelos.
* <a href='http://scikit-learn.org/stable/modules/preprocessing.html#preprocessing' target='_blank'>Preprocesamiento</a>: Extracción de características a analizar y normalización de datos.