## NumPy: Python numérico 
NumPy proporciona una forma eficiente de almacenar y manipular matrices densas multidimensionales en Python. Las características importantes de NumPy son:

**Proporciona una estructura ndarray que permite el almacenamiento y la manipulación eficientes de vectores, matrices y conjuntos de datos de mayor dimensión.**

**Proporciona una sintaxis legible y eficiente para operar con estos datos, desde aritmética simple de elementos hasta operaciones algebraicas lineales más complicadas.**

**En el caso más simple, las matrices NumPy se parecen mucho a las listas de Python. Por ejemplo, aquí hay una matriz que contiene el rango de números del 1 al 9 (compárelo con el integrado de Python range()):**

In [3]:
import numpy as np

x=np.arange(4)
x

array([0, 1, 2, 3])

Los arreglos de NumPy ofrecen tanto un almacenamiento eficiente de datos como operaciones eficientes de elementos en los datos. Por ejemplo, para cuadrar cada elemento de la matriz, podemos aplicar el ** operador a la matriz directamente:

In [5]:
x**2

array([0, 1, 4, 9], dtype=int32)

Compare esto con la comprensión de la lista de estilo Python mucho más detallada para obtener el mismo resultado:

In [8]:
[val**2 for val in range(4)]

[0, 1, 4, 9]

A diferencia de las listas de Python (que están limitadas a una dimensión), las matrices NumPy pueden ser multidimensionales. Por ejemplo, aquí xtransformaremos nuestra matriz en una matriz de 3x3:

In [11]:
M=x.reshape(2,2)
M

array([[0, 1],
       [2, 3]])

Una matriz bidimensional es una representación de una matriz, y NumPy sabe cómo realizar operaciones matriciales típicas de manera eficiente. Por ejemplo, puede calcular la transposición usando .T:

In [13]:
M.T

array([[0, 2],
       [1, 3]])

o un producto de matriz-vector usando np.dot:

In [15]:
M.dot(M.T)

array([[ 1,  3],
       [ 3, 13]])

e incluso operaciones más sofisticadas como la descomposición de valores propios:



In [18]:
np.linalg.eigvals(M)

array([-0.56155281,  3.56155281])

Tal manipulación algebraica lineal sustenta gran parte del análisis de datos moderno, particularmente cuando se trata de los campos del aprendizaje automático y la minería de datos.

Para obtener más información sobre NumPy, consulte Recursos para obtener más información .

## Pandas: Labeled Column-oriented Data
Pandas es un paquete mucho más nuevo que NumPy y, de hecho, está construido sobre él. Lo que proporciona Pandas es una interfaz etiquetada para datos multidimensionales, en forma de un objeto DataFrame que resultará muy familiar para los usuarios de R y lenguajes relacionados. Los DataFrames en Pandas se ven así:

In [21]:
import pandas as pd
df = pd.DataFrame({'label': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'value': [1, 2, 3, 4, 5, 6]})
df

Unnamed: 0,label,value
0,A,1
1,B,2
2,C,3
3,A,4
4,B,5
5,C,6


La interfaz de Pandas le permite hacer cosas como seleccionar columnas por nombre:

In [23]:
df['label']

0    A
1    B
2    C
3    A
4    B
5    C
Name: label, dtype: object

Aplicar operaciones de cadena en las entradas de cadena:

In [25]:
df['label'].str.lower()

0    a
1    b
2    c
3    a
4    b
5    c
Name: label, dtype: object

Aplicar agregados a través de entradas numéricas:

In [27]:
df['value'].sum()

21

Y, quizás lo más importante, realice uniones y agrupaciones de estilo de base de datos eficientes:

In [29]:
df.groupby('label').sum()

Unnamed: 0_level_0,value
label,Unnamed: 1_level_1
A,5
B,7
C,9


Aquí, en una línea, hemos calculado la suma de todos los objetos que comparten la misma etiqueta, algo que es mucho más detallado (y mucho menos eficiente) utilizando las herramientas proporcionadas en Numpy y el núcleo de Python.

Para obtener más información sobre el uso de Pandas, consulte Recursos para obtener más información .

## Visualización científica estilo Matplotlib MatLab 

Matplotlib es actualmente el paquete de visualización científica más popular en Python. Incluso los defensores admiten que su interfaz a veces es demasiado detallada, pero es una biblioteca poderosa para crear una gran variedad de gráficos.

Para usar Matplotlib, podemos comenzar habilitando el modo de cuaderno (para usar en el cuaderno de Jupyter) y luego importando el paquete como plt"

In [33]:
# run this if using Jupyter notebook
%matplotlib notebook

In [34]:
import matplotlib.pyplot as plt
plt.style.use('ggplot')  # make graphs in the style of R's ggplot

Ahora creemos algunos datos (como matrices NumPy, por supuesto) y grafiquemos los resultados:

In [36]:
x = np.linspace(0, 10)  # range of values from 0 to 10
y = np.sin(x)           # sine of these values
plt.plot(x, y);         # plot as a line

<IPython.core.display.Javascript object>

Si ejecuta este código en vivo, verá un gráfico interactivo que le permite desplazarse, hacer zoom y desplazarse para explorar los datos.

Este es el ejemplo más simple de un diagrama de Matplotlib; Para obtener ideas sobre la amplia gama de tipos de parcelas disponibles, consulte la galería en línea de Matplotlib, así como otras referencias enumeradas en Recursos para aprendizaje adicional .

## SciPy: Python científico

SciPy es una colección de funciones científicas que se basa en NumPy. El paquete comenzó como un conjunto de envoltorios de Python para las bibliotecas Fortran conocidas para la computación numérica, y ha crecido desde allí. El paquete está organizado como un conjunto de submódulos, cada uno de los cuales implementa alguna clase de algoritmos numéricos. Aquí hay una muestra incompleta de algunos de los más importantes para la ciencia de datos:

**scipy.fftpack**: Transformadas rápidas de Fourier
    
**scipy.integrate**: Integracion numerica
    
**scipy.interpolate**: Interpolación numérica
    
**scipy.linalg**: Rutinas de álgebra lineal
    
**scipy.optimize**: Optimización numérica de funciones
    
**scipy.sparse**: Almacenamiento de matrices dispersas y álgebra lineal
    
**scipy.stats**: Rutinas de análisis estadístico

In [41]:
#Por ejemplo, echemos un vistazo a la interpolación de una curva suave entre algunos datos

from scipy import interpolate

# choose eight points between 0 and 10
x = np.linspace(0, 10,8)
y = np.sin(x)

# create a cubic interpolation function
func = interpolate.interp1d(x, y, kind='cubic')

# interpolate on a grid of 1,000 points
x_interp = np.linspace(0, 10, 1000)
y_interp = func(x_interp)

# plot the results
plt.figure()  # new figure
plt.plot(x, y, 'o')
plt.plot(x_interp, y_interp);

<IPython.core.display.Javascript object>