# **NumPy Cheat Sheet**

### NumPy

La librería NumPy es el núcleo de las librerías para el cómputo científico en Python.
Provee la manipulación de arreglos multidimensionales y herramientas para trabajar con estos arreglos.

Por convención, se importa con la siguiente sentencia:
    >>> import numpy as np

# *Arreglos de NumPy*

<img src="ICD23-1.png">

# *Creando Arreglos*

    >>> a = np.array([1, 2, 3])
    >>> b = np.array([(1, 5, 2, 3), (4, 5, 6)], dtype = flat)
    >>> c = np.array([[(1, 5, 2, 3), (4, 5, 6)], [(3, 2, 1), (4, 5, 6)]], dtype = float)


### Marcadores Iniciales

    >>> np.zeros((3, 4))                     #Create an array of zeros
    >>> np.ones((2, 3, 4), dtype = np.int16) #Create an array of ones
    >>> d = np.arange(10, 25, 5)             #Create an array of evenly spaced values (step value)
    >>> np.linspace(0, 2, 9)                 #Create an array of evenly spaced values (number of samples)
    >>> e = np.full((2, 2), 7)               #Create a constant array
    >>> f = np.eye(2)                        #Create a 2X2 identity matrix
    >>> np.random.random((2, 2))             #Create an array with random values
    >>> np.empty((3, 2))                     #Create an empty array

# *I/O*

### Guardando y Cargando en Memoria

    >>> np.save('my_array', a)
    >>> np.savez('array.npz', a, b)
    >>> np.load('my_array.npy')

### Guardando y Cargando Archivos de Texto

    >>> np.loadtxt("myfile.txt")
    >>> np.genfromtxt("my_file.csv", delimiter = ',')
    >>> np.savetxt("myarray.txt", a, delimiter = " ")

# *Pidiendo Ayuda*

    >>> np.info(np.ndarray.dtype)

# *Características de los Arreglos*

    >>> a.shape        #Array dimensions
    >>> len(a)         #Length of array
    >>> b.ndim         #Number of array dimensions
    >>> e.size         #Number of array elements
    >>> b.dtype        #Data type of array elements
    >>> b.dtype.name   #Name of data type
    >>> b.astype(int)  #Convert an array to a different type

# *Tipos de Datos*

    >>> np.int64     #Signed 64-bit integer types
    >>> np.float32   #Standard double-precision floating point
    >>> np.complex   #Complex numbers represented by 128 floats
    >>> np.bool      #Boolean type storing TRUE and FALSE values
    >>> np.object    #Python object type
    >>> np.string_   #Fixed-length string type
    >>> np.unicode_  #Fixed-length unicode type

# *Arreglos Matemáticos*

### Operaciones Aritméticas

    >>> g = a - b         #Resta
        array([[-0.5, 0.0, 0.0], [-3.0, 3.0, 3.0]])
    >>> np.subtract(a, b) #Resta
    >>> b + a             #Suma
        array([[2.5, 4.0, 6.0],[5.0, 7.0, 9.0]])
    >>> np.add(b,a)       #Suma
    >>> a / b             #División
        array([[0.66666667, 1.0, 1.0],[0.25, 0.4, 0.5]])
    >>> np.divide(a,b)    #División
    >>> a * b             #Multiplicación
        array([[1.5, 4.0, 9.0],[ 4.0, 10.0, 18.0]])
    >>> np.multiply(a,b)  #Multiplicación
    >>> np.exp(b)         #Exponenciación
    >>> np.sqrt(b)        #Raíz cuadrada
    >>> np.sin(a)         #Aplica la función Sin sobre el arreglo
    >>> np.cos(b)         #Aplica la función Cos sobre el arreglo
    >>> np.log(a)         #Aplica la función ln sobre el arreglo
    >>> e.dot(f)          #Producto punto
        array([[7.0, 7.0],[7.0, 7.0]])

### Comparación

    >>> a == b               #Compara los elementos término a término
        array([[False, True, True], [False, False, False]], dtype=bool)
    >>> a < 2                #Compara cada elemento con el valor dado
        array([True, False, False], dtype=bool)
    >>> np.array_equal(a, b) #Compara los elementos término a término

### Funciones Adicionales

    >>> a.sum()           #Suma término a término
    >>> a.min()           #Mínimo de todos los términos
    >>> b.max(axis=0)     #Máximo de una columna del arreglo
    >>> b.cumsum(axis=1)  #Suma acumulada de los elementos
    >>> a.mean()          #Media
    >>> np.median(b)      #Mediana
    >>> np.corrcoef(a)    #Coeficiente de correlación
    >>> np.std(b)         #Desviación estándar

# *Copiando Arreglos*

    >>> h = a.view()  #Crea una vista del arreglo con los mismos datos
    >>> np.copy(a)    #Crea una copia del arreglo
    >>> h = a.copy()  #Crea una copia profunda del arreglo

# *Ordenando Arreglos*

    >>> a.sort()       #Ordena un arreglo
    >>> c.sort(axis=0) #Ordena los elementos que hay en el eje del arreglo

# *Manipulación de un Arreglo*

### Por Subíndices

    >>> a[2]   #Selecciona el tercer elemento del arreglo
        3
    >>> b[1,2] #Selecciona el valor de la segunda fila y tercer columna
        6.0

### Seccionar Arreglos

    >>> a[0:2]        #Selecciona los elementos que están entre los índices 0 y 1
        array([1, 2])
    >>> b[0:2, 1]     #Selecciona los elementos que entre las filas 0 y 1, y la columna 1
        array([2.0, 5.0])
    >>> b[:1]         #Selecciona los elementos en la fila 1
        array([[1.5, 2., 3.]])
    >>> c[1, ...]     #Selecciona los elementos que están en la fila 1
        array([[[ 3.0, 2.0, 1.0],[ 4.0, 5.0, 6.0]]])
    >>> a[: : -1]     #Devuelte el arreglo en orden invertido

### Índices Booleanos

    >>> a[a<2]    #Selecciona los elementos del arreglo que son menores al valor dado
        array([1])

### Índices Elegantes

    >>> b[[1, 0, 1, 0],[0, 1, 2, 0]]    #Selecciona los elementos (1, 0), (0, 1), (1, 2) y (0, 0)
        array([ 4.0, 2.0, 6.0, 1.5])
    >>> b[[1, 0, 1, 0]][:,[0, 1, 2, 0]] #Selecciona un subconjunto de las filas y columnas de la matriz
        array([[ 4.0, 5.0, 6.0, 4.0],[1.5, 2.0, 3.0, 1.5],[ 4.0, 5.0, 6.0, 4.0],[1.5, 2.0, 3.0, 1.5]])

### Transponiendo Arreglos

    >>> i = np.transpose(b)    #Permuta las dimensiones del arreglo
    >>> i.T                    #Permuta las dimensiones del arreglo

### Cambiando la Forma de los Arreglos

    >>> b.ravel()       #Convierte una matriz en un arreglo
    >>> g.reshape(3, 2) #Cambia las dimensiones de la matriz, manteniendo los mismos datos

### Agregando o Eliminando Elementos

    >>> h.resize((2,6))  #Regresa una matriz de (2, 6)
    >>> np.append(h,g)   #Anexa elementos al arreglo
    >>> np.insert(a,1,5) #Inserta elementos al arreglo
    >>> np.delete(a,[1]) #Elimina elementos de un arreglo

### Combinando Arreglos

    >>> np.concatenate((a,d),axis=0)  #Concatena arreglos
        array([1, 2, 3, 10, 15, 20])
    >>> np.vstack((a,b))              #Apila arreglos verticalmente
        array([[1. , 2. , 3.],[1.5, 2. , 3.],[ 4. ,5. , 6. ]])
    >>> np.r_[e,f]                   #Apila arreglos verticalmente
    >>> np.hstack((e,f))             #Apila arreglos horizontalmente
        array([[7.,7.,1.,0.],[7.,7.,0.,1.]])
    >>> np.column_stack((a,d))       #Crea columnas apiladas
        array([[1, 10],[ 2, 15],[ 3, 20]])
    >>> np.c_[a,d]                   #Crea columnas apiladas

### Dividiendo Arreglos

    >>> np.hsplit(a,3)    #Divide un arreglo horizontalmente en 3 subarreglos del mismo tamaño
        [array([1]),array([2]),array([3])]
    >>> np.vsplit(c,2)    #Divide la matriz verticalmente en 2 submatrices del mismo tamaño
        [array([[[ 1.5, 2. ,1.],[ 4. , 5. , 6. ]]]), array([[[ 3., 2., 3.],[ 4.,5., 6.]]])]

# **Pandas Cheat Sheet**

# *Creando DataFrames*

    >>> df = pd.DataFrame({"a" : [4, 5, 6],"b" : [7, 8, 9],"c" : [10, 11, 12]},      #Especifica los elementos de cada columna
        index = [1, 2, 3])
    >>> df = pd.DataFrame([[4, 7, 10],[5, 8, 11],[6, 9, 12]],                        #Especifica los elementos de cada fila
        index=[1, 2, 3],columns=['a', 'b', 'c'])
    >>> df = pd.DataFrame({"a" : [4 ,5, 6],"b" : [7, 8, 9],"c" : [10, 11, 12]},      #Crea un DataFrame con un multi índice
        index = pd.MultiIndex.from_tuples([('d’, 1), ('d’, 2),('e’, 2)], names=['n’, 'v']))

# *Manipulación de Arreglos*

    >>> pd.melt(df)                            #Reagrupa las columnas en filas
    >>> df.pivot(columns='var', values='val')  #Distribuye las filas en columnas
    >>> pd.concat([df1,df2])                   #Concatena las filas de datos
    >>> pd.concat([df1,df2], axis=1)           #Concatena las columnas de datos
    >>> df.sort_values('mpg')                  #Ordena las filas según los elementos de una columna (menor a mayor)
    >>> df.sort_values('mpg’, ascending=False) #Ordena las filas según los elementos de una columna (mayor a menor)
    >>> df.rename(columns = {'y':'year'})      #Renombra las columnas de un DataFrame
    >>> df.sort_index()                        #Ordena los índices de un DataFrame
    >>> df.reset_index()                       #Reinicia los índices de un DataFrame según los números de fila, y moviendo los índices a columnas
    >>> df.drop(columns=['Length’, 'Height'])  #Elimina las columnas indicadas del DataFrame

# *Manipulación por Filas*

    >>> df[df.Length > 7]           #Extrae las filas que cumplen el criterio
    >>> df.drop_duplicates()        #Borra las filas duplicadas
    >>> df.sample(frac=0.5)         #Selecciona ¿fracciones? de columnas
    >>> df.sample(n=10)             #Selecciona 10 filas aleatorias
    >>> df.nlargest(n, 'value’)     #Selecciona y ordena los top n elementos
    >>> df.nsmallest(n, 'value')    #Selecciona y ordena los últimos n elementos
    >>> df.head(n)                  #Selecciona las primeras n filas
    >>> df.tail(n)                  #Seleccionas las últimas n filas

# *Manipulación por Columnas*

    >>> df[['width’, 'length’, 'species']]    #Selecciona columnas con nombres específicos
    >>> df['width'] or df.width               #Selecciona una columna con un nombre específico
    >>> df.filter(regex = 'regex')            #Selecciona columnas que sus nombres coincidan a la condición

# *Búsquedas por Fila*

    >>> df.query('Length > 7')
    >>> df.query('Length > 7 and Width < 8')
    >>> df.query('Name.str.startswith("abc")', engine="python")

# *Subconjuntos*

* Usa df.loc[] y df.iloc[] para seleccionar filas, columnas o ambos.
* Usa df.at[] y df.iat[] para acceder a un elemento por fila y columna.
* El primer índice indica la fila y el segundo índice la columna.

    >>> df.iloc[10:20]                    #Selecciona las filas 10 - 20
    >>> df.iloc[:, [1, 2, 5]]             #Selecciona las columnas en la posición 1, 2 y 5
    >>> df.loc[:, 'x2':'x4']              #Selecciona las columnas entre x2 y x4
    >>> df.loc[df['a'] > 10, ['a’, 'c']]  #Selecciona las filas que coincidan con la condición, y las columnas indicadas
    >>> df.iat[1, 2]                      #Selecciona un elemento por índice
    >>> df.at[4, 'A']                     #Selecciona un elemento por su etiqueta

# *Sentencias Lógicas en Python*

<table style="width:40%">

<tr>
<th> Sentencia </th>
<th> Función </th>
</tr>

<tr>
<td> != </th>
<td> Distinto de </th>
</tr>

<tr>
<td> < </th>
<td> Menor que </th>
</tr>

<tr>
<td> > </th>
<td> Mayor que </th>
</tr>

<tr>
<td> == </th>
<td> Igual que </th>
</tr>

<tr>
<td> <= </th>
<td> Menor o igual que </th>
</tr>

<tr>
<td> >= </th>
<td> Mayor o igual que </th>
</tr>

<tr>
<td> df.column.isin(values) </td>
<td> Afiliación a un grupo </td>
</tr>

<tr>
<td> pd.isnull(obj) </td>
<td> Es NaN </td>
</tr>

<tr>
<td> pd.notnull(obj) </td>
<td> No es NaN </td>
</tr>

<tr>
<td> &,|,~,^,df.any(),df.all() </td>
<td> Sentencias lógicas </td>
</tr>

</table>

# *Expresiones Regulares*

<table style="width:40%">

<tr>
<th> Sentencia </th>
<th> Función </th>
</tr>

<tr>
<td> '\.' </th>
<td> Que contengan un punto </th>
</tr>

<tr>
<td> 'Length$' </th>
<td> que terminen con la palabra 'Length' </th>
</tr>

<tr>
<td> '^Sepal' </th>
<td> Que inicie con la palabra 'Sepal' </th>
</tr>

<tr>
<td> '^x[1-5]$' </th>
<td> que inicie con 'x' y termine con 1, 2, 3, 4 o 5 </th>
</tr>

<tr>
<td> '^(?!Species$).*' </th>
<td> Todo menos 'Species' </th>
</tr>

</table>

# *Resumen de Datos*

    >>> df['w'].value_counts()   #Cuenta la cantidad de filas (sin repetir)
    >>> len(df)                  #Es el número de filas en el DataFrame
    >>> df.shape                 #Tupla con el número de filas y columnas
    >>> df['w'].nunique()        #Cantidad de elementos distintos en una columna
    >>> df.describe()            #Descripción básica y estadística de cada columna
    >>> sum()                    #Suma los elementos de cada objeto
    >>> count()                  #Cuenta la cantidad de elementos no nulos
    >>> median()                 #Calcula la mediana de cada objeto
    >>> quantile([0.25,0.75])    #Brinda los cuantiles de cada objeto
    >>> apply(function)          #Aplica una función a cada objeto
    >>> min()                    #Calcula el mínimo a caba objeto
    >>> max()                    #Calcula el máximo a cada objeto
    >>> mean()                   #Calcula la media a caba objeto
    >>> var()                    #Calcula la varianza a caba objeto
    >>> std()                    #Calcula la desviación estándar a caba objeto
    >>> max(axis=1)              #Calcula el máximo del eje indicado
    >>> clip(lower=-10,upper=10) #Recorta el objeto según los límites dados
    >>> min(axis=1)              #Calcula el mínimo del eje indicado
    >>> abs()                    #Devuelve el valor absoluto

# *Pérdida de Datos*

    >>> df.dropna()      #Elimina las filas que tengan algún elemento NA o NULL
    >>> df.fillna(value) #Reemplaza los elementos NA/NULL por el valor dado

# *Agregar Columnas*

    >>> df.assign(Area=lambda df: df.Length*df.Height)  #Computa y anexa una o más columnas
    >>> df['Volume'] = df.Length*df.Height*df.Depth     #Agrega una columna
    >>> pd.qcut(df.col, n, labels=False)                #Crea n intervalos en los que se distribuyen los datos de la columna dada

# *Agrupar Datos*

    >>> df.groupby(by="col")     #Regresa un objeto agrupado por los valores de la columna "col"
    >>> df.groupby(level="ind")  #Regresa un objeto agrupado por los valores en el índice cuyo nivel es "ind"
    >>> size()                   #Tamaño de cada grupo
    >>> agg(function)            #Aplica funciones sobre el DataFrame y lo sobreescribe dentro del mismo
    >>> shift(1)                 #Recorre los elementos por 1
    >>> rank(method='dense')     #Rankea los valores del objeto sin dejar espacios
    >>> rank(method='min')       #Rankea los valores del objeto. Los empates toman el ranking más bajo.
    >>> rank(pct=True)           #Rankea los valores del objeto en un intervalo [0, 1]
    >>> rank(method='first')     #Rankea los valores del objeto. Los empates toman el primer valor.
    >>> shift(-1)                #Copia de los valores desfazados por 1
    >>> cumsum()                 #Suma acumulativa
    >>> cummax()                 #Máximo acumulativo
    >>> cummin()                 #Mínimo acumulativo
    >>> cumprod()                #Producto acumulativo


# *Combinación de Data Sets*

    >>> pd.merge(adf, bdf, how='left', on='x1')         #Unión izquierda
    >>> pd.merge(adf, bdf, how='right', on='x1')        #Unión derecha
    >>> pd.merge(adf, bdf, how='inner', on='x1')        #Unión interna
    >>> pd.merge(adf, bdf, how='outer', on='x1')        #Unión externa
    >>> adf[adf.x1.isin(bdf.x1)]                        #Filas de adf que coinciden en bdf
    >>> adf[~adf.x1.isin(bdf.x1)]                       #Filas de adf que no coinciden en bdf
    >>> pd.merge(ydf, zdf)                              #Intersección
    >>> pd.merge(ydf, zdf, how='outer')                 #Unión
    >>> pd.merge(ydf, zdf, how='outer', indicator=True) #Filas de ydf que no están en zdf
        .query('_merge == "left_only"')
        .drop(columns=['_merge'])

# *Ventanas*

    >>> df.expanding()   #Regresa un objeto extendido que permite aplicar funciones que resuman los datos de forma acumulativa.
    >>> df.rolling(n)    #Regresa un objeto movil, el cual permite aplicar funciones de resumen en ventanas de longitud n.

# *Gráficas*

    >>> df.plot.hist()                #Histograma de cada columna
    >>> df.plot.scatter(x='w',y='h')  #Gráfico de dispersión con pares de puntos