In [1]:
import numpy as np
import pandas as pd

La següent funció retorna el següent càlcul element a element pel vector o matriu d'entrada,

$$\begin{equation} x^2+2x+1 \end{equation}$$

In [2]:
def calcular(x):
    """
    Calcula, per cada element de `x` de forma individual, la funció
    x^2+2x+1
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array amb els elemnts a calcular
    :return: np.array amb el càlcul fet
    """
    op = lambda x: x**2 + 2*x + 1
    v_op = np.vectorize(op) # Aplica la funció a tots els elements del array.
    return v_op(x)

In [3]:
if __name__ == '__main__':
    print(calcular(np.random.random((2, 2))))

[[1.23503182 1.69178066]
 [3.8227119  2.57514637]]


Una altra forma de normalitzar vectors és fer que la seva mitja sigui 0 i la seva desviació estàndard sigui 1. Donat un vector $x$, el vector normalitzat $\bar{x}$ es calcula

$$\bar{x} = \frac{x - \mu_x}{\sigma_x}$$

On $\mu_x$ és la mitja i $\sigma_x$ la desviació estandard

In [7]:
def normalitzar(x):
    """
    Normalitza el vector d'entrada `x` segons la definició
    anterior.
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma de vector (unidimensional)
    :return: np.array en forma de vector (unidimensional)
    """
    mean = np.mean(x) # Calcula la mitja dels valors del vector.
    sd = np.std(x) # Calcula la desviació estandard.
    norm = lambda x: ((x - mean)/sd)
    v_norm = np.vectorize(norm) # Aplica la funció a tots els valors del vector.
    return v_norm(x)

In [8]:
if __name__ == '__main__':
    print(normalitzar(np.random.random(5)))

[ 0.41225851 -0.25640253  1.23268969 -1.76215561  0.37360995]


In [11]:
def normalitzar_matriu_per_columnes(x):
    """
    Normalitza, segons la definició d'abans, les columnes de la
    matriu de forma independent (cada columna es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    # La mitja i desviació estandard es calculan per columna.
    mean = np.mean(x, axis = 0) 
    sd = np.std(x, axis = 0)
    norm = lambda x: ((x - mean)/sd)
    return norm(x)

In [12]:
if __name__ == '__main__':
    print(normalitzar_matriu_per_columnes(np.random.random((5, 5))))

[[-0.15803321  1.0226842  -0.06791835 -0.21769128  0.29939414]
 [ 0.03804301  0.71396551  0.58987797  0.89401957  1.27241772]
 [ 1.84708717 -0.11083392 -1.90647556  0.25416854 -1.13643463]
 [-1.05118543  0.21433298  0.85709093  0.88675486 -1.19366401]
 [-0.67591154 -1.84014877  0.52742502 -1.81725169  0.75828679]]


In [15]:
def normalitzar_matriu_per_files(x):
    """
    Normalitza, segons la definició d'abans, les files de la
    matriu de forma independent (cada fila es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    # El mateix que abans, pero es transposa la matriu per a fer la normalització per files.
    x = np.transpose(x)
    mean = np.mean(x, axis = 0)
    sd = np.std(x, axis = 0)
    norm = lambda x: ((x - mean)/sd)
    # Es torna a transposar al retornar-la.
    return np.transpose(norm(x))

In [16]:
if __name__ == '__main__':
    print(normalitzar_matriu_per_files(np.random.random((5, 5))))

[[ 0.12069716 -1.19748768  1.32702337 -1.06297467  0.81274183]
 [-0.87812183 -1.34985192  0.74257157  0.12943953  1.35596265]
 [ 0.75873043  1.55191311 -0.94542198 -0.99095811 -0.37426346]
 [-0.81090938  0.63064112 -0.68620308 -0.81144436  1.67791571]
 [-0.47784076  1.77024443 -1.00759629  0.39708448 -0.68189186]]


In [19]:
def calcular_mitja(x):
    """
    Calcula la mitja del vector d'entrada `x`, però qualsevol element
    NaN ha de ser tractat com si fos un 0. NO es pot modificar el
    vector original que es passa per paràmetre   
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma vectorial (unidimensional)
    :return: float amb la mitja
    """
    # Substitueix els nan per 0, després fa la mitja i la retorna.
    return np.mean(np.where(np.isnan(x), 0, x))

In [20]:
if __name__ == '__main__':
    vec = np.random.random(5)
    vec[np.random.randint(0, 5)] = np.nan
    print(calcular_mitja(vec))

0.4633198710224719


In [21]:
def crear_dataframe_1(usuari1, usuari2):
    """
    Donada la informació de dos usuaris, `usuari1` i `usuari2`, crea un
    pd.DataFrame que contingui cada un d'aquests usuaris com a una fila.
    La primera fila ha de tenir per índex "99" i la segona "88", de tipus STR.
    Les columnes han de tenir els següents noms:
        "Nom", "Cognom", "Data Registre", "Bitcoin"
        
    :param usuari1: Llista (nativa de python) amb les dades del primer usuari
    :param usuari2: Llista (nativa de python) amb les dades del segon usuari
    :return: DataFrame amb les dades dels usuaris
    """
    return pd.DataFrame([
        usuari1, 
        usuari2],
    columns=['Nom', 'Cognom', 'Data Registre', 'Bitcoin'], index=['99','88'])

In [22]:
if __name__ == '__main__':
    print(crear_dataframe_1(
        ['Mike', 'Strong', '2012-02-03', 99],
        ['Thomas', 'Weak', '2018-01-01', 0.4]
    ))

       Nom  Cognom Data Registre  Bitcoin
99    Mike  Strong    2012-02-03     99.0
88  Thomas    Weak    2018-01-01      0.4


In [23]:
def crear_dataframe_2(x, exponent):
    """
    Donat un vector (np.arrray) i un exponent màxim, crea un 
    DataFrame de pandas on cada columna és la potència
    $x^i$ per cada $i$ entre 0 i `exponent` (incloits). Les columnes han de 
    tenir per nom "x<i>", on <i> és la potència
    
    Per exemple, donat ([1, 2, 3, 4], 2), crearà
    x0 | x1 | x2
    ------------
    1    1    1 
    1    2    4
    1    3    9
    1    4    16
    
    Els indexs de les files són 0, 1, ..., n; on n és el nombre d'elements
    a x
    
    **Pots fer servir 1 sol bucle per iterar de 0 a exponent, cap més**
    
    :param x: np.array unidimensional amb les dades per calcular potències
    :param exponent: enter >= 0, màxim exponent a fer servir
    :return: Un DataFrame de pandas, tal i com s'especifica
    """
    matr = []
    col = ["x" + str(i) for i in range(exponent+1)]
    for i in range(exponent + 1):
        matr.append([a**i for a in x])
    
    return pd.DataFrame(np.asarray(matr).T,
                       columns=col)

In [24]:
if __name__ == '__main__':
    print(crear_dataframe_2(np.asarray([1, 2, 3, 4]), 5))

   x0  x1  x2  x3   x4    x5
0   1   1   1   1    1     1
1   1   2   4   8   16    32
2   1   3   9  27   81   243
3   1   4  16  64  256  1024


In [25]:
def consultar_basic(df):
    """
    Donat un DataFrame amb noms i notes, retorna solament
    els noms d'aquells usuaris que tinguin un 5 o més
    
    :param df: DataFrame amb dos columnes "Nom", "Nota", amb 1 o més
        files. "Nom" és una string i "Nota" un float
    :return: Un pd.Series de Pandas o llista/tupla amb els noms 
        (i solament els noms) dels alumnes amb 5 o més
    """
    return pd.Series(df.loc[df['Nota'] >= 5]['Nom'])

In [26]:
if __name__ == '__main__':
    print(consultar_basic(pd.DataFrame({
        'Nom': ['Antonio', 'Mireia'],
        'Nota': [5.1, 0.1]
    })))

0    Antonio
Name: Nom, dtype: object


In [27]:
def consultar_dificil(df):
    """
    De totes les files d'un DataFrame, retorna l'índex d'aquella que tingui 
    el menor nombre de NaNs
    
    *Es pot fer sense bucles, consulta la documentació de Pandas, la cheetsheet
    o stackoverflow*
    
    :param df: DataFrame sobre el que operar, les files contenen floats o NaN
    :return: L'índex (int, ja ve donat) de la fila amb menys NaNs
    """
    return df.T.isna().sum().idxmin()

In [28]:
if __name__ == '__main__':
    print(consultar_dificil(pd.DataFrame([
        [0, np.nan, 3.0, 2, np.nan],
        [np.nan, 1, 2, 3, 4],
        [np.nan, 0, 0, np.nan, np.nan]
    ])))

1
