In [1]:
import numpy as np
import pandas as pd

La següent funció retorna el següent càlcul element a element pel vector o matriu d'entrada,

$$\begin{equation} x^2+2x+1 \end{equation}$$

In [2]:
def calcular(x):
    """
    Calcula, per cada element de `x` de forma individual, la funció
    x^2+2x+1 = (x+1)^2
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array amb els elemnts a calcular
    :return: np.array amb el càlcul fet
    """
    return (x+1)**2

In [3]:
if __name__ == '__main__':
    test = np.random.random((3,3))
    print(test)
    print(calcular(test))

[[0.05148144 0.22826956 0.68948047]
 [0.69974599 0.98974039 0.49242765]
 [0.22841454 0.62903618 0.78904767]]
[[1.10561321 1.50864612 2.85434427]
 [2.88913644 3.95906682 2.22734029]
 [1.50900228 2.65375887 3.20069155]]


Una altra forma de normalitzar vectors és fer que la seva mitja sigui 0 i la seva desviació estàndard sigui 1. Donat un vector $x$, el vector normalitzat $\bar{x}$ es calcula

$$\bar{x} = \frac{x - \mu_x}{\sigma_x}$$

On $\mu_x$ és la mitja i $\sigma_x$ la desviació estandard

In [4]:
def normalitzar(x):
    """
    Normalitza el vector d'entrada `x` segons la definició
    anterior.
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma de vector (unidimensional)
    :return: np.array en forma de vector (unidimensional)
    """
    return (x - x.mean())/(x.std())

In [5]:
if __name__ == '__main__':
    test = np.random.random(5)
    print(test)
    print(test.mean(), test.std())
    norm = normalitzar(test)
    print(norm)
    print(norm.mean(), norm.std())

[0.65907797 0.05294211 0.10761077 0.91125933 0.14108575]
0.37439518648250064 0.3458920941318898
[ 0.8230393  -0.92934497 -0.77129377  1.55211454 -0.6745151 ]
-1.1102230246251565e-16 1.0


In [6]:
def normalitzar_matriu_per_columnes(x):
    """
    Normalitza, segons la definició d'abans, les columnes de la
    matriu de forma independent (cada columna es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    means = x.mean(axis=0)
    desv = x.std(axis=0)
    return (x-means)/desv

In [7]:
if __name__ == '__main__':
    test = np.random.random((5, 5))
    print(test)
    print(test.mean(axis=0), test.std(axis=0))
    norm = normalitzar_matriu_per_columnes(test)
    print(norm)
    print(norm.mean(axis=0), norm.std(axis=0))

[[0.8212716  0.44271746 0.04461542 0.82451504 0.67954024]
 [0.3516654  0.51250866 0.07807233 0.31227611 0.17767603]
 [0.10643528 0.51786153 0.93954569 0.83226198 0.35768863]
 [0.67173916 0.04637793 0.12280824 0.94308307 0.31015269]
 [0.55047222 0.71463571 0.44205024 0.44321533 0.9670227 ]]
[0.50031673 0.44682026 0.32541839 0.67107031 0.49841606] [0.24986119 0.21975342 0.33818237 0.24664555 0.28653782]
[[ 1.28453269 -0.01866998 -0.83032998  0.62212648  0.63211264]
 [-0.59493566  0.29891866 -0.73139842 -1.45469555 -1.11936366]
 [-1.57640111  0.32327721  1.81596487  0.65353571 -0.49113036]
 [ 0.68607066 -1.82223477 -0.59911505  1.10284883 -0.65702799]
 [ 0.20073342  1.21870889  0.34487857 -0.92381547  1.63540937]]
[-1.77635684e-16  0.00000000e+00  8.88178420e-17  2.66453526e-16
 -1.77635684e-16] [1. 1. 1. 1. 1.]


In [8]:
def normalitzar_matriu_per_files(x):
    """
    Normalitza, segons la definició d'abans, les files de la
    matriu de forma independent (cada fila es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    """
    means = x.mean(axis=1)
    desv = x.std(axis=1)
    return ((x.T-means)/desv).T
    """
    return (normalitzar_matriu_per_columnes(x.T)).T

In [9]:
if __name__ == '__main__':
    test = np.random.random((5, 5))
    print(test)
    print(test.mean(axis=1), test.std(axis=1))
    norm = normalitzar_matriu_per_files(test)
    print(norm)
    print(norm.mean(axis=1), norm.std(axis=1))

[[0.08949345 0.66911796 0.20609022 0.46276399 0.9545953 ]
 [0.59747246 0.72532263 0.69248351 0.69781742 0.36280415]
 [0.65417521 0.66844274 0.09024719 0.90333971 0.11808059]
 [0.0127659  0.56643726 0.77279564 0.83807178 0.99265667]
 [0.99447121 0.54395035 0.77496936 0.97305925 0.33690791]]
[0.47641218 0.61518003 0.48685709 0.63654545 0.72467161] [0.31265347 0.13337414 0.32487597 0.34059015 0.25299762]
[[-1.2375322   0.61635579 -0.86460569 -0.04365278  1.52943487]
 [-0.13276617  0.82581676  0.57959868  0.61959078 -1.89224006]
 [ 0.51502153  0.55893838 -1.22080403  1.28197422 -1.1351301 ]
 [-1.83146677 -0.20584328  0.40004149  0.59169747  1.0455711 ]
 [ 1.06641159 -0.71432003  0.1988072   0.98177856 -1.53267732]]
[-1.77635684e-16  1.77635684e-16 -1.77635684e-16  4.44089210e-17
 -2.22044605e-16] [1. 1. 1. 1. 1.]


In [10]:
def calcular_mitja(x):
    """
    Calcula la mitja del vector d'entrada `x`, però qualsevol element
    NaN ha de ser tractat com si fos un 0. NO es pot modificar el
    vector original que es passa per paràmetre
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma vectorial (unidimensional)
    :return: float amb la mitja
    """
    y = np.copy(x)
    y[np.isnan(y)] = 0
    
    return y.mean()

In [11]:
if __name__ == '__main__':
    vec = np.random.random(5)
    
    vec[np.random.randint(0, 5)] = np.nan
    print (vec)
    print(calcular_mitja(vec))
    print (vec)

[0.33218765 0.80359364        nan 0.33674227 0.27757183]
0.35001907807895105
[0.33218765 0.80359364        nan 0.33674227 0.27757183]


In [12]:
def crear_dataframe_1(usuari1, usuari2):
    """
    Donada la informació de dos usuaris, `usuari1` i `usuari2`, crea un
    pd.DataFrame que contingui cada un d'aquests usuaris com a una fila.
    La primera fila ha de tenir per índex "99" i la segona "88", de tipus STR.
    Les columnes han de tenir els següents noms:
        "Nom", "Cognom", "Data Registre", "Bitcoin"
        
    :param usuari1: Llista (nativa de python) amb les dades del primer usuari
    :param usuari2: Llista (nativa de python) amb les dades del segon usuari
    :return: DataFrame amb les dades dels usuaris
    """
    df = pd.DataFrame([usuari1, usuari2], columns = ['Nom', 'Cognom', 'Data Registre', 'Bitcoin'], index = ['99', '88'])
    return df

In [13]:
if __name__ == '__main__':
    
    print(crear_dataframe_1(
        ['Mike', 'Strong', '2012-02-03', 99],
        ['Thomas', 'Weak', '2018-01-01', 0.4]
    ))
    

       Nom  Cognom Data Registre  Bitcoin
99    Mike  Strong    2012-02-03     99.0
88  Thomas    Weak    2018-01-01      0.4


In [14]:
def crear_dataframe_2(x, exponent):
    """
    Donat un vector (np.arrray) i un exponent màxim, crea un 
    DataFrame de pandas on cada columna és la potència
    $x^i$ per cada $i$ entre 0 i `exponent` (inclos). Les columnes han de 
    tenir per nom "x<i>", on <i> és la potència
    
    Per exemple, donat ([1, 2, 3, 4], 2), crearà
    x0 | x1 | x2
    ------------
    1    1    1 
    1    2    4
    1    3    9
    1    4    16
    
    Els indexs de les files són 0, 1, ..., n; on n és el nombre d'elements
    a x
    
    **Pots fer servir 1 sol bucle per iterar de 0 a exponent, cap més**
    
    :param x: np.array unidimensional amb les dades per calcular potències
    :param exponent: enter >= 0, màxim exponent a fer servir
    :return: Un DataFrame de pandas, tal i com s'especifica
    """
    df = pd.DataFrame({})
    for i in range(exponent+1):
        df['x' + str(i)] = x**i
    return df

In [15]:
if __name__ == '__main__':
    print(crear_dataframe_2(np.asarray([1, 2, 3, 4]), 10))

   x0  x1  x2  x3   x4    x5    x6     x7     x8      x9      x10
0   1   1   1   1    1     1     1      1      1       1        1
1   1   2   4   8   16    32    64    128    256     512     1024
2   1   3   9  27   81   243   729   2187   6561   19683    59049
3   1   4  16  64  256  1024  4096  16384  65536  262144  1048576


In [16]:
def consultar_basic(df):
    """
    Donat un DataFrame amb noms i notes, retorna solament
    els noms d'aquells usuaris que tinguin un 5 o més
    
    :param df: DataFrame amb dos columnes "Nom", "Nota", amb 1 o més
        files. "Nom" és una string i "Nota" un float
    :return: Un pd.Series de Pandas o llista/tupla amb els noms 
        (i solament els noms) dels alumnes amb 5 o més
    """
    return df.loc[df['Nota'] >= 5, 'Nom'].tolist()


In [17]:
if __name__ == '__main__':
    output = consultar_basic(pd.DataFrame({
        'Nom': ['Antonio', 'Mireia'],
        'Nota': [5.1, 0.1]
    }))
    print(output)
    print(type(output))

['Antonio']
<class 'list'>


In [18]:
def consultar_dificil(df):
    """
    De totes les files d'un DataFrame, retorna l'índex d'aquella que tingui 
    el menor nombre de NaNs
    
    *Es pot fer sense bucles, consulta la documentació de Pandas, la cheetsheet
    o stackoverflow*
    
    :param df: DataFrame sobre el que operar, les files contenen floats o NaN
    :return: L'índex (int, ja ve donat) de la fila amb menys NaNs
    """
    return df.isnull().sum(axis = 1).idxmin()

In [19]:
if __name__ == '__main__':
    print(consultar_dificil(pd.DataFrame([
        [0, np.nan, 3.0, 2, np.nan],
        [np.nan, 1, 2, 3, 4],
        [np.nan, 0, 0, np.nan, np.nan],   
    ])))

1
