In [3]:
import numpy as np
import pandas as pd

La següent funció retorna el següent càlcul element a element pel vector o matriu d'entrada,

$$\begin{equation} x^2+2x+1 \end{equation}$$

In [4]:
def calcular(x):
    """
    Calcula, per cada element de `x` de forma individual, la funció
    x^2+2x+1
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array amb els elemnts a calcular
    :return: np.array amb el càlcul fet
    """
    """
    Procediment per arribar a la solució:
    1er pas: p1 = map( x: x**2 + 2*x + 1, x))
    2on pas: return list(map( x: x**2 + 2*x + 1, x))
    3er pas: return np.array(list(map(lambda x: x**2 + 2*x + 1, x)))
    """
    return np.array(list(map(lambda x: x**2 + 2*x + 1, x)))

In [5]:
if __name__ == '__main__':
    print(calcular(np.random.random((2, 2))))

[[1.42234197 1.92771303]
 [1.22174816 3.54722105]]


Una altra forma de normalitzar vectors és fer que la seva mitja sigui 0 i la seva desviació estàndard sigui 1. Donat un vector $x$, el vector normalitzat $\bar{x}$ es calcula

$$\bar{x} = \frac{x - \mu_x}{\sigma_x}$$

On $\mu_x$ és la mitja i $\sigma_x$ la desviació estandard

In [6]:
def normalitzar(x):
    """
    Normalitza el vector d'entrada `x` segons la definició
    anterior.
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma de vector (unidimensional)
    :return: np.array en forma de vector (unidimensional)
    """
    std = np.std(x)
    mean = np.mean(x)
    return np.array(list(map(lambda x:(x-mean)/std,x)))

In [7]:
if __name__ == '__main__':
    print(normalitzar(np.random.random(5)))

[-1.33724148  1.26230703 -0.82429736 -0.06739045  0.96662226]


In [8]:
def normalitzar_matriu_per_columnes(x):
    """
    Normalitza, segons la definició d'abans, les columnes de la
    matriu de forma independent (cada columna es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    std = np.std(x, axis=0)
    mean = np.mean(x, axis=0)
    return np.array(list(map(lambda x:(x-mean)/std, x)))

In [9]:
if __name__ == '__main__':
    print(normalitzar_matriu_per_columnes(np.random.random((5, 5))))

[[-0.14600198  1.68438934  1.58048318 -1.51009232 -1.21379187]
 [-0.23648548 -1.19418004 -0.75027455  1.16110113 -1.22633967]
 [-0.14315403 -0.75380259  0.64009839 -0.81196835  0.7579818 ]
 [-1.28057089 -0.12686097 -1.20872171  0.71878966  0.97040011]
 [ 1.80621238  0.39045427 -0.26158531  0.44216988  0.71174963]]


In [10]:
def normalitzar_matriu_per_files(x):
    """
    Normalitza, segons la definició d'abans, les files de la
    matriu de forma independent (cada fila es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    std = np.std(x, axis=1)
    mean = np.mean(x, axis=1)
    return np.array(list(map(lambda x:((x-mean)/std), x.T))).T
    """##row_sums = x.sum(axis=1)
    ##new_matrix = x / row_sums[:, np.newaxis]
    ##return np.array(list(new_matrix))"""

In [11]:
if __name__ == '__main__':
    print(normalitzar_matriu_per_files(np.random.random((5, 5))))

[[ 1.14687365 -0.01833367 -0.49453004 -1.58956154  0.9555516 ]
 [-0.7240555  -1.42412214  0.9320382  -0.03978326  1.2559227 ]
 [ 1.55803414 -0.4493169   0.66680394 -1.30595834 -0.46956284]
 [-1.16932628  0.85249791  1.06388785  0.49105603 -1.2381155 ]
 [ 1.66608756  0.478293   -0.48563021 -1.26745336 -0.391297  ]]


In [12]:
def calcular_mitja(x):
    """
    Calcula la mitja del vector d'entrada `x`, però qualsevol element
    NaN ha de ser tractat com si fos un 0. NO es pot modificar el
    vector original que es passa per paràmetre
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma vectorial (unidimensional)
    :return: float amb la mitja
    """
    copy_x = x.copy()
    copy_x[np.isnan(copy_x)] = 0
    return np.mean(copy_x)

In [13]:
if __name__ == '__main__':
    vec = np.random.random(5)
    vec[np.random.randint(0, 5)] = np.nan
    print(calcular_mitja(vec))

0.30852446736500655


In [14]:
def crear_dataframe_1(usuari1, usuari2):
    """
    Donada la informació de dos usuaris, `usuari1` i `usuari2`, crea un
    pd.DataFrame que contingui cada un d'aquests usuaris com a una fila.
    La primera fila ha de tenir per índex "99" i la segona "88", de tipus STR.
    Les columnes han de tenir els següents noms:
        "Nom", "Cognom", "Data Registre", "Bitcoin"
        
    :param usuari1: Llista (nativa de python) amb les dades del primer usuari
    :param usuari2: Llista (nativa de python) amb les dades del segon usuari
    :return: DataFrame amb les dades dels usuaris
    """
    dg = pd.DataFrame(
    [
        usuari1,
        usuari2
    ], 
    columns=['Nom', 'Cognom', 'Data Registre', 'Bitcoin'], index=['99', '88'])
    dg.index.astype(str)
    return dg

In [15]:
if __name__ == '__main__':
    print(crear_dataframe_1(
        ['Mike', 'Strong', '2012-02-03', 99],
        ['Thomas', 'Weak', '2018-01-01', 0.4]
    ))

       Nom  Cognom Data Registre  Bitcoin
99    Mike  Strong    2012-02-03     99.0
88  Thomas    Weak    2018-01-01      0.4


In [16]:
def crear_dataframe_2(x, exponent):
    """
    Donat un vector (np.arrray) i un exponent màxim, crea un 
    DataFrame de pandas on cada columna és la potència
    $x^i$ per cada $i$ entre 0 i `exponent` (incloits). Les columnes han de 
    tenir per nom "x<i>", on <i> és la potència
    
    Per exemple, donat ([1, 2, 3, 4], 2), crearà
    x0 | x1 | x2
    ------------
    1    1    1 
    1    2    4
    1    3    9
    1    4    16
    
    Els indexs de les files són 0, 1, ..., n; on n és el nombre d'elements
    a x
    
    **Pots fer servir 1 sol bucle per iterar de 0 a exponent, cap més**
    
    :param x: np.array unidimensional amb les dades per calcular potències
    :param exponent: enter >= 0, màxim exponent a fer servir
    :return: Un DataFrame de pandas, tal i com s'especifica
    """
    
    dg = pd.DataFrame([])
    for i in range(exponent+1):
        dg['x'+str(i)]= x**i
    return dg
    

In [17]:
if __name__ == '__main__':
    print(crear_dataframe_2(np.asarray([1, 2, 3, 4]), 5))

   x0  x1  x2  x3   x4    x5
0   1   1   1   1    1     1
1   1   2   4   8   16    32
2   1   3   9  27   81   243
3   1   4  16  64  256  1024


In [18]:
def consultar_basic(df):
    """
    Donat un DataFrame amb noms i notes, retorna solament
    els noms d'aquells usuaris que tinguin un 5 o més
    
    :param df: DataFrame amb dos columnes "Nom", "Nota", amb 1 o més
        files. "Nom" és una string i "Nota" un float
    :return: Un pd.Series de Pandas o llista/tupla amb els noms 
        (i solament els noms) dels alumnes amb 5 o més
    """
    has_improved = df['Nota'] >= 5
    return df.loc[has_improved,'Nom']

In [19]:
if __name__ == '__main__':
    print(consultar_basic(pd.DataFrame({
        'Nom': ['Antonio', 'Mireia'],
        'Nota': [5.1, 0.1]
    })))

0    Antonio
Name: Nom, dtype: object


In [20]:
def consultar_dificil(df):
    """
    De totes les files d'un DataFrame, retorna l'índex d'aquella que tingui 
    el menor nombre de NaNs
    
    *Es pot fer sense bucles, consulta la documentació de Pandas, la cheetsheet
    o stackoverflow*
    
    :param df: DataFrame sobre el que operar, les files contenen floats o NaN
    :return: L'índex (int, ja ve donat) de la fila amb menys NaNs
    """
    
    dataframe = df.isna().sum(axis=1)
    return dataframe.idxmin()

In [21]:
if __name__ == '__main__':
    print(consultar_dificil(pd.DataFrame([
        [0, np.nan, 3.0, 2, np.nan],
        [np.nan, 1, 2, 3, 4],
        [np.nan, 0, 0, np.nan, np.nan]
    ])))

1
