# Exercicis P1

In [1]:
import numpy as np
import pandas as pd

**Exercici 1:** La següent funció retorna el següent càlcul element a element pel vector o matriu d'entrada,

$$\begin{equation} x^2+2x+1 \end{equation}$$

In [2]:
def calcular(x):
    """
    Calcula, per cada element de `x` de forma individual, la funció
    x^2+2x+1
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array amb els elemnts a calcular
    :return: np.array amb el càlcul fet
    """        
    return np.array(list(map(lambda y: (y**2+2*y+1), x)))
    

In [3]:
print(calcular(np.random.random((2, 2))))

[[2.95964266 2.62081832]
 [3.06063551 2.12554967]]


**Exercici 2:** Una altra forma de normalitzar vectors és fer que la seva mitja sigui 0 i la seva desviació estàndard sigui 1. Donat un vector $x$, el vector normalitzat $\bar{x}$ es calcula

$$\bar{x} = \frac{x - \mu_x}{\sigma_x}$$

On $\mu_x$ és la mitja i $\sigma_x$ la desviació estandard

In [14]:
def normalitzar(x):
    """
    Normalitza el vector d'entrada `x` segons la definició
    anterior.
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma de vector (unidimensional)
    :return: np.array en forma de vector (unidimensional)
    """    
    norm = np.linalg.norm(x)
    return x/norm
    

In [15]:
print(normalitzar(np.random.random(5)))

[0.46685719 0.45007314 0.42060044 0.47429231 0.42145059]


In [26]:
def normalitzar_matriu_per_columnes(x):
    """
    Normalitza, segons la definició d'abans, les columnes de la
    matriu de forma independent (cada columna es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """    
    norm = x.sum(axis=1)
    # con norm [:, np.newaxis] hacemos que la suma de las columnas este en vertical 
    return x / norm [:, np.newaxis]

In [27]:
norm_matrix = normalitzar_matriu_per_columnes(np.random.random((5, 5)))

print(norm_matrix)

print(np.sum(norm_matrix, axis = 0))

[[0.43119542 0.11944025 0.05802784 0.28854708 0.10278941]
 [0.13567739 0.0237281  0.2465598  0.26989347 0.32414123]
 [0.03084051 0.26547164 0.2943211  0.28938038 0.11998638]
 [0.0929471  0.28629411 0.20583267 0.02027282 0.39465329]
 [0.06410624 0.04106554 0.24037015 0.32551744 0.32894063]]
[0.75476666 0.73599965 1.04511156 1.19361119 1.27051094]


In [28]:
def normalitzar_matriu_per_files(x):
    """
    Normalitza, segons la definició d'abans, les files de la
    matriu de forma independent (cada fila es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    norm = x.sum(axis=0)
    # con norm [:, np.newaxis] hacemos que la suma de las columnas este en vertical 
    return x / norm [:, np.newaxis]    

In [29]:
norm_matrix = normalitzar_matriu_per_files(np.random.random((5, 5)))
print(norm_matrix)
print(np.sum(norm_matrix, axis = 1))

[[0.0590681  0.40258063 0.53079085 0.18941088 0.41875241]
 [0.10141279 0.01889966 0.10012957 0.32686183 0.06969916]
 [0.25510746 0.12303104 0.23583122 0.33343789 0.1731478 ]
 [0.32621409 0.29137948 0.23651207 0.01914783 0.23873944]
 [0.04791981 0.35036265 0.00609753 0.1237175  0.19451566]]
[1.60060287 0.61700302 1.12055542 1.11199291 0.72261315]


**Exercici 3:** Calcula la mitja del vector d'entrada, però qualsevol element NaN ha de ser tractat com si fos un 0.

In [32]:
def calcular_mitja(x):
    """
    Calcula la mitja del vector d'entrada `x`, però qualsevol element
    NaN ha de ser tractat com si fos un 0. NO es pot modificar el
    vector original que es passa per paràmetre
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma vectorial (unidimensional)
    :return: float amb la mitja
    """
    return x[~np.isnan(x)].mean()

In [33]:
vec = np.random.random(5)
vec[np.random.randint(0, 5)] = np.nan
print(calcular_mitja(vec))

0.46421210831662063


**Exercici 4:** Crea un pd.DataFrame que contingui la informació demanada.

In [2]:
def crear_dataframe_1(usuari1, usuari2):
    """
    Donada la informació de dos usuaris, `usuari1` i `usuari2`, crea un
    pd.DataFrame que contingui cada un d'aquests usuaris com a una fila.
    La primera fila ha de tenir per índex "99" i la segona "88", de tipus STR.
    Les columnes han de tenir els següents noms:
        "Nom", "Cognom", "Data Registre", "Bitcoin"
        
    :param usuari1: Llista (nativa de python) amb les dades del primer usuari
    :param usuari2: Llista (nativa de python) amb les dades del segon usuari
    :return: DataFrame amb les dades dels usuaris
    """
    df = pd.DataFrame([usuari1, usuari2], columns = ['Nom', 'Cognom', 'Data Registre', 'Bitcoin'])
    return df    

In [3]:
print(crear_dataframe_1(
    ['Mike', 'Strong', '2012-02-03', 99],
    ['Thomas', 'Weak', '2018-01-01', 0.4]
))

      Nom  Cognom Data Registre  Bitcoin
0    Mike  Strong    2012-02-03     99.0
1  Thomas    Weak    2018-01-01      0.4


In [68]:
def crear_dataframe_2(x, exponent):
    """
    Donat un vector (np.arrray) i un exponent màxim, crea un 
    DataFrame de pandas on cada columna és la potència
    $x^i$ per cada $i$ entre 0 i `exponent` (incloits). Les columnes han de 
    tenir per nom "x<i>", on <i> és la potència
    
    Per exemple, donat ([1, 2, 3, 4], 2), crearà
    x0 | x1 | x2
    ------------
    1    1    1 
    1    2    4
    1    3    9
    1    4    16
    
    Els indexs de les files són 0, 1, ..., n; on n és el nombre d'elements
    a x
    
    **Pots fer servir 1 sol bucle per iterar de 0 a exponent, cap més**
    
    :param x: np.array unidimensional amb les dades per calcular potències
    :param exponent: enter >= 0, màxim exponent a fer servir
    :return: Un DataFrame de pandas, tal i com s'especifica
    """    
    df = pd.DataFrame([]) 
    for n in range(exponent):            
        df.insert(n, 'x'+str(n),np.copy(x) * n)
    
    return df

In [69]:
print(crear_dataframe_2(np.asarray([1, 2, 3, 4]), 5))

Empty DataFrame
Columns: []
Index: []
   x0
0   0
1   0
2   0
3   0
   x0  x1
0   0   1
1   0   2
2   0   3
3   0   4
   x0  x1  x2
0   0   1   2
1   0   2   4
2   0   3   6
3   0   4   8
   x0  x1  x2  x3
0   0   1   2   3
1   0   2   4   6
2   0   3   6   9
3   0   4   8  12
   x0  x1  x2  x3  x4
0   0   1   2   3   4
1   0   2   4   6   8
2   0   3   6   9  12
3   0   4   8  12  16


**Exercici 5:** Donat un DataFrame, retorna el resultat de les consultes demanades.

In [None]:
def consultar_basic(df):
    """
    Donat un DataFrame amb noms i notes, retorna solament
    els noms d'aquells usuaris que tinguin un 5 o més
    
    :param df: DataFrame amb dos columnes "Nom", "Nota", amb 1 o més
        files. "Nom" és una string i "Nota" un float
    :return: Un pd.Series o llista/tupla de Pandas amb els noms 
        (i solament els noms) dels alumnes amb 5 o més
    """
    raise NotImplementedError()

In [None]:
print(consultar_basic(pd.DataFrame({
    'Nom': ['Antonio', 'Mireia'],
    'Nota': [5.1, 0.1]
})))

In [None]:
def consultar_dificil(df):
    """
    De totes les files d'un DataFrame, retorna l'índex d'aquella que tingui 
    el menor nombre de NaNs
    
    *Es pot fer sense bucles, consulta la documentació de Pandas, la cheetsheet
    o stackoverflow*
    
    :param df: DataFrame sobre el que operar, les files contenen floats o NaN
    :return: L'índex (int, ja ve donat) de la fila amb menys NaNs
    """
    raise NotImplementedError()

In [None]:
print(consultar_dificil(pd.DataFrame([
    [0, np.nan, 3.0, 2, np.nan],
    [np.nan, 1, 2, 3, 4],
    [np.nan, 0, 0, np.nan, np.nan]
])))