# Exercicis P1

In [1]:
import numpy as np
import pandas as pd

**Exercici 1:** La següent funció retorna el següent càlcul element a element pel vector o matriu d'entrada,

$$\begin{equation} x^2+2x+1 \end{equation}$$

In [2]:
def calcular(x):
    """
    Calcula, per cada element de `x` de forma individual, la funció
    x^2+2x+1
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array amb els elemnts a calcular
    :return: np.array amb el càlcul fet
    """
    return x**2 + 2*x + 1

In [3]:
print(calcular(np.random.random((2, 2))))

[[1.12029826 3.96663424]
 [1.08254771 2.84192142]]


**Exercici 2:** Una altra forma de normalitzar vectors és fer que la seva mitja sigui 0 i la seva desviació estàndard sigui 1. Donat un vector $x$, el vector normalitzat $\bar{x}$ es calcula

$$\bar{x} = \frac{x - \mu_x}{\sigma_x}$$

On $\mu_x$ és la mitja i $\sigma_x$ la desviació estandard

In [4]:
def normalitzar(x):
    """
    Normalitza el vector d'entrada `x` segons la definició
    anterior.
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma de vector (unidimensional)
    :return: np.array en forma de vector (unidimensional)
    """
    mu = np.mean(x)
    sigma = np.std(x)
    return (x - mu)/sigma

In [5]:
print(normalitzar(np.random.random(5)))

[ 0.78042458  0.63879238 -1.05142688  1.00137887 -1.36916896]


In [6]:
def normalitzar_matriu_per_columnes(x):
    """
    Normalitza, segons la definició d'abans, les columnes de la
    matriu de forma independent (cada columna es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    mean = x.mean(axis=0)
    std = x.std(axis=0)
    return (x-mean)/std

In [7]:
norm_matrix = normalitzar_matriu_per_columnes(np.random.random((5, 5)))

print(norm_matrix)

print(np.mean(norm_matrix, axis = 0))

[[-1.02582947 -1.56979242 -1.58595423 -1.27232149 -1.4210465 ]
 [ 1.8658989   0.78761792  0.68724043 -1.06968794 -0.69449937]
 [ 0.10762754 -0.8074288   1.01394038  1.20555076  1.06927912]
 [-0.52603446  0.7997613   0.64157771  0.83075927  1.15858698]
 [-0.4216625   0.789842   -0.75680429  0.30569941 -0.11232022]]
[ 7.77156117e-17 -8.88178420e-17  2.44249065e-16  8.88178420e-17
  1.88737914e-16]


In [8]:
def normalitzar_matriu_per_files(x):
    """
    Normalitza, segons la definició d'abans, les files de la
    matriu de forma independent (cada fila es normalitza per la seva
    pròpia mitja i desviació estàndard)
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma matricial (bidimensional)
    :return: np.array en forma matricial (bidimensional)
    """
    mean = x.mean(axis=1)
    std = x.std(axis=1)
    return ((x.T-mean)/std).T

In [9]:
norm_matrix = normalitzar_matriu_per_files(np.random.random((5, 5)))
print(norm_matrix)
print(np.sum(norm_matrix, axis = 1))

[[-0.29549736 -0.68511782 -1.22515906  0.59812966  1.60764457]
 [ 0.83296424  1.11357463 -1.73892425 -0.20557338 -0.00204125]
 [-1.17541314  0.69755759  1.51445975 -0.13038789 -0.90621632]
 [ 0.46376936 -1.8265701   0.89461967 -0.28485962  0.75304069]
 [-0.95263106 -0.65830466 -0.71881575  0.70197075  1.62778071]]
[ 4.44089210e-16  3.28730099e-16  1.33226763e-15  2.22044605e-16
 -4.44089210e-16]


**Exercici 3:** Calcula la mitja del vector d'entrada, però qualsevol element NaN ha de ser tractat com si fos un 0.

In [16]:
def calcular_mitja(x):
    """
    Calcula la mitja del vector d'entrada `x`, però qualsevol element
    NaN ha de ser tractat com si fos un 0. NO es pot modificar el
    vector original que es passa per paràmetre
    
    *NO* es poden fer servir bucles ni list-comprehensions
    
    :param x: np.array en forma vectorial (unidimensional)
    :return: float amb la mitja
    """
    #return np.sum(x[np.logical_not(np.isnan(x))])/x.size
    return np.sum(x[~np.isnan(x)])/x.size

In [17]:
vec = np.random.random(5)
vec[np.random.randint(0, 5)] = np.nan
print(calcular_mitja(vec))
print(vec)

0.56299268788132
[0.4424139  0.77006232        nan 0.79494205 0.80754516]


**Exercici 4:** Crea un pd.DataFrame que contingui la informació demanada.

In [22]:
def crear_dataframe_1(usuari1, usuari2):
    """
    Donada la informació de dos usuaris, `usuari1` i `usuari2`, crea un
    pd.DataFrame que contingui cada un d'aquests usuaris com a una fila.
    La primera fila ha de tenir per índex "99" i la segona "88", de tipus STR.
    Les columnes han de tenir els següents noms:
        "Nom", "Cognom", "Data Registre", "Bitcoin"
        
    :param usuari1: Llista (nativa de python) amb les dades del primer usuari
    :param usuari2: Llista (nativa de python) amb les dades del segon usuari
    :return: DataFrame amb les dades dels usuaris
    """
    return pd.DataFrame(
    data=[usuari1, usuari2],
    columns=['Nom', 'Cognom', 'Data Registre', 'Bitcoin'], index=['99', '88'])

In [23]:
print(crear_dataframe_1(
    ['Mike', 'Strong', '2012-02-03', 99],
    ['Thomas', 'Weak', '2018-01-01', 0.4]
))

       Nom  Cognom Data Registre  Bitcoin
99    Mike  Strong    2012-02-03     99.0
88  Thomas    Weak    2018-01-01      0.4


In [36]:
def crear_dataframe_2(x, exponent):
    """
    Donat un vector (np.arrray) i un exponent màxim, crea un 
    DataFrame de pandas on cada columna és la potència
    $x^i$ per cada $i$ entre 0 i `exponent` (inclosos). Les columnes han de 
    tenir per nom "x<i>", on <i> és la potència
    
    Per exemple, donat ([1, 2, 3, 4], 2), crearà
    x0 | x1 | x2
    ------------
    1    1    1 
    1    2    4
    1    3    9
    1    4    16
    
    Els indexs de les files són 0, 1, ..., n; on n és el nombre d'elements
    a x
    
    **Pots fer servir 1 sol bucle per iterar de 0 a exponent, cap més**
    
    :param x: np.array unidimensional amb les dades per calcular potències
    :param exponent: enter >= 0, màxim exponent a fer servir
    :return: Un DataFrame de pandas, tal i com s'especifica
    """
    return pd.DataFrame({'x{}'.format(i): x**i for i in range(exponent+1)})

In [37]:
print(crear_dataframe_2(np.asarray([1, 2, 3, 4]), 5))

   x0  x1  x2  x3   x4    x5
0   1   1   1   1    1     1
1   1   2   4   8   16    32
2   1   3   9  27   81   243
3   1   4  16  64  256  1024


**Exercici 5:** Donat un DataFrame, retorna el resultat de les consultes demanades.

In [54]:
def consultar_basic(df):
    """
    Donat un DataFrame amb noms i notes, retorna solament
    els noms d'aquells usuaris que tinguin un 5 o més
    
    :param df: DataFrame amb dos columnes "Nom", "Nota", amb 1 o més
        files. "Nom" és una string i "Nota" un float
    :return: Un pd.Series o llista/tupla de Pandas amb els noms 
        (i solament els noms) dels alumnes amb 5 o més
    """
    # return df[df['Nota'] >= 5].Nom.values
    return df.loc[df['Nota'] >= 5, 'Nom']

In [55]:
print(consultar_basic(pd.DataFrame({
    'Nom': ['Antonio', 'Mireia'],
    'Nota': [5.1, 0.1]
})))

0    Antonio
Name: Nom, dtype: object


In [78]:
def consultar_dificil(df):
    """
    De totes les files d'un DataFrame, retorna l'índex d'aquella que tingui 
    el menor nombre de NaNs
    
    *Es pot fer sense bucles, consulta la documentació de Pandas, la cheetsheet
    o stackoverflow*
    
    :param df: DataFrame sobre el que operar, les files contenen floats o NaN
    :return: L'índex (int, ja ve donat) de la fila amb menys NaNs
    """
    print(df.count(axis=1))
    return df.count(axis=1).idxmax()

In [79]:
print(consultar_dificil(pd.DataFrame([
    [0, np.nan, 3.0, 2, np.nan],
    [np.nan, 1, 2, 3, 4],
    [np.nan, 0, 0, np.nan, np.nan]
])))

0    3
1    4
2    2
dtype: int64
1
