## Iteración Eficiente
### Adrián Vázquez
#### 22/06/21

<b> Crear un generador para un DataFrame de pandas </b>

- Puedes crear fácilmente un generador a partir de un DataFrame de pandas. Cada vez que se itere a través de él, se obtendrán dos elementos el índice de la fila correspondiente una Serie pandas con todos los elementos de esa fila

- Vamos a crear un generador sobre el conjunto de datos de póker, importado como póker_manos. A continuación, imprimirás todos los elementos de la 2ª fila, utilizando el generador.

In [11]:
import pandas as pd 
import numpy as np 

poker_hands = pd.read_csv('datasets/poker_hand.csv')

In [12]:
# EJERCICIO 1
# CREAR UN GENERADOR ALREDEDOR DE LAS FILAS 

generator = poker_hands.iterrows()

first_element = next(generator)
second_element = next(generator)

print(first_element, second_element)


(0, S1        1
R1       10
S2        1
R2       11
S3        1
R3       13
S4        1
R4       12
S5        1
R5        1
Class     9
Name: 0, dtype: int64) (1, S1        2
R1       11
S2        2
R2       13
S3        2
R3       10
S4        2
R4       12
S5        2
R5        1
Class     9
Name: 1, dtype: int64)


### <b> La función iterrows() para hacer bucles </b>

- Acabamos de ver cómo crear un generador a partir de un DataFrame de pandas. Ahora usarás este generador y verás cómo aprovechar ese método de bucle a través de un DataFrame de pandas, todavía usando el conjunto de datos poker_hands.

- En concreto, queremos la suma de los rangos de todas las cartas, si el índice de la mano es un número impar. Los rangos de las cartas se encuentran en las columnas impares del DataFrame.

In [13]:
generador = poker_hands.iterrows()

for index, values in generador:
    # si el numero es par
    if index % 2 != 0:
        hand_sum = sum([values[1], values[3], values[5], values[7], values[9]])
        

### <b> .apply()  </b>

- puedes usar .apply() para asignar una función a cada celda del DataFrame, sin importar la columna o la fila.

- Vas a probarlo en el conjunto de datos poker_hands. Utilizarás .apply() para elevar al cuadrado cada celda del DataFrame. La forma nativa de Python para elevar al cuadrado un número n es n**2.

In [14]:
# Define the lambda transformation
get_square = lambda x: np.square(x)
# Apply the transformation
data_sum = poker_hands.apply(get_square)
print(data_sum.head())

   S1   R1  S2   R2  S3   R3  S4   R4  S5   R5  Class
0   1  100   1  121   1  169   1  144   1    1     81
1   4  121   4  169   4  100   4  144   4    1     81
2   9  144   9  121   9  169   9  100   9    1     81
3  16  100  16  121  16    1  16  169  16  144     81
4  16    1  16  169  16  144  16  121  16  100     81


### <b> .apply() para la iteración de filas </b>

- .apply() es muy útil para iterar por las filas de un DataFrame y aplicar una función específica.

- Trabajará sobre un subconjunto del conjunto de datos poker_hands, que incluye sólo el rango de las cinco cartas de cada mano en cada fila (este subconjunto se genera para usted en el script). Vas a obtener la varianza de cada mano para todos los rangos, y cada rango para todas las manos.

In [15]:
get_variance = lambda x: np.var(x)
# Apply the transformation for every row
data_tr = poker_hands[['R1', 'R2', 'R3', 'R4', 'R5']].apply(get_variance, axis=1)
print(data_tr.head())

0    18.64
1    18.64
2    18.64
3    18.64
4    18.64
dtype: float64


In [16]:
get_variance = lambda x: np.var(x)
# Apply the transformation on every rank
data_tr = poker_hands[['R1', 'R2', 'R3', 'R4', 'R5']].apply(get_variance, axis = 0)
print(data_tr.head())

R1    14.060473
R2    14.189523
R3    14.024270
R4    14.040552
R5    13.998851
dtype: float64


###  <b> Pandas vectorización </b>

- En este ejercicio, aplicarás la vectorización sobre series de pandas para:

  - calcular el rango medio de todas las cartas de cada mano (fila)
  - calcular el rango medio de cada una de las 5 cartas de cada mano (columna)

- Utilizarás de nuevo el conjunto de datos poker_hands para comparar la eficiencia de ambos métodos.

In [17]:
import time
row_start_time = time.time()
mean_r = poker_hands[['R1', 'R2', 'R3', 'R4', 'R5']].mean(axis=1)
print("Time using pandas vectorization for rows: {} sec".format(time.time() - row_start_time))
print(mean_r.head())
# Calculate the mean rank of each of the 5 card in all hands
col_start_time = time.time()
mean_c = poker_hands[['R1', 'R2', 'R3', 'R4', 'R5']].mean(axis=0)
print("Time using pandas vectorization for columns: {} sec".format(time.time() - col_start_time))
print(mean_c.head())

Time using pandas vectorization for rows: 0.002477407455444336 sec
0    9.4
1    9.4
2    9.4
3    9.4
4    9.4
dtype: float64
Time using pandas vectorization for columns: 0.0032150745391845703 sec
R1    6.995242
R2    7.014194
R3    7.014154
R4    6.942463
R5    6.962735
dtype: float64


#### <b> Métodos de vectorización para el bucle de un DataFrame </b>

- Ahora que estás familiarizado con la vectorización en pandas y NumPy, vas a comparar tú mismo sus respectivos rendimientos.

- Tu tarea es calcular la varianza de todas las manos en cada mano usando la vectorización sobre pandas Series y luego modificar tu código usando el método de vectorización sobre Numpy ndarrays.

#### Calcula la varianza de los rangos de todas las cartas de cada mano utilizando la vectorización con pandas.

In [18]:
# Calculate the variance in each hand
start_time = time.time()
poker_var = poker_hands[[ 'R1', 'R2', 'R3', 'R4', 'R5']].var(axis =1)
print("Time using pandas vectorization: {} sec".format(time.time() - start_time))
print(poker_var.head())

Time using pandas vectorization: 0.0027437210083007812 sec
0    23.3
1    23.3
2    23.3
3    23.3
4    23.3
dtype: float64


#### Calcula la varianza de los rangos de todas las cartas de cada mano utilizando la vectorización con NumPy.

In [19]:
# Calculate the variance in each hand
start_time = time.time()
poker_var = poker_hands[[ 'R1', 'R2', 'R3', 'R4', 'R5']].values.var(axis=1, ddof=1)
print("Time using NumPy vectorization: {} sec".format(time.time() - start_time))
print(poker_var[0:5])

Time using NumPy vectorization: 0.00487065315246582 sec
[23.3 23.3 23.3 23.3 23.3]


Conoces todas las técnicas para iterar a través de un DataFrame de pandas y aplicar funciones sobre sus valores! Por si te lo preguntas, se espera obtener 5 valores idénticos. El conjunto de datos contiene todas las combinaciones posibles de 5 cartas de una baraja estándar: las columnas contienen todas las mismas cartas, aunque en un orden diferente, por lo que la varianza es la misma para todas las columnas.

- Numpy opera en matrices llamadas ndarrays. Una diferencia entre series y ndsrrsys. Es que omite muchas operaciones como la indexación, la verificación del tipo de dato.

- como resultado, las operaciones en matrices NumPy pueden ser significativamente mas rapidas que las operaciones en pandas series.

### <b> NOTA : </b>
Se puede utilizar la vectorización sobre ndarrays de NumPy para sustituir la vectorización sobre series de pandas Cuando no se utilizan operaciones como la indexación o el tipo de datos.