![texto alternativo](https://raw.githubusercontent.com/Chilangdon20/PYTHON/master/Curso%20Basico/CursoExpress/Imagenes/POKER.png)

# Código eficiente en Pandas.

## Introducción:

En esta parte veremos formas eficientes de realizar una variedad de tareas utilizando la biblioteca de pandas,incluso la tarea más fácil en Python tendrá una velocidad más rápida, que será muy útil en situaciones donde el tiempo importa.

Para el contexto de esta sección utilizaremos una función que captura la corriente del tiempo de la computadora en segundos desde el 1 de enero de 1970 como un número de coma flotante, esta función es:

* ``time.time()`` :

   * Del paquete time de Python.
   * Cada vez que estemos interesados en medir el tiempo de ejecución de algún código , lo haremos con la libreria time.


En el proximo troizo de código asignamos el tiempo actual antes de la ejecución , ejecutamos la operación que nos interesa y medimos el tiempo nuevamente justo despues dela ejecución del código.

Al final , imprimimos el resultado ens egundo lugar, en un mensaje compacto pero significativo.





In [None]:
import time

# Tiempo record antes de la ejecución

start_time = time.time()

# ejecutamos la operación.

result = 5+2

# tiempo record despues de la ejecución.

end_time = time.time()

print("El resultado calculado en {} segundos".format(end_time - start_time))

El resultado calculado en 4.5299530029296875e-05 segundos


Antes de aplicar la noción de eficiencia de tiempo en cualquier problema relacionado con padnas , lo haremos comparando la eficiencia entre una comprension de lista y un bucle for en un ejemplo.

Estamos interesado en calculas el cuadrado de cada número desde cero, hasta un millón.Al principio usaremos una lista de comprensión para ejecutar esto.

In [None]:
# Comprension de lista
list_comp_start_time = time.time()
result = [i*i for i in range(0,1000000)]
list_comp_end_time = time.time()
print("Tiempo usando la compresion de lista: {} segundos".format(list_comp_start_time 
                                                                 - list_comp_end_time))

Tiempo usando la compresion de lista: -0.11243844032287598 segundos


A continuación lo haremos con un  bucle for:


In [None]:
# For loop
for_loop_start = time.time()
result = []
for i in range(0,1000000):
  result.append(i*i)
for_loop_end = time.time()
print("Tiempo usando for loop: {} segundos".format(for_loop_start
                                                                 - for_loop_end))

Tiempo usando for loop: -0.1798391342163086 segundos


En la mayoria de los casoa, una lista comprende una forma más rapida de realizar una ooperación simple en comparación con un bucle for.

Un hallazgo interesante sería ver qué tan rápido es la comprension de  una lista.

In [None]:
list_comp_time = list_comp_end_time - list_comp_start_time
for_comp_time = for_loop_end - for_loop_start
print("La diferencia de tiempo es : {}%".format((for_comp_time - list_comp_time)/
                                                list_comp_time*100))

La diferencia de tiempo es : 59.9445293797087%


Podemos ver que es un 59% mas rapído que un bucle for.

Si bien el ejemplo anterior podria no parecer una gran mejora, nostros trabajaremos en un segundo ejemplo para ilustrar la importancia de una codificación eficiente.

Estamos interesados en calcular la suma de todos los números enteros positivos consecutivos de 1 a 1 millón,la forma mas inuitiva de hacerloes mediante la fuerca bruta, agregando cada numero a la suma uno por uno.

In [None]:
def sum_fuerza_bruta(N):
  res = 0
  for i in range(1,N+1):
    res+=i
  return res

Una forma más inteligente de proceder es utilizar una formula conocida:

$1+2+...+N = 
\frac{N(N+1)}{2}\qquad $

In [None]:
def sum_formula(N):
  return N*(N+1)/2

## ¿Cual tiene mejor tiempo?

A continuación compararemos el tiempo entre ambas funciones para ver cual es mas efciiente:


In [None]:
# Usando la fórmula:

formulat_start_time = time.time()
formula_resulta = sum_formula(1000000)
formulat_end_time = time.time()
print("Tiempo usando la formula: {} segundos".format(formulat_end_time-
                                                     formulat_start_time))

Tiempo usando la formula: 0.00011849403381347656 segundos


In [None]:
# Usando fuerza bruta:

fuerzab_start_time = time.time()
fuerzab_resulta = sum_fuerza_bruta(1000000)
fuerzab_end_time = time.time()

print("Tiempo usando la fuierza bruta: {} segundos".format(fuerzab_end_time-
                                                           fuerzab_start_time))

Tiempo usando la fuierza bruta: 0.06696200370788574 segundos


Podemos ver que con la formula nuestros resultado mejoran radicalmente.

# Localizando filas - ``.iloc[]``& ``.loc[]``

## Introducción:

En esta seccion , veremos las funciones ``loc[]`` e ``iloc[]``y encontraremos  cuál es el más eficiente para seleccionar columnas y filas en un DataFrame de Pandas.

Veamos el conjunto de datos principal que usaremos en esta seccion , que deriva del famoso juego de cartas de Póker.

En cada ronda, cada jugador tiene 5 cartas en la mano, cada una caracterizada por su símbolo, que puede ser corazones,diamantes, tréboles o espadas y su rango que va del 1 al 13.

Nuestro DataSet consta de todas las combinaciones posibles de cinco tarjetas que una persona puede poseer.


In [None]:
import pandas as pd

data = pd.read_csv("/content/poker_hand.csv")
print(data)

       S1  R1  S2  R2  S3  R3  S4  R4  S5  R5  Class
0       1  10   1  11   1  13   1  12   1   1      9
1       2  11   2  13   2  10   2  12   2   1      9
2       3  12   3  11   3  13   3  10   3   1      9
3       4  10   4  11   4   1   4  13   4  12      9
4       4   1   4  13   4  12   4  11   4  10      9
...    ..  ..  ..  ..  ..  ..  ..  ..  ..  ..    ...
25005   3   9   2   6   4  11   4  12   2   4      0
25006   4   1   4  10   3  13   3   4   1  10      1
25007   2   1   2  10   4   4   4   1   4  13      1
25008   2  12   4   3   1  10   1  12   4   9      1
25009   1   7   3  11   3   3   4   8   3   7      1

[25010 rows x 11 columns]


Tomemos por ejemplo la primera combinación que corresponde a la primera fila, tenemos un 10 de diamantes , un Jack de tréboles , un 4 de picas y un as de corazones.


Una de las caracteristicas más utiles de la biblioteca de pandas es la facilidad de conveniencia de seleccionar filas especificas de un Pandas DataFrame.

Vamos a usar ``.iloc[]``, el localizador de números de indice y el ``loc[]`` localizador de nombres de indice.En este ejemplo queremos seleccionar las mprimeras 500 filas del conjunto de datos de póker.

En primer lugar , utilizando la funcion ``loc[]``.




In [None]:
# Especificando el rango de filas a seleccionar.

filas = range(0,500)

# Tiempo seleccionando  filas usando ``.loc[]```

loc_start_time = time.time()
data.loc[filas]
loc_end_time = time.time()

print("El tiempo usando .loc[]: {} segundos".format(loc_end_time-loc_start_time))

El tiempo usando .loc[]: 0.0017731189727783203 segundos


Ahora veremos el tiempo usando ``.iloc[]``


In [None]:
# Especificando el rango de filas a seleccionar.

filas = range(0,500)

# Tiempo seleccionando  filas usando ``.iloc[]```

iloc_start_time = time.time()
data.loc[filas]
iloc_end_time = time.time()

print("El tiempo usando .iloc[]: {} segundos".format(iloc_end_time-iloc_start_time))

El tiempo usando .iloc[]: 0.0012366771697998047 segundos


Si bien ambos metodos podemos ver que `ìloc``funciona mucho mas rapido,``iloc`` aprovecha elorden de los índices , que ya están ordenados y por lo tanto es más rápido.

Usamos `ìloc`` & ``loc``para apuntar a filas , pero también podemos usarlos para localizar diferentes caraterísticas en un DataFrame de Pandas.

En este ejemplo queremos seleccionar las tres primeras columnas del conjunto de datos:
* El simbolo
* El rango de las cartas que llegaron primero en cada mano.
* El rango de las cartas que llegaron en segundo lugar de cada mano.

Probaremos con ambos metodos.

probando con ``.iloc``

La sintais de ``iloc[]`` para ese proposito ee simple, solo denotamos con dos puntos que queremos todas las filas de el DataFrame y luego despues de la coma, nosotros usamos dos puntos seguido de un 3 para denotar que queremos todas las columnas hasta la tercera y calcularemos su tiempode ejecución.

In [None]:
iloc_start_time = time.time()
data.iloc[:,:3]
iloc_end_time = time.time()

print("El tiempo usando .iloc[]: {} segundos".format(iloc_end_time-iloc_start_time))

El tiempo usando .iloc[]: 0.0006663799285888672 segundos


Ahora para seleccionar las columnas por nombre simplemente incluimos el nombre de las columnas que queremos entre corchetes dobles.


In [None]:
names_start_time = time.time()
data[['S1','R1','S2']]
names_end_time = time.time()
print("El tiempo usando .loc[]: {} segundos".format(names_end_time-names_start_time))

El tiempo usando .loc[]: 0.0038614273071289062 segundos


Aveces es posible que nos interese una entrada o característica especifica de un DataFrame o tambien , podemos querer seleccionar uno o varios completamente al azar.

En el conjunto de datos de Póker seleccionamos 100 filas aleatorias que corresponden a 100 manos de póker.

Usaremos la función ``sample()`` que se escribio por ese motvio específico.La sintaxis de esta función es muy sencilla , denotamos cuántas muestras queremos obtener y el eje del que queremos muestrear, en este caso usamos 0 para las filas.

In [71]:
start_time = time.time()
data.sample(100,axis=0)
print("Tiempo usando sample : {} segundos".format(time.time()- start_time))

Tiempo usando sample : 0.00157928466796875 segundos


NumPy incluye la función de generación de enteros aleatorios ``randint()``que podemos usar para obtener números aleatorios de un rango predefinido.

Entonce podemos usar estos números como indices para las filas del DataFrame,la sintaxis de esta función es muy simple, damos los números más bajos y más altos que queremos para uestrear con argumentos bajo y altgo y el argumento de mestras que queremos con el argumento size.

In [73]:
import numpy as np
start_time = time.time()
data.iloc[np.random.randint(low=0,high=data.shape[0],size=100)]
print("El tiempo usando .iloc[]: {} segundos".format(time.time()-start_time))

El tiempo usando .iloc[]: 0.0009667873382568359 segundos


Las funciónes integradas siempre son útiles porque están optimizadas para tareas específicas.Para el mismo conjunto de datos Póker , estamosinteresados en seleccionar tres caracteristicas aleatorias de todas ls características del conjunto de datos.

Como lo hicimos al muestrear fils aleatorias, todavia podemos usar pandas ``sample`` simplemente cambiando el ejej a 1 para selecionar ahora las caracteristicas en lugar de las filas.



In [75]:
start_time = time.time()
data.sample(3,axis=1)
print("El tiempo usando .sample() es : {} segundos".format(time.time()-start_time))

El tiempo usando .sample() es : 0.0011010169982910156 segundos


Del mismo modo, podemos modificar ligeramente el generador de enteros aleatorios de NumPy para generar índices de columnas al azar y usar ``iloc()`` para locarlizar todas las filas y las columnas seleccionadas.

In [77]:
N = data.shape[1]
start_time = time.time()
data.iloc[:,np.random.randint(low=0,high=N,size=3)]
print("Tiempo usando .iloc[]: {} segundos".format(time.time()-start_time))

Tiempo usando .iloc[]: 0.0015854835510253906 segundos




---

