# **Obtención y preparación de datos**

# OD11. Selección en Dataframes

Desde un punto de vista semántico, un dataframe puede ser considerado semejante a un diccionario de series, en el que las claves son los nombres de las columnas y los valores, las columnas (que son series pandas).

In [None]:
import pandas as pd
import numpy as np

In [None]:
ventas = pd.DataFrame({
    "Entradas": [41, 32, 56, 18],
    "Salidas": [17, 54, 6, 78],
    "Valoración": [66, 54, 49, 66],
    "Límite": ["No", "Sí", "No", "No"],
    "Cambio": [1.43, 1.16, -0.67, 0.77]
},
    index = ["Ene", "Feb", "Mar", "Abr"]
)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,41,17,66,No,1.43
Feb,32,54,54,Sí,1.16
Mar,56,6,49,No,-0.67
Abr,18,78,66,No,0.77


Es posible utilizar la sintaxis de los diccionarios para seleccionar la columna Entradas.

In [None]:
print(type(ventas["Entradas"]))

<class 'pandas.core.series.Series'>


In [None]:
ventas["Entradas"]

Unnamed: 0,Entradas
Ene,41
Feb,32
Mar,56
Abr,18


Esto significa que podemos realizar una selección en dicho resultado para, por ejemplo, extraer el valor correspondiente a febrero.

In [None]:
ventas["Entradas"]["Feb"]

32

Usar comas para separar no funciona y por lo tanto nos entrega un error.

In [None]:
try:
    # La separación por comas no funciona, nos entrega un error de llave
    ventas["Entradas", "Feb"]
except Exception as e:
    print(e.__doc__)
    print(type(e).__name__)


Mapping key not found.
KeyError


Si, una vez seleccionada una columna, le asignamos una lista o array (o serie) de valores de la misma longitud, estamos modificando dicha columna del dataframe.

In [None]:
ventas["Entradas"] = [33, 25, 40, 12]
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,33,17,66,No,1.43
Feb,25,54,54,Sí,1.16
Mar,40,6,49,No,-0.67
Abr,12,78,66,No,0.77


Si asignamos un único valor escalar, este se propaga por toda la columna.

In [None]:
ventas["Salidas"] = 1
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio
Ene,33,1,66,No,1.43
Feb,25,1,54,Sí,1.16
Mar,40,1,49,No,-0.67
Abr,12,1,66,No,0.77


Si estuviésemos asignando un array cuya longitud no coincidiese con la de la columna (y no estuviésemos asignando un escalar), obtendríamos un error.

Si asignamos una serie pandas se consideran los índices del dataframe y de la serie, haciendo coincidir los valores cuyos índices sean los mismos en ambas estructuras (si dicha columna no existe, se crea). En el caso de que haya valores en la serie con índices que no se encuentren en el dataframe, se descartan. Y en el caso de que haya índices en el dataframe que no se encuentren en la serie, se asigna un valor *NaN*.

Así, en el siguiente ejemplo, estamos añadiendo una serie cuyos índices son "Ene", "Mar", "Abr" y "May". Es decir, la serie no tiene un valor para el índice "Feb" que sí se encuentra en el dataframe (se asigna un *NaN*), e incluye el índice "May" que no se encuentra en el dataframe y se descarta.

In [None]:
# Feb no existe en la serie, luego se completa con NaN
# Mar no existe en el DataFrame, luego se descarta
ventas["Perdidas"] = pd.Series([5, 4, 6, 8], index = ["Ene", "Mar", "Abr", "May"])
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas
Ene,33,1,66,No,1.43,5.0
Feb,25,1,54,Sí,1.16,
Mar,40,1,49,No,-0.67,4.0
Abr,12,1,66,No,0.77,6.0


Los valores asignados pueden proceder del propio dataframe:

In [None]:
ventas["Ganancias"] = (ventas["Entradas"]*2) - (ventas["Valoración"]/10)
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas,Ganancias
Ene,33,1,66,No,1.43,5.0,59.4
Feb,25,1,54,Sí,1.16,,44.6
Mar,40,1,49,No,-0.67,4.0,75.1
Abr,12,1,66,No,0.77,6.0,17.4


También podemos acceder a una columna con la llamada "notación punto".

In [None]:
ventas.Ganancias = 1
ventas

Unnamed: 0,Entradas,Salidas,Valoración,Límite,Cambio,Perdidas,Ganancias
Ene,33,1,66,No,1.43,5.0,1
Feb,25,1,54,Sí,1.16,,1
Mar,40,1,49,No,-0.67,4.0,1
Abr,12,1,66,No,0.77,6.0,1


Deberemos tener en cuenta que con esta notación no es posible crear nuevas columnas ni eliminarlas y que solo funcionará si el nombre de la columna no incluye espacios en blanco y no coincide con ninguna palabra reservada de Python.

El uso de un rango numérico entre los corchetes realiza una selección de filas, lo que puede parecer una cierta incoherencia.

In [None]:
import numpy as np
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [None]:
df[2:5]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14


El equipo de pandas lo justifica diciendo que esta sintaxis resulta extremadamente conveniente al tratarse de un tipo de selección frecuentemente usada. Esto es cierto, pero el hecho de que selecciones aparentemente semejantes (`df[1,2]`, `df[[1, 2]]`, `df[1:3, 5]`, etc.) devuelvan un error no facilita su comprensión.

Se devuelven las filas entre el primer valor del rango (incluido) y el último (sin incluir). También podríamos haber usado las etiquetas del índice.

In [None]:
df["b":"d"]

Unnamed: 0,A,B,C
b,3,4,5
c,6,7,8
d,9,10,11


In [None]:
df[:3]

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


In [None]:
df[:"c"]

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8


Al situar entre los corchetes una __lista de etiquetas__, estaremos seleccionando columnas en el orden en el que aparecen en la lista y con formato dataframe:

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [None]:
# Noten los dobles corchetes. El interior representa una lista
print(type(df[["C", "A"]]))
df[["C", "A"]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,C,A
a,2,0
b,5,3
c,8,6
d,11,9
e,14,12
f,17,15


También es posible extraer de forma segura una columna de un dataframe usando el método `pandas.DataFrame.get`. Éste extrae la columna indicada devolviendo un valor alternativo (por defecto `None`) si dicha columna no existe.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.get("A")

Unnamed: 0,A
a,0
b,3
c,6
d,9
e,12
f,15


In [None]:
df.get("D")

Al igual que ocurre con las series, el método `pandas.DataFrame.loc` permite seleccionar un conjunto de filas y columnas por etiquetas. Este método acepta diferentes argumentos.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [None]:
df.loc["c"]

Unnamed: 0,c
A,6
B,7
C,8


El resultado es una serie pandas con las etiquetas de columnas del dataframe original como índice.

Es necesario mencionar que el argumento será siempre interpretado como etiqueta, aun cuando pueda estar representando un índice válido.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = [1, 3, 0, 4],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
1,0,1,2
3,3,4,5
0,6,7,8
4,9,10,11


In [None]:
# No es el índice cero, es la etiqueta 0
df.loc[0]

Unnamed: 0,0
A,6
B,7
C,8


Si la etiqueta no existe, se devuelve un error (nuevamente, aun cuando la etiqueta sea un número que pueda estar representando un índice válido).

In [None]:
try:
    df.loc[5]
except Exception as e:
    print(e.__doc__)
    print(type(e).__name__)

Mapping key not found.
KeyError


Si pasamos a `loc` una __lista de etiquetas__, estaremos extrayendo las filas cuyas etiquetas se indican, y en el orden en el que aparezcan en la lista.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [None]:
df.loc[["c", "a", "e"]]

Unnamed: 0,A,B,C
c,6,7,8
a,0,1,2
e,12,13,14


Al contrario de lo que ocurre cuando solo indicamos una etiqueta, el resultado es un dataframe. Y lo es aún cuando la lista contenga un único elemento.

In [None]:
print(type(df.loc[["c"]]))
df.loc[["c"]]

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,A,B,C
c,6,7,8


In [None]:
print(type(df.loc["c"]))
df.loc["c"]

<class 'pandas.core.series.Series'>


Unnamed: 0,c
A,6
B,7
C,8


Otra opción es utilizar rangos limitados por etiquetas.

In [None]:
df.loc["b":"d"]

Unnamed: 0,A,B,C
b,3,4,5
c,6,7,8
d,9,10,11


Obsérvese que la selección incluye todas las filas incluyendo las dos de los extremos del rango.

En los ejemplos vistos hasta ahora estamos extrayendo una o varias filas para todas las columnas. En posible, por supuesto, especificar qué filas y qué columnas exactas queremos extraer. Así, si utilizamos una única etiqueta para indicar la fila, y una única etiqueta para indicar la columna, separadas por una coma, estaremos extrayendo un único valor.

In [None]:
df.loc["a", "C"]

2

Podemos sustituir una de las dos etiquetas por el símbolo de dos puntos (:), lo que supondrá seleccionar todos los elementos de ese eje.

In [None]:
df.loc[:, "A"]

Unnamed: 0,A
a,0
b,3
c,6
d,9
e,12
f,15


Esto supone que, por ejemplo, las dos expresiones siguientes devuelven el mismo resultado:

In [None]:
df.loc["b"]

Unnamed: 0,b
A,3
B,4
C,5


In [None]:
df.loc["b",:]

Unnamed: 0,b
A,3
B,4
C,5


Los métodos vistos pueden combinarse. Podemos, por ejemplo, seleccionar la intersección de las filas $e$ y $c$ (en este orden) y la columna $B$.

In [None]:
df.loc[["e", "c"], "B"]

Unnamed: 0,B
e,13
c,7


El método `pandas.DataFrame.iloc` permite realizar selecciones por posición. Tal y como cabría esperar, pueden utilizarse diferentes tipos de argumentos que determinan qué elementos se están extrayendo.

In [None]:
df = pd.DataFrame(np.random.randint(0, 10, 18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,3,5
b,0,7,2
c,0,0,0
d,3,9,8
e,9,3,9
f,9,7,2


In [None]:
df.iloc[2]

Unnamed: 0,c
A,0
B,0
C,0


El número indicado siempre será tratado como posición, y no como etiqueta.

In [None]:
df = pd.DataFrame(np.arange(12).reshape([4, 3]),
                  index = [3, 2, 1, 0],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
3,0,1,2
2,3,4,5
1,6,7,8
0,9,10,11


In [None]:
df.iloc[3]

Unnamed: 0,0
A,9
B,10
C,11


Si el número es negativo, hace referencia al final del dataframe.



In [None]:
df.iloc[-1]

Unnamed: 0,0
A,9
B,10
C,11


Si utilizamos como argumento una __lista o array de números__, estamos extrayendo las filas cuyos índices son los elementos del mismo, y en el orden en el que aparecen en él.

In [None]:
df = pd.DataFrame(np.random.randint(0, 10, 18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,7,2,7
b,0,1,7
c,6,8,9
d,0,9,4
e,7,6,1
f,1,4,1


In [None]:
# Noten los dobles corchetes
df.iloc[[3, 1]]

Unnamed: 0,A,B,C
d,0,9,4
b,0,1,7


Si utilizamos un rango de números, como en el siguiente ejemplo en el que indicamos como argumento 2:4, estamos extrayendo las filas cuyos índices van de la primera cifra del rango incluida (2 en el ejemplo) hasta la última cifra sin incluir (4 en el ejemplo).

In [None]:
df.iloc[2:4]

Unnamed: 0,A,B,C
c,6,8,9
d,0,9,4


Como suele ser habitual, si no se especifica el primer valor, se consideran las filas desde la primera. Y si no se especifica el último valor, se consideran las filas hasta la última (incluida).

In [None]:
df.iloc[:3]

Unnamed: 0,A,B,C
a,7,2,7
b,0,1,7
c,6,8,9


In [None]:
df.iloc[4:]

Unnamed: 0,A,B,C
e,7,6,1
f,1,4,1


También pueden usarse valores negativos para especificar el comienzo o el final del rango.

Si añadimos un segundo argumento, estaremos haciendo referencia al índice de columna.

In [None]:
df.iloc[3, 1]

9

In [None]:
df.iloc[2:4, [1,2]]

Unnamed: 0,B,C
c,8,9
d,9,4


En ocasiones nos encontraremos con que resultaría de utilidad poder realizar selecciones mezclando etiquetas e índices, y los métodos vistos, `loc` e `iloc`, solo permiten el uso de etiquetas o de índices, respectivamente. Para poder mezclar ambos tipos de referencias podemos recurrir a los métodos `pandas.Index.get_loc` y `pandas.Index.get_indexer`, métodos asociados a los índices de un dataframe.

El primero, `get_loc`, devuelve el índice de la etiqueta que se adjunte como parámetro. El segundo, `get_indexer`, devuelve un array con los índices de las etiquetas que se adjunten en forma de lista como parámetro.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


Si aplicamos estos métodos al índice de columnas haciendo referencia a etiquetas de columnas, obtenemos los siguientes resultados:

In [None]:
df.columns.get_loc("B")

1

In [None]:
df.columns.get_indexer(["A", "C"])

array([0, 2])

En el primer caso hemos pasado la etiqueta "B" y el método ha devuelto su índice (1). En el segundo caso hemos pasado una lista de etiquetas y hemos obtenido un array con sus índices.

Si ejecutamos estos métodos en el índice de filas:

In [None]:
df.index.get_loc("d")

3

In [None]:
df.index.get_indexer(["c", "e"])

array([2, 4])

Ahora que sabemos cómo convertir etiquetas en sus índices equivalentes, podemos seleccionar datos de un dataframe mezclando etiquetas e índices si convertimos las etiquetas y utilizamos el método `iloc` ya visto. Por ejemplo, si quisiéramos extraer del anterior dataframe el dato que ocupa la fila $c$ y la columna de índice 2, podríamos conseguirlo del siguiente modo:

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [None]:
df.iloc[df.index.get_loc("c"), 2]

8

O si deseásemos obtener de las filas 5 y 3 (en este orden) los valores correspondientes a las columnas $C$ y $A$ (en este orden), podríamos hacerlo con la siguiente expresión:

In [None]:
df.iloc[[5, 3], df.columns.get_indexer(["C", "A"])]

Unnamed: 0,C,A
f,17,15
d,11,9


Otro método especialmente útil para la selección es el uso de listas de booleanos. Nuevamente puede parecer un tanto incoherente aunque, en este caso, su uso sí es extremadamente conveniente.

Si partimos del mismo dataframe usado en la sección anterior, podemos crear una lista de booleanos (que, por motivos puramente pedagógicos, asignamos a una variable, *mask*) y realizar la selección con ella entre los corchetes. Vemos a continuación que este método también selecciona filas del dataframe.

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
mask = [True, False, True, False, False, True]
df[mask]

Unnamed: 0,A,B,C
a,0,1,2
c,6,7,8
f,15,16,17


El vector de booleanos deberá tener la misma longitud que el índice de filas (es decir, un booleano por fila) y la selección devolverá aquellas filas para las que el elemento correspondiente del vector tome el valor `True`.

La verdadera potencia de este estilo de selección se pone de manifiesto cuando la máscara se genera a partir de los datos del propio dataframe. Por ejemplo, si queremos seleccionar las filas para las que el valor de la columna $A$ sea mayor que 7:

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df

Unnamed: 0,A,B,C
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [None]:
df[df.A > 7]

Unnamed: 0,A,B,C
d,9,10,11
e,12,13,14
f,15,16,17


Este tipo de filtrados resultan muy frecuentes en entornos de análisis, de ahí que la posibilidad de realizarlos sin necesidad de recurrir a métodos adicionales (`loc`, `iloc` o `get`, por ejemplo) resulte tan conveniente.

Con `loc` podemos usar directamente una expresión de comparación como la vista:

In [None]:
df.loc[df.B > 6]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


Sin embargo, con `iloc` nos veremos obligados a extraer los valores del dataframe resultante de la comparación -tal y como ocurría con las series- pues, de otro modo, obtendremos un error. Recordar que no hacepta series como argumentos, solo arreglos o listas.

In [None]:
df.iloc[(df.B > 6).values]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


In [None]:
df.iloc[list(df.B > 6)]

Unnamed: 0,A,B,C
c,6,7,8
d,9,10,11
e,12,13,14
f,15,16,17


**Evitamos problemas si, tal y como sugiere pandas, utilizamos siempre el método loc.**


## <font color='purple'>__Material adicional__</font>
En este video se explican dos métodos adicionales de Python para acceder a datos en un DataFrame: `iat` y `at`. El método `iat` se utiliza para seleccionar un elemento específico mediante índices numéricos, mientras que `at` hace lo mismo pero mediante etiquetas.

Si bien las funciones "at" son más rápidas, las funciones "loc" son más adecuadas para problemas complejos porque aceptan slices, listas, booleanos como datos entrada.


### Link: [Pandas: Métodos iat, at](https://youtu.be/2AoVMcQNLLs)


### <font color='purple'>Fin material adicional </font>

## <font color='purple'> __EXPERIMENTO__: </font>

### Uso de loc para seleccionar valores en índices y columnas simultáneamente
Se simulan las ventas de una tienda con 7 productos(`Pantalón, Zapato, Camisa, Chaqueta, Corbata, Chaleco, Calcetin`). Para el set de datos de prueba se recurre a funciones de numpy que generan datos aleatorios.


Se crea una dataframe de 10000 ventas, de hasta 5 unidades. La columna `fecha` se transforma en indice del dataframe.

Finalmente se aplica filtros usando `loc`, que permita seleccionar simultáneamente:


*   Ventas en el mes de marzo de 2024
*   Producto: `Camisa`
*   Cantidad mayor a 3 unidades
*   Venta superior a $ 350

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame que simula las ventas de la tienda
data = {
    'fecha': pd.date_range(start='2024-01-01', periods=10000, freq='h'),
    'producto': np.random.choice(['Camisa', 'Pantalón', 'Zapatos', 'Chaqueta', 'Corbata', 'Chaleco', 'Calcetin'], size=10000),
    'cantidad': np.random.randint(1, 6, size=10000),
    'ventas': np.random.uniform(50, 500, size=10000)
}

tienda = pd.DataFrame(data)
# Establecer un índice basado en la fecha
tienda.set_index('fecha', inplace=True)
tienda.columns.name = "Tienda"
print(f"Una muestra del dataframe 'Tienda':")
display(tienda.sample(5))

fecha_inicio = pd.to_datetime('2024-03-01')
fecha_fin = pd.to_datetime('2024-03-31')

# Usamos .loc para seleccionar ventas de 'Camisetas' que excedan 3 unidades entre marzo 2024, y ventas superior a 350
seleccion =  tienda.loc[slice(fecha_inicio, fecha_fin),:].loc[
    (tienda['producto'] == 'Camisa') & (tienda['cantidad'] > 3) & (tienda['ventas'] > 350),
    ['producto', 'cantidad', 'ventas']]


print(f"\nElementos que cumplen las condiciones")
display(seleccion)


Una muestra del dataframe 'Tienda':


Tienda,producto,cantidad,ventas
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-12-18 20:00:00,Corbata,4,428.622293
2024-09-13 22:00:00,Zapatos,1,146.252429
2024-03-31 04:00:00,Calcetin,4,70.980401
2024-08-07 23:00:00,Zapatos,3,146.301963
2024-09-02 00:00:00,Camisa,2,404.80211



Elementos que cumplen las condiciones


Tienda,producto,cantidad,ventas
fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-03-03 16:00:00,Camisa,5,459.150772
2024-03-04 00:00:00,Camisa,4,399.622711
2024-03-05 10:00:00,Camisa,4,424.533782
2024-03-06 17:00:00,Camisa,4,409.185349
2024-03-08 09:00:00,Camisa,5,365.131277
2024-03-10 17:00:00,Camisa,5,399.624919
2024-03-11 09:00:00,Camisa,5,460.060091
2024-03-11 14:00:00,Camisa,4,356.235391
2024-03-16 09:00:00,Camisa,5,421.001417
2024-03-24 17:00:00,Camisa,4,433.793752


Este experimento muestra una combinación de selecciones con índices basados en fechas, y condiciones específicas de columnas, para análisis del desempeño de ventas de un producto.

### <font color='purple'>Fin experimento </font>

Al igual que ocurre con las series, también los dataframes tienen un método que permite extraer elementos del mismo de forma aleatoria: `pandas.DataFrame.sample`. Este método permite especificar el número de elementos a extraer (o el porcentaje respecto del total, parámetros `n` y `frac`, respectivamente), si la extracción se realiza con reemplazo o no (parámetro `replace`), los pesos a aplicar a los elementos para realizar una extracción aleatoria ponderada (parámetro `weights`) y una semilla para el generador de números aleatorios que asegure la reproducibilidad de la extracción (parámetro `random_state`). También es posible indicar el eje a lo largo del cual se desea realizar la extracción (por defecto se extraen filas, correspondiente al eje 0).

In [None]:
df = pd.DataFrame(np.arange(18).reshape([6, 3]),
                  index = ["a", "b", "c", "d", "e", "f"],
                  columns = ["A", "B", "C"])
df.sample(3, random_state = 18)

Unnamed: 0,A,B,C
f,15,16,17
e,12,13,14
b,3,4,5


Si especificamos como eje el valor 1, estaremos extrayendo columnas.

In [None]:
df.sample(2, random_state = 18, axis = 1)

Unnamed: 0,A,B
a,0,1
b,3,4
c,6,7
d,9,10
e,12,13
f,15,16


Si hacemos uso del parámetro `frac`, podemos especificar el porcentaje de elementos a extraer.

In [None]:
df.sample(frac = 0.6, random_state = 18)

Unnamed: 0,A,B,C
f,15,16,17
e,12,13,14
b,3,4,5
a,0,1,2


Otra forma de extraer datos es la proporcionada por el método `pandas.DataFrame.pop`, que extrae y elimina una columna de un dataframe.

In [None]:
df = pd.DataFrame(np.arange(15).reshape([3, 5]),
                  index = ["a", "b", "c"],
                  columns = ["A", "B", "C", "D", "E"])
df

Unnamed: 0,A,B,C,D,E
a,0,1,2,3,4
b,5,6,7,8,9
c,10,11,12,13,14


In [None]:
columna = df.pop("B")
columna

Unnamed: 0,B
a,1
b,6
c,11


In [None]:
df

Unnamed: 0,A,C,D,E
a,0,2,3,4
b,5,7,8,9
c,10,12,13,14



## <font color='purple'>__Material adicional__</font>
En este link se analiza la diferencias entre usar `query` o `loc` para realizar selecciones en dataframes.

Si bien tanto query() como loc[] se utilizan para la selección de datos en Pandas, funcionan de manera ligeramente diferente. La función loc[] es un método de selección de datos basado en etiquetas, lo que significa que se utiliza para seleccionar datos según las etiquetas. Por otro lado, query() es un método más flexible que utiliza una expresión de cadena para la selección de datos.

### Link: [10 Mejores Ejemplos y Herramientas de Consultas en Pandas: Una Guía Completa](https://docs.kanaries.net/es/topics/Pandas/pandas-query)


### <font color='purple'>Fin material adicional </font>


## <font color='purple'> __EXPERIMENTO__: </font>

### Uso de loc aplicado a un caso en que existe doble índice
Vamos a probar una variante del anterior experimento, en que **el indexador es doble: fecha y producto.**

Se simulan las ventas de una tienda con 7 productos(`Pantalón, Zapato, Camisa, Chaqueta, Corbata, Chaleco, Calcetin`). Para el set de datos de prueba se recurre a funciones de numpy que generan datos aleatorios.


Se crea una dataframe de 10000 ventas, de hasta 5 unidades.
El índice es doble, formador po las columnas `fecha` y `producto`.

Finalmente se aplica filtros usando `loc`, que permita seleccionar simultáneamente:


*   Ventas en el mes de agosto de 2024
*   Producto: `Zapato`
*   Cantidad menor a 3 unidades
*   Venta inferior a $ 350

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame que simula las ventas de la tienda
data = {
    'fecha': pd.date_range(start='2024-01-01', periods=10000, freq='h'),
    'producto': np.random.choice(['Camisa', 'Pantalón', 'Zapatos', 'Chaqueta', 'Corbata', 'Chaleco', 'Calcetin'], size=10000),
    'cantidad': np.random.randint(1, 6, size=10000),
    'ventas': np.random.uniform(50, 500, size=10000)
}

tienda = pd.DataFrame(data)
# Establecer un índice doble basado en la fecha - producto
tienda.set_index(['fecha', 'producto'], inplace=True)

tienda.columns.name = "Tienda"
print(f"Una muestra del dataframe 'Tienda':")
display(tienda.sample(5))

# Usamos .loc para seleccionar ventas de 'Camisetas' que excedan 3 unidades entre marzo 2024, y ventas superior a 350

fecha_inicio = pd.to_datetime('2024-08-01')
fecha_fin = pd.to_datetime('2024-08-31')

# Filtrar por estadio de interés y rango de fechas
#seleccion = tienda.loc[(slice(fecha_inicio, fecha_fin), 'Camisa'), :]

seleccion = tienda.loc[(slice(fecha_inicio, fecha_fin), 'Camisa'),:].loc[(tienda['cantidad'] < 3) & (tienda['ventas'] < 350)]

#seleccion =  tienda.loc['2024-03-01':'2024-03-31'].loc[
#    (tienda['producto'] == 'Camisa') & (tienda['cantidad'] > 3) & (tienda['ventas'] > 350),
#    ['producto', 'cantidad', 'ventas']]

print(f"\nElementos que cumplen las condiciones")
display(seleccion)





# Crear un DataFrame con datos simulados de partidos de fútbol


Una muestra del dataframe 'Tienda':


Unnamed: 0_level_0,Tienda,cantidad,ventas
fecha,producto,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-04-08 05:00:00,Calcetin,5,245.341457
2024-06-28 05:00:00,Calcetin,5,90.269211
2025-01-16 18:00:00,Camisa,3,189.470529
2024-11-27 04:00:00,Pantalón,4,337.038849
2024-03-27 00:00:00,Corbata,5,156.573656



Elementos que cumplen las condiciones


Unnamed: 0_level_0,Tienda,cantidad,ventas
fecha,producto,Unnamed: 2_level_1,Unnamed: 3_level_1
2024-08-07 07:00:00,Camisa,1,55.812904
2024-08-07 15:00:00,Camisa,2,298.053296
2024-08-08 12:00:00,Camisa,1,162.530265
2024-08-09 12:00:00,Camisa,1,266.880557
2024-08-09 15:00:00,Camisa,2,101.493963
2024-08-14 05:00:00,Camisa,2,178.263126
2024-08-15 15:00:00,Camisa,2,58.59758
2024-08-15 20:00:00,Camisa,2,196.36287
2024-08-17 19:00:00,Camisa,1,52.274656
2024-08-18 20:00:00,Camisa,2,112.177867


### <font color='purple'>Fin experimento </font>

### <font color='green'>Actividad 1</font>

Escribir una función que reciba un DataFrame con el formato de la siguiente tabla:

| Mes     | Ventas | Gastos |
| ------- | -----: | -----: |
| Enero   |  30500 |  22000 |
| Febrero |  35600 |  23400 |
| Marzo   |  28300 |  18100 |
| Abril   |  33900 |  20700 |
| Mayo    |  31450 |  25620 |
| Junio   |  33040 |  25500 |

y devuelva el balance (ventas - gastos) para los siguientes periodos:

1. Enero a Marzo
2. Abril a Junio
3. Todo el periodo

In [None]:
# Tu código aquí ...

# Creamos el DataFrame con los datos:
import pandas as pd

datos = pd.DataFrame({
    "Ventas": [30500, 35600, 28300, 33900, 31450, 33040],
    "Gastos": [22000, 23400, 18100, 20700, 25620, 25500]},
    index=  ["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio"])

datos.index.name = "Mes"

print("\nLos datos de entrada son:")
display(datos)

# Se define función para calcular balances por periodos
def balance(dat):
    """
    Calcula el balance para el primer trimestre, segundo trimestre, y total.
    """
    # Se agrega Columna 'Balance'
    dat['Balance'] = dat['Ventas'] - dat['Gastos']

    # Se calculan balances para cada subperiodo usando el índice
    bal_ene_mar = dat.loc["Enero":"Marzo", "Balance"].sum()
    bal_abr_jun = dat.loc["Abril":"Junio", "Balance"].sum()
    bal_total = dat["Balance"].sum()

    # Los resultados se almacenan en un diccionario que constituye la salida de la función
    return {
        "Enero a Marzo": bal_ene_mar,
        "Abril a Junio": bal_abr_jun,
        "Todo el periodo": bal_total
    }

# Se aplica la función "balance" al dataframe de entrada, y el resultado se almacena en la variable "resultado"
resultado = balance(datos)

# Se responden a las preguntas solicitadas
print("\nEl resultado de Balances por período es:")
for periodo, balance in resultado.items():
    print(f"{periodo}: {balance}")



Los datos de entrada son:


Unnamed: 0_level_0,Ventas,Gastos
Mes,Unnamed: 1_level_1,Unnamed: 2_level_1
Enero,30500,22000
Febrero,35600,23400
Marzo,28300,18100
Abril,33900,20700
Mayo,31450,25620
Junio,33040,25500



El resultado de Balances por período es:
Enero a Marzo: 30900
Abril a Junio: 26570
Todo el periodo: 57470


<font color='green'>Fin Actividad 1</font>

### <font color='green'>Actividad 2</font>

Dado el siguiente DataFrame:

```
dates = pd.date_range('20230101', periods=6)
df1 = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=list('ABCD'))
```

Selecciona las filas correspondientes a las fechas después del 2023-01-03.

In [None]:
# Tu código aquí ...

# Se crean los archivos de entrada
import pandas as pd
import numpy as np

datos = pd.date_range('20230101', periods=6)
df1 = pd.DataFrame(np.random.randn(6, 4), index=datos, columns=list('ABCD'))

# Se muestra el dataframe de entrada
print("Datos de Entrada:")
display(df1)

# Para seleccionar los registros posteriores al 03-01-2023, aplicamos una selección sobre el índice del dataframe:
df2= df1[df1.index > '2023-01-03']

print("\nDatos posteriores al 03-01-2023:")
display(df2)

Datos de Entrada:


Unnamed: 0,A,B,C,D
2023-01-01,1.376905,-1.13852,0.783602,-1.156376
2023-01-02,0.151222,-0.524755,0.630578,0.147705
2023-01-03,-0.026661,0.558881,1.475707,1.322216
2023-01-04,1.703885,-2.422482,-1.330394,0.603071
2023-01-05,0.786312,0.809042,-1.112902,1.86563
2023-01-06,0.826498,0.244168,-1.075221,-0.266475



Datos posteriores al 03-01-2023:


Unnamed: 0,A,B,C,D
2023-01-04,1.703885,-2.422482,-1.330394,0.603071
2023-01-05,0.786312,0.809042,-1.112902,1.86563
2023-01-06,0.826498,0.244168,-1.075221,-0.266475


<font color='green'>Fin Actividad 2</font>

### <font color='green'>Actividad 3</font>

Dado el siguiente DataFrame:

```
df2 = pd.DataFrame(np.random.randint(0, 100, size=(8, 4)), columns=list('WXYZ'))
```

Selecciona las filas de índice 2 a 5, pero solo las columnas 'W' y 'Z'.

In [None]:
# Tu código aquí ...

# Se crean los archivos de entrada
import pandas as pd
import numpy as np

df2 = pd.DataFrame(np.random.randint(0, 100, size=(8, 4)), columns=list('WXYZ'))

# Se muestra el dataframe de entrada
print("Datos de Entrada:")
display(df2)

# Aplicamos selección sobre el índice y columnas del dataframe:
df3= df2.loc[2:5,['W', 'Z']]

print("\nDatos filtrados:")
display(df3)

Datos de Entrada:


Unnamed: 0,W,X,Y,Z
0,96,80,31,80
1,83,67,15,34
2,21,81,56,19
3,88,52,56,48
4,5,83,98,83
5,59,5,48,13
6,64,93,76,1
7,68,37,62,73



Datos filtrados:


Unnamed: 0,W,Z
2,21,19
3,88,48
4,5,83
5,59,13


<font color='green'>Fin Actividad 3</font>

### <font color='green'>Actividad 4</font>

Dado el siguiente DataFrame:

```
data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randint(1, 10, 8),
    'D': np.random.randint(1, 10, 8)
}
df3 = pd.DataFrame(data)
```

Selecciona todos los registros donde A sea 'foo' y B no sea 'three'.

In [None]:
# Tu código aquí ...

# Se crean los archivos de entrada
import pandas as pd
import numpy as np

data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randint(1, 10, 8),
    'D': np.random.randint(1, 10, 8)
}
df3 = pd.DataFrame(data)

# Se muestra el dataframe de entrada
print("Datos de Entrada:")
display(df3)

# Aplicamos selección sobre columnas del dataframe:
df4= df3[(df3['A'] == 'foo') & (df3['B'] != 'three')]

print("\nDatos filtrados:")
display(df4)

Datos de Entrada:


Unnamed: 0,A,B,C,D
0,foo,one,4,8
1,bar,one,3,2
2,foo,two,8,4
3,bar,three,7,2
4,foo,two,3,1
5,bar,two,3,3
6,foo,one,8,9
7,foo,three,8,2



Datos filtrados:


Unnamed: 0,A,B,C,D
0,foo,one,4,8
2,foo,two,8,4
4,foo,two,3,1
6,foo,one,8,9


<font color='green'>Fin Actividad 4</font>

### <font color='green'>Actividad 5</font>

Dado el siguiente DataFrame:

```
df4 = pd.DataFrame(np.random.randint(-10, 10, size=(6, 6)), columns=list('ABCDEF'))
```

Crea una máscara que identifique los valores negativos en el DataFrame y luego reemplace esos valores con su valor absoluto utilizando una función.

In [None]:
# Tu código aquí ...

# Se crean los archivos de entrada
import pandas as pd
import numpy as np

df4 = pd.DataFrame(np.random.randint(-10, 10, size=(6, 6)), columns=list('ABCDEF'))

# Se muestra el dataframe de entrada
print("Datos de Entrada:")
display(df4)

# Se define función para reemplazar negativos con su valor absoluto
def reemplazo(df):
    # Máscara para identificar los valores negativos
    mask = df < 0
    # Se usa la máscara para reemplazar valores negativos con su valor absoluto
    df[mask] = abs(df[mask])
    return df

# Se aplica la función
df5 = reemplazo(df4)

print("\nDatos con valores negativos reemplazados:")
display(df5)

Datos de Entrada:


Unnamed: 0,A,B,C,D,E,F
0,2,-10,0,0,0,-4
1,7,2,6,1,2,-6
2,-3,-5,1,-10,6,3
3,-4,-10,-7,8,-10,9
4,4,-2,5,-10,-3,5
5,0,1,0,1,-5,-1



Datos con valores negativos reemplazados:


Unnamed: 0,A,B,C,D,E,F
0,2,10,0,0,0,4
1,7,2,6,1,2,6
2,3,5,1,10,6,3
3,4,10,7,8,10,9
4,4,2,5,10,3,5
5,0,1,0,1,5,1


<font color='green'>Fin Actividad 5</font>

### <font color='green'>Actividad 6</font>

Dado el siguiente DataFrame:

```
df5 = pd.DataFrame({
    'key': list('ABCDAE'),
    'values': [10, 15, 20, 25, 30, 35],
    'dates': pd.date_range(start='20230101', periods=6)
})
```

Selecciona las filas con key igual a 'A', pero solo muestra las dos primeras entradas y las columnas a partir de la segunda columna.

In [None]:
# Tu código aquí ...

# Se crean los archivos de entrada
import pandas as pd
import numpy as np

df5 = pd.DataFrame({
    'key': list('ABCDAE'),
    'values': [10, 15, 20, 25, 30, 35],
    'dates': pd.date_range(start='20230101', periods=6)
})

# Se muestra el dataframe de entrada
print("Datos de Entrada:")
display(df5)

# Aplicamos filtro para columna 'key'
df6 = df5[df5['key'] == 'A']

#Luego aplicamos los filtros que dependen de la posición usando "iloc"
df7 = df6.iloc[:2, 1:]

print("\nDatos filtrados:")
display(df7)

Datos de Entrada:


Unnamed: 0,key,values,dates
0,A,10,2023-01-01
1,B,15,2023-01-02
2,C,20,2023-01-03
3,D,25,2023-01-04
4,A,30,2023-01-05
5,E,35,2023-01-06



Datos filtrados:


Unnamed: 0,values,dates
0,10,2023-01-01
4,30,2023-01-05


<font color='green'>Fin Actividad 6</font>

### <font color='green'>Actividad 7</font>

Dado el siguiente DataFrame:

```
df6 = pd.DataFrame({
    'region': ['North', 'South', 'West', 'East', 'Central', 'North'],
    'sales': [320, 234, 489, 278, 213, 389],
    'expenses': [245, 267, 248, 310, 190, 245]
})
```

Identifica y selecciona las regiones donde las ventas exceden los gastos por más del 20%.

In [None]:
# Tu código aquí ...

# Se crean los archivos de entrada
import pandas as pd
import numpy as np

df6 = pd.DataFrame({
    'region': ['North', 'South', 'West', 'East', 'Central', 'North'],
    'sales': [320, 234, 489, 278, 213, 389],
    'expenses': [245, 267, 248, 310, 190, 245]
})

# Se muestra el dataframe de entrada
print("Datos de Entrada:")
display(df6)

# Agregamos una columna al dataframe con la diferencia porcentual:
df6['dif_%'] = ((df6['sales'] - df6['expenses']) / df6['expenses']) * 100

#Filtramos los registros con dif_% > 20, manteniendo la columna "region"
df7 = df6[df6["dif_%"] > 20]

print("\nRegiones con diferencia mayor a 20%")
display(df7)

Datos de Entrada:


Unnamed: 0,region,sales,expenses
0,North,320,245
1,South,234,267
2,West,489,248
3,East,278,310
4,Central,213,190
5,North,389,245



Regiones con diferencia mayor a 20%


Unnamed: 0,region,sales,expenses,dif_%
0,North,320,245,30.612245
2,West,489,248,97.177419
5,North,389,245,58.77551


<font color='green'>Fin Actividad 7</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">


##<font color='red'>**Actividad Avanzada**</font>

### <font color='green'>Actividad 8</font>

Estás analizando un conjunto de datos de ventas y existencias de una tienda a lo largo del tiempo. Tienes una Serie que representa las fechas en que se realizaron auditorías sorpresa y un DataFrame que contiene registros de ventas diarias, existencias y otros detalles relevantes.

El objetivo es inspeccionar cómo se comportaron las ventas y existencias en las fechas cercanas a las auditorías.


```
# Serie de auditorías
audit_dates = pd.Series(pd.to_datetime(['2023-01-15', '2023-03-05', '2023-06-20', '2023-08-25']))

# DataFrame de registros
dates = pd.date_range('20230101', '20230930', freq='D')
data = {
    'sales': np.random.randint(50, 200, len(dates)),
    'stock': np.random.randint(100, 500, len(dates)),
    'returns': np.random.randint(1, 50, len(dates))
}
df = pd.DataFrame(data, index=dates)
```

1. Identifica las fechas en las que se realizaron las auditorías utilizando el método isin() en el DataFrame, y muestra las ventas y existencias para esas fechas.
2. Usando iloc, selecciona los registros de 2 días antes y 2 días después de cada fecha de auditoría (es decir, una ventana de 5 días para cada auditoría).
3. Filtra este resultado para mostrar sólo aquellos días en los que las ventas fueron menores que el promedio de ventas del período y las existencias estaban por encima del promedio.
4. Utiliza el método loc para agregar una nueva columna llamada "audit_period" al DataFrame original, marcando con True los registros que caen dentro de las ventanas de auditoría y False en caso contrario.


In [None]:
# Tu código aquí ...
# Serie de auditorías
audit_dates = pd.Series(pd.to_datetime(['2023-01-15', '2023-03-05', '2023-06-20', '2023-08-25']))

# DataFrame de registros
dates = pd.date_range('20230101', '20230930', freq='D')
data = {
    'sales': np.random.randint(50, 200, len(dates)),
    'stock': np.random.randint(100, 500, len(dates)),
    'returns': np.random.randint(1, 50, len(dates))
}
df = pd.DataFrame(data, index=dates)

display(audit_dates)
display(df)

Unnamed: 0,0
0,2023-01-15
1,2023-03-05
2,2023-06-20
3,2023-08-25


Unnamed: 0,sales,stock,returns
2023-01-01,191,105,45
2023-01-02,123,392,49
2023-01-03,169,378,14
2023-01-04,178,462,27
2023-01-05,160,449,24
...,...,...,...
2023-09-26,99,162,32
2023-09-27,163,440,13
2023-09-28,155,378,49
2023-09-29,199,358,1


In [None]:
## 1. Identifica las fechas en las que se realizaron las auditorías utilizando
##    el método isin() en el DataFrame, y muestra las ventas y existencias
##    para esas fechas.
df[df.index.isin(audit_dates)]


Unnamed: 0,sales,stock,returns
2023-01-15,187,113,19
2023-03-05,185,155,34
2023-06-20,86,317,7
2023-08-25,173,321,10


In [None]:
## 2. Usando iloc, selecciona los registros de 2 días antes y 2 días después
##    de cada fecha de auditoría (es decir, una ventana de 5 días para
##    cada auditoría).
indexes=[]
for date in audit_dates:
  indexes.append(df.index.get_loc(date)-2)
  indexes.append(df.index.get_loc(date)-1)
  indexes.append(df.index.get_loc(date))
  indexes.append(df.index.get_loc(date)+1)
  indexes.append(df.index.get_loc(date)+2)
seleccion = df.iloc[indexes]
display(seleccion)

Unnamed: 0,sales,stock,returns
2023-01-13,162,190,34
2023-01-14,132,220,44
2023-01-15,187,113,19
2023-01-16,102,323,40
2023-01-17,113,157,38
2023-03-03,83,309,17
2023-03-04,55,231,23
2023-03-05,185,155,34
2023-03-06,67,428,28
2023-03-07,172,427,12


In [None]:
## 3. Filtra este resultado para mostrar sólo aquellos días en los que las
##    ventas fueron menores que el promedio de ventas del período y las
##    existencias estaban por encima del promedio.
mask_sales = seleccion['sales']<seleccion['sales'].mean()
mask_stock = seleccion['stock']>seleccion['stock'].mean()
mask = mask_sales & mask_stock
seleccion.loc[mask]

Unnamed: 0,sales,stock,returns
2023-01-16,102,323,40
2023-03-03,83,309,17
2023-03-06,67,428,28
2023-06-20,86,317,7
2023-06-22,87,456,7
2023-08-27,121,479,49


In [None]:
## 4. Utiliza el método loc para agregar una nueva columna llamada
##    "audit_period" al DataFrame original, marcando con True los
##    registros que caen dentro de las ventanas de auditoría y False
##    en caso contrario.
df.loc[~df.index.isin(seleccion.index),'audit_period']=False
df.loc[df.index.isin(seleccion.index),'audit_period']=True

# Se verifica que se hayan asignado los verdadero y falso correctamente
display(df.index.isin(seleccion.index))
sum(df['audit_period'])

array([False, False, False, False, False, False, False, False, False,
       False, False, False,  True,  True,  True,  True,  True, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False,  True,  True,
        True,  True,  True, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False,

20

<font color='green'>Fin Actividad 8</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">