## Permutación y muestreo aleatorio

Es posible permutar (reordenar aleatoriamente) una Serie o las filas de un DataFrame usando la función numpy.random.permutation. Llamar a permutation con la longitud del eje que se desea permutar produce un array de enteros que indican el nuevo ordenamiento:

In [3]:
import pandas as pd
import numpy as np

In [4]:
df = pd.DataFrame(np.arange(6 * 8).reshape((6, 8)))
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,0,1,2,3,4,5,6,7
1,8,9,10,11,12,13,14,15
2,16,17,18,19,20,21,22,23
3,24,25,26,27,28,29,30,31
4,32,33,34,35,36,37,38,39
5,40,41,42,43,44,45,46,47


- np.arange(6 * 8) crea un arreglo NumPy con valores desde 0 hasta 47 (6 * 8 - 1), con un incremento de 1. En otras palabras, genera una secuencia de números enteros desde 0 hasta 47.
- .reshape((6, 8)) reorganiza ese arreglo en una matriz bidimensional (6 filas y 8 columnas). Cada fila representa una fila en el DataFrame, y cada columna representa una columna en el DataFrame.
- pd.DataFrame(...) crea un DataFrame de pandas a partir de la matriz bidimensional generada en el paso anterior. El DataFrame tendrá 6 filas y 8 columnas, y los valores se llenarán en orden de fila por fila.

En resumen, el código crea un DataFrame con 6 filas y 8 columnas, donde los valores son números enteros consecutivos desde 0 hasta 47. Cada fila representa una fila en el DataFrame, y cada columna representa una columna en el DataFrame

In [5]:
sampler = np.random.permutation(6)
sampler

array([2, 5, 0, 4, 1, 3], dtype=int32)

Este array puede utilizarse entonces en la indexación basada en iloc o en la función equivalente take()  :

In [6]:
df.take(sampler)
# Reordena las filas del DataFrame df según el índice proporcionado por sampler. 

Unnamed: 0,0,1,2,3,4,5,6,7
2,16,17,18,19,20,21,22,23
5,40,41,42,43,44,45,46,47
0,0,1,2,3,4,5,6,7
4,32,33,34,35,36,37,38,39
1,8,9,10,11,12,13,14,15
3,24,25,26,27,28,29,30,31


In [7]:
df.iloc[sampler]

Unnamed: 0,0,1,2,3,4,5,6,7
2,16,17,18,19,20,21,22,23
5,40,41,42,43,44,45,46,47
0,0,1,2,3,4,5,6,7
4,32,33,34,35,36,37,38,39
1,8,9,10,11,12,13,14,15
3,24,25,26,27,28,29,30,31


Invocando take() con axis="columns", también podríamos seleccionar una permutación de las columnas:

In [8]:
column_sampler = np.random.permutation(6)
column_sampler

array([2, 4, 3, 5, 0, 1], dtype=int32)

In [24]:
df.take(column_sampler, axis="columns")

Unnamed: 0,3,4,2,1,0,5
0,3,4,2,1,0,5
1,11,12,10,9,8,13
2,19,20,18,17,16,21
3,27,28,26,25,24,29
4,35,36,34,33,32,37
5,43,44,42,41,40,45


Si se necesita seleccionar un subconjunto aleatorio (ramdom subset) sin reemplazo (la misma fila no puede aparecer dos veces), puede utilizar el método sample() en Series y DataFrame:

In [25]:
df

Unnamed: 0,0,1,2,3,4,5,6,7
0,0,1,2,3,4,5,6,7
1,8,9,10,11,12,13,14,15
2,16,17,18,19,20,21,22,23
3,24,25,26,27,28,29,30,31
4,32,33,34,35,36,37,38,39
5,40,41,42,43,44,45,46,47


In [30]:
df.sample(n=4)

Unnamed: 0,0,1,2,3,4,5,6,7
2,16,17,18,19,20,21,22,23
4,32,33,34,35,36,37,38,39
1,8,9,10,11,12,13,14,15
0,0,1,2,3,4,5,6,7


Para generar una muestra con reemplazo (para permitir elecciones repetidas), pase replace=True a sample():

In [31]:
choices = pd.Series([-4, 1, 9, 6, -8])
choices

0   -4
1    1
2    9
3    6
4   -8
dtype: int64

In [33]:
choices.sample(n=8, replace=True)

4   -8
3    6
2    9
0   -4
0   -4
3    6
1    1
0   -4
dtype: int64

## Cálculo de indicadores/variables ficticias (dummy)¶

Otro tipo de transformación que se utiliza mucho para modelado estadístico o aplicaciones de aprendizaje automático es convertir una variable categórica en un array de dummies o indicadores, en otras palabras convertir categorías a números. Si una columna en un DataFrame tiene k valores distintos, se derivaría un array o DataFrame con k columnas que contengan todos los 1s y 0s. Pandas tiene una función pandas.get_dummies() para hacer esto, aunque también podría idear una usted mismo. Veamos un ejemplo de DataFrame:

In [34]:
df = pd.DataFrame({"key": ["A", "A", "C", "B", "D", "B","F"],
                   "data1": range(7)})
df

Unnamed: 0,key,data1
0,A,0
1,A,1
2,C,2
3,B,3
4,D,4
5,B,5
6,F,6


In [35]:
pd.get_dummies(df["key"], dtype=float)

Unnamed: 0,A,B,C,D,F
0,1.0,0.0,0.0,0.0,0.0
1,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0
3,0.0,1.0,0.0,0.0,0.0
4,0.0,0.0,0.0,1.0,0.0
5,0.0,1.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,1.0


Aquí se ha pasado dtype=float para cambiar el tipo de salida de boolean (el predeterminado en las versiones más recientes de pandas) a coma flotante (floating point).

In [36]:
df_1 = pd.get_dummies(df["key"])
df_1

Unnamed: 0,A,B,C,D,F
0,True,False,False,False,False
1,True,False,False,False,False
2,False,False,True,False,False
3,False,True,False,False,False
4,False,False,False,True,False
5,False,True,False,False,False
6,False,False,False,False,True


En algunos casos, es posible que desee añadir un prefijo a las columnas en el DataFrame del indicador, que luego se pueden fusionar con los otros datos. pandas.get_dummies tiene un argumento de prefijo para hacer esto:

In [37]:
dummies = pd.get_dummies(df["key"], prefix="key", dtype=float)
dummies

Unnamed: 0,key_A,key_B,key_C,key_D,key_F
0,1.0,0.0,0.0,0.0,0.0
1,1.0,0.0,0.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0
3,0.0,1.0,0.0,0.0,0.0
4,0.0,0.0,0.0,1.0,0.0
5,0.0,1.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,1.0


In [38]:
df_with_dummy = df[["data1"]].join(dummies) # .join lo veremos a detalle mas adelante
df_with_dummy

Unnamed: 0,data1,key_A,key_B,key_C,key_D,key_F
0,0,1.0,0.0,0.0,0.0,0.0
1,1,1.0,0.0,0.0,0.0,0.0
2,2,0.0,0.0,1.0,0.0,0.0
3,3,0.0,1.0,0.0,0.0,0.0
4,4,0.0,0.0,0.0,1.0,0.0
5,5,0.0,1.0,0.0,0.0,0.0
6,6,0.0,0.0,0.0,0.0,1.0


Otro ejemplo

In [44]:
df_2 = pd.DataFrame({
    "key": ["A", "A", "C", "B", "D", "B", "F"],
    "data1": range(7),
    "frutas": ["Pera", "Mango", "Manzana", "Mango", "Fresa", "Mango", "Naranja"]
})

print(df_2)

  key  data1   frutas
0   A      0     Pera
1   A      1    Mango
2   C      2  Manzana
3   B      3    Mango
4   D      4    Fresa
5   B      5    Mango
6   F      6  Naranja


In [46]:
dummies_1 = pd.get_dummies(df_2[["key", "frutas"]], prefix=["key", "frutas"], dtype=float)
dummies_1

Unnamed: 0,key_A,key_B,key_C,key_D,key_F,frutas_Fresa,frutas_Mango,frutas_Manzana,frutas_Naranja,frutas_Pera
0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
1,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
2,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
4,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0
5,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
6,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0,0.0



Si una fila de un DataFrame contiene categorías, tenemos que utilizar un enfoque diferente para crear las variables ficticias. Veamos el conjunto de datos MovieLens:

In [12]:
msongs = ["song_id", "title", "genres"]
songs = pd.read_table('music.txt', sep="::",
                       header=None, names=msongs, engine="python")

songs[:10]  # Similar a un .head()

Unnamed: 0,song_id,title,genres
0,"0, Starry Night, Pop| Rock",,
1,"1, Moonlight Sonata, Classical| Instrumental",,
2,"2, Electric Groove,Electronic| Dance",,
3,"3, Jazz Café,Jazz|Swing",,
4,"4, Harmony Road, Folk| Country",,
5,"5, Rhythm Fusión,Latin | World",,
6,"6, Urban Beat,Hip-Hop| Rap",,
7,"7, Soul Serenade, R&B|Soul",,
8,"8, Funkadelic Groove, Funk|Disco",,
9,"9, Acoustic Reverie, Acoustic|Indie",,


In [24]:
# Definir los nombres de las columnas
msongs = ["song_id", "title", "genres"]

# Leer el archivo de texto con el separador correcto (comas)
songs = pd.read_table('music.txt', sep=',', header=None, names=msongs, engine='python')

# Mostrar las primeras 10 filas del DataFrame
songs[:10]


# Leer el archivo de texto: Esta línea utiliza la función read_table de Pandas para leer el archivo music.txt. Los parámetros son:
#'music.txt': El nombre del archivo de texto que contiene los datos.
# sep=',': Especifica que las columnas en el archivo de texto están separadas por comas.
# header=None: Indica que el archivo de texto no tiene una fila de encabezado, por lo que Pandas no debe tratar la primera fila como nombres de columnas.
# names=msongs: Asigna los nombres de las columnas definidos en la lista msongs al DataFrame.
# engine='python': Especifica el motor de análisis a utilizar. En este caso, se usa el motor de Python.


Unnamed: 0,song_id,title,genres
0,1,Starry Night,Pop| Rock
1,2,Moonlight Sonata,Classical| Instrumental
2,3,Electric Groove,Electronic| Dance
3,4,Jazz Café,Jazz|Swing
4,5,Harmony Road,Folk| Country
5,6,Rhythm Fusión,Latin | World
6,7,Urban Beat,Hip-Hop| Rap
7,8,Soul Serenade,R&B|Soul
8,9,Funkadelic Groove,Funk|Disco
9,10,Acoustic Reverie,Acoustic|Indie


Pandas ha implementado un método especial de la serie str.get_dummies (los métodos que empiezan por str. Se tratan con más detalle más adelante en Manipulación de cadenas) que maneja este escenario de pertenencia a múltiples grupos codificados como una cadena delimitada:



In [25]:
dummies_2 = songs["genres"].str.get_dummies("|")
dummies_2

Unnamed: 0,Acoustic,Classical,Country,Dance,Folk,Funk,Instrumental,Pop,R&B,Rap,Rock,World,Disco,Electronic,Hip-Hop,Indie,Jazz,Latin,Soul,Swing
0,0,0,0,0,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0
1,0,1,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0
2,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,1
4,0,0,1,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,1,0,0
6,0,0,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,0,0,0
7,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,1,0
8,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,0
9,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0


In [28]:
dummies_2.iloc[:6, :10]

Unnamed: 0,Acoustic,Classical,Country,Dance,Folk,Funk,Instrumental,Pop,R&B,Rap
0,0,0,0,0,0,0,0,1,0,0
1,0,1,0,0,0,0,1,0,0,0
2,0,0,0,1,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0
4,0,0,1,0,1,0,0,0,0,0
5,0,0,0,0,0,0,0,0,0,0


Entonces, como antes, puedes combinar esto con songs añadiendo un "Genre_" a los nombres de las columnas en el DataFrame de dummies con el método add_prefix:

In [29]:
songs_windic = songs.join(dummies_2.add_prefix("Genre_"))
songs_windic

Unnamed: 0,song_id,title,genres,Genre_ Acoustic,Genre_ Classical,Genre_ Country,Genre_ Dance,Genre_ Folk,Genre_ Funk,Genre_ Instrumental,...,Genre_ Rock,Genre_ World,Genre_Disco,Genre_Electronic,Genre_Hip-Hop,Genre_Indie,Genre_Jazz,Genre_Latin,Genre_Soul,Genre_Swing
0,1,Starry Night,Pop| Rock,0,0,0,0,0,0,0,...,1,0,0,0,0,0,0,0,0,0
1,2,Moonlight Sonata,Classical| Instrumental,0,1,0,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
2,3,Electric Groove,Electronic| Dance,0,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,0,0
3,4,Jazz Café,Jazz|Swing,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,1
4,5,Harmony Road,Folk| Country,0,0,1,0,1,0,0,...,0,0,0,0,0,0,0,0,0,0
5,6,Rhythm Fusión,Latin | World,0,0,0,0,0,0,0,...,0,1,0,0,0,0,0,1,0,0
6,7,Urban Beat,Hip-Hop| Rap,0,0,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0
7,8,Soul Serenade,R&B|Soul,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,1,0
8,9,Funkadelic Groove,Funk|Disco,0,0,0,0,0,1,0,...,0,0,1,0,0,0,0,0,0,0
9,10,Acoustic Reverie,Acoustic|Indie,1,0,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0


In [31]:
songs_windic.iloc[4]

song_id                             5
title                    Harmony Road
genres                  Folk| Country
Genre_ Acoustic                     0
Genre_ Classical                    0
Genre_ Country                      1
Genre_ Dance                        0
Genre_ Folk                         1
Genre_ Funk                         0
Genre_ Instrumental                 0
Genre_ Pop                          0
Genre_ R&B                          0
Genre_ Rap                          0
Genre_ Rock                         0
Genre_ World                        0
Genre_Disco                         0
Genre_Electronic                    0
Genre_Hip-Hop                       0
Genre_Indie                         0
Genre_Jazz                          0
Genre_Latin                         0
Genre_Soul                          0
Genre_Swing                         0
Name: 4, dtype: object

Nota: Para datos mucho más grandes, este método de construcción de variables indicadoras con pertenencia múltiple no es especialmente rápido. Sería mejor escribir una función de nivel inferior que escriba directamente en una array de NumPy y, a continuación, envolver el resultado en un DataFrame.

Para  aplicaciones estadísticas tambien se suele combinar pandas.get_dummies con una función de discretización como pandas.cut:

In [41]:
np.random.seed(1234)
values = np.random.uniform(size=8)
values



array([0.19151945, 0.62210877, 0.43772774, 0.78535858, 0.77997581,
       0.27259261, 0.27646426, 0.80187218])

In [42]:
bins1 = [0, 0.3, 0.6, 0.9, 1.2]
pd.get_dummies(pd.cut(values, bins1))

Unnamed: 0,"(0.0, 0.3]","(0.3, 0.6]","(0.6, 0.9]","(0.9, 1.2]"
0,True,False,False,False
1,False,False,True,False
2,False,True,False,False
3,False,False,True,False
4,False,False,True,False
5,True,False,False,False
6,True,False,False,False
7,False,False,True,False


In [44]:
pd.get_dummies(pd.cut(values, bins1), dtype=float)

Unnamed: 0,"(0.0, 0.3]","(0.3, 0.6]","(0.6, 0.9]","(0.9, 1.2]"
0,1.0,0.0,0.0,0.0
1,0.0,0.0,1.0,0.0
2,0.0,1.0,0.0,0.0
3,0.0,0.0,1.0,0.0
4,0.0,0.0,1.0,0.0
5,1.0,0.0,0.0,0.0
6,1.0,0.0,0.0,0.0
7,0.0,0.0,1.0,0.0


# Ejercicio 3: Dado el siguiente conjunto de datos:

In [51]:
data = {
    'Tienda': ['A', 'B', 'C', 'D', 'E'],
    'Producto': ['P1', 'P2', 'P3', 'P4', 'P5'],
    'Ventas': [150, 200, 300, 250, 100]
}


1- Crear un dataframe, luego establezca una semilla para la reproducibilidad del ejemplo:


In [54]:
df = pd.DataFrame(data)
df

Unnamed: 0,Tienda,Producto,Ventas
0,A,P1,150
1,B,P2,200
2,C,P3,300
3,D,P4,250
4,E,P5,100


# np.random.seed(42)

In [58]:

# Establecer la semilla para la reproducibilidad
np.random.seed(42)
# Mostrar el DataFrame
df


Unnamed: 0,Tienda,Producto,Ventas
0,A,P1,150
1,B,P2,200
2,C,P3,300
3,D,P4,250
4,E,P5,100


2- Crear dos dataframes mas; uno que sea una permutación de columnas y el otro una permutación filas.

In [110]:
# Permutación de columnas
columns_permuted = np.random.permutation(df.columns)
df_columns_permuted = df[columns_permuted]
print("DataFrame con columnas permutadas:")
df_columns_permuted

# np.random.permutation(df.columns) genera una permutación aleatoria de las columnas.
# df[columns_permuted] reordena las columnas del DataFrame según la permutación generada.


DataFrame con columnas permutadas:


Unnamed: 0,Producto,Ventas,Tienda
0,P1,150,A
1,P2,200,B
2,P3,300,C
3,P4,250,D
4,P5,100,E


In [85]:
# Permutación de filas
df_rows_permuted = df.sample(frac=1).reset_index(drop=True)
print("\nDataFrame con filas permutadas:")
df_rows_permuted

# df.sample(frac=1) reordena las filas del DataFrame de manera aleatoria.
# .reset_index(drop=True) restablece los índices del DataFrame para que sean consecutivos.


DataFrame con filas permutadas:


Unnamed: 0,Tienda,Producto,Ventas
0,C,P3,300
1,B,P2,200
2,A,P1,150
3,D,P4,250
4,E,P5,100


3- Partiendo de los dos dataframes anteriores extraiga una muestra aletoria de 2 filas.

In [111]:
# Extraer una muestra aleatoria de 2 filas de cada DataFrame
sample_columns_permuted = df_columns_permuted.sample(n=2)
print("Muestra aleatoria de 2 filas del DataFrame con columnas permutadas:")
sample_columns_permuted


Muestra aleatoria de 2 filas del DataFrame con columnas permutadas:


Unnamed: 0,Producto,Ventas,Tienda
1,P2,200,B
2,P3,300,C


In [104]:
# Extraer una muestra aleatoria de 2 filas de cada DataFrame
sample_rows_permuted = df_rows_permuted.sample(n=2)
print("Muestra aleatoria de 2 filas del DataFrame con filas permutadas:")
sample_columns_permuted


Muestra aleatoria de 2 filas del DataFrame con filas permutadas:


Unnamed: 0,Ventas,Tienda,Producto
2,300,C,P3
4,100,E,P5


# Ejercicio 4. Partiendo del siguiente diccionario:

In [15]:
data1 = {
    'Nombre': ['Ana', 'Luis', 'María', 'Pedro', 'Laura', 'Carlos', 'Marta', 'Jorge'],
    'Edad': [23, 45, 31, 34, 28, 40, 36, 50],
    'Departamento': ['Ventas', 'IT', 'IT', 'Ventas', 'Marketing', 'Ventas', 'Marketing', 'IT'],
    'Salario': [50000, 60000, 55000, 52000, 58000, 51000, 60000, 62000]
}

1- Convertir el diccionario a un pandas dataframe

In [16]:
df2 = pd.DataFrame(data1)
df2

Unnamed: 0,Nombre,Edad,Departamento,Salario
0,Ana,23,Ventas,50000
1,Luis,45,IT,60000
2,María,31,IT,55000
3,Pedro,34,Ventas,52000
4,Laura,28,Marketing,58000
5,Carlos,40,Ventas,51000
6,Marta,36,Marketing,60000
7,Jorge,50,IT,62000


2- Convertir la columna departamento en variables dummy

In [17]:
# Convertir la columna 'Departamento' en variables dummy
df2_dummies = pd.get_dummies(df2, columns=['Departamento'])

df2_dummies

Unnamed: 0,Nombre,Edad,Salario,Departamento_IT,Departamento_Marketing,Departamento_Ventas
0,Ana,23,50000,False,False,True
1,Luis,45,60000,True,False,False
2,María,31,55000,True,False,False
3,Pedro,34,52000,False,False,True
4,Laura,28,58000,False,True,False
5,Carlos,40,51000,False,False,True
6,Marta,36,60000,False,True,False
7,Jorge,50,62000,True,False,False


3- Definir los límites (los intervaloes) y etiquetas para los grupos de edad

In [11]:
bins = [20, 30, 40, 50, 60]
labels = ['20-29', '30-39', '40-49', '50-59']


4- Crear la nueva columna con nombre: Grupo_Edad utilizando .cut()

In [18]:
# Crear una nueva columna con los grupos de edad
df2['Grupo_Edad'] = pd.cut(df2['Edad'], bins=bins, labels=labels, right=False)

5-Imprime el dataframe final

In [19]:
df2

Unnamed: 0,Nombre,Edad,Departamento,Salario,Grupo_Edad
0,Ana,23,Ventas,50000,20-29
1,Luis,45,IT,60000,40-49
2,María,31,IT,55000,30-39
3,Pedro,34,Ventas,52000,30-39
4,Laura,28,Marketing,58000,20-29
5,Carlos,40,Ventas,51000,40-49
6,Marta,36,Marketing,60000,30-39
7,Jorge,50,IT,62000,50-59
