# 13: GENERACIÓN DE DUMMY DATAFRAMES

In [1]:
# importar librerias

import numpy as np
import pandas as pd

### Generación de un Dummy dataset simple

In [2]:
# Función propia para redondear los elementos de una lista

def redondear(lista, decimales):
    lista_nueva = []
    for i in lista:
        lista_nueva.append(round(i, decimales))
    return lista_nueva

In [3]:
# Generación de diferentes columnas de longitud N con diferentes distribuciones de datos

A = redondear(np.random.uniform(1, 100, 500).tolist(), 2) # lista de valores entre 1 y 100 con distribución unifrome y redondeado a 2 decimales

B = redondear(np.random.normal(25, 2.5, 500).tolist(), 2) # lista de valores con distribución normal con media 25 y sd 2.5 redondeado a 2 decimales

In [4]:
# Generación del diccionario para luego transformarlo en dataframe

diccionario = {'Columna A' : A,
               'Columna B' : B}

In [5]:
# Creación del dataframe

dataframe = pd.DataFrame(diccionario)
dataframe.head()

Unnamed: 0,Columna A,Columna B
0,17.5,24.69
1,91.56,27.23
2,68.92,22.12
3,15.6,25.7
4,40.19,23.2


### Construir un dummy dataframe complejo (valores númericos y categóricos)

In [6]:
# Generación de disitntas columnas:

n = 1000 # número de muestras

id = np.random.randint(10000000, 99999999, n).tolist() # distribución uniforme entre 10000000 y 99999999

sexo = []
for i in range(n):
    sexo.append(np.random.choice(['hombre', 'mujer'])) # distribución uniforme de dos strings
    
edad = np.random.normal(55, 10, n).tolist() # distribución normal con media 55 y sd 10
for i in range(len(edad)):
    edad[i] = round(edad[i])
    if edad[i] < 0:
        edad[i] = 0
    if edad[i] > 100:
        edad[i] = 100 # hacemos todo esto para quitar valores aberrantes de la edad

altura = np.random.normal(170, 5, n).tolist()
for i in range(len(altura)):
    altura[i] = int(altura[i])
    
peso = redondear(np.random.normal(70, 2.5, n).tolist(), 2)

salario = np.random.uniform(10000, 100000, n).tolist()
for i in range(len(salario)):
    salario[i] = int(salario[i])

In [7]:
pre_df = {'ID' : id,
          'Sexo' : sexo,
          'Edad' : edad,
          'Altura' : altura,
          'Peso' : peso,
          'Salario' : salario}

In [8]:
df = pd.DataFrame(pre_df)

In [9]:
df.head()

Unnamed: 0,ID,Sexo,Edad,Altura,Peso,Salario
0,41338182,hombre,62,174,70.4,91686
1,10390081,mujer,21,173,68.43,15518
2,68569107,hombre,56,169,69.96,55247
3,95519715,mujer,52,172,70.29,51552
4,30480239,mujer,35,164,70.1,18224


### Agrupación de datos

##### La agrupación de datos es útil para ordenar los datos en función a una o varias categorias. De este modo, se podria ver la media de una columna concreta para una categoria concreta como podria ser el sexo o la edad.

In [10]:
# Agrupar el dataframe en función del sexo

sex_grouped = df.groupby('Sexo')
print(f'Este dataset es del tipo {type(sex_grouped)}')

Este dataset es del tipo <class 'pandas.core.groupby.generic.DataFrameGroupBy'>


In [11]:
# Ver cuantas categorias tenemos

len(sex_grouped) # serán 2 categorias ya que tenemos 'hombre' y 'mujer'

2

In [12]:
# Visualizar en un diccionario las filas que contiene cada categoria

sex_grouped.groups

{'hombre': [0, 2, 8, 11, 12, 13, 17, 18, 19, 21, 23, 24, 25, 26, 31, 36, 37, 38, 39, 40, 44, 46, 48, 49, 50, 51, 53, 58, 61, 62, 63, 65, 68, 69, 70, 71, 73, 74, 75, 76, 77, 78, 79, 80, 85, 86, 89, 91, 92, 95, 104, 105, 108, 111, 114, 115, 120, 121, 122, 123, 124, 125, 126, 127, 128, 130, 131, 132, 134, 136, 138, 141, 142, 143, 146, 149, 151, 158, 160, 161, 163, 166, 167, 170, 173, 174, 175, 176, 179, 180, 182, 184, 188, 190, 191, 192, 195, 198, 200, 202, ...], 'mujer': [1, 3, 4, 5, 6, 7, 9, 10, 14, 15, 16, 20, 22, 27, 28, 29, 30, 32, 33, 34, 35, 41, 42, 43, 45, 47, 52, 54, 55, 56, 57, 59, 60, 64, 66, 67, 72, 81, 82, 83, 84, 87, 88, 90, 93, 94, 96, 97, 98, 99, 100, 101, 102, 103, 106, 107, 109, 110, 112, 113, 116, 117, 118, 119, 129, 133, 135, 137, 139, 140, 144, 145, 147, 148, 150, 152, 153, 154, 155, 156, 157, 159, 162, 164, 165, 168, 169, 171, 172, 177, 178, 181, 183, 185, 186, 187, 189, 193, 194, 196, ...]}

In [13]:
# Si visualizamos un resumen del dataset, veremos como estan separados por estas dos categorias

sex_grouped.describe()

Unnamed: 0_level_0,ID,ID,ID,ID,ID,ID,ID,ID,Edad,Edad,...,Peso,Peso,Salario,Salario,Salario,Salario,Salario,Salario,Salario,Salario
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
hombre,496.0,54523760.0,25488820.0,10152692.0,33246817.0,53974464.0,76746924.0,99453216.0,496.0,55.157258,...,71.7525,78.13,496.0,55513.209677,25978.404056,10155.0,34406.0,54744.0,78113.5,99643.0
mujer,504.0,54354480.0,26477490.0,10017187.0,31323899.75,54373344.5,77333338.5,99652338.0,504.0,54.190476,...,71.62,76.45,504.0,53709.646825,25857.639773,10204.0,31360.75,52526.5,76046.5,99878.0


In [14]:
# Describir los estadisticos de una sola columna en función de la categoria agrupada

sex_grouped['Altura'].describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
hombre,496.0,169.739919,4.550824,156.0,167.0,170.0,173.0,183.0
mujer,504.0,169.642857,5.144766,155.0,166.0,169.0,173.0,185.0


### Doble agrupación de datos

In [15]:
# Creamos una columna categorica extra con la que podemos agrupar los datos
# Esta nueva columna depende de la columna salario

clase = []
for i in range(len(df['Salario'])):
    if df['Salario'][i] < 30000:
        clase.append('Clase Baja')
    elif df['Salario'][i] >= 30000 and df['Salario'][i] < 50000:
        clase.append('Clase Media')
    else:
        clase.append('Clase Alta')

In [16]:
# Añadimos esta columna al dataframe

df['Clase'] = clase

In [17]:
# Agrupamos por dos columnas

two_group = df.groupby(['Sexo', 'Clase']) # se le ha de pasar una lista de columnas

In [18]:
# Comporbar cuantas categorias tenemos ahora. Deberíamos de tener 6 (2 sexos x 3 clases)

len(two_group)

6

In [19]:
# Resumen de cuantas filas contiene cada categoria

two_group.count()

Unnamed: 0_level_0,Unnamed: 1_level_0,ID,Edad,Altura,Peso,Salario
Sexo,Clase,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
hombre,Clase Alta,274,274,274,274,274
hombre,Clase Baja,109,109,109,109,109
hombre,Clase Media,113,113,113,113,113
mujer,Clase Alta,265,265,265,265,265
mujer,Clase Baja,121,121,121,121,121
mujer,Clase Media,118,118,118,118,118


### Operaciones que se pueden hacer sobre tablas agrupadas

In [20]:
# Sumar todos los valores de cada categoria

two_group.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,ID,Edad,Altura,Peso,Salario
Sexo,Clase,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
hombre,Clase Alta,14979125155,15159,46545,19216.06,20693586
hombre,Clase Baja,5964092699,6058,18536,7613.85,2216625
hombre,Clase Media,6100568807,6141,19110,7905.02,4624341
mujer,Clase Alta,14073449658,14527,44974,18559.1,19832849
mujer,Clase Baja,6579410731,6359,20563,8462.91,2440372
mujer,Clase Media,6741796034,6426,19963,8220.15,4796441


In [21]:
# Sumar solos los valores de una columna por categoria

two_group['Salario'].sum()

Sexo    Clase      
hombre  Clase Alta     20693586
        Clase Baja      2216625
        Clase Media     4624341
mujer   Clase Alta     19832849
        Clase Baja      2440372
        Clase Media     4796441
Name: Salario, dtype: int64

In [22]:
# Hacer la media de todos los valores de cada categoria

two_group.mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,ID,Edad,Altura,Peso,Salario
Sexo,Clase,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
hombre,Clase Alta,54668340.0,55.324818,169.872263,70.131606,75524.036496
hombre,Clase Baja,54716450.0,55.577982,170.055046,69.851835,20336.009174
hombre,Clase Media,53987330.0,54.345133,169.115044,69.955929,40923.371681
mujer,Clase Alta,53107360.0,54.818868,169.713208,70.03434,74840.939623
mujer,Clase Baja,54375300.0,52.553719,169.942149,69.941405,20168.363636
mujer,Clase Media,57133860.0,54.457627,169.177966,69.662288,40647.805085


In [24]:
# Contar el número de filas que tiene cada categoria de otra forma

two_group.size()

Sexo    Clase      
hombre  Clase Alta     274
        Clase Baja     109
        Clase Media    113
mujer   Clase Alta     265
        Clase Baja     121
        Clase Media    118
dtype: int64

In [65]:
# Visualizar las priemras filas de cada categoria

two_group.head(1) # devuelve la primera de cada categoria

Unnamed: 0,ID,Sexo,Edad,Altura,Peso,Salario,Clase
0,41338182,hombre,62,174,70.4,91686,Clase Alta
1,10390081,mujer,21,173,68.43,15518,Clase Baja
3,95519715,mujer,52,172,70.29,51552,Clase Alta
6,30328784,mujer,41,169,74.89,41714,Clase Media
8,87420139,hombre,75,170,70.27,37913,Clase Media
11,48005495,hombre,63,170,67.18,23211,Clase Baja


In [66]:
# Visualizar las últimas filas de cada categoria

two_group.tail(1) # devuelve la última de cada categoria

Unnamed: 0,ID,Sexo,Edad,Altura,Peso,Salario,Clase
976,91914637,mujer,57,169,68.45,42760,Clase Media
983,95356330,mujer,54,170,71.57,18950,Clase Baja
988,83452760,hombre,56,167,68.14,45632,Clase Media
997,94015560,hombre,61,169,71.6,73649,Clase Alta
998,81499707,hombre,28,167,74.42,10788,Clase Baja
999,11829874,mujer,57,158,66.23,55582,Clase Alta


In [67]:
# Visualizar una fila concreta de cada categoria

two_group.nth(33) # devuelve la fila nº 33 de cada categoria

Unnamed: 0,ID,Sexo,Edad,Altura,Peso,Salario,Clase
114,91150751,hombre,45,166,68.37,89910,Clase Alta
129,20157831,mujer,41,169,63.95,62570,Clase Alta
303,11433906,mujer,59,182,70.78,10204,Clase Baja
306,18108932,hombre,56,172,70.91,34681,Clase Media
309,11667390,hombre,42,181,71.57,11715,Clase Baja
314,86768218,mujer,76,173,61.2,39789,Clase Media


In [73]:
# Ordenar las filas. Para ello, NO se puede hacer sobre un conjunto de datos agrupado, es decir, se ha de ordenar y luego agrupar

datos_ordenados_agrupados = df.sort_values(['Edad', 'Salario']).groupby(['Sexo', 'Clase']) # primero ordena por edad y luego por salario
datos_ordenados_agrupados.nth(33)

Unnamed: 0,ID,Sexo,Edad,Altura,Peso,Salario,Clase
275,24262757,mujer,43,172,70.04,96885,Clase Alta
105,91828577,hombre,43,164,68.34,99634,Clase Alta
503,90483162,mujer,47,166,71.93,47268,Clase Media
172,82741976,mujer,48,172,70.37,17058,Clase Baja
473,15915392,hombre,49,168,71.61,43666,Clase Media
122,66642239,hombre,50,173,67.2,17897,Clase Baja


### El método AGGREGATE

##### El método aggregate sirve para crear diferentes funciones especificas que se han de hacer sobre las diferentes categorias que hemos agrupado para obtener diferentes estadísticos. De este modo, podremos especificar si vamos a hacer diferentes funciones sobre una o unas columnas especificas, o bien en todas las columnas sin diferenciar. Es más, se puede hacer una función concreta para una columna, y otra diferente para otra columna

In [32]:
# Utilizar el método aggregate para obtener un tipo de información sobre todas las columnas

two_group.aggregate('mean') # esto saca la media

Unnamed: 0_level_0,Unnamed: 1_level_0,ID,Edad,Altura,Peso,Salario
Sexo,Clase,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
hombre,Clase Alta,54668340.0,55.324818,169.872263,70.131606,75524.036496
hombre,Clase Baja,54716450.0,55.577982,170.055046,69.851835,20336.009174
hombre,Clase Media,53987330.0,54.345133,169.115044,69.955929,40923.371681
mujer,Clase Alta,53107360.0,54.818868,169.713208,70.03434,74840.939623
mujer,Clase Baja,54375300.0,52.553719,169.942149,69.941405,20168.363636
mujer,Clase Media,57133860.0,54.457627,169.177966,69.662288,40647.805085


In [34]:
# Visualizar dos funciones distintas sobre todas las columnas

two_group.aggregate(['mean', 'std']) # se pasa una lista de funciones (media y desviación estándar)

Unnamed: 0_level_0,Unnamed: 1_level_0,ID,ID,Edad,Edad,Altura,Altura,Peso,Peso,Salario,Salario
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,mean,std,mean,std,mean,std,mean,std
Sexo,Clase,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2
hombre,Clase Alta,54668340.0,25168930.0,55.324818,10.00551,169.872263,4.343548,70.131606,2.699078,75524.036496,14667.266652
hombre,Clase Baja,54716450.0,25844710.0,55.577982,10.564873,170.055046,4.56402,69.851835,2.527414,20336.009174,5509.924447
hombre,Clase Media,53987330.0,26130180.0,54.345133,9.229969,169.115044,4.992409,69.955929,2.268424,40923.371681,5511.914574
mujer,Clase Alta,53107360.0,26475910.0,54.818868,9.593105,169.713208,5.227478,70.03434,2.673183,74840.939623,14408.494823
mujer,Clase Baja,54375300.0,27596810.0,52.553719,10.131593,169.942149,5.215837,69.941405,2.62326,20168.363636,5381.629072
mujer,Clase Media,57133860.0,25295010.0,54.457627,10.630262,169.177966,4.889604,69.662288,2.596857,40647.805085,5423.408923


In [35]:
# Realizar una función concreta sobre una única columna. Para ello, se pasa como si fuera un diccionario

two_group.aggregate({'Edad' : 'mean'}) # esto solo le hace la media a la columna edad

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad
Sexo,Clase,Unnamed: 2_level_1
hombre,Clase Alta,55.324818
hombre,Clase Baja,55.577982
hombre,Clase Media,54.345133
mujer,Clase Alta,54.818868
mujer,Clase Baja,52.553719
mujer,Clase Media,54.457627


In [37]:
# Realizar más de una función sobre una única columna. Para ello, se pasa como si fuera un diccionario

two_group.aggregate({'Edad' : ['mean', 'std']}) 

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Edad
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std
Sexo,Clase,Unnamed: 2_level_2,Unnamed: 3_level_2
hombre,Clase Alta,55.324818,10.00551
hombre,Clase Baja,55.577982,10.564873
hombre,Clase Media,54.345133,9.229969
mujer,Clase Alta,54.818868,9.593105
mujer,Clase Baja,52.553719,10.131593
mujer,Clase Media,54.457627,10.630262


In [38]:
# Realizar diferentes funciones para diferentes columnas

two_group.aggregate({'Edad' : ['mean', 'std'],
                     'Altura' : 'sum'}) 

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad,Edad,Altura
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,sum
Sexo,Clase,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
hombre,Clase Alta,55.324818,10.00551,46545
hombre,Clase Baja,55.577982,10.564873,18536
hombre,Clase Media,54.345133,9.229969,19110
mujer,Clase Alta,54.818868,9.593105,44974
mujer,Clase Baja,52.553719,10.131593,20563
mujer,Clase Media,54.457627,10.630262,19963


In [48]:
# Realizar función compleja con lambdas para una columna

two_group.aggregate({'Edad' : lambda i : np.mean(i) / np.std(i)}) # sacamos la media y luego dividimos por la desviación estándar

Unnamed: 0_level_0,Unnamed: 1_level_0,Edad
Sexo,Clase,Unnamed: 2_level_1
hombre,Clase Alta,5.539553
hombre,Clase Baja,5.284937
hombre,Clase Media,5.914127
mujer,Clase Alta,5.725215
mujer,Clase Baja,5.208681
mujer,Clase Media,5.144733


In [49]:
# Función compleja con lambda para todas las columnas

two_group.aggregate(lambda i : np.mean(i) / np.std(i))

Unnamed: 0_level_0,Unnamed: 1_level_0,ID,Edad,Altura,Peso,Salario
Sexo,Clase,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
hombre,Clase Alta,2.176031,5.539553,39.180667,26.031092,5.158578
hombre,Clase Baja,2.126903,5.284937,37.432031,27.76533,3.707844
hombre,Clase Media,2.075294,5.914127,34.025327,30.976374,7.457601
mujer,Clase Alta,2.00967,5.725215,32.527027,26.248428,5.204052
mujer,Clase Baja,1.97854,5.208681,32.717426,26.772874,3.763214
mujer,Clase Media,2.268333,5.144733,34.747069,26.940016,7.526842


### Filtrado de datos mediante el método FILTER

##### Hay que desarrollarlo más

In [64]:
two_group['Edad'].filter(lambda i : i.sum() > 60)

0      62
1      21
2      56
3      52
4      35
       ..
995    59
996    45
997    61
998    28
999    57
Name: Edad, Length: 1000, dtype: int64

### Método TRANSFORM

##### Sirve para trasnformar las columnas mediante alguna función que le hagamos

In [56]:
# Creamos una función que aplicaremos

funcion = lambda i : i * 2 # multiplicamos por 2 el contenido de la final

In [58]:
# Aplicamos la función a cada una de las columnas

two_group.transform(funcion)

Unnamed: 0,ID,Edad,Altura,Peso,Salario
0,82676364,124,348,140.80,183372
1,20780162,42,346,136.86,31036
2,137138214,112,338,139.92,110494
3,191039430,104,344,140.58,103104
4,60960478,70,328,140.20,36448
...,...,...,...,...,...
995,34750862,118,348,135.28,134722
996,62498554,90,338,134.76,27104
997,188031120,122,338,143.20,147298
998,162999414,56,334,148.84,21576


In [59]:
# Aplicamos la función únicamente a una columna

two_group['Altura'].transform(funcion)

0      348
1      346
2      338
3      344
4      328
      ... 
995    348
996    338
997    338
998    334
999    316
Name: Altura, Length: 1000, dtype: int64