#  Agrupar por: dividir-aplicar-combinar 
Por “agrupar por” nos referimos a un proceso que involucra uno o más de los siguientes pasos:

* <a style="color:red;"> <b> Dividir </b> </a>  los datos en grupos según algunos criterios.
* <a style="color:red;"> <b> Aplicar </b> </a> una función a cada grupo de forma independiente.
* <a style="color:red;"> <b> Combinar </b> </a> los resultados en una estructura de datos.

De estos, el paso dividido es el más sencillo. De hecho, en muchas situaciones es posible que deseemos dividir el conjunto de datos en grupos y hacer algo con esos grupos. En el paso de solicitud, es posible que deseemos realizar una de las siguientes acciones:

<a style="color:blue;"> <b>Agregación : </b> </a> Calcula una estadística (o estadísticas) resumida para cada grupo. Algunos ejemplos:

* Calcular sumas o medias de grupos.

* Calcular tamaños/recuentos de grupos.

<a style="color:blue;"> <b>Transformación : </b> </a> Realiza algunos cálculos específicos del grupo y devuelve un objeto indexado similar. Algunos ejemplos:

* Estandarizar datos (zscore) dentro de un grupo.

* Llenar NA dentro de grupos con un valor derivado de cada grupo.

<a style="color:blue;"> <b> Filtración : </b> </a> Descarta algunos grupos, de acuerdo con un cálculo grupal que se evalúa como Verdadero o Falso. Algunos ejemplos:

* Descarta los datos que pertenecen a grupos con solo unos pocos miembros.

* Filtre los datos según la suma o media del grupo.

# Dividir un objeto en grupos 
La definición abstracta de agrupación es proporcionar una asignación de etiquetas a nombres de grupos. Para crear un objeto GroupBy (más sobre qué es el objeto GroupBy más adelante), puede hacer lo siguiente:

In [1]:
import pandas as pd
import numpy as np
Velocidades = pd.DataFrame(
    [
        ("Pájaro", "Falconiformes", 389.0),
        ("Pájaro", "Psittaciformes", 24.0),
        ("Mamífero", "Carnivora", 80.2),
        ("Mamífero", "Primates", np.nan),
        ("Mamífero", "Carnivora", 58),
    ],
    index=["Halcón", "Loro", "León", "Mono", "Leopardo"],
    columns=("Clase", "orden", "Máxima Velocidad"),
)

Velocidades

Unnamed: 0,Clase,orden,Máxima Velocidad
Halcón,Pájaro,Falconiformes,389.0
Loro,Pájaro,Psittaciformes,24.0
León,Mamífero,Carnivora,80.2
Mono,Mamífero,Primates,
Leopardo,Mamífero,Carnivora,58.0


In [2]:
grouped = Velocidades.groupby(["Clase", "orden"])
grouped.sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Máxima Velocidad
Clase,orden,Unnamed: 2_level_1
Mamífero,Carnivora,138.2
Mamífero,Primates,0.0
Pájaro,Falconiformes,389.0
Pájaro,Psittaciformes,24.0


In [3]:
import pandas as pd
import numpy as np

df = pd.DataFrame(
    {
        "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
        "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
        "C": [1,2,2,0,0,2,-2,1],
        "D": [-1,4,-3,1,1,2,-1,0],
    }
)
df

Unnamed: 0,A,B,C,D
0,foo,one,1,-1
1,bar,one,2,4
2,foo,two,2,-3
3,bar,three,0,1
4,foo,two,0,1
5,bar,two,2,2
6,foo,one,-2,-1
7,foo,three,1,0


In [4]:
df2 = df.set_index(["A", "B"])
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
foo,one,1,-1
bar,one,2,4
foo,two,2,-3
bar,three,0,1
foo,two,0,1
bar,two,2,2
foo,one,-2,-1
foo,three,1,0


Si tenemos un MultiIndex en columnas A y B, podemos agrupar por todas las columnas excepto la que especifiquemos:

In [5]:
grouped = df2.groupby(level=df2.index.names.difference(["B"]))
grouped.sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,4,7
foo,2,-4


In [6]:
grouped

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001A53D267F90>

In [7]:
from io import StringIO
import pandas as pd

datos = StringIO('''
index,id_planta,fecha,linea,turno,Supervisor,CategoriaTM,CausaTM,duracionTM
1,P3,01/10/2017,P3 EMB. AUTOMATICO 1,T1,CARLOS ROSAS,BODEGA DE CONGELACION,FALTA DE INGREDIENTE,55
2,P3,01/10/2017,P3 EMB. AUTOMATICO 1,T1,CARLOS ROSAS,PRODUCCION,ABASTECIMIENTO DE PRODUCTO A LA LINEA,32
3,P3,01/10/2017,P3 EMB. AUTOMATICO 1,T1,CARLOS ROSAS,PRODUCCION,ARRANQUE,40
4,P3,01/10/2017,P3 EMB. AUTOMATICO 1,T1,CARLOS ROSAS,PRODUCCION,CAMBIO DE PRODUCTO,65
5,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T1,ANTONIO SANTAROSA,BODEGA DE CONGELACION,FALTA DE INGREDIENTE,20
6,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T1,ANTONIO SANTAROSA,PRODUCCION,AJUSTE DE MAQUINA,10
7,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T1,ANTONIO SANTAROSA,PRODUCCION,ARRANQUE,20
8,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T1,ANTONIO SANTAROSA,PRODUCCION,CAMBIO DE PRODUCTO,30
9,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T2,CARLOS ROSAS,BODEGA DE CONGELACION,FALTA DE INGREDIENTE,45
10,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T2,CARLOS ROSAS,MANTENIMIENTO,CAMBIO DE TEFLONES,4
11,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T2,CARLOS ROSAS,PRODUCCION,AJUSTE DE MAQUINA,38
12,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T2,CARLOS ROSAS,PRODUCCION,CAMBIO DE PRODUCTO,45
''')

df = pd.read_csv(datos,  index_col="index")
df

Unnamed: 0_level_0,id_planta,fecha,linea,turno,Supervisor,CategoriaTM,CausaTM,duracionTM
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,P3,01/10/2017,P3 EMB. AUTOMATICO 1,T1,CARLOS ROSAS,BODEGA DE CONGELACION,FALTA DE INGREDIENTE,55
2,P3,01/10/2017,P3 EMB. AUTOMATICO 1,T1,CARLOS ROSAS,PRODUCCION,ABASTECIMIENTO DE PRODUCTO A LA LINEA,32
3,P3,01/10/2017,P3 EMB. AUTOMATICO 1,T1,CARLOS ROSAS,PRODUCCION,ARRANQUE,40
4,P3,01/10/2017,P3 EMB. AUTOMATICO 1,T1,CARLOS ROSAS,PRODUCCION,CAMBIO DE PRODUCTO,65
5,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T1,ANTONIO SANTAROSA,BODEGA DE CONGELACION,FALTA DE INGREDIENTE,20
6,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T1,ANTONIO SANTAROSA,PRODUCCION,AJUSTE DE MAQUINA,10
7,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T1,ANTONIO SANTAROSA,PRODUCCION,ARRANQUE,20
8,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T1,ANTONIO SANTAROSA,PRODUCCION,CAMBIO DE PRODUCTO,30
9,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T2,CARLOS ROSAS,BODEGA DE CONGELACION,FALTA DE INGREDIENTE,45
10,P3,02/10/2017,P3 EMB. AUTOMATICO 1,T2,CARLOS ROSAS,MANTENIMIENTO,CAMBIO DE TEFLONES,4


In [8]:
df2 = df.groupby(['turno', 'CategoriaTM','CausaTM']).duracionTM.sum()
df2 = df2.to_frame()
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,duracionTM
turno,CategoriaTM,CausaTM,Unnamed: 3_level_1
T1,BODEGA DE CONGELACION,FALTA DE INGREDIENTE,75
T1,PRODUCCION,ABASTECIMIENTO DE PRODUCTO A LA LINEA,32
T1,PRODUCCION,AJUSTE DE MAQUINA,10
T1,PRODUCCION,ARRANQUE,60
T1,PRODUCCION,CAMBIO DE PRODUCTO,95
T2,BODEGA DE CONGELACION,FALTA DE INGREDIENTE,45
T2,MANTENIMIENTO,CAMBIO DE TEFLONES,4
T2,PRODUCCION,AJUSTE DE MAQUINA,38
T2,PRODUCCION,CAMBIO DE PRODUCTO,45


In [9]:
import pandas as pd
technologies = {
    'Courses':["Spark","PySpark","Hadoop","Python","PySpark","Spark","Spark"],
    'Fee' :[20000,25000,26000,22000,25000,20000,35000],
    'Duration':['30day','40days','35days','40days','60days','60days','70days'],
    'Discount':[1000,2300,1200,2500,2000,2000,3000]
              }

df = pd.DataFrame(technologies)
print(df)

   Courses    Fee Duration  Discount
0    Spark  20000    30day      1000
1  PySpark  25000   40days      2300
2   Hadoop  26000   35days      1200
3   Python  22000   40days      2500
4  PySpark  25000   60days      2000
5    Spark  20000   60days      2000
6    Spark  35000   70days      3000


In [10]:
result = df.groupby(['Courses','Fee']).count()
print(result)

               Duration  Discount
Courses Fee                      
Hadoop  26000         1         1
PySpark 25000         2         2
Python  22000         1         1
Spark   20000         2         2
        35000         1         1


In [11]:
df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],
                   'C': [1, 2, 3]})
df

Unnamed: 0,A,B,C
0,a,b,1
1,b,a,2
2,a,c,3


In [12]:
pd.get_dummies(df, prefix=['col1', 'col2'])

Unnamed: 0,C,col1_a,col1_b,col2_a,col2_b,col2_c
0,1,1,0,0,1,0
1,2,0,1,1,0,0
2,3,1,0,0,0,1


In [13]:
data = pd.DataFrame({'mascotas': ['gato', 'perro', 'pájaro', 'gato'], 'color': ['negro', 'blanco', 'negro', 'blanco']})
data

Unnamed: 0,mascotas,color
0,gato,negro
1,perro,blanco
2,pájaro,negro
3,gato,blanco


In [14]:
data = pd.DataFrame({'mascotas': ['gato', 'perro', 'pájaro', 'gato'], 'color': ['negro', 'blanco', 'negro', 'blanco']})
 
# Aplicar get_dummies a múltiples columnas
dummies_data_multi = pd.get_dummies(data, columns=['mascotas'])
 
print(dummies_data_multi)

    color  mascotas_gato  mascotas_perro  mascotas_pájaro
0   negro              1               0                0
1  blanco              0               1                0
2   negro              0               0                1
3  blanco              1               0                0
