<a href="https://colab.research.google.com/github/solozano0725/diplomadoMLNivel1/blob/main/DipMLsesion9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="Colaboratory logo" height="140px" src="https://upload.wikimedia.org/wikipedia/commons/archive/f/fb/20161010213812%21Escudo-UdeA.svg" align="left" hspace="10px" vspace="0px"></p>

# **Diplomado de Análisis de datos y Machine Learning en Python**


El presente diplomado hace parte del centro de Big Data de la facultad de ciencias exactas y naturales (FCEN) de la Universidad de Antioquia.

## **Sesión 9**

## **Contenido**

- <a href="#pan"> Pandas</a><br>
  - <a href="#ind"> Indexación, selección y asignación: Enmascaramiento</a><br>
  - <a href="#com"> Combinación y unión</a><br>
  - <a href="#ope"> Operaciones sobre los datos en Pandas</a><br>
  - <a href="#opeds"> Operaciones entre DataFrames y Series</a><br>
  - <a href="#agg"> Agregación y agrupamiento</a><br>


  









# **Indexación, selección y asignación: Enmascaramiento**

In [None]:
import numpy as np
import pandas as pd

exam_data = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'], 
             'score': [12.5, 9, 16.5, 10, 9, 20, 14.5, 12, 8, 19], 'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1], 
             'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

df = pd.DataFrame(exam_data, index=labels)
df

Unnamed: 0,name,score,attempts,qualify
a,Anastasia,12.5,1,yes
b,Dima,9.0,3,no
c,Katherine,16.5,2,yes
d,James,10.0,3,no
e,Emily,9.0,2,no
f,Michael,20.0,3,yes
g,Matthew,14.5,1,yes
h,Laura,12.0,1,no
i,Kevin,8.0,2,no
j,Jonas,19.0,1,yes


Cuando utilizamos el indexador `loc`, podemos utilizar enmascaramiento

* Filtre las filas donde el número de intentos (attempts) sea mayor que 2


In [None]:
df.loc[df.attempts > 2]

Unnamed: 0,name,score,attempts,qualify
b,Dima,9.0,3,no
d,James,10.0,3,no
f,Michael,20.0,3,yes


Pandas viene con algunos selectores condicionales incorporados. Uno de estos es
el método `between`, que nos permite seleccionar elementos en un rango dado



* Filtre las filas donde el score se encuentre entre 15 y 20 (incluidos)


In [None]:
df.loc[(df.score >= 15) & (df.score <= 20)]

Unnamed: 0,name,score,attempts,qualify
c,Katherine,16.5,2,yes
f,Michael,20.0,3,yes
j,Jonas,19.0,1,yes


In [None]:
df.loc[df.score.between(15, 20)]

Unnamed: 0,name,score,attempts,qualify
c,Katherine,16.5,2,yes
f,Michael,20.0,3,yes
j,Jonas,19.0,1,yes


* Filtre las filas donde el número de intentos (attempts) sea igual a 2 y cuyo score sea mayor o igual a 10

In [None]:
df.loc[(df.attempts == 2) & (df.score >= 10)]

Unnamed: 0,name,score,attempts,qualify
c,Katherine,16.5,2,yes


El método `isin` nos permite seleccionar datos cuyo valor "está en" una lista de valores. 

In [None]:
df.loc[(df.name == "Dima") | (df.name == "James")]

Unnamed: 0,name,score,attempts,qualify
b,Dima,9.0,3,no
d,James,10.0,3,no


In [None]:
df.loc[df.name.isin(["Dima","James"])]

Unnamed: 0,name,score,attempts,qualify
b,Dima,9.0,3,no
d,James,10.0,3,no


<p><a name="com"></a></p>

# **Combinación y unión**

Una de las operaciones más comunes en Pandas es la combinación de datos contenidos en varios objetos. En particular, las operaciones de combinación o unión combinan conjuntos de datos vinculando filas con una o más claves.


**Concatenación**

Pandas tiene la función `concat()` que se puede usar para una concatenación simple de objetos tipo `Series` o `DataFrame`


In [None]:
s1 = pd.Series([1,2])
s1

0    1
1    2
dtype: int64

In [None]:
s2 = pd.Series([3,4])
s2

0    3
1    4
dtype: int64

In [None]:
pd.concat([s1, s2])

0    1
1    2
0    3
1    4
dtype: int64

Note que los índices se preservan. Si no los queremos preservar, podemos utilizar el kwarg `ignore_index`

In [None]:
pd.concat([s1, s2], ignore_index=True)

0    1
1    2
2    3
3    4
dtype: int64

Podemos concatenar DataFrames de forma análoga, indicando el eje de la concatenación

In [None]:
df1 = pd.DataFrame([s1, s2])
df1

Unnamed: 0,0,1
0,1,2
1,3,4


In [None]:
df2 = 2*df1
df2

Unnamed: 0,0,1
0,2,4
1,6,8


In [None]:
# concatenar en el eje 0
pd.concat([df1, df2])

Unnamed: 0,0,1
0,1,2
1,3,4
0,2,4
1,6,8


In [None]:
# concatenar en el eje 1
pd.concat([df1, df2], axis=1)

Unnamed: 0,0,1,0.1,1.1
0,1,2,2,4
1,3,4,6,8


En el caso de que los DataFrames tengan nombres de columna diferentes. Por defecto, la concatenación se realiza con la unión de las columnas 
 


In [None]:
df1.columns = ["A","B"]
df1

Unnamed: 0,A,B
0,1,2
1,3,4


In [None]:
df2.columns = ["B","C"]
df2

Unnamed: 0,B,C
0,2,4
1,6,8


In [None]:
# union de las columnas
df1.columns | df2.columns

Index(['A', 'B', 'C'], dtype='object')

In [None]:
pd.concat([df1,df2])

Unnamed: 0,A,B,C
0,1.0,2,
1,3.0,4,
0,,2,4.0
1,,6,8.0


Para concatenar sobre la intersección de los nombres podemos especificar el kwarg `join=inner` 

In [None]:
# interseccion de las columnas
df1.columns & df2.columns

Index(['B'], dtype='object')

In [None]:
pd.concat([df1,df2], join="inner")

Unnamed: 0,B
0,2
1,4
0,2
1,6


**Combinación**

Una característica esencial que ofrece Pandas son sus operaciones de combinación y fusión en memoria de alto rendimiento. La interfaz principal para esto es la función `merge`





**one-to-one**: La forma más simple es la combinación *one-to-one* de los dataframes:

In [None]:
df1 = df.iloc[:4, [0,1]]
df1

Unnamed: 0,name,score
a,Anastasia,12.5
b,Dima,9.0
c,Katherine,16.5
d,James,10.0


In [None]:
df2 = df.iloc[:4, [0,2]]
df2

Unnamed: 0,name,attempts
a,Anastasia,1
b,Dima,3
c,Katherine,2
d,James,3


In [None]:
pd.merge(df1, df2)

Unnamed: 0,name,score,attempts
0,Anastasia,12.5,1
1,Dima,9.0,3
2,Katherine,16.5,2
3,James,10.0,3


La función `merge` reconoce que cada DataFrame tiene una columna "name" y los combina automáticamente usando esta columna como clave. El resultado de la fusión es un nuevo DataFrame que combina la información de las dos entradas

**many-to-one**: En este caso una de las claves de los DataFrames tiene elementos duplicados

In [None]:
df1 = df.iloc[[0,0,1,2], [0,1,2]]
df1

Unnamed: 0,name,score,attempts
a,Anastasia,12.5,1
a,Anastasia,12.5,1
b,Dima,9.0,3
c,Katherine,16.5,2


In [None]:
df2 = df.iloc[:3, [0,3]]
df2

Unnamed: 0,name,qualify
a,Anastasia,yes
b,Dima,no
c,Katherine,yes


In [None]:
pd.merge(df1, df2)

Unnamed: 0,name,score,attempts,qualify
0,Anastasia,12.5,1,yes
1,Anastasia,12.5,1,yes
2,Dima,9.0,3,no
3,Katherine,16.5,2,yes


El DataFrame resultante tiene una columna adicional con la información de *qualify*, donde la información se repite en una o más ubicaciones según lo requieran las entradas, en este caso en dos entradas correspondientes al nombre *Anastasia*

**Many-to-many**: Si la columna clave en los dataframes de la izquierda y derecha contiene duplicados, el resultado es una combinación *many-to-many*

In [None]:
df1 = df.iloc[[0,0,1,2], [0,1]]
df1

Unnamed: 0,name,score
a,Anastasia,12.5
a,Anastasia,12.5
b,Dima,9.0
c,Katherine,16.5


In [None]:
df2 = df.iloc[[0,1,2,2], [0,2]]
df2

Unnamed: 0,name,attempts
a,Anastasia,1
b,Dima,3
c,Katherine,2
c,Katherine,2


In [None]:
pd.merge(df1, df2)

Unnamed: 0,name,score,attempts
0,Anastasia,12.5,1
1,Anastasia,12.5,1
2,Dima,9.0,3
3,Katherine,16.5,2
4,Katherine,16.5,2


Podemos especificar la columna sobre la que queremos realizar la combinación utilizando el kwarg `on`.

In [None]:
df1 = df.iloc[:4, [0,1]]
df1

Unnamed: 0,name,score
a,Anastasia,12.5
b,Dima,9.0
c,Katherine,16.5
d,James,10.0


In [None]:
pd.merge(df1, df1, on="name")

Unnamed: 0,name,score_x,score_y
0,Anastasia,12.5,12.5
1,Dima,9.0,9.0
2,Katherine,16.5,16.5
3,James,10.0,10.0


En el caso en el que los DataFrames tengan nombres de columna diferente podemos utilizar los kwargs `left_on` y `right_on` para especificar las claves de los dataframes sobre los que queremos hacer la combinación.

In [None]:
df1

Unnamed: 0,name,score
a,Anastasia,12.5
b,Dima,9.0
c,Katherine,16.5
d,James,10.0


In [None]:
df2 = df.iloc[:4, [0,2]]
df2.columns = ["Name","attempts"]
df2

Unnamed: 0,Name,attempts
a,Anastasia,1
b,Dima,3
c,Katherine,2
d,James,3


In [None]:
pd.merge(df1, df2, left_on="name", right_on="Name").drop(columns="Name")

Unnamed: 0,name,score,attempts
0,Anastasia,12.5,1
1,Dima,9.0,3
2,Katherine,16.5,2
3,James,10.0,3


Podemos definir el tipo de combinación que queremos realizar mediante el kwarg `how` (por defecto se utiliza `how=inner`)

<p><img alt="Colaboratory logo" height="440px" src="https://i.imgur.com/9Ba9fNK.png" align="left" hspace="10px" vspace="0px"></p>

Los dataframes tienen un método `join` que permite combinar dataframes de forma similar a `merge`, pero en este caso las claves de la combinación serán los índices

In [None]:
df1

Unnamed: 0,name,score
a,Anastasia,12.5
b,Dima,9.0
c,Katherine,16.5
d,James,10.0


In [None]:
df2

Unnamed: 0,Name,attempts
a,Anastasia,1
b,Dima,3
c,Katherine,2
d,James,3


In [None]:
df1.join(df2)

Unnamed: 0,name,score,Name,attempts
a,Anastasia,12.5,Anastasia,1
b,Dima,9.0,Dima,3
c,Katherine,16.5,Katherine,2
d,James,10.0,James,3


<p><a name="ope"></a></p>

# **Operaciones sobre los datos en Pandas**

Una de las piezas esenciales de NumPy es la capacidad de realizar operaciones vectorizadas, tanto con aritmética básica (suma, resta, multiplicación, etc.) como con operaciones más sofisticadas (funciones trigonométricas, funciones exponenciales y logarítmicas, etc) a través de las *ufuncs*. Pandas hereda gran parte de esta funcionalidad de NumPy.

Pandas incluye un par de elementos útiles: para operaciones unarias como funciones de negación y trigonométricas, estas *ufuncs* conservarán etiquetas de índice y columna en la salida, y para operaciones binarias como suma y multiplicación, Pandas alineará automáticamente los índices. Debido a que Pandas está diseñado para funcionar con NumPy, cualquier *ufunc* de NumPy funcionará en objetos Pandas Series y DataFrame. 

Comencemos por definir una serie y un DataFrame simples con los cuales demostrar esto:

In [None]:
s = pd.Series([1,4,23,5])
s

0     1
1     4
2    23
3     5
dtype: int64

In [None]:
df = pd.DataFrame(np.random.rand(3,3))
df

Unnamed: 0,0,1,2
0,0.104449,0.730558,0.335344
1,0.437354,0.449065,0.271671
2,0.166665,0.085117,0.919554


**Preservando el índice**

Si aplicamos una *ufunc* de NumPy en un objeto de Pandas, el resultado será otro objeto de Pandas con los índices preservados


In [None]:
np.exp(s)

0    2.718282e+00
1    5.459815e+01
2    9.744803e+09
3    1.484132e+02
dtype: float64

In [None]:
np.exp(df)

Unnamed: 0,0,1,2
0,1.110098,2.076238,1.398421
1,1.548604,1.566847,1.312155
2,1.181358,1.088844,2.50817


**Alineación del índice**

Para operaciones binarias con dos objetos (Series o DataFrames), Pandas alineará los índices en el proceso de realizar la operación.


In [None]:
s1 = pd.Series(np.random.rand(3), index=["A","B","C"])
s1

A    0.065349
B    0.202054
C    0.809764
dtype: float64

In [None]:
s2 = pd.Series(np.random.rand(3), index=["B","C","D"])
s2

B    0.520646
C    0.016455
D    0.765438
dtype: float64

In [None]:
s1 / s2

A          NaN
B     0.388083
C    49.211625
D          NaN
dtype: float64

El arreglo resultante contiene la unión de los índices de los dos arreglos de entrada, que podrían determinarse utilizando la aritmética de conjuntos estándar de Python sobre estos índices:


In [None]:
# union de los indices
s1.index | s2.index

Index(['A', 'B', 'C', 'D'], dtype='object')

Cualquier elemento para el que una serie u otra no tenga una entrada se marca con `NaN` ("Not a Number"), que es la forma en que Pandas marca los datos faltantes.

Esta coincidencia de índices se implementa de esta manera para cualquiera de las expresiones aritméticas integradas de Python; los valores faltantes se rellenan con `NaN` de forma predeterminada.

Cuando se realizan operaciones en DataFrames se produce un tipo similar de alineación tanto para las columnas como para los índices:


In [None]:
df1 = pd.DataFrame(np.random.rand(3,3), columns=["A","B","C"])
df1

Unnamed: 0,A,B,C
0,0.306141,0.759576,0.616644
1,0.618753,0.49744,0.398045
2,0.430199,0.833666,0.704818


In [None]:
df2 = pd.DataFrame(np.random.rand(3,3), columns=["B","C","D"])
df2

Unnamed: 0,B,C,D
0,0.891891,0.973312,0.912284
1,0.150498,0.357622,0.601519
2,0.73501,0.090605,0.029561


In [None]:
df1 + df2

Unnamed: 0,A,B,C,D
0,,1.651467,1.589956,
1,,0.647938,0.755667,
2,,1.568676,0.795423,


Observe que los índices están alineados correctamente independientemente de su orden en los dos objetos, y los índices del resultado están ordenados.

Con el kwarg `fill_value` podemos llenar los valores faltantes con este valor **antes** de la aplicación de la operación (existentes y cualquier elemento nuevo necesario para una alineación exitosa del DataFrame)



In [None]:
df1.add(df2, fill_value=0)

Unnamed: 0,A,B,C,D
0,0.306141,1.651467,1.589956,0.912284
1,0.618753,0.647938,0.755667,0.601519
2,0.430199,1.568676,0.795423,0.029561


<p><a name="opeds"></a></p>

# **Operaciones entre DataFrame y Series**

Al realizar operaciones entre un DataFrame y una Serie, la alineación del índice y la columna se mantiene de manera similar. Estas operaciones son similares a las operaciones entre un arreglo de NumPy bidimensional y uno unidimensional, definidas por el mecanismo del *broadcasting*

**Broadcasting**

![](https://i.imgur.com/GL91bu9.png)

Por ejemplo, la resta entre un un arreglo bidimensional y una de sus filas se aplica por filas

In [None]:
a = np.arange(9).reshape(3,3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [None]:
a[0]

array([0, 1, 2])

In [None]:
a - a[0]

array([[0, 0, 0],
       [3, 3, 3],
       [6, 6, 6]])

En Pandas, la convención opera de manera similar:

In [None]:
df = pd.DataFrame(np.arange(9).reshape(3,3), columns=["A","B","C"])
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8


In [None]:
df.iloc[0]

A    0
B    1
C    2
Name: 0, dtype: int64

In [None]:
df - df.iloc[0]

Unnamed: 0,A,B,C
0,0,0,0
1,3,3,3
2,6,6,6


Si, en cambio, deseamos operar sobre las columnas (eje 0), debemos utilizar directamente la *ufunc* de manera que podamos especificar el eje explícitamente con el kwarg `axis`. 

Note que en este caso los índices de la fila deben coincidir con los índices del DataFrame, a diferencia del caso anterior en el que los índices de la Serie coincidia con las columnas del DataFrame:


In [None]:
df.iloc[0]

A    0
B    1
C    2
Name: 0, dtype: int64

In [None]:
df

Unnamed: 0,A,B,C
0,0,1,2
1,3,4,5
2,6,7,8


In [None]:
df.subtract(df.iloc[0].reset_index(drop=True), axis=0)

Unnamed: 0,A,B,C
0,0,1,2
1,2,3,4
2,4,5,6


**Ejercicio :** Dado el siguiente DataFrame
>
    df = pd.DataFrame(np.random.rand(3, 3))

reste la media de la fila de cada elemento de la fila

In [None]:
df = pd.DataFrame(np.random.rand(3, 3))
df

Unnamed: 0,0,1,2
0,0.37955,0.681349,0.751215
1,0.712602,0.569144,0.633407
2,0.419481,0.427472,0.590892


In [None]:
df.subtract(df.mean(axis=1), axis=0)

Unnamed: 0,0,1,2
0,-0.224488,0.077311,0.147177
1,0.074218,-0.06924,-0.004978
2,-0.0598,-0.05181,0.11161


<p><a name="agg"></a></p>

# **Agregaciones y agrupamiento**

Una parte esencial del análisis de grandes cantidades de datos es el cálculo de agregaciones como la suma, media, mediana, etc; que nos proporcionan un resumen estadístico de los datos. En esta sección, exploraremos agregaciones en Pandas.





In [None]:
np.random.seed(42)

df = pd.DataFrame({'key': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'c2': np.random.randint(0, 10, 6),
                   'c3': np.random.randint(10, 20, 6)})
df

Unnamed: 0,key,c2,c3
0,A,6,12
1,B,3,16
2,C,7,17
3,A,4,14
4,B,6,13
5,C,9,17


Las funciones de agregación se realizan por defecto a través del eje 0 (por columna)

In [None]:
df.mean() 

c2     5.833333
c3    14.833333
dtype: float64

Naturalmente, utilizamos el kwarg `axis` para especificar el eje

In [None]:
df.mean(axis=1)

0     9.0
1     9.5
2    12.0
3     9.0
4     9.5
5    13.0
dtype: float64

In [None]:
# obtener el indice del valor maximo
df.mean().idxmax()

'c3'

In [None]:
# obtener el indice del valor minimo
df.mean().idxmin()

'c2'

Estas agregaciones simples sobre los objetos de pandas son similares a las que hemos visto en los arreglos de NumPy. 


<p><a name="gro"></a></p>

## **GroupBy**

Las agregaciones simples pueden darnos una idea del conjunto de datos, pero a menudo preferimos agregar condicionalmente sobre alguna etiqueta o índice: esto se implementa en la llamada operación *groupby*

El objeto GroupBy es una abstracción muy flexible. En muchos sentidos, podemos tratarlo como si fuera una colección de DataFrames, para los cuales se realizan una serie de operaciones complejas "por debajo".

**dividir, aplicar y combinar**

En la siguiente figura se ilustra un ejemplo canónico de esta operación dividir-aplicar-combinar, donde "aplicar" hace referencia a la función de agregación *apply*:

<p><img alt="Colaboratory logo" height="440px" src="https://lewtun.github.io/dslectures/images/split-apply-combine.png" align="left" hspace="10px" vspace="0px"></p>



* El paso de división implica dividir y agrupar un DataFrame según el valor de la clave especificada.
* El paso de aplicación implica calcular alguna función, generalmente una agregación, dentro de los grupos individuales.
* El paso de combinación fusiona los resultados de estas operaciones en un objeto (Serie o DataFrame) como salida.

Si bien esto ciertamente se podría hacer manualmente usando alguna combinación de las funcionalidades de enmascaramiento, agregación y fusión descritos anteriormente, lo importante es que las divisiones intermedias no necesitan ser instanciadas explícitamente. El poder de GroupBy es que abstrae estos pasos: el usuario no necesita pensar en cómo se realiza el cálculo "por debajo", sino que piensa en la operación como un todo.

Veamos un ejemplo concreto: Elijamos como clave de agrupación la variable `key`:

In [None]:
df.groupby("key")

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fdef63cfc10>

Note que lo que se devuelve no es un conjunto de DataFrames, sino un objeto `DataFrameGroupBy`. Para producir un resultado, podemos aplicar una función de agregación a este objeto, que realizará los pasos apropiados de aplicación / combinación para producir el resultado deseado



In [None]:
df

Unnamed: 0,key,c2,c3
0,A,6,12
1,B,3,16
2,C,7,17
3,A,4,14
4,B,6,13
5,C,9,17


In [None]:
df.groupby("key").mean()

Unnamed: 0_level_0,c2,c3
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,5.0,13.0
B,4.5,14.5
C,8.0,17.0


**Aggregate**

Este método permite tener mucha más flexibilidad en las operaciones de agregación. Puede tomar una cadena de caracteres, una función o una lista de las mismas y calcular todos las agregaciones a la vez. 

In [None]:
df.groupby("key").agg(["mean", np.max, min])

Unnamed: 0_level_0,c2,c2,c2,c3,c3,c3
Unnamed: 0_level_1,mean,amax,min,mean,amax,min
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,5.0,6,4,13.0,14,12
B,4.5,6,3,14.5,16,13
C,8.0,9,7,17.0,17,17


También lo podemos aplicar sobre el dataframe completo y utilizar un diccionario para mapear qué funciones (valores) queremos aplicar a una columna particular (claves)

In [None]:
df.groupby("key").agg({"c2":["mean","max"], "c3":"min"})

Unnamed: 0_level_0,c2,c2,c3
Unnamed: 0_level_1,mean,max,min
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,5.0,6,12
B,4.5,6,13
C,8.0,9,17


**Filter**

Una operación de filtrado permite eliminar datos según las propiedades del grupo. 

Por ejemplo, podríamos querer mantener todos los grupos en los que la desviación estándar de alguna columna sea mayor que algún valor dado

In [None]:
df.groupby("key").std()

Unnamed: 0_level_0,c2,c3
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1.414214,1.414214
B,2.12132,2.12132
C,1.414214,0.0


La función de filtro debe devolver un valor booleano que especifique si el grupo pasa el filtro

In [None]:
df.groupby("key").filter(lambda df: df["c3"].std() > 1)

Unnamed: 0,key,c2,c3
0,A,6,12
1,B,3,16
3,A,4,14
4,B,6,13


**Transformation**

Si bien la agregación debe devolver una versión reducida de los datos, la transformación puede devolver alguna versión transformada de los datos completos para recombinarlos. En esta transformación, la salida tiene la misma forma que la entrada. 

Un ejemplo común es centrar los datos restando la media del grupo:

In [None]:
df

Unnamed: 0,key,c2,c3
0,A,6,12
1,B,3,16
2,C,7,17
3,A,4,14
4,B,6,13
5,C,9,17


In [None]:
df.groupby("key").mean()

Unnamed: 0_level_0,c2,c3
key,Unnamed: 1_level_1,Unnamed: 2_level_1
A,5.0,13.0
B,4.5,14.5
C,8.0,17.0


In [None]:
df.groupby('key').transform(lambda x: x - x.mean())

Unnamed: 0,c2,c3
0,1.0,-1.0
1,-1.5,1.5
2,-1.0,0.0
3,-1.0,1.0
4,1.5,-1.5
5,1.0,0.0


**Apply**

Este método nos permite aplicar una función arbitraria. La función debe tomar un DataFrame y devolver un objeto de Pandas, un número, un valor booleano o un string. la operación de combinación se adaptará al tipo de salida devuelta.

Por ejemplo, apliquemos una función que normaliza la segunda columna por la suma de la tercera para cada clave:


In [None]:
def norm(df):
  df['c2'] /= df['c3'].sum()
  return df

In [None]:
df.groupby("key").apply(norm)

Unnamed: 0,key,c2,c3
0,A,0.230769,12
1,B,0.103448,16
2,C,0.205882,17
3,A,0.153846,14
4,B,0.206897,13
5,C,0.264706,17


`apply` dentro de un GroupBy es muy flexible, el único criterio es que la función tome un DataFrame, pero este puede retornar un objeto de Pandas, un numero, un string o un valor booleano; lo que hagamos con la función depende de nosotros