# AGGREGATION & COMBINATION

## Agregación de datos

`groupby, tabla dinámica y tabla cruzada`

### groupby
La función GroupBy de Pandas es una función potente y versátil en Python. Nos permite dividir los datos en grupos separados para realizar cálculos que permitan un mejor análisis.
Un DataFrame se puede agrupar en sus filas (eje=0) o en sus columnas (eje=1). Una vez hecho esto, se aplica una función a cada grupo, lo que produce un nuevo valor. Finalmente, los resultados de todas esas aplicaciones de funciones se combinan en un objeto de resultado. La forma del objeto resultante generalmente dependerá de lo que se haga con los datos.

`df[subset].groupby(category).aggregation()`

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html

`agrupar por departamentos y su edad media`

`agrupar por departamentos y su edad máxima`

`agrupar por departamentos y su edad mínima`

`groupby: 2+`: Diferentes campos educativos y sus salarios medios en cada uno de los departamentos

In [None]:
# multiindex: https://pandas.pydata.org/docs/user_guide/advanced.html

`más campos`

#### agrupar y agregar

Otra forma de agrupar con sintaxis agg
https://pandas.pydata.org/docs/reference/api/pandas.core.groupby.DataFrameGroupBy.aggregate.html

- media
- suma
- recuento

Supongamos que queremos calcular la media de la columna data1 utilizando las etiquetas de key1. Hay varias formas de hacerlo. Una es acceder a data1 y llamar a groupby con la columna (una String) en key1.
Los datos (una Serie) se han agregado en función de la clave de grupo, lo que produce una nueva String que ahora está indexada por los valores únicos de la columna key1. El índice resultante tiene el nombre 'key1' porque la columna DataFrame `df['key1']` lo tenía.

### Tablas dinámicas

[Comparación entre tabla dinámica y tabla agrupada](https://towardsdatascience.com/una-comparacion-entre-tabla-agrupada-y-tabla-dinámica-en-pythons-pandas-module-527909e78d6b?source=userActivityShare-4c6d9a33c6-1674605913&_branch_match_id=1146490620103499300&_branch_referrer=H4sIAAAAAAAAA8soKSkottLXz8nMy9bLTU3JLM3VS87P1TfKCvCtKvOvCCpPAgAN4ht%2FIwAAAA%3D%3D)

```pivot_table(df, valores=Ninguno, índice=Ninguno, columnas=Ninguno, aggfunc='media', ...)```

* Podemos crear una tabla dinámica de estilo hoja de cálculo como un DataFrame. Los niveles de la tabla dinámica se almacenarán en objetos MultiIndex (índices jerárquicos) en el índice y las columnas del DataFrame resultante.

Tabla dinámica: el departamento y sus edades medias

Tabla dinámica: el departamento y sus edades máximas

`tabla dinámica`: el departamento y sus edades mínimas

Tabla dinámica: el departamento y su edad media

Tabla dinámica de múltiples índices: Departamento y campo de educación y verificación de los valores salariales máximos de los empleados

### Diferencias entre la tabla dinámica y la función groupby

`groupby`: edad media del equipo por abreviatura del equipo y temporada.

`pivot_table`: edad media del equipo por abreviatura del equipo y temporada.

### Crosstab

* Calcular una tabulación cruzada simple de dos (o más) factores. De manera predeterminada, calcula una tabla de frecuencias de los factores a menos que se pase una matriz de valores y una función de agregación. Generalmente se utiliza para ver la frecuencia de dos variables cualitativas: cuántas veces el valor de una columna aparece en la otra.

```pd.crosstab(df[columna1], df[columna2])```

-------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- ----

## Hands-on

#### Import `business.csv` and respond to to following questions:
##### Revenue & Sales Analysis
	1.	Which country has generated the highest total sales?
	2.	Which city has the highest average purchase amount?
	3.	What is the total revenue for each product category?
	4.	Which country has the most transactions with negative amounts?
	5.	How many purchases were made without a discount, and how much revenue did they generate?
##### Customer Insights
	6.	Who is the top-spending customer overall?
	7.	Which customer has spent the most in the “Electronics” category?
	8.	How many customers have made repeat purchases?
	9.	Which customer has received the most discounts?
##### Review Sentiment & Correlations
	10.	Are negative reviews correlated with low purchase amounts?
	11.	Which country has the most positive vs. negative reviews?
	12.	Do customers who received discounts leave better reviews?
	13.	Are refunds (negative amounts) more common among customers who left bad reviews?

## Combinación de datos: mezcla de Dataframes

- https://realpython.com/pandas-merge-join-and-concat/
- https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

### Concatenación: dos cosas juntas
Unimos los dataframes a lo largo del eje 0, uno debajo del otro. Alineamos las columnas por etiqueta.

#### Concatenación en el eje 0 (filas)

#### Concatenación en el eje 1 (columnas)

![Uniones SQL](https://upload.wikimedia.org/wikipedia/commons/9/9d/SQL_Joins.svg)

### MERGE: columnas relacionadas

[Merge()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) es más útil cuando desea fusionar filas que comparten datos.

In [None]:
from IPython.display import display_html 

In [None]:
df1 = pd.DataFrame(
    {
        "key1": ["K0", "K0", "K1", "K2"],
        "key2": ["K0", "K1", "K0", "K1"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }
)


df2 = pd.DataFrame(
    {
        "key1": ["K0", "K1", "K1", "K2"],
        "key2": ["K0", "K0", "K0", "K0"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"],
    }
)

df3 = pd.DataFrame(
    {
        "key1": ["K90", "K1", "K1", "K2"],
        "key2": ["K0", "K0", "K5", "K0"],
        "C": ["C0", "C1", "C2", "C3"],
        "Y": ["D0", "D70", "D2", "D5"],
    }
)

In [None]:
df1_styler = df1.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2.style.set_table_attributes("style='display:inline'").set_caption('Right table')
display_html(df1_styler._repr_html_() + " " + df2_styler._repr_html_(), raw=True)

In [None]:
# merge, default is inner

result = pd.merge(df1, df2)
result

#### LEFT MERGE

In [None]:
left_merge = pd.merge(df1, df2, how="left")


df1_styler = df1.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2.style.set_table_attributes("style='display:inline'").set_caption('Right table')
left_merge = left_merge.style.set_table_attributes("style='display:inline'").set_caption("left_merge")

display_html(df1_styler._repr_html_() +  " " + df2_styler._repr_html_(), raw=True)

In [None]:
display_html(left_merge._repr_html_(), raw=True)

#### RIGHT MERGE

In [None]:
right_merge = pd.merge(df1, df2, how="right")


df1_styler = df1.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2.style.set_table_attributes("style='display:inline'").set_caption('Right table')
right_merge = right_merge.style.set_table_attributes("style='display:inline'").set_caption("right_merge")

display_html(df1_styler._repr_html_() + " " + df2_styler._repr_html_(),raw=True)

In [None]:
display_html(right_merge._repr_html_(), raw=True)

#### Fusión INTERNA

In [None]:
inner_merge = pd.merge(df1, df2, how="inner")


df1_styler = df1.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2.style.set_table_attributes("style='display:inline'").set_caption('Right table')
inner_merge = inner_merge.style.set_table_attributes("style='display:inline'").set_caption("inner_merge")

display_html(df1_styler._repr_html_() +  " " + df2_styler._repr_html_(), raw=True)

In [None]:
display_html(inner_merge._repr_html_(), raw=True)

#### OUTER MERGE

In [None]:
outer_merge = pd.merge(df1, df2, how="outer")

df1_styler = df1.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2.style.set_table_attributes("style='display:inline'").set_caption('Right table')
outer_merge = outer_merge.style.set_table_attributes("style='display:inline'").set_caption("outer_merge")

display_html(df1_styler._repr_html_() +  " " + df2_styler._repr_html_(), raw=True)

In [None]:
display_html(outer_merge._repr_html_(), raw=True)

### JOIN & CONCAT on different columns

In [None]:
df1_docs = pd.DataFrame({'lkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [1, 2, 3, 5]})
df2_docs = pd.DataFrame({'rkey': ['foo', 'bar', 'baz', 'foo'],
                    'value': [5, 6, 7, 8]})

In [None]:
df1_styler = df1_docs.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2_docs.style.set_table_attributes("style='display:inline'").set_caption('Right table')

display_html(df1_styler._repr_html_() +  " " + df2_styler._repr_html_(), raw=True)

#### Concatenación en dos columnas diferentes

In [None]:
concat_docs = pd.concat([df1_docs, df2_docs], axis=1, keys=["1st table", "2nd table"])

df1_styler = df1_docs.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2_docs.style.set_table_attributes("style='display:inline'").set_caption('Right table')
merge_styler = concat_docs.style.set_table_attributes("style='display:inline'").set_caption('concat_docs')

display_html(df1_styler._repr_html_() +  " " + df2_styler._repr_html_(), raw=True)

In [None]:
display_html(merge_styler._repr_html_(), raw=True)

#### Merge en dos columnas diferentes

In [None]:
df1_styler = df1_docs.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2_docs.style.set_table_attributes("style='display:inline'").set_caption('Right table')

display_html(df1_styler._repr_html_() +  " " + df2_styler._repr_html_(), raw=True)

In [None]:
merge_docs = df1_docs.merge(df2_docs, left_on='lkey', right_on='rkey', suffixes = ["_fromleft", "_fromright"])

In [None]:
merge_docs = df1_docs.merge(df2_docs, left_on='lkey', right_on='rkey', suffixes = ["_from_left", "_from_right"])


df1_styler = df1_docs.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = df2_docs.style.set_table_attributes("style='display:inline'").set_caption('Right table')
merge_styler = merge_docs.style.set_table_attributes("style='display:inline'").set_caption('merge_docs')

display_html(df1_styler._repr_html_() + " " + df2_styler._repr_html_(), raw=True)

In [None]:
display_html(merge_styler._repr_html_(), raw=True)

In [None]:
# suffixes: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html

In [None]:
# concat: putting things together
# join/merge: putting things together THAT ARE RELATED
    # related info in the same place -> reduces redundancy

### Join: índice relacionado
El join, a diferencia del merge, unirá los dataframes y donde no haya registros en el "índice" pondrá NaN

In [None]:
import numpy as np
import pandas as pd   
from IPython.display import display_html 

In [None]:
left_df = pd.DataFrame(
    {"A": ["A0", "A1", "A2"], "B": ["B0", "B1", "B2"]}, index=["K0", "K1", "K2"]
)


right_df = pd.DataFrame(
    {"C": ["C0", "C2", "C3"], "D": ["D0", "D2", "D3"]}, index=["K0", "K2", "K3"]
)

In [None]:
df1_styler = left_df.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = right_df.style.set_table_attributes("style='display:inline'").set_caption('Right table')

display_html(df1_styler._repr_html_()+ df2_styler._repr_html_(), raw=True)

In [None]:
result = left_df.join(right_df, how="inner")

#Rendering the df's in the same line. No need to learn this code

df1_styler = left_df.style.set_table_attributes("style='display:inline'").set_caption('Left table')
df2_styler = right_df.style.set_table_attributes("style='display:inline'").set_caption('Right table')
df1_df2_merged = result.style.set_table_attributes("style='display:inline'").set_caption('JOIN')

display_html(df1_styler._repr_html_()+ df2_styler._repr_html_() + df1_df2_merged._repr_html_(), raw=True)
#display_html(df1_styler._repr_html_()+ df2_styler._repr_html_(), raw=True)

<figure class="wp-block-table is-style-stripes"><table class="has-fixed-layout"><thead><tr><th><strong>Función de unión</strong></th><th class="has-text-align-center" data-align="center"><strong>join()</strong></th><th class="has-text-align-center" data-align="center"><strong>merge()</strong></th></tr></thead><tbody><tr><td>interior</td><td class="has-text-align-center" data-align="center">Sí</td><td class="has-text-align-center" data-align="center">Sí</td></tr><tr><td>izquierda</td><td class="has-text-align-center" data-align="center">Sí</td><td class="has-text-align-center" data-align="center">Sí</td><td class="has-text-align-center" data-align="center">Sí</td></tr><tr><td>derecha</td><td class="has-text-align-center" data-align="center">Sí</td><td class="has-text-align-center" data-align="center">Sí</td></tr><tr><td>exterior</td><td class="has-text-align-center" data-align="center">Sí</td><td class="has-text-align-center" data-align="center">Sí</td></tr><tr><td>cruz</td><td class="has-text-align-center" data-align="center">X</td><td class="has-text-align-center" data-align="center">Sí</td></tr><tr><td>Unión en índices</td><td class="has-text-align-center" data-align="center">Sí</td><td class="has-text-align-center" data-align="center">Sí</td></tr><tr><td>Unirse en columnas</td><td class="has-text-align-center" data-align="center">X</td><td class="has-text-align-center" data-align="center">Sí</td></tr><tr><td>A la izquierda en la columna, a la derecha en el índice</td><td class="has-text-align-center" data-align="center">Sí</td><td class="has-text-align-center" data-align="center">Sí</td></tr><tr><td>A la izquierda en el índice, a la derecha en la columna</td><td class="has-text-align-center" data-align="center">X</td><td class="has-text-align-center" data-align="center">Sí</td></tr></tbody></table>

## Métodos habituales de Pandas
```python
df.head() # imprime la cabecera, por defecto 5 filas
df.tail() # establece la cola, por defecto 5 filas
df.describe() # descripción estadística
df.info() # información del df
df.columns # muestra la columna
df.index # muestra el índice
df.dtypes # muestra los tipos de datos de la columna
df.plot() # hace un gráfico
df.hist() # hace un histograma
df.col.value_counts() # cuenta los valores únicos de una columna
df.col.unique() # devuelve valores únicos de una columna
df.copy() # copia el df
df.drop() # elimina columnas o filas (axis=0,1)
df.dropna() # elimina nulos
df.fillna() # rellena nulos
df.shape # dimensiones del df
df._get_numeric_data() # selecciona numérico columnas
df.rename() # renombrar columnas
df.str.replace() # reemplazar columnas de cadenas
df.astype(dtype='float32') # cambiar el tipo de datos
df.iloc[] # localizar por índice
df.loc[] # localizar por elemento
df.transpose() # transpone el df
df.T
df.sample(n, frac) # muestra de df
df.col.sum() # suma de una columna
df.col.max() # máximo de una columna
df.col.min() # mínimo de una columna
df[col] # seleccionar columna
df.col
df.isnull() # valores nulos
df.isna()
df.notna() # valores no nulos
df.drop_duplicates() # eliminar duplicados
df.reset_index(inplace=True) # restablecer el índice y sobrescribir
```

## Materiales adicionales

* [¡Lea la documentación!](https://pandas.pydata.org/pandas-docs/stable/index.html)
* [Hoja de trucos](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)
* [Ejercicios para practicar](https://github.com/guipsamora/pandas_exercises)
* [Más información sobre fusión, concatenación y unión](https://realpython.com/pandas-merge-join-and-concat/#pandas-join-combining-data-on-a-column-or-index). Y [¡aún más!](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html)