[![Abrir en Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/adan-rs/amd/blob/main/notebooks/50_Integrar_datos.ipynb)

# Integración y transformación de datos


### Ordenar dataframe
Puedes ordenar las filas de un DataFrame utilizando una o más columnas como criterio. Por ejemplo, para ordenar por número de recámaras y después por número de baños:

In [None]:
df.sort_values(by=['recamaras', 'banos'], inplace=True)
df

Si deseas restablecer la numeración del índice después de ordenar, puedes usar `df.reset_index(drop=True, inplace=True)`

### Agrupado

El método groupby() permite agrupar filas que comparten un mismo valor en una columna, y luego aplicar funciones como promedio, suma, conteo, etc. Este ejemplo muestra el precio promedio por tipo de propiedad.

In [None]:
df.groupby('tipo')['preciomillones'].mean()

Podemos agrupar con base en dos variables y mostrar los valores promedio de las otras variables

In [None]:
df.groupby(['tipo', 'recamaras'])['preciomillones'].mean()

También puedes aplicar otras funciones: `.sum()`, `.count()`, `.median()`, etc.

### Tablas pivote
Las tablas pivote son una herramienta poderosa para reorganizar y resumir datos en formato de tabla dinámica, similar a Excel. Para crear tablas pivote, se utiliza el método pivot_table con la siguiente estructura:
`df.pivot_table(index='columna1', columns='columna2', values='columna3', aggfunc='mean')`  
- En el parámetro `index`, se especifica la variable que se ubicará en las filas.
- En el parámetro `columns`, se define la variable que se ubicará en las columnas.
- En `values`, se indican los valores que se mostrarán en las intersecciones de las filas y columnas.
- En `aggfunc`, se especifica la función de agregación que se aplicará, como `mean`, `sum`, `count`, `median`, `min`, `max`, `std`, o `var`.

Realiza el siguiente ejemplo:

In [None]:
df_pivote = df.pivot_table(index='tipo', columns='recamaras', 
                           values='preciomillones', aggfunc='mean')
df_pivote

Este código crea una tabla donde:
- Cada fila representa un tipo de propiedad.
- Cada columna representa un número de recámaras.
- Las celdas muestran el precio promedio en millones.


## Uniones de dataframes
En análisis de datos, es común combinar información proveniente de diferentes fuentes. Para ello, usamos uniones (*joins*) entre DataFrames, de forma similar a las uniones en bases de datos relacionales.

Pandas ofrece la función `pd.merge()` para realizar este tipo de operaciones.
A continuación, se muestra un ejemplo con dos DataFrames simples para ilustrar claramente los resultados.


In [None]:
# Dataframe izquierdo
df_L = {'key':['A','B','C'],
        'L1':[ 1, 2, 3]}
df_L = pd.DataFrame(df_L)
df_L

In [None]:
# Dataframe derecho
df_R = {'key':['A','B','D'],
        'R1':[ 'T', 'F', 'T']}
df_R = pd.DataFrame(df_R)
df_R

Unión interna de los dataframes L y R. 
Solo conserva filas que están en AMBOS dataframes.

In [None]:
df_i = pd.merge(df_L, df_R, how='inner', on='key')
df_i

Unión externa de los dataframes L y R: Devuelve todos los valores en todas filas, rellenando con NaN los valores faltantes en ambos.

In [None]:
df_o = pd.merge(df_L, df_R, how='outer', on='key')
df_o

Unión izquierda de los dataframes L y R: devuelve todas las filas del dataframe izquierdo y las une con los valores coincidentes del dataframe derecho.

In [None]:
df_left = pd.merge(df_L, df_R, how='left', on='key')
df_left

Observe que how= puede tomar los valores: 'inner', 'outer', 'left', 'right', según la lógica deseada. Por otra parte, el argumento `on='key'` indica que la columna llamada 'key' será usada para realizar la unión. También puedes unir por columnas con diferentes nombres utilizando `left_on=` y `right_on=`.