# Manipulación Avanzada de Datos
------------------------

En esta sección aprenderemos a manipular nuestro dataframe haciendo agrupaciones de datos o trabajando con más de un dataframe a la vez


## 1. Sumarización de Datos

Las sentencias de agrupamiento de datos nos ayudan a brindar información resumida que pueda ser facilmente analizada por diversas personas.

<img src='./img/group_by.jpg'>

El agrupamiento de datos implica utilizar funciones de agregacion como: `count`, `sum`, `mean`, `min`, `max` a una columna del df

In [None]:
import pandas as pd

df_reviews = pd.read_csv('./src/winemag-data-130k-v2.csv')
df_reviews.head(2)

In [None]:
df_reviews.groupby(['country']).price.agg([len, 'min', 'max', 'mean'])

In [None]:
df_group = df_reviews.groupby(['country', 'province']).agg(
    {'points': ['mean', 'min', 'max'],
     'price': ['mean', 'min', 'max']
    }
    # ordenando por points descendentemente y price ascendentemente
).sort_values(by=[('points', 'mean'), ('price', 'mean')], ascending=[False, True])

# mostrando top 5
df_group.head(5)

## 2. Manipulando más de un DataFrame

### 2.1 Unificando o Concatenando DataFrames

Esto nos permite unificar información de Dataframs cuyas columnas sean iguales

<img src='https://pandas.pydata.org/docs/_images/08_concat_row.svg'>

In [None]:
# A manera de ejemplo veremos la unificación de 2 df's cuya data es similar

import pandas as pd

columns = ["date.utc", "location", "parameter", "value"]

df_air_quality_no2 = pd.read_csv("./src/air_quality_no2_long.csv", parse_dates=True, usecols=columns)
df_air_quality_pm25 = pd.read_csv("./src/air_quality_pm25_long.csv", parse_dates=True, usecols=columns)


In [None]:
df_air_quality_no2.head(2)



In [None]:
df_air_quality_pm25.head()

In [None]:
# Unificando la información en un único df

df_air_quality = pd.concat([df_air_quality_pm25, df_air_quality_no2], axis=0)
df_air_quality.head()

In [None]:
df_air_quality

In [None]:
# corrección del índice
df_air_quality = df_air_quality.reset_index(drop=True)
df_air_quality

In [None]:
print('Shape of the ``air_quality_pm25`` table: ', df_air_quality_pm25.shape)

print('Shape of the ``air_quality_no2`` table: ', df_air_quality_no2.shape)

print('Shape of the resulting ``air_quality`` table: ', df_air_quality.shape)

### 2.2 Joins

Podemos unir dos dataframes en funcion de sus columnas comunes usando `merge`

La operacion merge implica combinar 2 df a partir de uno o más valores llave o `key`

<img src='./img/merge.png'>

In [None]:
# Unificaremos la información consolidada del df previo 
df_stations_coord = pd.read_csv("./src/air_quality_stations.csv")
df_stations_coord.head(2)

In [None]:
# como llame emplearemos la columna 'location'

df_air_quality = pd.merge(df_air_quality, df_stations_coord, how="inner", on="location")
df_air_quality.head()

In [None]:
df_air_quality.shape

In [None]:
# como llave emplearemos la columna 'location'


df_air_quality = pd.merge(df_air_quality, df_stations_coord, how="inner", left_on='location', right_on='location')

df_air_quality.head()

Como punto general existen diferentes formas de combinar los dataframe, siendo el método `inner` el utilizado por defecto

<img src='./img/merge_tipos.png'>

## Información Adicional


- Group By Explicado:  https://learnsql.com/blog/group-by-in-sql-explained/

- Combinando Múltiples dataFrames : https://pandas.pydata.org/docs/getting_started/intro_tutorials/08_combine_dataframes.html#min-tut-08-combine