# Cursos de Series de tiempo con *Machine Learning*
## Modulo 2. Data Wrangling para series de tiempo
                        Elaborado por: Naren Castellon
            
### Contenido
1. Cargar las librerias
1. Cargar datos con pandas
2. Exploración pandasql
3. Orden by
4. Agregación
5. Join merge
6. Summary  de Data Frame
7. Resampling
8. Función window
9. Shifting
10. Manejo de datos nulos
12. Feature time series

# Data Wrangling para Series de Tiempo

`Data Wrangling` es el arte de transformar y mapear datos sin procesar en información valiosa con la ayuda de estrategias de preprocesamiento. Su objetivo es proporcionar datos enriquecidos que se pueden utilizar para obtener la máxima información. Comprende operaciones como carga, imputación, aplicación de transformaciones, tratamiento de valores atípicos, limpieza, integración, manejo de inconsistencias, reducción de dimensionalidad y características de ingeniería. La disputa de datos es una parte integral y principal del modelado de **Machine Learning**. Los datos del mundo real son, sin duda, confusos, y no es razonable utilizar los datos directamente para modelar sin realizar algunas disputas.

En este cuaderno presenta cómo leer múltiples formatos de archivos de datos con la ayuda de Pandas. Cubre cómo hacer la selección, transformación y limpieza de datos, así como también cómo derivar estadísticas básicas con la ayuda de `Pandas` y `Pandasql`.

# 1. Cargar librerias

In [None]:
# Procesamiento y manejo de datos
# ==============================================================================
import numpy as np
import pandas as pd

# Hide warnings
# ==============================================================================
import warnings
warnings.filterwarnings("ignore")

# 2. Cargar datos con pandas

`Pandas` es el framework más notable para la Data Wrangling. Incluye herramientas de manipulación y análisis de datos destinadas a hacer que el análisis de datos sea rápido y conveniente. 

En el mundo real, los datos se generan a través de varias herramientas y dispositivos; por lo tanto, viene en diferentes formatos, como 

- Formato CSV
- Formato Excel 
- Formato JSON 

Además, a veces es necesario leer los datos de una URL. Todos los datos comprenden varios registros y variables. En esta sección, aprenderemos cómo se manejan varios formatos de datos con Pandas.

### 2.1 Cargando data usando CSV

Este conjunto de datos muestra el número de nacimientos de mujeres a lo largo del tiempo. Pandas tiene una función integrada para leer archivos CSV. El siguiente código importa el conjunto de datos:

In [None]:
walmart_df = pd.read_csv("https://raw.githubusercontent.com/narencastellon/Serie-de-tiempo-con-Machine-Learning/refs/heads/main/Data/walmart-sales-dataset-of-stores.csv")
walmart_df

El método `df.head()` nos permite conocer las primeras 5 lineas de nuestro conjunto de datos

In [None]:
walmart_df.head()

El método `df.tail()` nos permite conocer las últimas 5 lineas de nuestro conjunto de datos:

In [None]:
walmart_df.tail()

La funcion `df.info()` nos muestra la información general de nuestro datos

In [None]:
walmart_df.info()

Para conocer el tipo de datos que tiene nuestro dataset, usamos el método:  `df.dtypes`

In [None]:
walmart_df.dtypes

### 2.2 Cargando Data usando EXCEL

El siguiente conjunto de datos contiene la producción de `Esparragos de Peru`

In [None]:
import pandas as pd
dfExcel = pd.read_excel("https://github.com/narencastellon/Serie-de-tiempo-con-Machine-Learning/raw/refs/heads/main/Data/esparrago.xlsx", sheet_name = "Hoja1")
dfExcel.head()

### 2.3 Cargado data usando JSON

Este conjunto de datos de ejemplo está en formato JSON. El siguiente código importa el conjunto de datos:

In [None]:
dfJson = pd.read_json("https://raw.githubusercontent.com/Naren8520/Serie-de-tiempo-con-Machine-Learning/main/Data/test.json")
dfJson

### 2.4 Cargando data usando URL

El conjunto de datos de Abalone comprende 4177 observaciones y 9 variables. No está en ninguna estructura de archivos; en cambio, podemos mostrarlo como texto en la URL específica. 

Los datos lo podemos encontrar en la siguiente dirección:

https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data

El siguiente código importa el conjunto de datos:

In [None]:
dfURL = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data', names =['Sex',
                           'Length','Diameter', 'Height','Whole weight', 'Shucked weight','Viscera weight', 'Shell weight', 'Rings'])
dfURL.head()

# 3. Exploración Inicial de Datos

## 3.1 Visualizar las primeras filas y últimas filas del DataFrame.

In [None]:
walmart_df.head()

In [None]:
walmart_df.tail()

### 3.2 Obtener un resumen de las estadísticas descriptiva

El método `df.describe()` en pandas se utiliza para generar estadísticas descriptivas que resumen la distribución de las columnas numéricas en un DataFrame. Al llamar a `df.describe()`, se devuelven varias estadísticas para cada columna numérica en el DataFrame, como la cantidad de datos, la media, la desviación estándar, los valores mínimo y máximo, los cuartiles, entre otros.

Aquí hay un resumen de las estadísticas que se generan al utilizar `df.describe()` en un DataFrame `df`:

1. **Conteo (`count`)**: Número de valores no nulos en cada columna.
2. **Media (`mean`)**: Media aritmética de los valores en la columna.
3. **Desviación Estándar (`std`)**: Medida de la dispersión de los valores alrededor de la media.
4. **Valor Mínimo (`min`)**: El valor mínimo en la columna.
5. **Cuartiles (`25%`, `50%`, `75%`)**: Valores que dividen los datos ordenados en cuatro partes iguales. El cuartil del 50% es igual a la mediana.
6. **Valor Máximo (`max`)**: El valor máximo en la columna.

Estas estadísticas proporcionan una visión general de la distribución de los datos en las columnas numéricas del DataFrame y son útiles para comprender rápidamente la estructura y las características de los datos.

Es importante tener en cuenta que `df.describe()` solo generará estadísticas para columnas numéricas en el DataFrame. Si se desean estadísticas para columnas no numéricas o se requiere un resumen más detallado, se pueden utilizar otras funciones o métodos en pandas para lograrlo.

In [None]:
walmart_df.describe()

### 3.3 Verificar el tipo de datos de cada columna.

Verificar los tipos de datos en un conjunto de datos es fundamental por varias razones importantes:

1. **Integridad de los datos**:
   - Comprobar los tipos de datos ayuda a garantizar que los datos estén correctamente formateados y sean coherentes en toda la base de datos. Esto es crucial para evitar errores en el análisis y en los cálculos posteriores.

2. **Operaciones adecuadas**:
   - Los diferentes tipos de datos requieren operaciones diferentes. Por ejemplo, las operaciones aritméticas están destinadas a números, no a cadenas de texto. Verificar los tipos de datos te ayuda a realizar las operaciones correctas en tus datos.

3. **Optimización de memoria**:
   - Al conocer los tipos de datos en tu conjunto de datos, puedes optimizar el uso de la memoria al elegir el tipo de datos más adecuado para almacenar la información. Utilizar tipos de datos más pequeños cuando sea posible puede reducir significativamente el uso de memoria.

4. **Interpretación correcta**:
   - Los tipos de datos adecuados son esenciales para interpretar correctamente los datos. Por ejemplo, si una fecha se almacena como una cadena de texto en lugar de un tipo de fecha, las operaciones de tiempo y fechas no se podrán realizar correctamente.

5. **Visualización y presentación**:
   - Los programas de visualización y análisis de datos interpretan los tipos de datos para presentar la información de manera adecuada. Con los tipos de datos correctos, la visualización de los datos se puede hacer de manera más precisa y efectiva.

6. **Compatibilidad con funciones y librerías**:
   - Algunas funciones y librerías en Python, como las de Pandas y NumPy, requieren tipos de datos específicos para funcionar correctamente. Verificar los tipos de datos es esencial para garantizar la compatibilidad con estas herramientas.

En general, verificar y entender los tipos de datos en un conjunto de datos es crucial para asegurarse de que los datos se manejen de manera adecuada, se interpreten correctamente y se utilicen eficientemente en análisis posteriores. Además, esta verificación ayuda a prevenir errores y garantiza que las operaciones se realicen de manera precisa y efectiva.

In [None]:
walmart_df.dtypes

# 4. Cambio de tipo de Datos

Uno de los procesos más importante en la series temporales es trabajar con las `fechas y tiempo`, para esto es necesario conocer adecuadamente como procesar los formatos de `fecha y tiempo`, con pandas podemos convertir sin ningun tipo de problemas, podemos revisar la documentacion en pandas en:

https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html

## 4.1 Cambiando a fechas

Convertir una variable de tipo `object` que representa fechas a un formato de tiempo (datetime)

1. **Usando `pd.to_datetime()` de Pandas**:

In [None]:
walmart_df['Date'] = pd.to_datetime(walmart_df['Date'])

In [None]:
walmart_df.dtypes

In [None]:
walmart_df.head()

2. **Especificando el formato de la fecha**:

In [None]:
import pandas as pd
dfExcel = pd.read_excel("https://github.com/narencastellon/Serie-de-tiempo-con-Machine-Learning/raw/refs/heads/main/Data/esparrago.xlsx", sheet_name = "Hoja1")
dfExcel.head()

In [None]:
dfExcel['date'] = pd.to_datetime(dfExcel['date'], format='%Y-%m-%d')

In [None]:
dfExcel.dtypes

3. **Convirtiendo a formato de fecha y hora con el tiempo**:

In [None]:
df_hora =  pd.read_csv("https://raw.githubusercontent.com/narencastellon/Serie-de-tiempo-con-Machine-Learning/refs/heads/main/Data/ads.csv")
df_hora.head()

In [None]:
df_hora.dtypes

In [None]:
# a veces es necesario agregar un formato
df_hora["Time"] = pd.to_datetime(df_hora['Time'], format = '%Y-%m-%d %H:%M:%S')

In [None]:
df_hora.head()

4. **Usando `dateutil.parser` para manejar fechas ambiguas**:

In [None]:
from dateutil import parser

df_hora =  pd.read_csv("https://raw.githubusercontent.com/narencastellon/Serie-de-tiempo-con-Machine-Learning/refs/heads/main/Data/ads.csv")

df_hora['Time'] = df_hora['Time'].apply(lambda x: parser.parse(x))

In [None]:
df_hora.dtypes

5. **Creando una nueva columna de fecha y hora**:

In [None]:
df_hora =  pd.read_csv("https://raw.githubusercontent.com/narencastellon/Serie-de-tiempo-con-Machine-Learning/refs/heads/main/Data/ads.csv")

df_hora['DateTime'] = pd.to_datetime(df_hora['Time'])
df_hora.head()

In [None]:
df_hora.dtypes

## 4.2 Creando fechas

Muchas veces es necesario crear un datos de fechas, para esto podemos usar el método `pandas.date_range()` que nos permita construirlo


para mas información podes visitar:

https://pandas.pydata.org/docs/reference/api/pandas.date_range.html

In [None]:
pd.date_range(start='1/1/2018', end='1/08/2018')

In [None]:
pd.date_range(start='1/1/2018', periods=8)

In [None]:
pd.date_range(start='2018-04-24', end='2018-04-27', periods=3)

Agregando frecuencias

https://pandas.pydata.org/docs/user_guide/timeseries.html#timeseries-offset-aliases

In [None]:
# Creamos 5 peridos mensuales para final de mes
pd.date_range(start='1/1/2018', periods=5, freq = 'M')

In [None]:
# Creamos 5 peridos mensuales para inicio de mes
pd.date_range(start='1/1/2018', periods=5, freq = 'MS')

In [None]:
pd.date_range(start='1/1/2018', periods=5, freq='3MS')

In [None]:
pd.date_range(start='1/1/2018', periods=5, freq='h')

In [None]:
pd.date_range(start='1/1/2018', periods=5, freq='5h')

In [None]:
pd.date_range(start='1/1/2018', periods=5, freq='5min')

## 4.3 Convertir variable numerica tipo objeto a numerica

Cuando tienes una variable numérica representada como tipo object en un DataFrame de Pandas, puedes convertirla a un tipo numérico de diversas maneras. 

1. **Usando `pd.to_numeric()` de Pandas**:

In [None]:
df_cerveza = pd.read_csv("./data/cerveja.csv").iloc[:,1:]
df_cerveza.head()

In [None]:
df_cerveza.dtypes

In [None]:
import pandas as pd

df_cerveza['Temperatura Media (C)'] = pd.to_numeric(df_cerveza['Temperatura Media (C)'], errors = 'coerce')
#df_cerveza.head()

In [None]:
df_cerveza.dtypes

- Se refiere a una opción que se puede especificar para manejar errores durante la conversión de datos a tipo numérico.

- Al utilizar errors='coerce' con pd.to_numeric(), puedes manejar de forma más suave la conversión de datos a tipo numérico al asignar valores NaN a los elementos que no se pueden convertir, en lugar de interrumpir el proceso con errores.

2. **Usando `astype()` para convertir a tipo numérico**:

In [None]:
# df_cerveza['Temperatura Minima (C)'] = df_cerveza['Temperatura Minima (C)'].str.replace(',', '.')
#df_cerveza.head()

In [None]:
df_cerveza['Temperatura Minima (C)'] = df_cerveza['Temperatura Minima (C)'].astype(float)
df_cerveza

3. **Aplicando una función lambda para convertir a tipo numérico**:

In [None]:
df_cerveza['Precipitacao (mm)'] = df_cerveza['Precipitacao (mm)'].apply(lambda x: float(x))

4. **Eliminando caracteres no numéricos y convirtiendo**:

In [None]:
df_adidas = pd.read_csv("https://raw.githubusercontent.com/narencastellon/Serie-de-tiempo-con-Machine-Learning/refs/heads/main/Data/Adidas%20US%20Sales%20Data.csv",sep=";")
df_adidas.head()

In [None]:
df_adidas.dtypes

In [None]:
df_adidas['Price per Unit'] = df_adidas['Price per Unit'].str.replace('$', '').astype(float)
df_adidas.head()

In [None]:
df_adidas.dtypes

In [None]:
df_adidas['Operating Margin'] = df_adidas['Operating Margin'].str.replace('%', '').astype(float)
df_adidas['Operating Margin'] = df_adidas['Operating Margin'] / 100
df_adidas.head()

Estas son algunas formas de convertir una variable numérica representada como tipo `object` a un tipo numérico en un DataFrame de Pandas. Puedes elegir la que mejor se adapte a tus datos y requisitos específicos. Recuerda que es importante manejar posibles errores y caracteres no numéricos que puedan estar presentes en los datos antes de realizar la conversión.

In [None]:
df_cerveza = pd.read_csv("./data/cerveja.csv").iloc[:,1:]
df_cerveza .replace({",":"."}, regex = True, inplace = True)
df_cerveza.head()

# 5. Exploración con metodos de pandas

El método `query()` en Pandas se utiliza para filtrar filas de un DataFrame según una expresión booleana. Este método facilita la selección de subconjuntos de datos que cumplen con ciertas condiciones. Aquí tienes una descripción detallada de cómo funciona el método `query()` en Pandas:

### Ejemplo de uso básico del método `query()`:

Supongamos que tienes un DataFrame llamado `df` con columnas `A`, `B`, y `C`. Puedes utilizar `query()` de la siguiente manera:

```python
resultado = df.query('A > 10 and B < 5')
```

En este ejemplo, la expresión `'A > 10 and B < 5'` se evaluará para cada fila del DataFrame, y solo se seleccionarán aquellas filas que cumplan con esta condición.

### Características clave del método `query()`:

1. **Sintaxis de la expresión**: La expresión que se pasa a `query()` debe ser una cadena de texto que represente una expresión booleana válida en Python. Puedes referirte a las columnas directamente por sus nombres.

2. **Uso de variables locales**: Puedes utilizar variables locales en la expresión pasada a `query()` utilizando el prefijo `@`. Por ejemplo: `umbral = 20; df.query('A > @umbral')`.

3. **Soporte para múltiples condiciones y operadores lógicos**: Puedes combinar múltiples condiciones con operadores lógicos como `and`, `or`, y `not`.

4. **Compatibilidad con funciones**: `query()` también es compatible con el uso de funciones y métodos de Pandas dentro de la expresión.

### Consideraciones importantes:

- **Eficiencia**: En comparación con otras formas de filtrar datos en Pandas, `query()` puede ser más eficiente en términos de velocidad de ejecución para expresiones simples.

- **Limitaciones**: Aunque es potente, `query()` tiene algunas limitaciones en términos de sintaxis y funcionalidad en comparación con otras formas de filtrar datos en Pandas.

En general, el método `query()` en Pandas es una herramienta útil para filtrar datos de un DataFrame de forma concisa y eficiente, especialmente para expresiones simples y directas.

## 5.1 Aplicar un filtro

El filtrado de datos es una parte importante del preprocesamiento de datos. Con el filtrado, podemos elegir una partición más pequeña del conjunto de datos y usar ese subconjunto para ver y editar; necesitamos criterios específicos o una regla para filtrar los datos. Esto también se conoce como subconjunto de datos o datos detallados. El siguiente ejemplo ilustra cómo aplicar un filtro con Pandas y Pandasql.

**Aquí está cómo hacerlo con Pandas:**

In [118]:
import pandas as pd
dfp = pd.read_excel("../Capacitacion_Especializacion/data/Absenteeism_at_work.xlsx")
dfp.head()

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,2


In [119]:
dfp.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 740 entries, 0 to 739
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype
---  ------                           --------------  -----
 0   ID                               740 non-null    int64
 1   Reason_for_absence               740 non-null    int64
 2   Month_of_absence                 740 non-null    int64
 3   Day_of_the_week                  740 non-null    int64
 4   Seasons                          740 non-null    int64
 5   Transportation_expense           740 non-null    int64
 6   Distance_from_Residence_to_Work  740 non-null    int64
 7   Service_time                     740 non-null    int64
 8   Age                              740 non-null    int64
 9   Work load Average/day            740 non-null    int64
 10  Hit_target                       740 non-null    int64
 11  Disciplinary failure             740 non-null    int64
 12  Education                        740 non-null    i

In [120]:
dfp[(dfp['Age'] >=30) & (dfp['Age'] <=45)]

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,4
2,3,23,7,4,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,2
5,3,23,7,6,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
734,13,13,7,2,1,369,17,12,31,264604,...,0,1,3,1,0,0,70,169,25,80
735,11,14,7,3,1,289,36,13,33,264604,...,0,1,2,1,0,1,90,172,30,8
736,1,11,7,3,1,235,11,14,37,264604,...,0,3,1,0,0,1,88,172,29,4
737,4,0,0,3,1,118,14,13,40,271219,...,0,1,1,1,0,8,98,170,34,0


Con el método `query()`

In [121]:
dfp.query('30 <= Age <= 45')

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,4
2,3,23,7,4,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,2
5,3,23,7,6,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
734,13,13,7,2,1,369,17,12,31,264604,...,0,1,3,1,0,0,70,169,25,80
735,11,14,7,3,1,289,36,13,33,264604,...,0,1,2,1,0,1,90,172,30,8
736,1,11,7,3,1,235,11,14,37,264604,...,0,3,1,0,0,1,88,172,29,4
737,4,0,0,3,1,118,14,13,40,271219,...,0,1,1,1,0,8,98,170,34,0


### 5.2 Distince(Unique)/ Distinto (único)

Existen varios registros duplicados en el conjunto de datos. Si queremos seleccionar la cantidad de valores únicos para la variable específica, podemos usar la función `unique()` de Pandas. El siguiente ejemplo ilustra cómo hacer esto con Pandas.

        Aquí está cómo hacerlo con Pandas:

In [122]:
walmart_df

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-05-02,1643690.90,0,42.31,2.572,211.096358,8.106
1,1,2010-12-02,1641957.44,1,38.51,2.548,211.242170,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-05-03,1554806.68,0,46.50,2.625,211.350143,8.106
...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,2012-05-10,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,2012-12-10,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667


Queremos revisar cuantas tiendas tenemos

In [124]:
walmart_df["Store"].unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45])

In [125]:
walmart_df["Store"].nunique()

45

### 5.3 IN & NOT IN

El filtrado de datos es un proceso de extracción de datos esenciales de un conjunto de datos mediante el uso de alguna condición. Hay varios métodos para filtrar en un conjunto de datos. A veces queremos investigar si los datos se han asociado con un marco de datos o una serie en particular. 

En tal caso, podemos usar la función [`isin()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isin.html) de Pandas, que verifica si los valores están presentes en la secuencia. El trámite también se puede realizar en Pandasql. El siguiente ejemplo ilustra cómo hacerlo con Pandas.

    Aquí está cómo hacerlo con Pandas:

In [126]:
import pandas as pd
dfp = pd.read_excel("../Capacitacion_Especializacion/data/Absenteeism_at_work.xlsx")
dfp.head()

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,2


In [127]:
dfp[dfp.Age.isin([20,30,40])]

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
47,15,23,9,5,1,291,31,12,40,241476,...,0,1,1,1,0,1,73,171,25,4
49,15,14,9,2,4,291,31,12,40,241476,...,0,1,1,1,0,1,73,171,25,32
65,22,23,10,5,4,179,26,9,30,253465,...,0,3,0,0,0,0,56,171,19,1
71,15,23,10,5,4,291,31,12,40,253465,...,0,1,1,1,0,1,73,171,25,5
75,15,14,10,3,4,291,31,12,40,253465,...,0,1,1,1,0,1,73,171,25,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
713,22,27,6,6,3,179,26,9,30,275089,...,0,3,0,0,0,0,56,171,19,2
717,22,13,6,5,3,179,26,9,30,275089,...,0,3,0,0,0,0,56,171,19,2
718,15,28,6,5,3,291,31,12,40,275089,...,0,1,1,1,0,1,73,171,25,2
719,22,13,6,2,1,179,26,9,30,275089,...,0,3,0,0,0,0,56,171,19,3


In [130]:
walmart_df[walmart_df["Store"].isin([1, 45, 37]) ]

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-05-02,1643690.90,0,42.31,2.572,211.096358,8.106
1,1,2010-12-02,1641957.44,1,38.51,2.548,211.242170,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-05-03,1554806.68,0,46.50,2.625,211.350143,8.106
...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,2012-05-10,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,2012-12-10,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667


Tambien podemo usar el metodo `query()`

In [131]:
# Usar el método query para seleccionar las filas donde la tienda está en [1, 45, 37] 

walmart_df.query('Store in [1, 45, 37]')

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-05-02,1643690.90,0,42.31,2.572,211.096358,8.106
1,1,2010-12-02,1641957.44,1,38.51,2.548,211.242170,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-05-03,1554806.68,0,46.50,2.625,211.350143,8.106
...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,2012-05-10,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,2012-12-10,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667


In [133]:
walmart_df[walmart_df["Store"].isin([1, 45, 37]) ].head(15)

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-05-02,1643690.9,0,42.31,2.572,211.096358,8.106
1,1,2010-12-02,1641957.44,1,38.51,2.548,211.24217,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-05-03,1554806.68,0,46.5,2.625,211.350143,8.106
5,1,2010-12-03,1439541.59,0,57.79,2.667,211.380643,8.106
6,1,2010-03-19,1472515.79,0,54.58,2.72,211.215635,8.106
7,1,2010-03-26,1404429.92,0,51.45,2.732,211.018042,8.106
8,1,2010-02-04,1594968.28,0,62.27,2.719,210.82045,7.808
9,1,2010-09-04,1545418.53,0,65.86,2.77,210.622857,7.808


## NOT IN

La operación NOT IN se utiliza para un propósito similar al explicado anteriormente. Si queremos verificar si un valor no es parte de una secuencia, podemos usar el símbolo de tilde (~) para realizar una operación NOT IN.

        Aquí está el ejemplo con Pandas:

In [134]:
import pandas as pd
dfp = pd.read_excel("../Capacitacion_Especializacion/data/Absenteeism_at_work.xlsx")
dfp.head()

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,2


En el siguiente filto me va a seleccionar la variable edad, menos las edades 20, 30, 40

In [135]:
dfp[~dfp.Age.isin([20,30,40])]

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
734,13,13,7,2,1,369,17,12,31,264604,...,0,1,3,1,0,0,70,169,25,80
735,11,14,7,3,1,289,36,13,33,264604,...,0,1,2,1,0,1,90,172,30,8
736,1,11,7,3,1,235,11,14,37,264604,...,0,3,1,0,0,1,88,172,29,4
738,8,0,0,4,2,231,35,14,39,271219,...,0,1,2,1,0,2,100,170,35,0


In [137]:
#  seleccionar las filas donde la tienda no está en [1, 35, 20] 
walmart_df[~walmart_df["Store"].isin([1, 35,20]) ]

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
143,2,2010-05-02,2136989.46,0,40.19,2.572,210.752605,8.324
144,2,2010-12-02,2137809.50,1,38.49,2.548,210.897994,8.324
145,2,2010-02-19,2124451.54,0,39.69,2.514,210.945160,8.324
146,2,2010-02-26,1865097.27,0,46.10,2.561,210.975957,8.324
147,2,2010-05-03,1991013.13,0,47.17,2.625,211.006754,8.324
...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,2012-05-10,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,2012-12-10,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667


Con el metodo query

In [138]:
# Usar el método query para seleccionar las filas donde la tienda no está en [1, 35, 20] 
walmart_df.query('Store not in [1, 35, 20]')

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
143,2,2010-05-02,2136989.46,0,40.19,2.572,210.752605,8.324
144,2,2010-12-02,2137809.50,1,38.49,2.548,210.897994,8.324
145,2,2010-02-19,2124451.54,0,39.69,2.514,210.945160,8.324
146,2,2010-02-26,1865097.27,0,46.10,2.561,210.975957,8.324
147,2,2010-05-03,1991013.13,0,47.17,2.625,211.006754,8.324
...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,2012-05-10,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,2012-12-10,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667


# 6. Orden by

### 6.1 **Orden de datos ascendente**

`ORDER BY` ordena el conjunto de resultados en orden *ascendente o descendente* según el valor seleccionado. Pandas tiene una función [`sort_value()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html) que puede usar diferentes algoritmos de clasificación, como clasificación rápida, clasificación combinada y clasificación heap. El valor por defecto es de orden ascendente, cuyo valor booleano es True. Excepto por lo que respecta a los ejes, realizamos una clasificación como 0 para el índice y 1 para las columnas. SQL tiene una cláusula ORDER BY para realizar una operación de clasificación similar.

    Aquí está el ejemplo usando Pandas:

Orde el DataFrame por la variable edad de manera ascendente o menor a mayor usando el parametro `ascending = True`

In [139]:
# 
dfp.sort_values(by = ['Age'], ascending = True)

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
132,27,23,1,5,2,184,42,7,27,308593,...,0,1,0,0,0,0,58,167,21,2
137,27,23,2,6,2,184,42,7,27,302585,...,0,1,0,0,0,0,58,167,21,1
209,27,7,5,4,3,184,42,7,27,378884,...,0,1,0,0,0,0,58,167,21,4
118,27,23,1,5,2,184,42,7,27,308593,...,0,1,0,0,0,0,58,167,21,2
149,27,23,2,3,2,184,42,7,27,302585,...,0,1,0,0,0,0,58,167,21,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
620,9,25,3,3,2,228,14,16,58,222196,...,0,1,2,0,0,1,65,172,22,3
622,9,12,3,3,2,228,14,16,58,222196,...,0,1,2,0,0,1,65,172,22,112
640,9,25,3,4,2,228,14,16,58,222196,...,0,1,2,0,0,1,65,172,22,2
255,9,18,8,3,1,228,14,16,58,265615,...,0,1,2,0,0,1,65,172,22,8


In [141]:
dfp.sort_values(by = ['Age'], ascending = False)

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
434,9,18,5,4,3,228,14,16,58,246074,...,0,1,2,0,0,1,65,172,22,8
729,9,6,7,3,1,228,14,16,58,264604,...,0,1,2,0,0,1,65,172,22,120
255,9,18,8,3,1,228,14,16,58,265615,...,0,1,2,0,0,1,65,172,22,8
620,9,25,3,3,2,228,14,16,58,222196,...,0,1,2,0,0,1,65,172,22,3
727,9,6,7,2,1,228,14,16,58,264604,...,0,1,2,0,0,1,65,172,22,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
40,27,23,9,3,1,184,42,7,27,241476,...,0,1,0,0,0,0,58,167,21,2
149,27,23,2,3,2,184,42,7,27,302585,...,0,1,0,0,0,0,58,167,21,8
132,27,23,1,5,2,184,42,7,27,308593,...,0,1,0,0,0,0,58,167,21,2
269,27,6,8,4,1,184,42,7,27,265615,...,0,1,0,0,0,0,58,167,21,8


In [142]:
walmart_df

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-05-02,1643690.90,0,42.31,2.572,211.096358,8.106
1,1,2010-12-02,1641957.44,1,38.51,2.548,211.242170,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-05-03,1554806.68,0,46.50,2.625,211.350143,8.106
...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,2012-05-10,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,2012-12-10,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667


In [146]:
walmart_df.sort_values("Date", ascending =  True)

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
606,5,2010-01-10,283178.12,0,71.10,2.603,212.226946,6.768
2036,15,2010-01-10,566945.95,0,59.69,2.840,132.756800,8.067
5897,42,2010-01-10,481523.93,0,86.01,3.001,126.234600,9.003
4610,33,2010-01-10,224294.39,0,91.45,3.001,126.234600,9.265
5039,36,2010-01-10,422169.47,0,74.66,2.567,210.440443,8.476
...,...,...,...,...,...,...,...,...
5860,41,2012-12-10,1409544.97,0,39.38,3.760,199.053937,6.195
2285,16,2012-12-10,491817.19,0,43.26,3.760,199.053937,5.847
1427,10,2012-12-10,1713889.11,0,76.03,4.468,131.108333,6.943
3572,25,2012-12-10,697317.41,0,43.74,4.000,216.115057,7.293


Tambien se puede ordenar por un conjunto de variables

In [147]:
dfp.sort_values(by = ['Age','Service_time'], ascending=True)

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
40,27,23,9,3,1,184,42,7,27,241476,...,0,1,0,0,0,0,58,167,21,2
118,27,23,1,5,2,184,42,7,27,308593,...,0,1,0,0,0,0,58,167,21,2
132,27,23,1,5,2,184,42,7,27,308593,...,0,1,0,0,0,0,58,167,21,2
137,27,23,2,6,2,184,42,7,27,302585,...,0,1,0,0,0,0,58,167,21,1
149,27,23,2,3,2,184,42,7,27,302585,...,0,1,0,0,0,0,58,167,21,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
620,9,25,3,3,2,228,14,16,58,222196,...,0,1,2,0,0,1,65,172,22,3
622,9,12,3,3,2,228,14,16,58,222196,...,0,1,2,0,0,1,65,172,22,112
640,9,25,3,4,2,228,14,16,58,222196,...,0,1,2,0,0,1,65,172,22,2
727,9,6,7,2,1,228,14,16,58,264604,...,0,1,2,0,0,1,65,172,22,8


## 6.2 Orden de datos descendente
Como se mencionó, la función `sort_value()` puede clasificar los resultados en orden ascendente o descendente. Necesita el parámetro `ascendente = False` para ordenar los valores en orden descendente. También puede actualizar algunos otros parámetros, como se explica para ORDER BY ascendente.

    Aquí está el ejemplo con Pandas:

In [153]:
# ordena de forma descendente las fechas y las tiendas
walmart_df.sort_values(by = ["Date", "Store"], ascending = False)

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
6432,45,2012-12-10,734464.36,0,54.47,4.000,192.327265,8.667
6289,44,2012-12-10,337796.13,0,55.10,3.797,131.108333,5.217
6146,43,2012-12-10,619369.72,0,71.14,3.601,214.677283,8.839
6003,42,2012-12-10,612379.90,0,76.03,4.468,131.108333,6.943
5860,41,2012-12-10,1409544.97,0,39.38,3.760,199.053937,6.195
...,...,...,...,...,...,...,...,...
606,5,2010-01-10,283178.12,0,71.10,2.603,212.226946,6.768
463,4,2010-01-10,1842821.02,0,63.96,2.619,126.234600,7.127
320,3,2010-01-10,358784.10,0,73.60,2.603,214.984655,7.564
177,2,2010-01-10,1827440.43,0,69.24,2.603,211.329874,8.163


## 7. Aggregration

`Aggregration` es el proceso de extracción de datos para que los datos puedan investigarse, recopilarse y presentarse de manera resumida. Le permite realizar un cálculo en vectores únicos o múltiples, generalmente acompañado por las funciones `group by()` en Pandas. Realiza numerosas operaciones como dividir, aplicar y combinar. Este ejemplo ilustra la operación de agregación en Pandas y Pandasql.

Para el siguiente ejemplo, estamos aprovechando el argumento [agg](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html) en Pandas para lograr el resultado requerido:

In [154]:
import pandas as pd
dfp = pd.read_excel("../Capacitacion_Especializacion/data/Absenteeism_at_work.xlsx")
dfp.head()

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,2


In [155]:
dfp.agg({'Transportation_expense': ['count','min', 'max', 'mean']})

Unnamed: 0,Transportation_expense
count,740.0
min,118.0
max,388.0
mean,221.32973


In [156]:
dfp.agg({'Age': ['count','min', 'max', 'mean']})

Unnamed: 0,Age
count,740.0
min,27.0
max,58.0
mean,36.45


In [160]:
dfp["Age"].describe()

count    740.000000
mean      36.450000
std        6.478772
min       27.000000
25%       31.000000
50%       37.000000
75%       40.000000
max       58.000000
Name: Age, dtype: float64

## 7.1 Group by 

Podemos usar [GROUP BY](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.agg.html) para organizar datos idénticos en grupos según la función de agregación utilizada. En otras palabras, agrupa filas que tienen valores similares en filas de resumen. Realizamos esta operación con la función `groupby()` en Pandas. SQL tiene su cláusula GROUP BY para realizar una operación similar. El ejemplo ilustra la operación GROUP BY en Pandas y Pandasql.

Aquí está el ejemplo con Pandas:

In [161]:
import pandas as pd
dfp = pd.read_excel("../Capacitacion_Especializacion/data/Absenteeism_at_work.xlsx")
dfp.head()

Unnamed: 0,ID,Reason_for_absence,Month_of_absence,Day_of_the_week,Seasons,Transportation_expense,Distance_from_Residence_to_Work,Service_time,Age,Work load Average/day,...,Disciplinary failure,Education,Son,Social_drinker,Social_smoker,Pet,Weight,Height,Body_mass_index,Absenteeism_time_in_hours
0,11,26,7,3,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,4
1,36,0,7,3,1,118,13,18,50,239554,...,1,1,1,1,0,0,98,178,31,0
2,3,23,7,4,1,179,51,18,38,239554,...,0,1,0,1,0,0,89,170,31,2
3,7,7,7,5,1,279,5,14,39,239554,...,0,1,2,1,1,0,68,168,24,4
4,11,23,7,5,1,289,36,13,33,239554,...,0,1,2,1,0,1,90,172,30,2


In [164]:
dfp.groupby(['ID'])[['Service_time']].sum()

Unnamed: 0_level_0,Service_time
ID,Unnamed: 1_level_1
1,322
2,72
3,2034
4,13
5,247
6,104
7,84
8,28
9,128
10,72


In [166]:
# una forma mas clara de usar grouby
dfp[["ID", "Service_time"]].groupby(["Service_time"]).sum().head()

Unnamed: 0_level_0,ID
Service_time,Unnamed: 1_level_1
1,84
3,240
4,288
6,210
7,189


In [172]:
walmart_df[["Date", "Store", "Weekly_Sales"]].groupby(["Date", ]).sum() # Weekly_Sales 

Unnamed: 0_level_0,Store,Weekly_Sales
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2010-01-10,1035,42239875.87
2010-02-04,1035,50423831.26
2010-02-07,1035,48917484.50
2010-02-19,1035,48276993.78
2010-02-26,1035,43968571.13
...,...,...
2012-10-08,1035,47403451.04
2012-10-19,1035,45122410.57
2012-10-26,1035,45544116.29
2012-11-05,1035,46925878.99


## 7.2 Group by con Aggregration

La función `groupby()` proporciona un grupo de datos similares basados en una característica seleccionada con esos datos; podemos realizar diferentes operaciones de agregación con la función `.agg()` en otras funciones de Pandas. En SQL, usamos GROUP BY para aplicar funciones agregadas en grupos de datos devueltos por una consulta. FILTER es un modificador que se usa con una función agregada para vincular los valores usados en una agregación.

    Aquí está el ejemplo con Pandas:

In [174]:
dfp.groupby('Reason_for_absence').agg({'Age': ['mean','min','max']}).head()

Unnamed: 0_level_0,Age,Age,Age
Unnamed: 0_level_1,mean,min,max
Reason_for_absence,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
0,39.604651,28,53
1,37.6875,28,58
2,28.0,28,28
3,40.0,40,40
4,45.0,41,49


In [179]:
walmart_df[["Date", "Store", "Weekly_Sales"]].groupby(["Date", "Weekly_Sales"]).agg({'Weekly_Sales': ['mean','min','max']}).reset_index()

Unnamed: 0_level_0,Date,Weekly_Sales,Weekly_Sales,Weekly_Sales,Weekly_Sales
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,mean,min,max
0,2010-01-10,224294.39,224294.39,224294.39,224294.39
1,2010-01-10,283178.12,283178.12,283178.12,283178.12
2,2010-01-10,300152.45,300152.45,300152.45,300152.45
3,2010-01-10,358784.10,358784.10,358784.10,358784.10
4,2010-01-10,360256.58,360256.58,360256.58,360256.58
...,...,...,...,...,...
6430,2012-12-10,1713889.11,1713889.11,1713889.11,1713889.11
6431,2012-12-10,1900745.13,1900745.13,1900745.13,1900745.13
6432,2012-12-10,1999079.44,1999079.44,1999079.44,1999079.44
6433,2012-12-10,2133026.07,2133026.07,2133026.07,2133026.07


## 7.3 Tabla dinamica

La función `pivot_table()` en Pandas se utiliza para crear una tabla dinámica a partir de un DataFrame. Esta función es extremadamente útil para resumir y reorganizar datos, especialmente cuando se desea analizar relaciones entre variables y realizar cálculos resumidos. A continuación, te proporciono un resumen de la función `pivot_table()` en Pandas:

### Características clave de `pivot_table()`:

1. **Creación de tablas dinámicas**: `pivot_table()` permite crear tablas dinámicas a partir de un DataFrame, donde los datos se organizan en filas y columnas según los valores de las variables.

2. **Agregación de datos**: Permite realizar operaciones de agregación (como suma, promedio, conteo, etc.) en los datos mientras se construye la tabla dinámica.

3. **Índices y columnas**: Puedes especificar qué columnas del DataFrame se utilizarán como índices y columnas en la tabla dinámica.

4. **Valores y funciones de agregación**: Es posible especificar qué columnas del DataFrame se utilizarán como valores en la tabla dinámica y qué funciones de agregación se aplicarán a esos valores.

5. **Manejo de valores faltantes**: `pivot_table()` proporciona opciones para manejar los valores faltantes durante la creación de la tabla dinámica.

6. **Agregación por grupos**: Permite agrupar los datos según una o más columnas y realizar operaciones de agregación dentro de esos grupos.

### Ejemplo básico de uso de `pivot_table()`:

```python
import pandas as pd

# Crear una tabla dinámica que muestre el promedio de ventas por mes y producto
tabla_pivot = df.pivot_table(values='Ventas', index='Mes', columns='Producto', aggfunc='mean')
```

En este ejemplo:
- `values` especifica la columna sobre la que se realizará la agregación.
- `index` y `columns` definen las filas e columnas de la tabla dinámica respectivamente.
- `aggfunc` especifica la función de agregación a aplicar (en este caso, `mean` para calcular el promedio).

### Ventajas de `pivot_table()`:

- **Flexibilidad**: Permite realizar análisis multidimensional de manera sencilla.
- **Eficiencia**: Es una forma eficiente de resumir y reorganizar grandes conjuntos de datos.
- **Personalización**: Ofrece opciones para personalizar la estructura y el contenido de la tabla dinámica.

En general, `pivot_table()` en Pandas es una herramienta poderosa para crear tablas dinámicas a partir de DataFrames, lo que facilita el análisis y la visualización de datos de manera estructurada y resumida.

In [181]:
# Crear una tabla dinámica
pd.pivot_table(walmart_df, values = 'Weekly_Sales', index = 'Date', columns = 'Store', aggfunc='sum')


Store,1,2,3,4,5,6,7,8,9,10,...,36,37,38,39,40,41,42,43,44,45
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2010-01-10,1453329.50,1827440.43,358784.10,1842821.02,283178.12,1328468.89,448998.73,804105.49,495692.19,1645892.97,...,422169.47,529877.93,360256.58,1219583.91,891152.33,1109216.35,481523.93,657108.77,300152.45,690007.76
2010-02-04,1594968.28,2066187.72,423294.40,1979247.12,331406.00,1770333.90,561145.14,914500.91,545206.32,2138651.97,...,435972.82,540189.70,368929.55,1463942.62,1041202.13,1168826.39,505907.41,650102.80,286197.50,877235.96
2010-02-07,1492418.14,2003940.64,381151.72,1881337.21,305993.27,1759777.25,575570.77,852333.75,528832.54,1845893.87,...,434252.15,498292.53,361181.48,1352547.70,1087578.78,1273279.79,507168.80,667353.79,300628.19,800147.84
2010-02-19,1611968.17,2124451.54,421642.19,2049860.26,303447.57,1567138.07,506760.54,963960.37,511327.90,2113432.58,...,470281.03,510382.50,327237.92,1230591.97,916289.20,1052034.74,508794.87,658997.55,267956.30,841264.04
2010-02-26,1409727.59,1865097.27,407204.86,1925728.84,270281.63,1432953.21,496083.24,847592.11,473773.27,2006774.96,...,447519.44,513615.82,334222.73,1168582.02,863917.41,991941.73,491510.58,618702.79,273079.07,741891.65
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2012-10-08,1592409.97,1866719.96,391811.60,2193367.69,306759.70,1588380.73,675926.30,930745.69,538713.47,1880436.94,...,298947.51,500964.59,436690.13,1641867.92,1007906.43,1504545.94,576620.31,643558.78,333594.81,733037.32
2012-10-19,1508068.77,1847990.41,424513.08,2097266.85,313358.15,1436883.99,516424.83,900309.75,542009.46,1734834.82,...,287360.05,551969.10,428806.46,1577486.33,918170.50,1326197.24,541406.98,623919.23,323766.77,718125.53
2012-10-26,1493659.74,1834458.35,405432.70,2149594.46,319550.77,1431426.34,495543.28,891671.44,549731.49,1744349.05,...,272489.41,534738.43,417290.38,1569502.00,921264.52,1316542.59,514756.08,587603.55,361067.07,760281.43
2012-11-05,1611096.05,1917520.99,431985.36,2127661.17,333870.52,1517075.67,460397.41,920128.89,592572.30,1792345.30,...,330518.34,527983.04,429914.60,1470792.41,967729.35,1353285.10,643603.69,640159.04,341381.08,770487.37


In [194]:
df_pivot = walmart_df.pivot_table(index='Date', columns='Store', values='Weekly_Sales')
df_pivot.columns.name = None
#df_pivot.reset_index(inplace= True)

df_pivot

Unnamed: 0_level_0,1,2,3,4,5,6,7,8,9,10,...,36,37,38,39,40,41,42,43,44,45
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2010-01-10,1453329.50,1827440.43,358784.10,1842821.02,283178.12,1328468.89,448998.73,804105.49,495692.19,1645892.97,...,422169.47,529877.93,360256.58,1219583.91,891152.33,1109216.35,481523.93,657108.77,300152.45,690007.76
2010-02-04,1594968.28,2066187.72,423294.40,1979247.12,331406.00,1770333.90,561145.14,914500.91,545206.32,2138651.97,...,435972.82,540189.70,368929.55,1463942.62,1041202.13,1168826.39,505907.41,650102.80,286197.50,877235.96
2010-02-07,1492418.14,2003940.64,381151.72,1881337.21,305993.27,1759777.25,575570.77,852333.75,528832.54,1845893.87,...,434252.15,498292.53,361181.48,1352547.70,1087578.78,1273279.79,507168.80,667353.79,300628.19,800147.84
2010-02-19,1611968.17,2124451.54,421642.19,2049860.26,303447.57,1567138.07,506760.54,963960.37,511327.90,2113432.58,...,470281.03,510382.50,327237.92,1230591.97,916289.20,1052034.74,508794.87,658997.55,267956.30,841264.04
2010-02-26,1409727.59,1865097.27,407204.86,1925728.84,270281.63,1432953.21,496083.24,847592.11,473773.27,2006774.96,...,447519.44,513615.82,334222.73,1168582.02,863917.41,991941.73,491510.58,618702.79,273079.07,741891.65
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2012-10-08,1592409.97,1866719.96,391811.60,2193367.69,306759.70,1588380.73,675926.30,930745.69,538713.47,1880436.94,...,298947.51,500964.59,436690.13,1641867.92,1007906.43,1504545.94,576620.31,643558.78,333594.81,733037.32
2012-10-19,1508068.77,1847990.41,424513.08,2097266.85,313358.15,1436883.99,516424.83,900309.75,542009.46,1734834.82,...,287360.05,551969.10,428806.46,1577486.33,918170.50,1326197.24,541406.98,623919.23,323766.77,718125.53
2012-10-26,1493659.74,1834458.35,405432.70,2149594.46,319550.77,1431426.34,495543.28,891671.44,549731.49,1744349.05,...,272489.41,534738.43,417290.38,1569502.00,921264.52,1316542.59,514756.08,587603.55,361067.07,760281.43
2012-11-05,1611096.05,1917520.99,431985.36,2127661.17,333870.52,1517075.67,460397.41,920128.89,592572.30,1792345.30,...,330518.34,527983.04,429914.60,1470792.41,967729.35,1353285.10,643603.69,640159.04,341381.08,770487.37


In [195]:
df_pivot.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 143 entries, 2010-01-10 to 2012-12-10
Data columns (total 45 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   1       143 non-null    float64
 1   2       143 non-null    float64
 2   3       143 non-null    float64
 3   4       143 non-null    float64
 4   5       143 non-null    float64
 5   6       143 non-null    float64
 6   7       143 non-null    float64
 7   8       143 non-null    float64
 8   9       143 non-null    float64
 9   10      143 non-null    float64
 10  11      143 non-null    float64
 11  12      143 non-null    float64
 12  13      143 non-null    float64
 13  14      143 non-null    float64
 14  15      143 non-null    float64
 15  16      143 non-null    float64
 16  17      143 non-null    float64
 17  18      143 non-null    float64
 18  19      143 non-null    float64
 19  20      143 non-null    float64
 20  21      143 non-null    float64
 21  22      143 non-null

In [196]:
df_pivot.columns

Int64Index([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
            18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
            35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45],
           dtype='int64')

In [200]:
df_pivot.reset_index(inplace = True)

In [203]:
df_pivot.melt(id_vars=['Date'], value_vars = [ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
            18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
            35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45], var_name = 'tienda', value_name = 'Weekly_Sales').sort_values("Date").reset_index(drop= True)

Unnamed: 0,Date,tienda,Weekly_Sales
0,2010-01-10,1,1453329.50
1,2010-01-10,10,1645892.97
2,2010-01-10,37,529877.93
3,2010-01-10,17,829207.27
4,2010-01-10,30,445475.30
...,...,...,...
6430,2012-12-10,25,697317.41
6431,2012-12-10,5,325345.41
6432,2012-12-10,40,982523.26
6433,2012-12-10,18,1074079.00


In [180]:
walmart_df

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,1,2010-05-02,1643690.90,0,42.31,2.572,211.096358,8.106
1,1,2010-12-02,1641957.44,1,38.51,2.548,211.242170,8.106
2,1,2010-02-19,1611968.17,0,39.93,2.514,211.289143,8.106
3,1,2010-02-26,1409727.59,0,46.63,2.561,211.319643,8.106
4,1,2010-05-03,1554806.68,0,46.50,2.625,211.350143,8.106
...,...,...,...,...,...,...,...,...
6430,45,2012-09-28,713173.95,0,64.88,3.997,192.013558,8.684
6431,45,2012-05-10,733455.07,0,64.89,3.985,192.170412,8.667
6432,45,2012-12-10,734464.36,0,54.47,4.000,192.327265,8.667
6433,45,2012-10-19,718125.53,0,56.47,3.969,192.330854,8.667


1. Cargar librerias
2. Cargar datos con Pandas
3. Exploración Inicial de Datos
4. Cambio de tipo de Datos
5. Exploración pandasql
6. Orden by
7. Agregación
8. Join merge
9. Summary  de Data Frame
10. Resampling
11. Función window
12. Shifting
13. Manejo de datos nulos
14. Feature time series