In [1]:
# initial setup
#%run "../../../common/0_notebooks_base_setup.py"


In [2]:
import pandas as pd
import numpy as np
from datetime import *

<link rel="stylesheet" href="../../../common/dhds.css">
<div class="Table">
    <div class="Row">
        <div class="Cell grey left"> <img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_portada.png" align="center" /></div>
        <div class="Cell right">
            <div class="div-logo"><img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/common/logo_DH.png" align="center" width=70% /></div>
            <div class="div-curso">DATA SCIENCE</div>
            <div class="div-modulo">MÓDULO 2</div>
            <div class="div-contenido">Data Wrangling</div>
        </div>
    </div>
</div>

### Agenda

---

- ¿Qué es Data Wrangling?

- Transformación de datos

- Variables cualitativas y dummies

- Timestamp: manejos de fechas y horas con ```Pandas```


<div class="div-dhds-fondo-1">Data Wrangling

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_separador.png" align="center"></img>    
</div>


### Data Wrangling. Data Cleaning.

---

**Data Wrangling**

Data Wrangling es la tarea de convertir y mapear datos de un formato a otro formato. 

Este proceso puede convertir o mapear grandes cantidades de datos sin procesar en un formato diferente, haciendolos más útiles para fines de consumo y análisis.

En data wrangling, primero se extraen los datos de una fuente en su formato sin procesar (raw / crudos). 

A continuación, se envían a un algoritmo o se "parsean" en una estructura de datos predefinida. 

Como último paso se almacenan en una unidad de almacenamiento persistente para usarlos en el futuro. 



**Data Cleaning**

La limpieza de datos es el proceso de encontrar y corregir o eliminar registros incorrectos o inexactos de un conjunto de registros o una fuente de datos. 

La limpieza de datos puede incluir actividades como eliminar errores tipográficos o validar y corregir valores con una lista conocida de entidades. 

También puede incluir tareas como estandarizar datos. 

En general, la limpieza de datos ayuda a proporcionar consistencia de datos a diferentes conjuntos provenientes de varias fuentes de datos que fueron fusionados.


---


**Data Cleaning y Data Wrangling juegan un papel importante en el preprocesamiento de datos necesario en algoritmos de aprendizaje automático y aprendizaje profundo.**


### Data Wrangling

---
<p style="color:red;font-weight: bold;">Data Wrangling: </p>

Proceso de limpieza y unificación de conjuntos de datos desordenados y complejos para facilitar su acceso, exploración, análisis o modelización posterior.

**Data munging**: 

(el arduo) proceso de limpiar, preparar y validar los datos.

**Extract, Transform and Load (ETL)**: 

extraer, transformar y cargar los datos.

**Exploratory data analysis (EDA)**: 

Resumir las principales características del conjunto de datos, a menudo con métodos visuales. Puede usarse o no un modelo estadístico, pero el objetivo de EDA es ver qué pueden decirnos los datos más allá de la tarea de modelado formal o prueba de hipótesis. 


<div class="div-dhds-fondo-1">Data Wrangling en Pandas

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_separador.png" align="center"></img>    
</div>


### Reemplazo de valores con `pandas`

---

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html


In [3]:
df = pd.DataFrame({'A': [0, 1, 2, 3, 4],
                   'B': [5, 6, 7, 8, 9],
                   'C': ['a', 'b', 'c', 'd', 'e']})
df

Unnamed: 0,A,B,C
0,0,5,a
1,1,6,b
2,2,7,c
3,3,8,d
4,4,9,e


Reemplazo todas las ocurrencias del 0 por 5

In [4]:
df.replace(0, 5)

Unnamed: 0,A,B,C
0,5,5,a
1,1,6,b
2,2,7,c
3,3,8,d
4,4,9,e


Reemplazo todas las ocurrencias del 0 an la columna A y 5 en la columna B por 100

In [5]:
df.replace({'A': 0, 'B': 5}, 100)

Unnamed: 0,A,B,C
0,100,100,a
1,1,6,b
2,2,7,c
3,3,8,d
4,4,9,e


Reemplazo en la columna A todas las ocurrencias de 0 por 100 y de 4 por 400

In [6]:
df.replace({'A': {0: 100, 4: 400}})

Unnamed: 0,A,B,C
0,100,5,a
1,1,6,b
2,2,7,c
3,3,8,d
4,400,9,e


Reemplazo en la columna A todas las ocurrencias de 0 por 100 y de 4 por 400, y en la columna C todas las ocurrencias de e por z

In [7]:
df.replace({'A': {0: 100, 4: 400}, 'C': {'e': 'z'}})

Unnamed: 0,A,B,C
0,100,5,a
1,1,6,b
2,2,7,c
3,3,8,d
4,400,9,z


<div class="div-dhds-fondo-1">Variables Categóricas

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_separador.png" align="center"></img>    
</div>


### Variables Cualitativas y Cuantitativas

---

Las variables pueden ser caracterizadas como:

* **cuantitativas**: 

    Una variable cuantitativa toma valores numéricos, como en el caso de del ingreso de una persona o el precio de una casa.  

* **cualitativas**:  

    - Una variable cualitativa toma valores en una de K diferentes clases o categorías.
    - Una variable cualitativa con dos posibles valores se denomina **binaria o dicotómica**.

### Tipos de una variable cualitativa


#### Nominal/Categórica. Categorías nombradas.

* Se suele asignar **valores o rótulos numéricos** a las variables categóricas: Estado civil, 0 si soltero y 1 si casado y 2 si divorciado

* Los números utilizados para rotular son arbitrarios. 

* En general, el software asume que los valores numéricos reflejan cantidades algebraicas y, por tanto, un cierto orden.

* La principal medida de posición es la **moda**. La mediana y la media no están definidas (y en general cualquier operación numérica tampoco).



<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_categorica.png" align="center"></img>




#### Ordinal. 

* Es similar a una categórica pero existe un orden claro. 

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_ordinal.png" align="center"></img>




#### Variables Dummies

* Una **variable dummy** (variable indicadora) es una variable cualitativa que toma valores 0 o 1 para indicar la ausencia o presencia de algún atributo o efecto categórico

* Formalmente una variable dummy puede ser expresada mediante una **función indicadora**:

\begin{equation}
  D_i= \mathbb{I}_A(x_i) = \begin{cases}
    1, & \text{si $x_i \in A$} \\    
    0, & \text{si $x_i \not \in A$}
  \end{cases}
\end{equation}




* ¿Cuál es la relación entre variables categóricas y variables dummies?

    - Una variable categórica con N categorías puede ser expresada en términos de N−1 variables dummies (one-hot encoding).

    - Resuelve el problema de interpretar las etiquetas numéricas como un intervalo.

    - Si las categorías tienen muchos valores aumenta considerablemente la dimensionalidad de los datos.


#### Ejemplo

Supongamos que tenemos una variable categórica, C, que registra la ciudad en la que reside una muestra de habitantes de la Argentina.

Asumamos que la variable puede tomar 4 posibles valores: Buenos Aires, Rosario, Córdoba y Mar del Plata.

Imaginemos que tenemos las siguiente 5 observaciones:

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_ejemplo_categorica.png" align="center"></img>





Podemos representar estas observaciones de la variable categórica usando dummies como:    

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_dummies.png" align="center"></img>



---

Es importante notar que **si existen k categorías, k-1 variables Dummies son suficientes para representarlas**.



<div class="div-dhds-fondo-1">Data Wrangling en Pandas (cont.)

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_separador.png" align="center"></img>    
</div>


### Discretización de variables con `pandas`

El proceso de transformar una variable numérica en categórica se llama discretización. 

El método `cut` separa valores en intervalos discretos, devolviendo el intervalo semi-cerrado al que pertenece cada valor. Permite transformar variables continuas en categóricas.

El argumento `bins` puede ser un entero que indica la cantidad de intervalos de igual "ancho" a construir, o puede ser una lista en la que especificamos los límites de cada categoría.

El argumento `right` indica si el intervalos incluye el valor límite por la derecha.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html

In [8]:
rng = np.random.default_rng()

a_values = rng.integers(low = 0, high = 100, size = 10)

b_values = rng.integers(low = 100, high = 500, size = 10)

data = pd.DataFrame({'A':a_values, 'B': b_values})
data

Unnamed: 0,A,B
0,21,205
1,43,331
2,68,411
3,97,232
4,94,288
5,38,496
6,74,126
7,52,383
8,86,497
9,31,412


In [9]:
data.A.describe()

count    10.000000
mean     60.400000
std      27.199673
min      21.000000
25%      39.250000
50%      60.000000
75%      83.000000
max      97.000000
Name: A, dtype: float64

In [10]:
data.B.describe()

count     10.000000
mean     338.100000
std      124.495828
min      126.000000
25%      246.000000
50%      357.000000
75%      411.750000
max      497.000000
Name: B, dtype: float64

Definimos 5 categorias para los valores de A, con límites 0, 30, 40, 50, 60, 100

In [11]:
# Defino los valores de corte
bins = [0, 30, 40, 50, 60, 100]

A_categories = pd.cut(data.A, bins, right = False)
A_categories.dtype

CategoricalDtype(categories=[[0, 30), [30, 40), [40, 50), [50, 60), [60, 100)],
              ordered=True)

Contamos cuantos elementos hay en cada categoría de A

In [12]:
A_categories.value_counts()

[60, 100)    5
[30, 40)     2
[50, 60)     1
[40, 50)     1
[0, 30)      1
Name: A, dtype: int64

Creamos categorías con etiquetas asociadas usando el argumento `labels`

In [13]:
group_labels = ['muy poco', 'poco', 'normal', 'mucho', 'demasiado' ]
A_categories_labels = pd.cut(data.A, bins, labels = group_labels)
A_categories_labels.value_counts()

demasiado    5
poco         2
mucho        1
normal       1
muy poco     1
Name: A, dtype: int64

---

En la práctica guiada veremos cómo podemos usar cuantilos para especificar los límites de los intervalos de cada categoría en lugar de definir valores arbitarios.

### Mapeo y transformación de datos con `pandas`

A partir de un diccionario, podemos crear una nueva columna en un Dataframe donde 

1) las claves del diccionario se vinculen con la Series de valores de una columna del DataFrame original

2) y para cada registro se asigne, en la nueva columna, el valor del diccionario cuya clave es el valor de la Serie 1) en ese registro.

Usando un diccionario cambiemos los valores de las categorias definidas en el ejercicio anterior para la comuna A, para todos los registros de data.

In [14]:
data['A_cat'] = A_categories_labels
data

Unnamed: 0,A,B,A_cat
0,21,205,muy poco
1,43,331,normal
2,68,411,demasiado
3,97,232,demasiado
4,94,288,demasiado
5,38,496,poco
6,74,126,demasiado
7,52,383,mucho
8,86,497,demasiado
9,31,412,poco


Creamos un diccionario que asocia los valores actuales de la columna A_cat (claves del diccionario) con los nuevos valores de las categorias (valores del diccionario)

In [15]:
A_cat_mapper = {    
   'poco': 'insuficiente', 
    'muy poco': 'insuficiente',
    'normal': 'suficiente',
    'mucho': 'suficiente',
    'demasiado': 'suficiente'
}

Usamos `map` para aplicar la transformación

In [16]:
data['A_cat_suf_insuf'] = data.A_cat.map(A_cat_mapper)
data

Unnamed: 0,A,B,A_cat,A_cat_suf_insuf
0,21,205,muy poco,insuficiente
1,43,331,normal,suficiente
2,68,411,demasiado,suficiente
3,97,232,demasiado,suficiente
4,94,288,demasiado,suficiente
5,38,496,poco,insuficiente
6,74,126,demasiado,suficiente
7,52,383,mucho,suficiente
8,86,497,demasiado,suficiente
9,31,412,poco,insuficiente


---

Observemos que aplicamos `map` sobre una columna, no sobre el DataFrame completo como hacemos con el método `replace`

### Binarización de variables con `pandas`

Pandas provee con el método `pd.get_dummies` que recibe una Serie o una lista de Series y realiza one hot encoding.

Recordemos que una variable con k categorías se puede representar con k-1 variables.

Por eso un parámetro clave de `pd.get_dummies` es `drop_first = True` que genera k-1 categorías en lugar de k.

El argumento `prefix` nos permite establecer un prefijo para el nombre de cada una de las columnas de categorías que representan la variable. Este argumento es especialmente útil cuando construimos dummies de más de una columna de un DataFrame, para evitar confusiones sobre cuál es las variable original que corresponde a cada columna de categoría.


https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html


In [17]:
data

Unnamed: 0,A,B,A_cat,A_cat_suf_insuf
0,21,205,muy poco,insuficiente
1,43,331,normal,suficiente
2,68,411,demasiado,suficiente
3,97,232,demasiado,suficiente
4,94,288,demasiado,suficiente
5,38,496,poco,insuficiente
6,74,126,demasiado,suficiente
7,52,383,mucho,suficiente
8,86,497,demasiado,suficiente
9,31,412,poco,insuficiente


In [18]:
A_categories_1_dummies = pd.get_dummies(data.A_cat, drop_first = True, prefix = 'A_cat1')
A_categories_1_dummies

Unnamed: 0,A_cat1_poco,A_cat1_normal,A_cat1_mucho,A_cat1_demasiado
0,0,0,0,0
1,0,1,0,0
2,0,0,0,1
3,0,0,0,1
4,0,0,0,1
5,1,0,0,0
6,0,0,0,1
7,0,0,1,0
8,0,0,0,1
9,1,0,0,0


In [19]:
A_categories_2_dummies = pd.get_dummies(data.A_cat_suf_insuf, drop_first = True, prefix = 'A_cat2')
A_categories_2_dummies

Unnamed: 0,A_cat2_suficiente
0,0
1,1
2,1
3,1
4,1
5,0
6,1
7,1
8,1
9,0


<div class="div-dhds-fondo-1">Timestamp y Period

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_separador.png" align="center"></img>    
</div>


### Unix Timestamp

---

* Unix TimeStamp es una manera de “trackear” el tiempo.

* Se considera el tiempo en segundos desde el 1 de Enero de 1970 UTC, a las 00:00:00 hasta la fecha.

* Teniendo un punto de referencia fijo, resulta muy simple el manejo de tiempo y fechas en distintos sistemas y arquitecturas.


<a href="https://www.unixtimestamp.com/index.php" target="_blank">Unix Timestamp</a>

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_timestamp.png" align="center" width="65%"></img>



### Pandas Timestamp

---

Los datos timestamp son la forma más básica de Series de Tiempo. 

Asocian valores con puntos en el tiempo. 

En Pandas, podemos instanciar objetos de la clase ```Timestamp```

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html



In [20]:
pd.Timestamp(datetime(2012, 5, 1))

Timestamp('2012-05-01 00:00:00')

In [21]:
pd.Timestamp('2012-05-01')

Timestamp('2012-05-01 00:00:00')

In [22]:
pd.Timestamp(2012, 5, 1)

Timestamp('2012-05-01 00:00:00')

### Pandas Period

---

En muchos casos es más natural asociar variables a **intervalos de tiempo**. 

Representamos un intervalo con un objeto de la clase ```Period```, y puede ser instanciado explícitamente o inferido de un string con cierto formato.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Period.html


In [23]:
pd.Period('2011-01')

Period('2011-01', 'M')

In [24]:
pd.Period('2012-05', freq='D')

Period('2012-05-01', 'D')

### Pandas DateTimeIndex y PeriodIndex

---

Los objetos de tipo ```Timestamp``` y ```Period``` pueden ser índices. 

Las listas que contienen estos objetos son casteadas automáticamente a objetos de tipo ```DatetimeIndex``` y ```PeriodIndex``` respectivamente.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.PeriodIndex.html


In [25]:
dates = [pd.Timestamp('2012-05-01'), pd.Timestamp('2012-05-02'), pd.Timestamp('2012-05-03')]
dates

[Timestamp('2012-05-01 00:00:00'),
 Timestamp('2012-05-02 00:00:00'),
 Timestamp('2012-05-03 00:00:00')]

In [26]:
ts = pd.Series(data = [10, 20, 39], index = dates)
ts

2012-05-01    10
2012-05-02    20
2012-05-03    39
dtype: int64

In [27]:
type(ts.index)

pandas.core.indexes.datetimes.DatetimeIndex

In [28]:
ts.index

DatetimeIndex(['2012-05-01', '2012-05-02', '2012-05-03'], dtype='datetime64[ns]', freq=None)


### ```strftime```
    
https://strftime.org/    
    
En Python, los tipos de dato fecha y hora están disponibles importando el módulo ```datetime```. 

Este módulo proporciona numerosas funciones para manejar fecha y hora.

El método ```strftime()``` se utiliza para convertir objetos de fecha y hora en su representación como cadena de caracteres.

https://docs.python.org/3/library/datetime.html#datetime.date.strftime


Para especificar el formato deseado utilizamos la convención definida en esta tabla:

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_datetime_format.png" align="center"></img>


#### Ejemplos

In [29]:
from datetime import datetime as dt 

In [30]:
# Getting current date and time 
now = dt.now() 
print("Sin formato", now) 

Sin formato 2021-02-22 19:46:04.742402


In [31]:
# Example 1 
s = now.strftime("%a %m %y") 
print('\nEjemplo 1:', s) 


Ejemplo 1: Mon 02 21


In [32]:
# Example 2 
s = now.strftime("%A %-m %Y") 
print('\nEjemplo 2:', s) 


Ejemplo 2: Monday 2 2021


In [33]:
# Example 3 
s = now.strftime("%-I %p %S") 
print('\nEjemplo 3:', s) 


Ejemplo 3: 7 PM 04


In [34]:
# Example 4 
s = now.strftime("%-j") 
print('\nEjemplo 4:', s) 


Ejemplo 4: 53


### ```pandas.to_datetime```

Convierte el argumento en un objeto de tipo ```datetime```.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html

Los formatos se especifican del mismo modo que en el método strftime


#### Ejemplos

In [35]:
pd.to_datetime('20170901 100500', format='%Y%m%d %H%M%S')

Timestamp('2017-09-01 10:05:00')

In [36]:
df = pd.DataFrame({'year': [2015, 2016],
                   'month': [2, 3],
                   'day': [4, 5]})
pd.to_datetime(df)

0   2015-02-04
1   2016-03-05
dtype: datetime64[ns]

In [37]:
pd.to_datetime(1490195805, unit='s')

Timestamp('2017-03-22 15:16:45')

In [38]:
pd.to_datetime(1490195805433502912, unit='ns')

Timestamp('2017-03-22 15:16:45.433502912')

<div class="div-dhds-fondo-1"> Hands-on

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_separador.png" align="center"></img>    
</div>


Dado el dataset `data` que tiene como columnas

* A de tipo numérico entre 0 y 100

* B de tipo numérico que representa un timestamp


In [39]:
# creamos data:

from datetime import datetime as dt 

one_year = pd.DateOffset(years=1)

max_b = dt.now()

max_b_timestamp = datetime.timestamp(max_b)

min_b = max_b - one_year

min_b_timestamp = datetime.timestamp(min_b)

#print(min_b_timestamp)

#print(max_b_timestamp)

seconds_in_one_year = max_b_timestamp - min_b_timestamp

seconds_in_one_year == 60 * 60 * 24 * 366 # 2020 fue bisiesto

rng = np.random.default_rng()

a_values = rng.integers(low = 0, high = 100, size = 30)

b_values = rng.integers(low = min_b_timestamp, high = max_b_timestamp, size = 30)

data = pd.DataFrame({'A':a_values, 'B': b_values})
data.head(5)



Unnamed: 0,A,B
0,89,1611069354
1,51,1603054138
2,9,1601475398
3,23,1586090828
4,45,1597354823


### Ejercicio 1

Agregar al dataset una columna `C`, de tipo categórica, definida en base a los valores de `A`, con las categorías asociadas a los intervalos de límites 0, 30, 40, 50, 60, 100, y con etiquetas 'muy poco', 'poco', 'normal', 'mucho', 'demasiado' 

### Ejercicio 2

Convertir la variable categórica creada `C`, en variables dummies y crear un nuevo dataset `data_with_dummies` que resulte de combinar los datos de `data` con las variables dummies 


### Ejercicio 3

Convertir la variable B en tipo datetime, y luego en un string con este formato '2021-02-22' donde representamos el año con 4 dígitos, el mes con 2, y el día con 2.

Crear la columna `D` con el resultado de convertir la variable `B` en string.

Sugerencia:

Pueden consultar la documentacion https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html


### Solución

---


### Ejercicio 1

In [40]:
bins = [0, 30, 40, 50, 60, 100]

group_labels = ['muy poco', 'poco', 'normal', 'mucho', 'demasiado' ]

A_categories_labels = pd.cut(data.A, bins, labels = group_labels)

data['C'] = A_categories_labels

data.sample(5)

Unnamed: 0,A,B,C
27,20,1586504772,muy poco
12,80,1588637533,demasiado
4,45,1597354823,normal
21,49,1590359692,normal
9,12,1610536213,muy poco


### Ejercicio 2

In [41]:
C_dummies = pd.get_dummies(data.C, drop_first = True, prefix = 'C')
data_with_dummies = pd.concat([data, C_dummies], axis = 1)
data_with_dummies.sample(5)

Unnamed: 0,A,B,C,C_poco,C_normal,C_mucho,C_demasiado
4,45,1597354823,normal,0,1,0,0
24,55,1594900191,mucho,0,0,1,0
21,49,1590359692,normal,0,1,0,0
3,23,1586090828,muy poco,0,0,0,0
25,13,1598458796,muy poco,0,0,0,0


### Ejercicio 3

In [42]:
# convertir la variable B en tipo datetime
date_times = pd.to_datetime(data.B, unit='s')
# print(date_times.sample(5))

# definir el formato de salida:
date_format = '%Y-%m-%d'

# convertir cada fecha en string con ese formato
date_times_str = date_times.apply(lambda x: x.strftime(date_format))

# print(date_times_str.sample(5))

# guardar en la columna D
data_with_dummies['D'] = date_times_str

data_with_dummies.head()

Unnamed: 0,A,B,C,C_poco,C_normal,C_mucho,C_demasiado,D
0,89,1611069354,demasiado,0,0,0,1,2021-01-19
1,51,1603054138,mucho,0,0,1,0,2020-10-18
2,9,1601475398,muy poco,0,0,0,0,2020-09-30
3,23,1586090828,muy poco,0,0,0,0,2020-04-05
4,45,1597354823,normal,0,1,0,0,2020-08-13


<div class="div-dhds-fondo-1"> Referencias

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_12_DataWrangling/Presentacion/img/M2_CLASE_12_separador.png" align="center"></img>    
</div>


### Referencias

---

DataFrame.replace

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.replace.html

Series.map

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.map.html

cut

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.cut.html


Timestamp

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Timestamp.html

Period

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Period.html



DatetimeIndex

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DatetimeIndex.html

PeriodIndex

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.PeriodIndex.html

to_datetime

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html