<img src="Archivos/miad4.png" width=800x>

# Modificar, limpiar y unir datos utilizando `pandas`

En este taller modificarás, limpiarás y unirás bases de datos al resolver diversos ejercicios.

## Habilidades en práctica

Al realizar este taller podrás revisar tu progreso para:

**1.** Modificar cadenas de texto contenidas en un `Series`.<br>
**2.** Representar fechas utilizando el paquete `datetime`.<br>
**3.** Imputar datos faltantes en un `DataFrame`.<br>
**4.** Unir dos `DataFrame` por coincidencia de filas o columnas.

## Instrucciones

En cada uno de los siguientes ejercicios deberás escribir el código solicitado estrictamente en las celdas indicadas para ello, teniendo en cuenta las siguientes recomendaciones:

* No crear, eliminar o modificar celdas de este Notebook (salvo lo que se te indique), pues puede verse afectado el proceso de calificación automática.

* La calificación se realiza de manera automática con datos diferentes a los proporcionados en este taller. Por consiguiente, tu código debe funcionar para diferentes instancias de cada uno de los ejercicios; una instancia hace referencia a los posibles valores de los parámetros.

* La calificación de cada ejercicio depende del valor que retorne la función especificada en su enunciado. Por lo tanto, aunque implementes funciones adicionales, es escencial que utilices los nombres propuestos en los enunciados de los ejercicios para implementar la función definitiva.

## Ejercicios
En la siguente celda encuentras declarados los paquetes necesarios para el desarollo de este taller.

In [9]:
import numpy as np
import pandas as pd
from datetime import datetime

### Ejercicio 1

En la siguiente celda encuentras declarados dos `DataFrame` que almacenan los datos de los clientes de un negocio.

In [2]:
orden_cliente = pd.DataFrame([[70001, 3002],
                              [70002, 3001],
                              [70003, 3001],
                              [70004, 3003],
                              [70005, 3003]],
                              columns = ['no_orden', 'id_cliente'])

cliente_categoria = pd.DataFrame([[3001, "Platino"],
                                  [3002, "Oro"    ],
                                  [3003, "Oro"    ],
                                  [3004, "Bronce" ]],
                                  columns = ['id_cliente', 'Categoría Cliente'])

Implementa una función llamada `union_derecha` que reciba por parámetro dos `DataFrame` como los declarados en la celda anterior y que retorne un `DataFrame` resultado de la unión, donde se preserven todas las filas del segundo `DataFrame` y solo las que coincidan del primer `DataFrame`. La coincidencia debe hacerse evaluando la columna "id_cliente".

La función debe retornar un `DataFrame`.

In [14]:
# YOUR CODE HERE
def union_derecha(base1,base2):
    return base1.merge(base2, how = "right", left_on = "id_cliente", right_on = "id_cliente")
union_derecha(orden_cliente,cliente_categoria)

Unnamed: 0,no_orden,id_cliente,Categoría Cliente
0,70002.0,3001,Platino
1,70003.0,3001,Platino
2,70001.0,3002,Oro
3,70004.0,3003,Oro
4,70005.0,3003,Oro
5,,3004,Bronce


In [15]:
## AUTO-CALIFICADOR

# Base variables
orden_cliente = pd.DataFrame([[70001, 3002],
                              [70002, 3001],
                              [70003, 3001],
                              [70004, 3003],
                              [70005, 3003]],
                              columns = ['no_orden', 'id_cliente'])

cliente_categoria = pd.DataFrame([[3001, "Platino"],
                                  [3002, "Oro"    ],
                                  [3003, "Oro"    ],
                                  [3004, "Bronce" ]],
                                  columns = ['id_cliente', 'Categoría Cliente'])

orden_cliente_prueba= pd.DataFrame([[70001, 3002],
                                    [70002, 3002],
                                    [70003, 3001],
                                    [70004, 3000],
                                    [70006, 3004]],
                                   columns = ['no_orden', 'id_cliente'])

cliente_categoria_prueba = pd.DataFrame([[3001, "Platino"],
                                         [3002, "Oro"    ],
                                         [3000, "Oro"    ],
                                         [3001, "Bronce" ]],
                                        columns = ['id_cliente', 'Categoría Cliente'])

# Caso 1: no existe la función.
try:
    union_derecha
    assert type(union_derecha) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada union_derecha.",)
    
# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    union_derecha(orden_cliente, cliente_categoria)
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un DataFrame.
assert type(union_derecha(orden_cliente, cliente_categoria)) == type(orden_cliente), f"Tu función debe retornar un objeto de tipo '{type(orden_cliente).__name__}'."

# Caso 4: retorna un dataframe con cantidad de columnas errada
assert union_derecha(orden_cliente, cliente_categoria).shape[1] == 3, "Tu función retorna un DataFrame con cantidad de columnas errada."
assert union_derecha(orden_cliente_prueba, cliente_categoria_prueba).shape[1] == 3, "Tu función retorna un DataFrame con cantidad de columnas errada."

# Caso 5: devuelve un dataframe con cantidad de filas errada
assert union_derecha(orden_cliente, cliente_categoria).shape[0] == 6, "Tu función retorna un DataFrame con cantidad de filas errada."
assert union_derecha(orden_cliente_prueba, cliente_categoria_prueba).shape[0] == 5, "Tu función retorna un DataFrame con cantidad de filas errada."

# Caso 6: retorna los valores que son (dfs prueba)
assert union_derecha(orden_cliente_prueba, cliente_categoria_prueba).iat[4,2] == 'Bronce', "Tu función retorna un DataFrame con valores distintos a los esperados."
assert union_derecha(orden_cliente_prueba, cliente_categoria_prueba).iat[4,1] == 3001, "Tu función retorna un DataFrame con valores distintos a los esperados."


print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 2

En la siguiente celda encuentras declarados dos `DataFrame` que almacenan los datos de los clientes de un negocio.

In [16]:
cliente_categoria_orden = pd.DataFrame([[3002, "Platino", 70001],
                                        [3004, "Oro",     70002],
                                        [3003, "Oro",     70003]],
                                        columns = ['id_cliente', 'Categoría Cliente', 'no_orden'])
    
cliente_categoria = pd.DataFrame([[3006, "Oro"    ],
                                  [3001, "Oro"    ],
                                  [3005, "Platino"],
                                  [3007, "Platino"]],
                                  columns = ['id_cliente', 'Categoría Cliente'])

Implementa una función llamada `concatenar_interno` que reciba por parámetro dos `DataFrame` como los declarados en la celda anterior y que retorne un `DataFrame` resultado de la unión, donde se preserven las filas de ambos `DataFrame`.

La función deber retornar un `DataFrame` con las **columnas** que existan en ambos `DataFrame` y todas las filas de ambos.

In [25]:
# YOUR CODE HERE
def concatenar_interno(base1,base2):
    return pd.concat([base1 ,base2], join="inner" , ignore_index=True)
concatenar_interno(cliente_categoria_orden,cliente_categoria)



Unnamed: 0,id_cliente,Categoría Cliente
0,3002,Platino
1,3004,Oro
2,3003,Oro
3,3006,Oro
4,3001,Oro
5,3005,Platino


In [26]:
## AUTO-CALIFICADOR

# Base variables
cliente_categoria_orden = pd.DataFrame([[3002, "Platino", 70001],
                                        [3004, "Oro",     70002],
                                        [3003, "Oro",     70003]],
                                        columns = ['id_cliente', 'Categoría Cliente', 'no_orden'])
    
cliente_categoria = pd.DataFrame([[3006, "Oro"    ],
                                  [3001, "Oro"    ],
                                  [3005, "Platino"]],
                                  columns = ['id_cliente', 'Categoría Cliente'])

cliente_categoria_orden_prueba = pd.DataFrame([[3002, "Platino", 70001],
                                        [3004, "Oro",     70002],
                                        [3003, "Oro",     70003]],
                                        columns = ['id_cliente', 'Categoría Cliente', 'no_orden'])
    
cliente_categoria_prueba = pd.DataFrame([[3006, 70006],
                                  [3001, 70007],
                                  [3009, 70008]],
                                  columns = ['id_cliente', 'no_orden'])

# Caso 1: no existe la función.
try:
    concatenar_interno
    assert type(concatenar_interno) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada union_interna.",)
    
# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    concatenar_interno(cliente_categoria_orden, cliente_categoria)
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un DataFrame.
assert type(concatenar_interno(cliente_categoria_orden, cliente_categoria)) == type(cliente_categoria), f"Tu función debe retornar un objeto de tipo '{type(orden_cliente).__name__}'."

# Caso 4: retorna un dataframe con cantidad de columnas errada
assert concatenar_interno(cliente_categoria_orden, cliente_categoria).shape[1] == 2, "Tu función retorna un DataFrame con cantidad de columnas errada."

# Caso 5: devuelve un dataframe con cantidad de filas errada
assert concatenar_interno(cliente_categoria_orden, cliente_categoria).shape[0] == 6, "Tu función retorna un DataFrame con cantidad de filas errada."

# Caso 7: devuelve un dataframe cuyas columnas tienen nombre distinto de lo esperado (dfs prueba)
assert [*concatenar_interno(cliente_categoria_orden_prueba, cliente_categoria_prueba).columns] == ['id_cliente','no_orden'], "Tu función retorna un DataFrame con las columnas incorrectas."


#Caso 8: retorna un dataframe con los valores correctos (dfs prueba)
assert concatenar_interno(cliente_categoria_orden_prueba, cliente_categoria_prueba).iat[1,1] == 70002, "Tu función retorna un DataFrame con los valores incorrectos."
assert concatenar_interno(cliente_categoria_orden_prueba, cliente_categoria_prueba).iat[5,0] == 3009,"Tu función retorna un DataFrame con los valores incorrectos."

print("Felicidades, realizaste este ejercicio correctamente.")


Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 3

En la siguiente celda encuentras declarado un `DataFrame` que almacenan en las filas las ventas diarias de los tres principales productos de un negocio.

In [27]:

ventas = pd.DataFrame([[2600.0,  12200.0, 6000.0],
                       [11200.0, 9000.0,  600.0 ],
                       [np.nan,  8000.0,  3000.0],
                       [4000.0,  np.nan,  np.nan],
                       [np.nan,  10000.0, 2000.0]],
                      columns = ["Producto 1", "Producto 2", "Producto 3"])

Implementa una función llamada `mediana_faltantes` que reciba por parámetro un `DataFrame` como el declarado en la celda anterior, complete los datos faltantes del `DataFrame` con la mediana de su columna respectiva y lo retorne.

La función deber retornar un `DataFrame` sin datos faltantes.

In [46]:
# YOUR CODE HERE
def mediana_faltantes(base1):
    return base1.fillna(base1.median())
mediana_faltantes(ventas)


Unnamed: 0,Producto 1,Producto 2,Producto 3
0,2600.0,12200.0,6000.0
1,11200.0,9000.0,600.0
2,4000.0,8000.0,3000.0
3,4000.0,9500.0,2500.0
4,4000.0,10000.0,2000.0


In [47]:
## AUTO-CALIFICADOR

# Base variables
ventas = pd.DataFrame([[2600.0,  12200.0, 6000.0],
                       [11200.0, 9000.0,  600.0 ],
                       [np.nan,  8000.0,  3000.0],
                       [4000.0,  np.nan,  np.nan],
                       [np.nan,  10000.0, 2000.0]],
                      columns = ["Producto 1", "Producto 2", "Producto 3"])

ventas_prueba = pd.DataFrame([[2600.0,  12200.0, 6000.0],
                       [11200.0, 9000.0,  6000.0 ],
                       [3000.0,  8000.0,  np.nan],
                       [np.nan,  np.nan,  6500.0],
                       [np.nan,  12000.0, 2000.0]],
                      columns = ["Producto 1", "Producto 2", "Producto 3"])

# Caso 1: no existe la función.
try:
    mediana_faltantes
    assert type(mediana_faltantes) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada mediana_faltantes.",)

# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    mediana_faltantes(ventas)
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un DataFrame.
assert type(mediana_faltantes(ventas)) == type(ventas), f"Tu función debe retornar un objeto de tipo '{type(ventas).__name__}'."

# Caso 4: retorna un dataframe con cantidad de columnas errada
assert mediana_faltantes(ventas).shape[1] == 3, "Tu función retorna un DataFrame con cantidad de columnas errada."

# Caso 5: devuelve un dataframe con cantidad de filas errada
assert mediana_faltantes(ventas).shape[0] == 5, "Tu función retorna un DataFrame con cantidad de filas errada."

# Caso 5: no hay valores na
assert mediana_faltantes(ventas).isnull().sum().sum() == 0, "Tu función retorna un DataFrame con valores faltantes."
assert mediana_faltantes(ventas_prueba).isnull().sum().sum() == 0, "Tu función retorna un DataFrame con valores faltantes."
# Caso 6: Los espacios vacios se llenan con la mediana
assert mediana_faltantes(ventas_prueba).iat[3,0] == 3000.0, "Tu función retorna un DataFrame que no llena los valores faltantes con la mediana."
assert mediana_faltantes(ventas_prueba).iat[2,2] == 6000.0, "Tu función retorna un DataFrame que no llena los valores faltantes con la mediana."
#respuestas 
try:
    assert mediana_faltantes(ventas).iat[2,0] == 4000
    assert mediana_faltantes(ventas).iat[3,1] == 9500
except AssertionError as e:
    e.args += ("Tu función retorna un DataFrame que no llena los valores faltantes con la mediana.",)
    raise e
    

print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 4

En la siguiente celda encuentras declarados dos `DataFrame` que almacenan los datos de los clientes de un negocio.

In [48]:
clientes = pd.DataFrame([[3002, "Masculino", "No"],
                         [3001, "Femenino",  "No"],
                         [3003, "Femenino",  "Sí"]],
                        columns = ["id_cliente", "Sexo", "Cliente Premium"])

Implemente una función llamada `cliente_dummies` que reciba por parámetro un `DataFrame` como el declarado en la celda anterior, y retorne un `DataFrame` con la representación en variables *dummy* de las columnas `"Sexo"` y `"Cliente Premium"`.

* La varable `"Sexo"` debe ser representada por un 1 si su valor es `"Femenino"` y cero de lo contrario.
* La varable `"Cliente Premium"` debe ser representada por un 1 si su valor es `"No"` y cero de lo contrario.

La función deber retornar un `DataFrame` con la misma cantidad de filas y columnas, pero números binarios en lugar de los registros de sexo y si es cliente premium.

In [90]:
# YOUR CODE HERE
def cliente_dummies(clientes):
    clientes=pd.get_dummies(clientes)
    clientes=clientes.loc[:,["id_cliente","Sexo_Femenino","Cliente Premium_No"]]
    return clientes

In [91]:
## AUTO-CALIFICADOR

# Base variables
clientes = pd.DataFrame([[3002, "Masculino", "No"],
                         [3001, "Femenino",  "No"],
                         [3003, "Femenino",  "Sí"]],
                        columns = ["id_cliente", "Sexo", "Cliente Premium"])

clientes_prueba = pd.DataFrame([[3002, "Masculino", "Sí"],
                         [3001, "Masculino",  "No"],
                         [3003, "Femenino",  "Sí"]],
                        columns = ["id_cliente", "Sexo", "Cliente Premium"])

# Caso 1: no existe la función.
try:
    cliente_dummies
    assert type(cliente_dummies) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada cliente_dummies.",)

# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    cliente_dummies(clientes)
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un DataFrame.
assert type(cliente_dummies(clientes)) == type(clientes), f"Tu función debe retornar un objeto de tipo '{type(clientes).__name__}'."

# Caso 4: retorna un dataframe con cantidad de columnas errada
assert cliente_dummies(clientes).shape[1] == 3, "Tu función retorna un DataFrame con cantidad de columnas errada."

# Caso 5: devuelve un dataframe con cantidad de filas errada
assert cliente_dummies(clientes).shape[0] == 3, "Tu función retorna un DataFrame con cantidad de filas errada."

#Caso 6: Tu funcion no retorna los dummies que son (prueba)
assert cliente_dummies(clientes_prueba).iat[1,1] == 0,"Tu función retorna un DataFrame con los valores incorrectos."
assert cliente_dummies(clientes_prueba).iat[1,2] == 1,"Tu función retorna un DataFrame con los valores incorrectos."


print("Felicidades, realizaste este ejercicio correctamente.")


Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 5

En la siguiente celda encuentras declarada una fecha tipo cadena de caracteres.

In [50]:
fecha_string = "2020-10-December"

Implemente una función llamada `cadena_a_fecha` que reciba por parámetro una cadena como la declarada en la celda anterior y retorne un objeto de tipo `datetime` que represente la misma fecha.

La función deber retornar un objeto de tipo `datetime`.

In [56]:
from datetime import datetime

In [83]:
# YOUR CODE HERE

def cadena_a_fecha(fecha_string):
    return   datetime.strptime(fecha_string ,'%Y-%d-%B') 
cadena_a_fecha(fecha_string)


datetime.datetime(2020, 12, 10, 0, 0)

In [84]:
## AUTO-CALIFICADOR

# Base variables

fecha_string = "2020-10-December"

fecha_string_prueba = "2021-20-October"

# Caso 1: no existe la función.
try:
    cadena_a_fecha
    assert type(cadena_a_fecha) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada cadena_a_fecha.",)

# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    cadena_a_fecha
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un Datetime.
assert type(cadena_a_fecha(fecha_string)) == datetime, f"Tu función debe retornar un objeto de tipo '{datetime.__name__}'."

#Caso 4: retorna la fecha correcta
assert cadena_a_fecha(fecha_string_prueba) == datetime(2021, 10, 20, 0, 0), f"Tu respuesta es incorrecta."
assert cadena_a_fecha(fecha_string) == datetime(2020, 12, 10, 0, 0), f"Tu respuesta es incorrecta."


print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 6

Junto a este Notebook encontrarás dos archivos de Excel. Cada uno de estos archivos contiene una base de datos, ambas provistas por el Banco de la República.

La primera base de datos (`"1.1.TIB_Serie historica IQY.xlsx"`) corresponde a la tasa a la que se puede prestar o pedir prestado entre los bancos.

La segunda base de datos (`"1.2.TIP_Serie historica diaria IQY.xlsx"`) corresponde a la tasa de interés de referencia fijada por el Banco de la República.

Implemente una función llamada `union_izquierda` que no reciba parámetros, importe los datos de los archivos de Excel y retorne un `DataFrame` resultado de la unión, donde se preserven todas las filas de los datos de la Tasa Interbancaria y solo las que coincidan de la Tasa de Intervención Pública. La coincidencia debe hacerse evaluando la columna "Fecha".

La función debe retornar un `DataFrame`.

In [87]:
# YOUR CODE HERE
def union_izquierda():
    TIB = pd.read_excel("C:/Users/STEPHANIE/Desktop/Talleres Herramientas/S5 - Limpiar y unir bases de datos/S5.TA1/Archivos/1.1.TIB_Serie historica IQY.xlsx",header = 7).rename(columns={"Fecha(dd/mm/aaaa)": "Fecha"})
    TIP = pd.read_excel("C:/Users/STEPHANIE/Desktop/Talleres Herramientas/S5 - Limpiar y unir bases de datos/S5.TA1/Archivos/1.2.TIP_Serie historica diaria IQY.xlsx",header = 7).rename(columns={"Fecha (dd/mm/aaaa)": "Fecha"})
    resultado = TIB.merge(TIP,on = "Fecha", how = "left")
    return resultado

union_izquierda()



Unnamed: 0,Fecha,TIB (Efectiva anual) %,Unnamed: 2,Tasa de intervención de política monetaria (%)
0,2020-11-13 00:00:00,0.017543,,1.75
1,2020-11-12 00:00:00,0.017546,,1.75
2,2020-11-11 00:00:00,0.017533,,1.75
3,2020-11-10 00:00:00,0.017526,,1.75
4,2020-11-09 00:00:00,0.017521,,1.75
...,...,...,...,...
6253,,,,
6254,(N/A): No aplica.,,,
6255,,,,
6256,,,,


In [88]:
## AUTO-CALIFICADOR

# Caso 1: no existe la función.
try:
    union_izquierda
    assert type(union_izquierda) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada union_izquierda.",)

# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    union_izquierda
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un Dataframe.
assert type(union_izquierda()) == pd.core.frame.DataFrame, f"Tu función debe retornar un objeto de tipo '{pd.core.frame.DataFrame.__name__}'."


print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 7

Crea una función que reciba un `DataFrame` y retorne en una lista el nombre de las columnas que tienen más de 1 dato faltante. Puedes usar el `DataFrame` de la celda de código para probar que tu función este obteniendo el resultado correctamente. Vale aclarar que se usarán otros `DataFrame` para poner a prueba tu función.

La función, con nombre `ejercicio7`, debe retornar una lista.

In [5]:
df = pd.DataFrame({'no_orden':    [70001,np.nan,70002,70004,np.nan,70005,np.nan,70010,70003,70012,np.nan,70013],
                   'monto US$':   [150.5,270.65,65.26,110.5,948.5,2400.6,5760,1983.43,2480.4,250.45, 75.29,3045.6],
                   'Fecha Orden': ['2012-10-05','2012-09-10',np.nan,'2012-08-17','2012-09-10','2012-07-27','2012-09-10','2012-10-10','2012-10-10','2012-06-27','2012-08-17','2012-04-25'],
                   'idCliente':   [3002,3001,3001,3003,3002,3001,3001,3004,3003,3002,3001,3001],
                   'idVendedor':  [5002,5003,5001,np.nan,5002,5001,5001,np.nan,5003,5002,5003,np.nan]})

In [6]:
# YOUR CODE HERE
def ejercicio7(df):
    lista=[]
    rev=df.isnull().sum(axis=0).tolist()
    columns_names=df.columns.values.tolist()
    for x in rev:
        if x >1:
            lista.append(columns_names[rev.index(x)])
    return(lista)
ejercicio7(df)

['no_orden', 'idVendedor']

In [7]:
## AUTO-CALIFICADOR

# Base variables

df = pd.DataFrame({
    'no_orden':[70001,np.nan,70002,70004,np.nan,70005,np.nan,70010,70003,70012,np.nan,70013],
    'monto US$':[150.5,270.65,65.26,110.5,948.5,2400.6,5760,1983.43,2480.4,250.45, 75.29,3045.6],
    'Fecha Orden': ['2012-10-05','2012-09-10',np.nan,'2012-08-17','2012-09-10','2012-07-27','2012-09-10','2012-10-10','2012-10-10','2012-06-27','2012-08-17','2012-04-25'],
    'idCliente':[3002,3001,3001,3003,3002,3001,3001,3004,3003,3002,3001,3001],
    'idVendedor':[5002,5003,5001,np.nan,5002,5001,5001,np.nan,5003,5002,5003,np.nan]})

df_prueba = pd.DataFrame({
    'no_orden':[70001,np.nan,70002,70004,np.nan,70005,np.nan,70010,70003,70012,np.nan,70013],
    'monto US$':[150.5,270.65,65.26,110.5,948.5,2400.6,5760,1983.43,2480.4,250.45, 75.29,3045.6],
    'Fecha Orden': ['2012-10-05','2012-09-10',np.nan,'2012-08-17','2012-09-10','2012-07-27','2012-09-10','2012-10-10','2012-10-10','2012-06-27','2012-08-17','2012-04-25'],
    'idCliente':[3002,3001,3001,3003,3002,np.nan,3001,np.nan,3003,3002,3001,3001],
    'idVendedor':[5002,5003,5001,5003,5002,5001,5001,5001,5003,5002,5003,np.nan]})

# Caso 1: no existe la función.
try:
    ejercicio7
    assert type(ejercicio7) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada ejercicio7.",)

# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    ejercicio7
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un Dataframe.
assert type(ejercicio7(df)) == list, f"Tu función debe retornar un objeto de tipo '{list.__name__}'."

# Caso 4: Probar con otro Dataframe que sean esas dos.
assert ejercicio7(df_prueba) == ['no_orden', 'idCliente'], f"Tu respuesta es incorrecta."


print("Felicidades, realizaste este ejercicio correctamente.")

Felicidades, realizaste este ejercicio correctamente.


### Ejercicio 8

Colombia es un país con un gran número de días feriados. En la carpeta de este taller encontrará una base de datos (`"Festivos.xlsx"`) que contiene estas fechas. Esta base de datos organiza en columnas los festivos de cada año, desde el año 2001 hasta el año 2019. Todos los festivos se presentan con el mismo formato: 

    6 Enero Día de los Reyes Magos

Debe crear una función que procese la base de datos de festivos, de manera que retorne un objeto de tipo `DatetimeIndex` con todos los festivos que se han presentado en Colombia desde el año 2012 hasta el año 2020. 

Al imprimirse, el objeto tendría el siguientes aspecto:

    DatetimeIndex(['2001-01-01', '2001-01-08', '2001-03-19', '2001-04-12',
                   '2001-04-13', '2001-05-01', '2001-05-28', '2001-06-18',
                   '2001-06-25', '2001-07-02',
                   ...
                   '2020-06-29', '2020-07-20', '2020-08-07', '2020-08-17',
                   '2020-10-12', '2020-11-02', '2020-11-16', '2020-12-08',
                   '2020-12-25', '2020-12-31'],
                   dtype = 'datetime64[ns]', name = 'Fecha', length = 380, freq = None)
    
En la caja de código se le incluirá una lista con los meses del año. Esta lista le puede resultar de utilidad para procesar la información del `DataFrame`.

La función, con nombre `ejercicio8`, debe retornar un objeto `DatetimeIndex`.

In [8]:
lista_meses = ["Enero",      "Febrero", "Marzo",     "Abril",
               "Mayo",       "Junio",   "Julio",     "Agosto",
               "Septiembre", "Octubre", "Noviembre", "Diciembre"] 

In [38]:
# YOUR CODE HERE
def ejercicio8():
    
        df=pd.read_excel("C:/Users/STEPHANIE/Desktop/Talleres Herramientas/S5 - Limpiar y unir bases de datos/S5.TA1/Archivos/Festivos.xlsx")
        rango= list(range(2012,2021))
        df= df[rango]
        a= df.stack()
        b= a.reset_index(level=1, drop=False)
        b= b.rename(columns={0:'Festivo',"level_1":"Año"})
        b[['dia','mes_str',"complemento"]]= b['Festivo'].str.split(n=2,expand=True)

        num_meses=list(range(1,13))
        meses={"mes_str":lista_meses,"mes":num_meses}
        m=pd.DataFrame(meses)
        b=b.merge(m,how='left', on='mes_str')

        fechas=list(b['dia'].astype(str)+'-'+b['mes'].astype(str)+'-'+b["Año"].astype(str))
        fechas= pd.to_datetime(fechas)

        return fechas

In [39]:
## AUTO-CALIFICADOR

# Base variables
lista_meses = ["Enero", "Febrero", "Marzo", "Abril", "Mayo", "Junio", "Julio", "Agosto", "Septiembre",
               "Octubre", "Noviembre", "Diciembre"] 

# Caso 1: no existe la función.
try:
    ejercicio8
    assert type(ejercicio8) == type(lambda:None)
except:
    raise NotImplementedError("No existe una función llamada ejercicio8.",)

# Caso 2: la función es interrumpida por errores durante su ejecución.
try:
    ejercicio8
except:
    raise RuntimeError("Tu función produce un error al ejecutarse.")

# Caso 3: no retorna un Datatimeindex.
assert type(ejercicio8()) == pd.core.indexes.datetimes.DatetimeIndex, f"Tu función debe retornar un objeto de tipo '{pd.core.indexes.datetimes.DatetimeIndex.__name__}'."

# Caso 4: retorna un dataframe con cantidad de columnas errada
assert len(ejercicio8()) == 171, "Tu función retorna un objeto DatetimeIndex con una longitud incorrecta."

print("Felicidades, realizaste este ejercicio correctamente.")


Felicidades, realizaste este ejercicio correctamente.


## Referencias

Banco de la República (2020). 1.2.TIP_Serie histórica diaria IQY.xlsx [Base deDatos]. Recuperado el 15 de Noviembre de 2020 de :
https://www.banrep.gov.co/es/estadisticas/tasas-interes-politica-monetaria

Banco de la República (2020). 1.1.TIB_Serie histórica IQY.xlsx [Base deDatos]. Recuperado el 15 de Noviembre de 2020 de :
https://www.banrep.gov.co/es/estadisticas/tasa-interbancaria-tib

## Créditos

**Autor(es)**: Jorge Esteban Camargo Forero, Juan David Reyes Jaimes, Alejandro Mantilla Redondo, Diego Alejandro Cely Gomez

**Última actualización:** 17/09/2021