### Enunciado
El archivo CSV 'transacciones.csv' contiene la información de transacciones de una tienda en línea. 

1. Identificar y manejar los valores nulos en el DataFrame, rellenándolos con un valor predeterminado (en caso de que el nulo esté en el campo cliente o el campo fecha) o eliminando las filas con valores nulos (en el resto de casos).o 
2. Filtrar el DataFrame para obtener transacciones de pantalones.
3. Ordenar: Ordenar el DataFrame por fecha para tener las transacciones en orden cronológico.
4. Eliminar duplicados: Eliminar transacciones duplicadas basadas en el ID de la transacción.
5. Añadir y eliminar registros: Agregar 3 nuevas transacciones al DataFrame y eliminar 3 transacciones existentes.
6. Conversión de tipos de datos: Convertir el tipo de datos de la columna 'Fecha' a objetos de fecha y tiempo.
7. Datos categóricos: Convertir la columna 'Producto' a datos categóricos.
8. Fechas y tiempo: Calcular la duración entre transacciones y filtrar transacciones para el primer día del mes.

In [36]:
import pandas as pd

# Cargar el archivo CSV
df = pd.read_csv("transacciones.csv")
df.head()


Unnamed: 0,ID_Transaccion,Fecha,Producto,Precio,Cantidad,Cliente
0,1,2022-01-05 00:00:00.000000000,Pantalones,36.08,4,102.0
1,2,2022-01-05 06:32:43.636363636,Pantalones,27.26,4,102.0
2,3,2022-01-06 19:38:10.909090909,Sombrero,45.86,2,
3,4,2022-01-07 02:10:54.545454545,Camiseta,,4,103.0
4,5,2022-01-07 02:10:54.545454545,Camiseta,27.43,1,101.0


### 1. Identificar y manejar los valores nulos
### Rellenar valores nulos en 'Cliente' y 'Fecha' con valores predeterminados

### Eliminamos el resto de Nones...

In [40]:
df = df.dropna()


### 2. Filtrar el DataFrame para obtener transacciones de pantalones

In [41]:
filtro = df["Producto"] == "Pantalones"
df_pantalones = df[filtro]
df_pantalones.head()


Unnamed: 0,ID_Transaccion,Fecha,Producto,Precio,Cantidad,Cliente
0,1,2022-01-05 00:00:00.000000000,Pantalones,36.08,4,102.0
1,2,2022-01-05 06:32:43.636363636,Pantalones,27.26,4,102.0
14,15,2022-01-06 06:32:43.636363636,Pantalones,16.5,4,103.0
22,23,2022-01-03 06:32:43.636363636,Pantalones,37.9,2,Desconocido
30,31,2022-01-05 06:32:43.636363636,Pantalones,39.2,4,101.0


### Esto no lo pedían.. pero lo hacemos por si acaso!


In [42]:
df["Fecha"] = pd.to_datetime(df["Fecha"])
df["Fecha"] = df["Fecha"].dt.floor("S")# Esto es para redondear los segundos...
df.head()

Unnamed: 0,ID_Transaccion,Fecha,Producto,Precio,Cantidad,Cliente
0,1,2022-01-05 00:00:00,Pantalones,36.08,4,102.0
1,2,2022-01-05 06:32:43,Pantalones,27.26,4,102.0
2,3,2022-01-06 19:38:10,Sombrero,45.86,2,Desconocido
4,5,2022-01-07 02:10:54,Camiseta,27.43,1,101.0
6,7,2022-01-08 13:05:27,Zapatos,42.25,1,Desconocido


### 3. Ordenar el DataFrame por fecha para tener las transacciones en orden cronológico

In [43]:

df_ordenado = df.sort_values(by = "Fecha")
df_ordenado

Unnamed: 0,ID_Transaccion,Fecha,Producto,Precio,Cantidad,Cliente
55,56,2022-01-01 00:00:00,Zapatos,47.77,4,101.0
54,55,2022-01-01 00:00:00,Sombrero,17.45,1,103.0
66,67,2022-01-01 02:10:54,Sombrero,10.99,4,101.0
87,88,2022-01-01 06:32:43,Sombrero,48.11,2,Desconocido
62,63,2022-01-01 08:43:38,Zapatos,22.47,1,101.0
...,...,...,...,...,...,...
12,13,2022-01-09 00:00:00,Zapatos,15.98,2,Desconocido
74,75,2022-01-09 06:32:43,Sombrero,36.52,2,102.0
93,94,2022-01-10 00:00:00,Zapatos,18.53,4,101.0
33,34,2022-01-10 00:00:00,Pantalones,12.17,3,101.0


### 4. Eliminar duplicados basados en el ID de la transacción

In [48]:
df_ordenado.duplicated(["ID_Transaccion"]).sum()

0

In [49]:

df_sin_duplicados = df_ordenado.drop_duplicates("ID_Transaccion")
df_sin_duplicados

Unnamed: 0,ID_Transaccion,Fecha,Producto,Precio,Cantidad,Cliente
55,56,2022-01-01 00:00:00,Zapatos,47.77,4,101.0
54,55,2022-01-01 00:00:00,Sombrero,17.45,1,103.0
66,67,2022-01-01 02:10:54,Sombrero,10.99,4,101.0
87,88,2022-01-01 06:32:43,Sombrero,48.11,2,Desconocido
62,63,2022-01-01 08:43:38,Zapatos,22.47,1,101.0
...,...,...,...,...,...,...
12,13,2022-01-09 00:00:00,Zapatos,15.98,2,Desconocido
74,75,2022-01-09 06:32:43,Sombrero,36.52,2,102.0
93,94,2022-01-10 00:00:00,Zapatos,18.53,4,101.0
33,34,2022-01-10 00:00:00,Pantalones,12.17,3,101.0


### 5. Añadir y eliminar registros
### Agregar 3 nuevas transacciones al DataFrame

In [50]:


df = df_sin_duplicados
df = df.drop([55,54,66])
df
fecha = pd.to_datetime("2022-01-02")
df.loc[123] = [88,fecha,"pantalon", 67.90,2,"Desconocido"]
df.loc[124] = [88,fecha,"pantalon", 67.90,2,"Desconocido"]
df.loc[125] = [88,fecha,"pantalon", 67.90,2,"Desconocido"]
df.head()

Unnamed: 0,ID_Transaccion,Fecha,Producto,Precio,Cantidad,Cliente
87,88,2022-01-01 06:32:43,Sombrero,48.11,2,Desconocido
62,63,2022-01-01 08:43:38,Zapatos,22.47,1,101.0
58,59,2022-01-01 10:54:32,Camiseta,19.1,3,103.0
25,26,2022-01-01 19:38:10,Sombrero,44.66,4,103.0
43,44,2022-01-01 19:38:10,Camiseta,34.86,2,102.0


### 6. Conversión de tipos de datos: Convertir el tipo de datos de la columna 'Fecha' a objetos de fecha y tiempo.
- Ya lo hemos hecho arriba, pero lo volvemos a repasar, haciéndolo de la otra manera...

In [52]:
df["Fecha"] = df["Fecha"].astype("datetime64[ns]")
df.dtypes

ID_Transaccion             int64
Fecha             datetime64[ns]
Producto                  object
Precio                   float64
Cantidad                   int64
Cliente                   object
dtype: object

### 7. Datos categóricos: Convertir la columna 'Producto' a datos categóricos.

In [54]:
df["Producto"] = df["Producto"].astype("category")
print("Las categorías de producto son: ")
print(df["Producto"].cat.categories)
print("-"*50)
print("El número de elementos de cada producto es...")
df["Producto"].value_counts()


Las categorías de producto son: 
Index(['Camiseta', 'Pantalones', 'Sombrero', 'Zapatos', 'pantalon'], dtype='object')
--------------------------------------------------
El número de elementos de cada producto es...


Producto
Camiseta      24
Zapatos       17
Sombrero      16
Pantalones    15
pantalon       3
Name: count, dtype: int64

### 8. Fechas y tiempo: Calcular la duración entre transacciones y filtrar transacciones para el primer día del mes.
- Accederemos al atributo day de los datetime... Tenemos que recordar que df["Fecha"] es una serie


In [57]:
import pandas as pd
## Filtramos transacciones del primer dia del mes
filtro = df["Fecha"].dt.day == 1
df[filtro]



Unnamed: 0,ID_Transaccion,Fecha,Producto,Precio,Cantidad,Cliente
87,88,2022-01-01 06:32:43,Sombrero,48.11,2,Desconocido
62,63,2022-01-01 08:43:38,Zapatos,22.47,1,101.0
58,59,2022-01-01 10:54:32,Camiseta,19.1,3,103.0
25,26,2022-01-01 19:38:10,Sombrero,44.66,4,103.0
43,44,2022-01-01 19:38:10,Camiseta,34.86,2,102.0


# Para calcular la diferencia entre las transacciones, podemos utilizar el método diff de las series

In [58]:
diferencia = df["Fecha"].diff()
diferencia

87                  NaT
62      0 days 02:10:55
58      0 days 02:10:54
25      0 days 08:43:38
43      0 days 00:00:00
             ...       
33      0 days 00:00:00
77      0 days 00:00:00
123   -8 days +00:00:00
124     0 days 00:00:00
125     0 days 00:00:00
Name: Fecha, Length: 75, dtype: timedelta64[ns]

### Si nos pidiesen añadirlo a una nueva columna llamada diferencia entre transacciones..

In [60]:
df["Diferencia"] = diferencia
df

Unnamed: 0,ID_Transaccion,Fecha,Producto,Precio,Cantidad,Cliente,Diferencia
87,88,2022-01-01 06:32:43,Sombrero,48.11,2,Desconocido,NaT
62,63,2022-01-01 08:43:38,Zapatos,22.47,1,101.0,0 days 02:10:55
58,59,2022-01-01 10:54:32,Camiseta,19.10,3,103.0,0 days 02:10:54
25,26,2022-01-01 19:38:10,Sombrero,44.66,4,103.0,0 days 08:43:38
43,44,2022-01-01 19:38:10,Camiseta,34.86,2,102.0,0 days 00:00:00
...,...,...,...,...,...,...,...
33,34,2022-01-10 00:00:00,Pantalones,12.17,3,101.0,0 days 00:00:00
77,78,2022-01-10 00:00:00,Camiseta,40.34,1,102.0,0 days 00:00:00
123,88,2022-01-02 00:00:00,pantalon,67.90,2,Desconocido,-8 days +00:00:00
124,88,2022-01-02 00:00:00,pantalon,67.90,2,Desconocido,0 days 00:00:00
