In [25]:
import pandas as pd
from bs4 import BeautifulSoup

In [26]:
# Read the HTML file
with open("../drafts/pedidos.html") as fp:
    soup = BeautifulSoup(fp, "html.parser")

# Find all the span tags with class "order-cell__id footnote1-r"
pedido_tags = soup.find_all("span", class_="order-cell__id footnote1-r")

# Find all the h1 tags with class "order-cell__title body1-sb"
fecha_tags = soup.find_all("h1", class_="order-cell__title body1-sb")

# Extract the text from the tags and create a list of dictionaries
data = []
for i in range(len(pedido_tags)):
    data.append({
        "pedido": pedido_tags[i].text.strip(),
        "fecha": fecha_tags[i].text.strip()
    })

# Create a pandas dataframe from the list of dictionaries
df = pd.DataFrame(data)

In [27]:
df

Unnamed: 0,pedido,fecha
0,Pedido 13945376 ·,"Entrega el sábado, 11 de marzode 11:00 a 12:00"
1,Pedido 13879881 ·,Entregado el 4 de marzo
2,Pedido 13821013 ·,Entregado el 25 de febrero
3,Pedido 13759447 ·,Entregado el 18 de febrero
4,Pedido 13703740 ·,Entregado el 11 de febrero
5,Pedido 13640454 ·,Entregado el 4 de febrero
6,Pedido 13580934 ·,Entregado el 28 de enero
7,Pedido 13546313 ·,Entregado el 21 de enero
8,Pedido 13507140 ·,Entregado el 14 de enero
9,Pedido 13449668 ·,Entregado el 11 de enero


In [28]:
df = df.drop(index=0)

In [29]:
df

Unnamed: 0,pedido,fecha
1,Pedido 13879881 ·,Entregado el 4 de marzo
2,Pedido 13821013 ·,Entregado el 25 de febrero
3,Pedido 13759447 ·,Entregado el 18 de febrero
4,Pedido 13703740 ·,Entregado el 11 de febrero
5,Pedido 13640454 ·,Entregado el 4 de febrero
6,Pedido 13580934 ·,Entregado el 28 de enero
7,Pedido 13546313 ·,Entregado el 21 de enero
8,Pedido 13507140 ·,Entregado el 14 de enero
9,Pedido 13449668 ·,Entregado el 11 de enero
10,Pedido 13397754 ·,Entregado el 4 de enero


In [30]:
# Split the values in the "pedido" column by space and keep the second instance
df["pedido"] = df["pedido"].str.split().str[1]

In [31]:
df

Unnamed: 0,pedido,fecha
1,13879881,Entregado el 4 de marzo
2,13821013,Entregado el 25 de febrero
3,13759447,Entregado el 18 de febrero
4,13703740,Entregado el 11 de febrero
5,13640454,Entregado el 4 de febrero
6,13580934,Entregado el 28 de enero
7,13546313,Entregado el 21 de enero
8,13507140,Entregado el 14 de enero
9,13449668,Entregado el 11 de enero
10,13397754,Entregado el 4 de enero


In [32]:
# Convert the "pedido" column to integer data type
df["pedido"] = df["pedido"].astype(int)

In [33]:
df

Unnamed: 0,pedido,fecha
1,13879881,Entregado el 4 de marzo
2,13821013,Entregado el 25 de febrero
3,13759447,Entregado el 18 de febrero
4,13703740,Entregado el 11 de febrero
5,13640454,Entregado el 4 de febrero
6,13580934,Entregado el 28 de enero
7,13546313,Entregado el 21 de enero
8,13507140,Entregado el 14 de enero
9,13449668,Entregado el 11 de enero
10,13397754,Entregado el 4 de enero


In [34]:

# Define a dictionary to map month names to month numbers
months = {
    "enero": 1,
    "febrero": 2,
    "marzo": 3,
    "abril": 4,
    "mayo": 5,
    "junio": 6,
    "julio": 7,
    "agosto": 8,
    "septiembre": 9,
    "octubre": 10,
    "noviembre": 11,
    "diciembre": 12
}

# Define a function to convert the date string to pandas datetime format
def convert_date_string(date_string):
    # Extract the day and month name from the string using string manipulation functions
    day = int(date_string.split()[2])
    month_name = date_string.split()[4]
    
    # Map the month name to month number using the months dictionary
    month = months[month_name]
    
    # Determine the year based on the month
    year = 2022 if (month <= 12 and month >=10) else 2023
    
    # Combine the year, month, and day into a datetime object
    return pd.to_datetime(f"{year}-{month}-{day}")

# Apply the convert_date_string function to the "fecha" column and assign the result back to the same column
df["fecha"] = df["fecha"].apply(convert_date_string)

# Print the resulting dataframe
print(df)

      pedido      fecha
1   13879881 2023-03-04
2   13821013 2023-02-25
3   13759447 2023-02-18
4   13703740 2023-02-11
5   13640454 2023-02-04
6   13580934 2023-01-28
7   13546313 2023-01-21
8   13507140 2023-01-14
9   13449668 2023-01-11
10  13397754 2023-01-04
11  13374140 2022-12-28
12  13315781 2022-12-21
13  13253776 2022-12-14
14  13220829 2022-12-07
15  13151497 2022-11-30
16  13117832 2022-11-23
17  13069090 2022-11-16
18  13029815 2022-11-09
19  12950475 2022-10-31
20  12878660 2022-10-20
21  12838037 2022-10-13
22  12793662 2022-10-06


In [35]:
df

Unnamed: 0,pedido,fecha
1,13879881,2023-03-04
2,13821013,2023-02-25
3,13759447,2023-02-18
4,13703740,2023-02-11
5,13640454,2023-02-04
6,13580934,2023-01-28
7,13546313,2023-01-21
8,13507140,2023-01-14
9,13449668,2023-01-11
10,13397754,2023-01-04


In [38]:
df.to_csv('../mercadona/order_history/old_files/pedido_fecha.csv')