In [4]:
# 1. Carga de librerías y de los datos
import pandas as pd
import numpy as np

df1 = pd.read_csv("ventas_farmacia_dirty.csv", sep = ',')

# 2. Manipulación de los datos
df1.columns = df1.columns.str.strip()
df1.columns = df1.columns.str.replace(" ","_")

# 3. Transformación de los datos (Si bien los datos son Float, hay valores entre medio que pueden ser strings por lo que hay que forzar su transformacion a numérico)
df1["Cantidad"] = pd.to_numeric(df1["Cantidad"], errors="coerce")
df1["Precio_Unitario"] = pd.to_numeric(df1["Precio_Unitario"], errors="coerce")
df1["Total_Venta"] = pd.to_numeric(df1["Total_Venta"], errors="coerce")

# 4. Segunda manipulación de los datos: Reemplazar valores nulos y 9999 por los cálculos correspondientes
df1.loc[df1["Cantidad"] == 9999, "Cantidad"] = df1["Total_Venta"] / df1["Precio_Unitario"]
df1.loc[df1["Cantidad"].isna(), "Cantidad"] = df1["Total_Venta"] / df1["Precio_Unitario"]
df1.loc[df1["Total_Venta"].isna(), "Total_Venta"] = df1["Cantidad"] * df1["Precio_Unitario"]
df1.loc[df1["Precio_Unitario"].isna(), "Precio_Unitario"] = df1["Total_Venta"] / df1["Cantidad"]
df1['Fecha_Venta'] = pd.to_datetime(df1['Fecha_Venta'], format='%Y-%m-%d', errors = 'coerce')

# 5. Eliminación de datos faltantes
df1.dropna(subset = ["Producto", "Cantidad", "Total_Venta", "Fecha_Venta"], inplace = True)

print("✅ Dataset limpio!")


✅ Dataset limpio!


In [5]:
# 1. Carga de librerías y de los datos
import pandas as pd
import numpy as np

df2 = pd.read_csv("ventas_farmacia_periodo2_dirty.csv", sep = ',')

# 2. Manipulación de los datos
columns = ["Fecha_Venta", "Local", "Producto", "Cantidad", "Precio_Unitario", "Total_Venta"]
df2.columns = columns
df2.columns = df2.columns.str.strip()
df2.columns = df2.columns.str.replace(" ","_")

# 3. Transformación de los datos (Si bien los datos son Float, hay valores entre medio que pueden ser strings por lo que hay que forzar su transformacion a numérico)
df2["Cantidad"] = pd.to_numeric(df2["Cantidad"], errors="coerce")
df2["Precio_Unitario"] = pd.to_numeric(df2["Precio_Unitario"], errors="coerce")
df2["Total_Venta"] = pd.to_numeric(df2["Total_Venta"], errors="coerce")

# 4. Segunda manipulación de los datos: Reemplazar valores nulos y 9999 por los cálculos correspondientes
df2.loc[df2["Cantidad"] == 9999, "Cantidad"] = df2["Total_Venta"] / df2["Precio_Unitario"]
df2.loc[df2["Cantidad"].isna(), "Cantidad"] = df2["Total_Venta"] / df2["Precio_Unitario"]
df2.loc[df2["Total_Venta"].isna(), "Total_Venta"] = df2["Cantidad"] * df2["Precio_Unitario"]
df2.loc[df2["Precio_Unitario"].isna(), "Precio_Unitario"] = df2["Total_Venta"] / df2["Cantidad"]
df2['Fecha_Venta'] = pd.to_datetime(df2['Fecha_Venta'], format='%Y-%m-%d', errors = 'coerce')

# 5. Eliminación de datos faltantes
df2.dropna(subset = ["Producto", "Cantidad", "Total_Venta", "Fecha_Venta"], inplace = True)

print("✅ Dataset limpio!")


✅ Dataset limpio!


In [6]:
df = pd.concat([df1, df2], ignore_index=True)
print("✅ Datasets concatenados!")

✅ Datasets concatenados!


In [None]:
# Primero crear la base de datos y luego otorgar permisos para acceder a la base de datos y poder modificarla:
# CREATE DATABASE farmacia;
# GO
# USE farmacia;
# GO
# CREATE USER [LIGHTNING\Administrador] FOR LOGIN [LIGHTNING\Administrador];
# GO
# ALTER ROLE db_owner ADD MEMBER [LIGHTNING\Administrador];
# GO
from sqlalchemy import create_engine

server = r"LIGHTNING\SQLEXPRESS"
database = "farmacia"

# Conexión con Windows Authentication
engine = create_engine(f"mssql+pyodbc://@{server}/{database}?trusted_connection=yes&driver=ODBC+Driver+17+for+SQL+Server")

df.to_sql("ventas", engine, if_exists="append", index=False)

print("✅ ETL completado con éxito en SQL Server con Windows Authentication")


✅ ETL completado con éxito en SQL Server con Windows Authentication
