In [1]:
filename = '2022-06 06 Fact 30-May al 05-Jun.xlsx'
year = 2022
week = 23

# Libraries

In [2]:
import pandas as pd
import pyodbc
import os
from datetime import datetime

pd.io.formats.excel.ExcelFormatter.header_style = None
pd.options.display.float_format = '{:,.2f}'.format

# Parameters

In [3]:
path = r'\\NASPRO.infovisiontv.com\DGI\DGI Banco Central\00 CIERRES SEMANALES\{0}\{0} {1}'
path = path.format(year, str(week).zfill(2))

# Import Data

'Grupo de artículos'

In [4]:
%%time
#df = pd.read_excel(path + '\\' + filename, sheet_name='YOSAF', dtype={'Grupo de artículos':'str', 'Tp.cambio p.contab.':'str', 'Lote':'str'})
df = pd.read_excel(path + '\\' + filename, dtype={'Grupo de artículos':'str', 'Tp.cambio p.contab.':'str', 'Lote':'str'})

CPU times: total: 13.7 s
Wall time: 17.8 s


df[['Grupo de artículos', 'Tp.cambio p.contab.', 'Lote']].dtypes

In [5]:
df.shape

(14571, 47)

In [6]:
df.tail(10)

Unnamed: 0,Doc.fact.,Posición,Documento de ventas,Posición.1,Referencia cliente,Material,Cd.Barra,Denomin.posición,Solicitante,Nombre,...,Nombre empresa,Organización ventas,Centro,Almacén,Lote,FeCaduc/FePreferCons,Motivo pedido,Descripción Motivo Pedido,Valor neto.1,Moneda del documento
14561,196272914.0,11.0,15324024.0,10.0,XL3 Extra Recup 1,8100001422.0,,XL3 XTRA CAJA CON 12 CAPSULAS,1100034.0,REPRESENTACIONES JMP SA DE CV,...,GIBART,VGIB,MX06,MX06,2091020742,2024-04-30,,,82998.3,MXN
14562,196272914.0,12.0,15324024.0,10.0,XL3 Extra Recup 1,8100001422.0,,XL3 XTRA CAJA CON 12 CAPSULAS,1100034.0,REPRESENTACIONES JMP SA DE CV,...,GIBART,VGIB,MX06,MX06,2091020743,2024-04-30,,,1506185.6,MXN
14563,196272914.0,13.0,15324024.0,10.0,XL3 Extra Recup 1,8100001422.0,,XL3 XTRA CAJA CON 12 CAPSULAS,1100034.0,REPRESENTACIONES JMP SA DE CV,...,GIBART,VGIB,MX06,MX06,2094020744,2024-04-30,,,1724640.0,MXN
14564,196272915.0,10.0,15324028.0,10.0,Recup Faltantes Ferm,8100005255.0,650240026201.0,FERMODYL ENER REPAR AMPOS 4X15 ML/12,1100034.0,REPRESENTACIONES JMP SA DE CV,...,GIBART,VGIB,MX06,MX06,M21Y10A,2024-11-30,,,3184.8,MXN
14565,,,,,,,,,,,...,,,,,,NaT,,,6106.44,EUR
14566,,,,,,,,,,,...,,,,,,NaT,,,263211112.58,MXN
14567,,,,,,,,,,,...,,,,,,NaT,,,3297158.85,USD
14568,,,,,,,,,,,...,,,,,,NaT,,,,
14569,,,,,,,,,,,...,,,,,,NaT,,,,
14570,,,,,,,,,,,...,,,,,,NaT,,,,


# Data Cleaning

En esta línea omitimos las 6 filas nulas:

In [7]:
df = df[:df.shape[0]-6]

In [8]:
df.isnull().sum()[df.isnull().sum() > 0]

Referencia cliente             246
Cd.Barra                      3302
RFC                           3977
Nº cuenta anterior            2090
Destinatario mcía.             246
Nombre.1                       246
Descripción CeBe               246
Almacén                       1278
Lote                          1301
FeCaduc/FePreferCons          1301
Motivo pedido                13178
Descripción Motivo Pedido    13178
dtype: int64

Aquí renombraremos las columnas:

In [9]:
new_cols = [
     'Factura',
     'Posicion',
     'DocumentoVentas',
     'PosicionDV',
     'NumeroPedCliente',
     'Material',
     'CodigoBarras',
     'Denominacion',
     'Solicitante',
     'Nombre',
     'RFC',
     'CNAC',
     'GrupoCuentas',
     'GrupoTesoreria',
     'DestinatarioMcia',
     'NombreDestinatario',
     'CantidadFacturada',
     'UnidadMedida',
     'CtdFactUMB',
     'UnidadMedidaBase',
     'PrecioUnitario',
     'ImpuestoBase',
     'ImpuestoDescuento',
     'ValorNeto',
     'ImporteImpuesto',
     'ImpuestoIEPS',
     'ImpuestoTotal',
     'CentroBeneficio',
     'DescripcionCebe',
     'TipoUnidades',
     'FechaFactura',
     'GrupoArticulos',
     'DenominacionArticulos',
     'ClaseFactura',
     'DenominacionTipoDocto',
     'CambioContable',
     'Sociedad',
     'Nombreempresa',
     'OrganizacionVentas',
     'Centro',
     'Almacen',
     'Lote',
     'FechaCaducidad',
     'MotivoPedido',
     'DescMotivoPedido',
     'ValorNetoAbs',
     'Moneda'
]

In [10]:
df.columns = new_cols

Estas columnas en vez de tener nulos, deben ser 5 espacios vacío, sino se cumple esto, no se verá reflajada la data de facturación:

In [11]:
cols_nulls = ['RFC', 'CNAC', 'Almacen', 'Lote', 'MotivoPedido', 'DescMotivoPedido']
for col in cols_nulls: 
    df[col].fillna('     ', inplace=True)

In [12]:
df.isnull().sum()[df.isnull().sum() > 0]

NumeroPedCliente       246
CodigoBarras          3302
DestinatarioMcia       246
NombreDestinatario     246
DescripcionCebe        246
FechaCaducidad        1301
dtype: int64

Transformamos de decimales a enteros las siguientes columnas:

In [13]:
cols_int = [
    'Factura',
    'Posicion',
    'DocumentoVentas',
    'PosicionDV',
    'Material',
    'Solicitante',
    'CtdFactUMB',
    'ImpuestoDescuento',
    'ImpuestoIEPS',
]

In [14]:
for col in cols_int:
    df[col] = df[col].map(int)

Verificamos que estas dos columnas sean fechas (sino lo son pues hay que convertirlas):

In [15]:
df[['FechaCaducidad', 'FechaCaducidad']].dtypes

FechaCaducidad    datetime64[ns]
FechaCaducidad    datetime64[ns]
dtype: object

Verificar que las fechas de factura y caducidad tengan sentido (por ejemplo que no caduque en el año 9999):

In [16]:
print('FechaFactura desde:', df['FechaFactura'].min())
print('FechaFactura hasta:', df['FechaFactura'].max())

FechaFactura desde: 2022-05-30 00:00:00
FechaFactura hasta: 2022-06-05 00:00:00


In [17]:
print('FechaCaducidad desde:', df['FechaCaducidad'].min())
print('FechaCaducidad hasta:', df['FechaCaducidad'].max())

FechaCaducidad desde: 2022-02-09 00:00:00
FechaCaducidad hasta: 2030-03-10 00:00:00


# Export Data

Exportamos la información a la misma carpeta que la cargamos:

In [18]:
df.to_excel(path + '\\Cargar ' + filename.split('.')[0] + '.xlsx',
            index=False,
            sheet_name='carga')

In [19]:
df.shape

(14565, 47)

# Validations

In [20]:
conn = pyodbc.connect('Driver={SQL Server};'
                     'Server=SFEDWH01;'
                     'Trusted_Connection=yes;')

In [21]:
qtime = '''SELECT DISTINCT 
                TmpFecha,
                TmpSemanaAnioGenomma AS SemanaGL,
                TmpAnioSemanaGenomma AS AnioGL
            FROM Gnm_DWH.dbo.Dim_Tiempo'''

In [22]:
dtime = pd.read_sql(qtime, conn)



In [23]:
df = df.merge(dtime, left_on='FechaFactura', right_on='TmpFecha', how='left')

In [24]:
df.pivot_table(
    index='SemanaGL', 
    values=['ValorNeto'],
    aggfunc='sum'
)

Unnamed: 0_level_0,ValorNeto
SemanaGL,Unnamed: 1_level_1
23,213123805.19


In [25]:
df.pivot_table(
    index='SemanaGL', 
    values='Factura',
    aggfunc='count',
    margins=True
)

Unnamed: 0_level_0,Factura
SemanaGL,Unnamed: 1_level_1
23,14565
All,14565


In [26]:
df.pivot_table(
    index='FechaFactura', 
    values='Factura',
    aggfunc='count',
    margins=True
)

Unnamed: 0_level_0,Factura
FechaFactura,Unnamed: 1_level_1
2022-05-30 00:00:00,2679
2022-05-31 00:00:00,3308
2022-06-01 00:00:00,2147
2022-06-02 00:00:00,2075
2022-06-03 00:00:00,1100
2022-06-04 00:00:00,1565
2022-06-05 00:00:00,1691
All,14565


In [27]:
df.pivot_table(
    index='MotivoPedido', 
    values='ValorNeto', 
    aggfunc='sum'
)

Unnamed: 0_level_0,ValorNeto
MotivoPedido,Unnamed: 1_level_1
,251913448.7
M03,-1824.0
M05,-91688.67
M07,-243921.68
M08,-664446.81
M09,-368501.17
M13,-71503.56
M14,-44580.32
M19,-68536.32
X1,-34497237.07
