In [1]:
import pandas as pd
from sqlalchemy import create_engine
import matplotlib.pyplot as plt

In [2]:
def actualizarTablaDimension(engine, table, data, pk="id"):
    """
    Esta función actualiza una tabla de dimensión de un DW con los datos nuevos. Si los datos
    ya existen en la tabla, no se agregan. Devuelve la tabla actualizada con los pk tal cual esta
    en la base de datos.

    La tabla de dimensión debe estar creada y las columnas deben llamarse igual que en el df.

    Parametros:
        engine: engine de la base de datos
        table: nombre de la tabla
        data: datafarme de datos nuevos a agregar, sin incluir la PK
        pk: nombre de la PK. Por defecto es "ID"

    Retorno:
        dimension_df: datafarme con la tabla según está en la DB con los datos nuevos agregados.

    """
    with engine.connect() as conn, conn.begin():
        old_data = pd.read_sql_table(table, conn)

        # Borro la columna pk
        old_data.drop(pk, axis=1, inplace=True)

        # new_data es el datafarme de datos diferencia de conjunto con old_data
        new_data = data[~data.stack().isin(old_data.stack().values).unstack()].dropna()

        # insertar new_data
        new_data.to_sql(table, conn, if_exists='append', index=False)

        # buscar como quedó la tabla
        dimension_df = pd.read_sql_table(table, conn)

    return dimension_df

In [3]:
# --------- EMPIEZA EL CÓDIGO A EDITAR ---------

engine_cubo = create_engine("postgresql+psycopg2://postgres:123@localhost:5432/DW_sube")
#postgresql://guest:alumno@localhost/DW_SUBE
#postgresql+psycopg2://guest:alumno@localhost:5432/DW_SUBE

##ejemplo##

In [4]:
df = pd.read_csv("./EXTRACCION_Munic-Parana_042023.csv", delimiter= ";")

In [5]:

# Define un diccionario de mapeo para realizar las sustituciones
mapeo = {
    1203: '01',
    1221: '02',
    1222: '03',
    1223: '04',
    1224: '05',
    1225: '06',
    1226: '07',
    1227: '08',
    1228: '09',
    1229: '10',
    1230: '11-21',
    1231: '12',
    1232: '14',
    1233: '15',
    1234: '20',
    # Agrega aquí todas las sustituciones necesarias
}

# Realiza la sustitución en la columna "IDLINEA"
df['IDLINEA'] = df['IDLINEA'].replace(mapeo)


In [6]:
# Define un diccionario de mapeo para realizar las sustituciones
mapeo1 = {
    1203: '01',
    522: "jubilado",
    523: "obrero",
    524: "emp.publico",
    525: "universitario",
    526: "secundario",
    527: "primario",
    528: "secundario AM",
    529: "primario AM",
    530: "gentileza",
    531: "ord. 9238",
    621: "tarifa social",
    602: "tarifaplana",
    # Agrega aquí todas las sustituciones necesarias
}

# Realiza la sustitución en la columna "IDLINEA"
df['CODIGOCONTRATO'] = df['CODIGOCONTRATO'].replace(mapeo1)

In [7]:
df["CODIGOCONTRATO"].unique()

array(['universitario', 'tarifa social', 'secundario', 'tarifaplana',
       'primario', 'ord. 9238', 'emp.publico', 'obrero', 'primario AM',
       521, 'secundario AM', 'gentileza', 'jubilado'], dtype=object)

In [8]:
#pasar columna IDLINEA a string
df['IDLINEA'] = df['IDLINEA'].astype(str)

df['MONTO'] = df['MONTO'].str.replace(',', '.')
df['MONTO'] = df['MONTO'].astype(float)
df['DESCUENTO'] = df['DESCUENTO'].str.replace(',', '.')
df['DESCUENTO'] = df['DESCUENTO'].astype(float)
df['CODIGOCONTRATO'] = df['CODIGOCONTRATO'].astype(str)

In [9]:
dimension_linea = pd.DataFrame({'Numero': df['IDLINEA'].unique()})
dimension_linea = actualizarTablaDimension(engine_cubo, 'Linea', dimension_linea, pk='ID_Linea')
print(dimension_linea)

    ID_Linea Numero
0          1   3106
1          2   3107
2          3   1235
3          4   1224
4          5   1221
5          6   1233
6          7   1203
7          8   1228
8          9   1232
9         10   1227
10        11   3111
11        12   3108
12        13   1225
13        14   3109
14        15   1226
15        16   1236
16        17   1229
17        18   3112
18        19   3113
19        20   3110
20        21     05
21        22     02
22        23     15
23        24     01
24        25     09
25        26     14
26        27     08
27        28     06
28        29     07
29        30     10


##TIEMPO D

In [10]:
df['FECHATRX'] = pd.to_datetime(df['FECHATRX'])

# Crea la nueva columna "nombre_dia" con el nombre del día de la semana
df['nombre_dia'] = df['FECHATRX'].dt.strftime('%A')
# Crea la nueva columna "Hora" con la hora
df['Hora'] = df['FECHATRX'].dt.strftime('%H')

  df['FECHATRX'] = pd.to_datetime(df['FECHATRX'])


In [11]:
# Definir un diccionario de traducción
traduccion_dias = {
    'Monday': 'a.Lunes',
    'Tuesday': 'b.Martes',
    'Wednesday': 'c.Miércoles',
    'Thursday': 'd.Jueves',
    'Friday': 'e.Viernes',
    'Saturday': 'f.Sábado',
    'Sunday': 'g.Domingo'
}

# Aplicar la traducción a la columna 'nombre_dia'
df['nombre_dia'] = df['nombre_dia'].map(traduccion_dias)


In [12]:
# Redondea la hora a la hora más cercana eliminando los minutos y segundos
df['FECHATRX'] = df['FECHATRX'].dt.floor('H')
# Crea una nueva columna 'Dia' que contiene el número del día en el nuevo DataFrame
df['Dia'] = df['FECHATRX'].dt.day
# Crea una nueva columna 'Mes' que contiene el número del mes en el nuevo DataFrame
df['Mes'] = df['FECHATRX'].dt.month

  df['FECHATRX'] = df['FECHATRX'].dt.floor('H')


In [13]:
#pasar todas las columnas de la dimension a string
df['FECHATRX'] = df['FECHATRX'].astype(str)
df['Mes'] = df['Mes'].astype(str)
df['Dia'] = df['Dia'].astype(str)
df['nombre_dia'] = df['nombre_dia'].astype(str)
df['Hora'] = df['Hora'].astype(int)

In [14]:
dimension_Tiempo = df[['FECHATRX', 'Mes', "Dia", "nombre_dia", "Hora"]]
dimension_Tiempo.columns = ['Fecha', 'Mes', 'Dia', 'Dia_Semana', 'Hora']

In [15]:
dimension_Tiempo = dimension_Tiempo.drop_duplicates(subset=['Fecha'])
dimension_Tiempo = actualizarTablaDimension(engine_cubo, 'Tiempo', dimension_Tiempo, pk='ID_Tiempo')
print(dimension_Tiempo)

     ID_Tiempo                Fecha Mes Dia Dia_Semana  Hora
0            1  2023-03-31 17:00:00   3  31  e.Viernes    17
1            2  2023-03-31 13:00:00   3  31  e.Viernes    13
2            3  2023-03-31 19:00:00   3  31  e.Viernes    19
3            4  2023-03-31 15:00:00   3  31  e.Viernes    15
4            5  2023-03-31 14:00:00   3  31  e.Viernes    14
..         ...                  ...  ..  ..        ...   ...
687        688  2023-03-25 19:00:00   3  25   f.Sábado    19
688        689  2023-04-14 04:00:00   4  14  e.Viernes     4
689        690  2023-03-21 09:00:00   3  21   b.Martes     9
690        691  2023-04-24 04:00:00   4  24    a.Lunes     4
691        692  2027-12-21 00:00:00  12  21   b.Martes     0

[692 rows x 6 columns]


In [16]:
dimension_Contrato = pd.DataFrame({'Tipo': df['CODIGOCONTRATO'].unique()})
dimension_Contrato = actualizarTablaDimension(engine_cubo, 'Contrato', dimension_Contrato, pk='ID_Contrato')
print(dimension_Contrato)

    ID_Contrato           Tipo
0             1  universitario
1             2  tarifa social
2             3     secundario
3             4    tarifaplana
4             5       primario
5             6      ord. 9238
6             7    emp.publico
7             8         obrero
8             9    primario AM
9            10            521
10           11  secundario AM
11           12      gentileza
12           13       jubilado


In [17]:
agrupado1 = df.copy()
agrupado1 = agrupado1.groupby(['CODIGOCONTRATO', 'IDLINEA', "FECHATRX"]).size()
#obtener solo la columna donde esta la columna "0":
agrupado1 = agrupado1.reset_index(name='counts')
#ordeno agrupado en count por cantidad:
agrupado1 = agrupado1.sort_values(by=['counts'], ascending=False)
agrupado1

Unnamed: 0,CODIGOCONTRATO,IDLINEA,FECHATRX,counts
46447,tarifa social,01,2023-03-31 12:00:00,403
46546,tarifa social,01,2023-04-05 12:00:00,401
46707,tarifa social,01,2023-04-13 12:00:00,401
46806,tarifa social,01,2023-04-18 12:00:00,382
46666,tarifa social,01,2023-04-11 12:00:00,377
...,...,...,...,...
10916,emp.publico,3111,2023-04-16 11:00:00,1
10915,emp.publico,3111,2023-04-16 10:00:00,1
10943,emp.publico,3111,2023-04-18 11:00:00,1
73920,universitario,3113,2023-04-27 05:00:00,1


In [18]:
agrupado = df.groupby(['CODIGOCONTRATO', 'IDLINEA', "FECHATRX"])['MONTO'].sum().reset_index()
agrupado = agrupado.rename(columns={'MONTO': 'Monto_Sumado'})
agrupado = agrupado.sort_values(by=['Monto_Sumado'], ascending=False)
agrupado

Unnamed: 0,CODIGOCONTRATO,IDLINEA,FECHATRX,Monto_Sumado
56562,tarifaplana,01,2023-03-31 12:00:00,33358.5
56824,tarifaplana,01,2023-04-13 12:00:00,32508.0
56784,tarifaplana,01,2023-04-11 12:00:00,31941.0
56844,tarifaplana,01,2023-04-14 12:00:00,31641.0
61029,tarifaplana,1235,2023-04-05 12:00:00,29578.5
...,...,...,...,...
31305,primario,1235,2023-04-13 20:00:00,0.0
31304,primario,1235,2023-04-13 19:00:00,0.0
31303,primario,1235,2023-04-13 18:00:00,0.0
16,521,01,2023-03-30 18:00:00,0.0


In [19]:
# Combina los DataFrames 'agrupado1' y 'agrupado'
resultado_final = agrupado1.merge(agrupado, on=['CODIGOCONTRATO', 'IDLINEA', 'FECHATRX'], how='inner')

# Ahora tienes un solo DataFrame con todas las columnas necesarias
print(resultado_final)
#cambiar count a float64
resultado_final['counts'] = resultado_final['counts'].astype(float)



      CODIGOCONTRATO IDLINEA             FECHATRX  counts  Monto_Sumado
0      tarifa social      01  2023-03-31 12:00:00     403      16625.32
1      tarifa social      01  2023-04-05 12:00:00     401      16752.88
2      tarifa social      01  2023-04-13 12:00:00     401      16582.80
3      tarifa social      01  2023-04-18 12:00:00     382      15859.96
4      tarifa social      01  2023-04-11 12:00:00     377      15732.40
...              ...     ...                  ...     ...           ...
73929    emp.publico    3111  2023-04-16 11:00:00       1         61.00
73930    emp.publico    3111  2023-04-16 10:00:00       1         61.00
73931    emp.publico    3111  2023-04-18 11:00:00       1         61.00
73932  universitario    3113  2023-04-27 05:00:00       1         28.40
73933  universitario    3113  2023-04-26 18:00:00       1         28.40

[73934 rows x 5 columns]


In [20]:
# Agrupa por las columnas y calcula la suma de "DESCUENTO"
agrupado_descuento = df.groupby(['CODIGOCONTRATO', 'IDLINEA', 'FECHATRX'])['DESCUENTO'].sum().reset_index()
agrupado_descuento = agrupado_descuento.rename(columns={'DESCUENTO': 'Descuento_Sumado'})
agrupado_descuento = agrupado_descuento.sort_values(by=['Descuento_Sumado'], ascending=False)

# Combina el DataFrame 'agrupado_descuento' con 'resultado_final'
resultado_final = resultado_final.merge(agrupado_descuento, on=['CODIGOCONTRATO', 'IDLINEA', 'FECHATRX'], how='inner')
print(resultado_final)

      CODIGOCONTRATO IDLINEA             FECHATRX  counts  Monto_Sumado  \
0      tarifa social      01  2023-03-31 12:00:00   403.0      16625.32   
1      tarifa social      01  2023-04-05 12:00:00   401.0      16752.88   
2      tarifa social      01  2023-04-13 12:00:00   401.0      16582.80   
3      tarifa social      01  2023-04-18 12:00:00   382.0      15859.96   
4      tarifa social      01  2023-04-11 12:00:00   377.0      15732.40   
...              ...     ...                  ...     ...           ...   
73929    emp.publico    3111  2023-04-16 11:00:00     1.0         61.00   
73930    emp.publico    3111  2023-04-16 10:00:00     1.0         61.00   
73931    emp.publico    3111  2023-04-18 11:00:00     1.0         61.00   
73932  universitario    3113  2023-04-27 05:00:00     1.0         28.40   
73933  universitario    3113  2023-04-26 18:00:00     1.0         28.40   

       Descuento_Sumado  
0              21458.18  
1              21141.62  
2              21311.

In [21]:
hechos_df = pd.DataFrame({
    # Dimensiones
    'ID_Contrato': resultado_final['CODIGOCONTRATO'].map(dimension_Contrato.set_index('Tipo')['ID_Contrato']),
    'ID_Linea': resultado_final['IDLINEA'].map(dimension_linea.set_index('Numero')['ID_Linea']),
    'ID_Tiempo': resultado_final['FECHATRX'].map(dimension_Tiempo.set_index('Fecha')['ID_Tiempo']),
    # Mediciones
    'cantidad': resultado_final['counts'],
    'monto': resultado_final['Monto_Sumado'],
    'descuento': resultado_final['Descuento_Sumado'],

})
print(hechos_df)
actualizarTablaDimension(engine_cubo, 'Hechos', hechos_df, pk='ID_Hechos')


       ID_Contrato  ID_Linea  ID_Tiempo  cantidad     monto  descuento
0                2        24         39     403.0  16625.32   21458.18
1                2        24         22     401.0  16752.88   21141.62
2                2        24        248     401.0  16582.80   21311.70
3                2        24        430     382.0  15859.96   20239.04
4                2        24        312     377.0  15732.40   19894.10
...            ...       ...        ...       ...       ...        ...
73929            7        11        373       1.0     61.00       0.00
73930            7        11        372       1.0     61.00       0.00
73931            7        11        490       1.0     61.00       0.00
73932            1        19        622       1.0     28.40       0.00
73933            1        19        580       1.0     28.40       0.00

[73934 rows x 6 columns]


Unnamed: 0,ID_Hechos,ID_Contrato,ID_Linea,ID_Tiempo,cantidad,monto,descuento
0,1,2,24,39,403.0,16625.32,21458.18
1,2,2,24,22,401.0,16752.88,21141.62
2,3,2,24,248,401.0,16582.80,21311.70
3,4,2,24,430,382.0,15859.96,20239.04
4,5,2,24,312,377.0,15732.40,19894.10
...,...,...,...,...,...,...,...
73929,73930,7,11,373,1.0,61.00,0.00
73930,73931,7,11,372,1.0,61.00,0.00
73931,73932,7,11,490,1.0,61.00,0.00
73932,73933,1,19,622,1.0,28.40,0.00
