<a href="https://colab.research.google.com/github/abonic92/Laboratorio_Analisis_de_Datos/blob/main/Laboratorio.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Laboratorio de Analisis de Datos

# ETL

##Extracción

In [167]:
from google.colab import drive
import pandas as pd
import chardet
import os
import numpy as np

# ---------- MONTAJE DE GOOGLE DRIVE ----------
drive.mount('/content/drive', force_remount=True)

# ---------- RUTAS DE LOS ARCHIVOS ----------
ruta_base = '/content/drive/MyDrive/analisis_de_datos-info/Laboratorio/'  # ← agregamos la barra final
archivos = {
    'info_terminales': f'{ruta_base}info_terminales.csv',
    'ingesta_posnet': f'{ruta_base}ingesta_posnet.csv'
}

# ---------- FUNCIÓN DE CARGA ----------
def cargar_csv(ruta_archivo):
    if not os.path.exists(ruta_archivo):
        print(f' El archivo no se encuentra en la ruta: {ruta_archivo}')
        return None
    try:
        with open(ruta_archivo, 'rb') as f:
            result = chardet.detect(f.read())
        df = pd.read_csv(ruta_archivo, encoding=result['encoding'], sep=';', decimal='.')
        print(f' Extracción exitosa de: {os.path.basename(ruta_archivo)}')
        print(f'   Encoding detectado: {result["encoding"]}')
        return df
    except Exception as e:
        print(f' Error al leer {ruta_archivo}: {e}')
        return None

# ---------- EXTRACCIÓN ----------
df_terminales = cargar_csv(archivos['info_terminales'])
df_posnet = cargar_csv(archivos['ingesta_posnet'])

# ---------- VERIFICACIÓN ----------
if df_terminales is not None and df_posnet is not None:
    print('\n Ambos archivos fueron cargados correctamente.')
    print('\nEjemplo info_terminales:')
    display(df_terminales.head())
    print('\nEjemplo ingesta_posnet:')
    display(df_posnet.head())
else:
    print('\n No se pudieron cargar todos los archivos.')


Mounted at /content/drive
 Extracción exitosa de: info_terminales.csv
   Encoding detectado: utf-8
 Extracción exitosa de: ingesta_posnet.csv
   Encoding detectado: utf-8

 Ambos archivos fueron cargados correctamente.

Ejemplo info_terminales:


Unnamed: 0,comercio_id,nombre_comercio,provincia,rubro,antiguedad_años
0,1,Bright Works Group,Salta,Comercio,4
1,2,Bright Innovations Mark,Mendoza,Gastronomía,10
2,3,Apex Labs Sphere,Misiones,Supermercado,12
3,4,Global Edge Associates,Chaco,Supermercado,1
4,5,Dynamic Ventures Hub,Salta,Farmacia,10



Ejemplo ingesta_posnet:


Unnamed: 0,transaccion id,comercio id,Fecha Venta,Monto venta,tipo_Tarjeta,Metodo pago,Estado_Operacion
0,1,363,11/3/2023 08:28,7422.42,Débito,POSNET,Aprobada
1,2,595,12/11/2023 04:33,9056.17,Crédito,QR,Aprobada
2,3,257,1/7/2023 00:11,18985.37,Crédito,QR,Rechazada
3,4,941,17/12/2023 22:19,14725.89,Débito,E-COMMERCE,Aprobada
4,5,611,9/9/2023 18:24,24669.92,Crédito,QR,Aprobada


## Transfromación

In [168]:
df_terminales.head(10)

Unnamed: 0,comercio_id,nombre_comercio,provincia,rubro,antiguedad_años
0,1,Bright Works Group,Salta,Comercio,4
1,2,Bright Innovations Mark,Mendoza,Gastronomía,10
2,3,Apex Labs Sphere,Misiones,Supermercado,12
3,4,Global Edge Associates,Chaco,Supermercado,1
4,5,Dynamic Ventures Hub,Salta,Farmacia,10
5,6,Vanguard Consulting Group,Entre Ríos,Gastronomía,6
6,7,Summit Group Inc,Santa Fe,Farmacia,2
7,8,Evergreen Innovations Mark,Salta,Gastronomía,13
8,9,Summit Solutions Partners,Misiones,Comercio,3
9,10,Vanguard Corp Inc,Chaco,Electrónica,14


In [169]:
df_posnet.head(10)

Unnamed: 0,transaccion id,comercio id,Fecha Venta,Monto venta,tipo_Tarjeta,Metodo pago,Estado_Operacion
0,1,363,11/3/2023 08:28,7422.42,Débito,POSNET,Aprobada
1,2,595,12/11/2023 04:33,9056.17,Crédito,QR,Aprobada
2,3,257,1/7/2023 00:11,18985.37,Crédito,QR,Rechazada
3,4,941,17/12/2023 22:19,14725.89,Débito,E-COMMERCE,Aprobada
4,5,611,9/9/2023 18:24,24669.92,Crédito,QR,Aprobada
5,6,589,8/10/2023 06:12,10953.66,Débito,POSNET,Aprobada
6,7,692,19/4/2023 05:55,19092.76,Débito,POSNET,Aprobada
7,8,417,9/2/2023 17:36,21915.24,Crédito,POSNET,Aprobada
8,9,468,9/1/2023 11:30,17295.48,Crédito,POSNET,Aprobada
9,10,585,25/4/2023 06:30,10884.75,Crédito,POSNET,Aprobada


In [170]:
print(df_terminales.info())
print(df_posnet.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   comercio_id      1000 non-null   int64 
 1   nombre_comercio  1000 non-null   object
 2   provincia        1000 non-null   object
 3   rubro            1000 non-null   object
 4   antiguedad_años  1000 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 39.2+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 7 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   transaccion id    100000 non-null  int64  
 1   comercio id       100000 non-null  int64  
 2   Fecha Venta       100000 non-null  object 
 3   Monto venta       100000 non-null  float64
 4   tipo_Tarjeta      100000 non-null  object 
 5   Metodo pago       100000 non-null  object 
 6   Estado_Operacion  100000 n

In [171]:

# ---------- LIMPIEZA DE COLUMNAS ----------
def limpiar_columnas(df):
    df.columns = (
        df.columns.str.strip()         # elimina espacios
                 .str.lower()           # pasa todo a minúsculas
                 .str.replace(' ', '_') # reemplaza espacios por guiones bajos
    )
    return df

df_terminales = limpiar_columnas(df_terminales)
df_posnet = limpiar_columnas(df_posnet)


# ---------- LIMPIEZA DE TEXTO ----------
for col in ['nombre_comercio', 'provincia', 'rubro']:
    df_terminales[col] = df_terminales[col].astype(str).str.strip().str.upper()

df_posnet['tipo_tarjeta'] = df_posnet['tipo_tarjeta'].astype(str).str.strip().str.upper()
df_posnet['metodo_pago'] = df_posnet['metodo_pago'].astype(str).str.strip().str.upper()
df_posnet['estado_operacion'] = df_posnet['estado_operacion'].astype(str).str.strip().str.upper()

# ---------- VERIFICACIÓN DE DUPLICADOS ----------
dups_terminales = df_terminales.duplicated(subset='comercio_id').sum()
dups_posnet = df_posnet.duplicated(subset='transaccion_id').sum()

print(f"Duplicados en info_terminales: {dups_terminales}")
print(f"Duplicados en ingesta_posnet: {dups_posnet}")

# ---------- NULOS ----------
print("\nNulos en info_terminales:")
print(df_terminales.isnull().sum())

print("\nNulos en ingesta_posnet:")
print(df_posnet.isnull().sum())

print("\n✅ ETL base completado correctamente.")


Duplicados en info_terminales: 0
Duplicados en ingesta_posnet: 0

Nulos en info_terminales:
comercio_id        0
nombre_comercio    0
provincia          0
rubro              0
antiguedad_años    0
dtype: int64

Nulos en ingesta_posnet:
transaccion_id      0
comercio_id         0
fecha_venta         0
monto_venta         0
tipo_tarjeta        0
metodo_pago         0
estado_operacion    0
dtype: int64

✅ ETL base completado correctamente.


In [172]:
df_terminales.head(5)

Unnamed: 0,comercio_id,nombre_comercio,provincia,rubro,antiguedad_años
0,1,BRIGHT WORKS GROUP,SALTA,COMERCIO,4
1,2,BRIGHT INNOVATIONS MARK,MENDOZA,GASTRONOMÍA,10
2,3,APEX LABS SPHERE,MISIONES,SUPERMERCADO,12
3,4,GLOBAL EDGE ASSOCIATES,CHACO,SUPERMERCADO,1
4,5,DYNAMIC VENTURES HUB,SALTA,FARMACIA,10


In [173]:
df_posnet.head(5)

Unnamed: 0,transaccion_id,comercio_id,fecha_venta,monto_venta,tipo_tarjeta,metodo_pago,estado_operacion
0,1,363,11/3/2023 08:28,7422.42,DÉBITO,POSNET,APROBADA
1,2,595,12/11/2023 04:33,9056.17,CRÉDITO,QR,APROBADA
2,3,257,1/7/2023 00:11,18985.37,CRÉDITO,QR,RECHAZADA
3,4,941,17/12/2023 22:19,14725.89,DÉBITO,E-COMMERCE,APROBADA
4,5,611,9/9/2023 18:24,24669.92,CRÉDITO,QR,APROBADA


In [174]:
import pandas as pd
from datetime import datetime

# ---------- TRANSFORMACIÓN ROBUSTA DE FECHAS ----------
print("\n Iniciando transformación segura de la columna 'fecha_venta'...")

# Se realiza una copia de respaldo del DataFrame original
# Esto permite comparar o restaurar los valores originales si fuera necesario.
df_posnet_original = df_posnet.copy()

# Intento inicial de conversión automática usando un formato estándar
# 'errors="coerce"' convierte los valores inválidos en NaT (Not a Time) sin detener la ejecución.
df_posnet['fecha_venta'] = pd.to_datetime(
    df_posnet['fecha_venta'],
    errors='coerce',
    format='%d/%m/%Y %H:%M:%S'
)

# Se cuenta la cantidad de valores que no pudieron convertirse en esta primera pasada
restantes = df_posnet['fecha_venta'].isna().sum()

# Función personalizada para intentar múltiples formatos de fecha/hora
# Esta función se aplicará solo sobre los registros que no se pudieron convertir antes.
def convertir_fecha_segura(valor):
    if pd.isna(valor) or str(valor).strip() == '':
        return pd.NaT  # se descartan nulos o vacíos
    formatos = [
        '%d/%m/%Y %H:%M:%S',
        '%d-%m-%Y %H:%M:%S',
        '%Y/%m/%d %H:%M:%S',
        '%Y-%m-%d %H:%M:%S',
        '%d/%m/%Y %H:%M',
        '%d-%m-%Y %H:%M',
        '%Y/%m/%d %H:%M',
        '%Y-%m-%d %H:%M',
        '%d/%m/%y %H:%M:%S',
        '%d/%m/%y %H:%M',
    ]
    for fmt in formatos:
        try:
            # Si un formato coincide, se convierte correctamente y se retorna el valor
            return datetime.strptime(str(valor).strip(), fmt)
        except ValueError:
            continue
    # Si ningún formato funciona, se devuelve NaT (valor temporal nulo)
    return pd.NaT

# Si existen registros sin convertir, se intenta una recuperación con los formatos adicionales
if restantes > 0:
    print(f"Intentando recuperar {restantes} registros no convertidos inicialmente...")
    mask_nat = df_posnet['fecha_venta'].isna()  # se identifica la posición de los NaT
    df_posnet.loc[mask_nat, 'fecha_venta'] = df_posnet_original.loc[mask_nat, 'fecha_venta'].apply(convertir_fecha_segura)

# Conteo final de valores no convertidos después del intento de recuperación
nat_count = df_posnet['fecha_venta'].isna().sum()

print(f" Fechas convertidas correctamente: {len(df_posnet) - nat_count}")
print(f" Registros no convertidos (NaT): {nat_count}")

# Exportación de los registros que aún presentan errores (para análisis posterior)
if nat_count > 0:
    df_invalidas = df_posnet_original[df_posnet['fecha_venta'].isna()]
    ruta_invalidas = '/content/drive/MyDrive/analisis_de_datos-info/Laboratorio/errores_fechas.csv'
    df_invalidas.to_csv(ruta_invalidas, sep=';', index=False)
    print(f" Registros con errores guardados en: {ruta_invalidas}")


# Reconversión final al tipo datetime (asegurando formato uniforme)
df_posnet['fecha_venta'] = pd.to_datetime(df_posnet['fecha_venta'], format='%d/%m/%Y %H:%M:%S', errors='coerce')

# Verificación final del tipo de dato
print("\n✅ Tipo de dato final de 'fecha_venta':", df_posnet['fecha_venta'].dtype)


# Visualización de ejemplo de los primeros registros transformados
print("\n Ejemplo de fechas transformadas:")
print(df_posnet['fecha_venta'].head(10))



 Iniciando transformación segura de la columna 'fecha_venta'...
Intentando recuperar 100000 registros no convertidos inicialmente...
 Fechas convertidas correctamente: 100000
 Registros no convertidos (NaT): 0

✅ Tipo de dato final de 'fecha_venta': datetime64[ns]

 Ejemplo de fechas transformadas:
0   2023-03-11 08:28:00
1   2023-11-12 04:33:00
2   2023-07-01 00:11:00
3   2023-12-17 22:19:00
4   2023-09-09 18:24:00
5   2023-10-08 06:12:00
6   2023-04-19 05:55:00
7   2023-02-09 17:36:00
8   2023-01-09 11:30:00
9   2023-04-25 06:30:00
Name: fecha_venta, dtype: datetime64[ns]


In [175]:
print(df_terminales.info())
print(df_posnet.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   comercio_id      1000 non-null   int64 
 1   nombre_comercio  1000 non-null   object
 2   provincia        1000 non-null   object
 3   rubro            1000 non-null   object
 4   antiguedad_años  1000 non-null   int64 
dtypes: int64(2), object(3)
memory usage: 39.2+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 7 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   transaccion_id    100000 non-null  int64         
 1   comercio_id       100000 non-null  int64         
 2   fecha_venta       100000 non-null  datetime64[ns]
 3   monto_venta       100000 non-null  float64       
 4   tipo_tarjeta      100000 non-null  object        
 5   metodo_pago       100000 

##CARGA

In [176]:
# ---------- FASE DE CARGA CON MERGE EN MEMORIA (USANDO comercio_id) ----------

print("\n💾 Iniciando merge final de los DataFrames transformados...")

# Verificar que ambos DataFrames existan en memoria
if 'df_posnet' not in locals() or 'df_terminales' not in locals():
    raise NameError("❌ No se encontraron los DataFrames transformados en memoria (df_posnet / df_terminales).")

# Limpieza preventiva de nombres de columnas
df_posnet.columns = df_posnet.columns.str.strip()
df_terminales.columns = df_terminales.columns.str.strip()

# Verificación de la clave común
if 'comercio_id' not in df_posnet.columns or 'comercio_id' not in df_terminales.columns:
    raise KeyError("❌ No se encontró la columna 'comercio_id' en alguno de los DataFrames.")

# 🔹 Merge final
df_final = pd.merge(df_posnet, df_terminales, on='comercio_id', how='left')

print("✅ Merge completado correctamente.")
print(f"📊 Total de registros combinados: {len(df_final)}")
print(f"📋 Columnas resultantes: {list(df_final.columns)}")

# 🔹 Vista previa de los primeros registros
print("\n🔍 Vista previa del dataset combinado:")
display(df_final.head(10))

# 🔹 Exportación final
ruta_salida_final = '/content/drive/MyDrive/analisis_de_datos-info/Laboratorio/datos_transformados.csv'
df_final.to_csv(ruta_salida_final, sep=';', index=False, encoding='utf-8-sig')

print(f"\n✅ Dataset final guardado correctamente en: {ruta_salida_final}")
print(f"📅 Rango de fechas: {df_final['fecha_venta'].min()} → {df_final['fecha_venta'].max()}")


💾 Iniciando merge final de los DataFrames transformados...
✅ Merge completado correctamente.
📊 Total de registros combinados: 100000
📋 Columnas resultantes: ['transaccion_id', 'comercio_id', 'fecha_venta', 'monto_venta', 'tipo_tarjeta', 'metodo_pago', 'estado_operacion', 'nombre_comercio', 'provincia', 'rubro', 'antiguedad_años']

🔍 Vista previa del dataset combinado:


Unnamed: 0,transaccion_id,comercio_id,fecha_venta,monto_venta,tipo_tarjeta,metodo_pago,estado_operacion,nombre_comercio,provincia,rubro,antiguedad_años
0,1,363,2023-03-11 08:28:00,7422.42,DÉBITO,POSNET,APROBADA,PREMIER CORP TECH,TUCUMÁN,FARMACIA,6
1,2,595,2023-11-12 04:33:00,9056.17,CRÉDITO,QR,APROBADA,ADVANCED CONSULTING MARK,MENDOZA,ELECTRÓNICA,10
2,3,257,2023-07-01 00:11:00,18985.37,CRÉDITO,QR,RECHAZADA,PINNACLE WORKS NET,NEUQUÉN,SERVICIOS,14
3,4,941,2023-12-17 22:19:00,14725.89,DÉBITO,E-COMMERCE,APROBADA,PINNACLE SOLUTIONS ASSOCIATES,CÓRDOBA,SERVICIOS,1
4,5,611,2023-09-09 18:24:00,24669.92,CRÉDITO,QR,APROBADA,ELITE VENTURES SOLUTIONS,CHACO,GASTRONOMÍA,4
5,6,589,2023-10-08 06:12:00,10953.66,DÉBITO,POSNET,APROBADA,DYNAMIC FORGE ASSOCIATES,TUCUMÁN,ROPA,7
6,7,692,2023-04-19 05:55:00,19092.76,DÉBITO,POSNET,APROBADA,ADVANCED DYNAMICS INC,TUCUMÁN,FARMACIA,8
7,8,417,2023-02-09 17:36:00,21915.24,CRÉDITO,POSNET,APROBADA,PINNACLE EDGE SOLUTIONS,ENTRE RÍOS,GASTRONOMÍA,2
8,9,468,2023-01-09 11:30:00,17295.48,CRÉDITO,POSNET,APROBADA,SUMMIT WORKS PARTNERS,CÓRDOBA,SUPERMERCADO,8
9,10,585,2023-04-25 06:30:00,10884.75,CRÉDITO,POSNET,APROBADA,PINNACLE SYSTEMS TECH,CHACO,FERRETERÍA,6



✅ Dataset final guardado correctamente en: /content/drive/MyDrive/analisis_de_datos-info/Laboratorio/datos_transformados.csv
📅 Rango de fechas: 2023-01-01 00:06:00 → 2024-01-01 00:00:00


#EDA

In [177]:
print(df_final.info())


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 11 columns):
 #   Column            Non-Null Count   Dtype         
---  ------            --------------   -----         
 0   transaccion_id    100000 non-null  int64         
 1   comercio_id       100000 non-null  int64         
 2   fecha_venta       100000 non-null  datetime64[ns]
 3   monto_venta       100000 non-null  float64       
 4   tipo_tarjeta      100000 non-null  object        
 5   metodo_pago       100000 non-null  object        
 6   estado_operacion  100000 non-null  object        
 7   nombre_comercio   100000 non-null  object        
 8   provincia         100000 non-null  object        
 9   rubro             100000 non-null  object        
 10  antiguedad_años   100000 non-null  int64         
dtypes: datetime64[ns](1), float64(1), int64(3), object(6)
memory usage: 8.4+ MB
None


In [178]:
# Valores faltantes
print("\n Valores faltantes por columna:")
print(df_final.isnull().sum().sort_values(ascending=False))
# Duplicados
duplicados = df_final.duplicated().sum()
print(f"\n Registros duplicados: {duplicados}")




 Valores faltantes por columna:
transaccion_id      0
comercio_id         0
fecha_venta         0
monto_venta         0
tipo_tarjeta        0
metodo_pago         0
estado_operacion    0
nombre_comercio     0
provincia           0
rubro               0
antiguedad_años     0
dtype: int64

 Registros duplicados: 0


In [180]:
# ------------------------------------------------
# Análisis de valores faltantes
# ------------------------------------------------
faltantes = df_final.isna().sum().sort_values(ascending=False)
print(" Valores faltantes por columna:\n")
display(faltantes.head(10))
print("######################################################################")
# ------------------------------------------------
# Análisis de duplicados
# ------------------------------------------------
duplicados = df_final.duplicated().sum()
print(f"\n Registros duplicados encontrados: {duplicados}")
print("######################################################################")


# ------------------------------------------------
# Distribución general de variables numéricas
# ------------------------------------------------
print("\n Estadísticas descriptivas generales:")
display(df_final.describe())
print("######################################################################")


# ------------------------------------------------
# Top 10 provincias con mayor número de transacciones
# ------------------------------------------------
print("\n Provincias con mayor volumen de transacciones:")
top_provincias = df_final["provincia"].value_counts().head(10)
display(top_provincias)
print("######################################################################")

# Aseguramos que 'fecha_venta' sea datetime y creamos 'anio_mes' antes de usarlo en la tabla pivote
df_final['fecha_venta'] = pd.to_datetime(df_final['fecha_venta'])
df_final['anio_mes'] = df_final['fecha_venta'].dt.to_period('M')

# ------------------------------------------------
# Tablas pivote para análisis general (sin gráficos)
# ------------------------------------------------
print("\n Total de ventas por provincia y mes:")
pivot_prov_mes = pd.pivot_table(
    df_final,
    values='monto_venta',
    index='provincia',
    columns='anio_mes',
    aggfunc='sum',
    fill_value=0
)
display(pivot_prov_mes.head())

 Valores faltantes por columna:



Unnamed: 0,0
transaccion_id,0
comercio_id,0
fecha_venta,0
monto_venta,0
tipo_tarjeta,0
metodo_pago,0
estado_operacion,0
nombre_comercio,0
provincia,0
rubro,0


######################################################################

 Registros duplicados encontrados: 0
######################################################################

 Estadísticas descriptivas generales:


Unnamed: 0,transaccion_id,comercio_id,fecha_venta,monto_venta,antiguedad_años
count,100000.0,100000.0,100000,100000.0,100000.0
mean,50000.5,501.17072,2023-07-02 11:47:13.337399808,13017.404494,7.45871
min,1.0,1.0,2023-01-01 00:06:00,1000.22,1.0
25%,25000.75,250.0,2023-04-01 20:02:30,7051.44,4.0
50%,50000.5,502.0,2023-07-02 02:44:30,13009.635,7.0
75%,75000.25,752.0,2023-10-02 15:52:00,19009.0825,11.0
max,100000.0,1000.0,2024-01-01 00:00:00,24999.37,14.0
std,28867.657797,289.032331,,6927.020747,4.002479


######################################################################

 Provincias con mayor volumen de transacciones:


Unnamed: 0_level_0,count
provincia,Unnamed: 1_level_1
BUENOS AIRES,11832
SANTA FE,10983
CHACO,10740
ENTRE RÍOS,10619
MISIONES,10010
TUCUMÁN,9715
SALTA,9525
MENDOZA,9271
NEUQUÉN,9069
CÓRDOBA,8236


######################################################################

 Total de ventas por provincia y mes:


anio_mes,2023-01,2023-02,2023-03,2023-04,2023-05,2023-06,2023-07,2023-08,2023-09,2023-10,2023-11,2023-12,2024-01
provincia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
BUENOS AIRES,12970582.42,11395022.49,13414196.67,12672017.62,12211590.35,12830769.66,13164251.61,12824125.56,12514767.42,13155833.03,13462018.75,13413366.78,0.0
CHACO,11549075.64,10786057.99,12848983.62,11633360.9,11481493.16,10886360.35,12055805.97,11546117.52,11362461.31,11986346.52,11306276.8,11633381.92,0.0
CÓRDOBA,9020501.46,8103510.69,9650616.73,8728327.02,8889186.51,8661490.4,9130794.01,9197342.22,8511426.28,8907268.87,9370890.24,9336132.64,0.0
ENTRE RÍOS,11541547.6,11103477.51,11572663.33,12282252.99,11705561.4,11848225.66,11253167.45,11236538.27,10818306.39,12284068.26,11266046.55,12220756.9,0.0
MENDOZA,10415719.36,8779614.63,10226361.44,10022893.69,10061227.91,9944499.44,10695905.11,9828412.56,10098553.93,10283908.68,10560810.9,10772763.3,0.0


##  Preguntas de Negocio

##Pregunta 1

####¿En qué provincias se registra menor volumen de transacciones respecto al promedio nacional?

In [181]:
# Volumen de transacciones por provincia
transacciones_por_provincia = (
    df_final.groupby('provincia')['monto_venta']
    .count()
    .sort_values(ascending=False)
)

# Promedio nacional de transacciones
promedio_nacional = transacciones_por_provincia.mean()

# Provincias por debajo del promedio nacional
provincias_bajo_promedio = transacciones_por_provincia[
    transacciones_por_provincia < promedio_nacional
]

print("Promedio nacional de transacciones:", round(promedio_nacional, 2))
print("\nProvincias con menor volumen que el promedio nacional (ordenadas de forma ascendente):\n")
print(provincias_bajo_promedio.sort_values(ascending=True))

print("\n✅ Conclusión:")
print("Estas provincias presentan menor actividad POSNET y podrían considerarse para expansión o instalación de nuevos equipos.")

Promedio nacional de transacciones: 10000.0

Provincias con menor volumen que el promedio nacional (ordenadas de forma ascendente):

provincia
CÓRDOBA    8236
NEUQUÉN    9069
MENDOZA    9271
SALTA      9525
TUCUMÁN    9715
Name: monto_venta, dtype: int64

✅ Conclusión:
Estas provincias presentan menor actividad POSNET y podrían considerarse para expansión o instalación de nuevos equipos.


##Pregunta 2

###¿Existen provincias con alta frecuencia de transacciones pero bajo ticket promedio?

In [182]:
# Métricas por provincia
analisis_ticket = (
    df_final.groupby('provincia')
    .agg(
        transacciones=('monto_venta', 'count'),
        ticket_promedio=('monto_venta', 'mean')
    )
    .reset_index()
)

# Promedios nacionales
prom_trans = analisis_ticket['transacciones'].mean()
prom_ticket = analisis_ticket['ticket_promedio'].mean()

# Provincias con alto volumen y bajo ticket promedio
provincias_oportunidad = analisis_ticket[
    (analisis_ticket['transacciones'] > prom_trans) &
    (analisis_ticket['ticket_promedio'] < prom_ticket)
]

print("Promedio nacional de transacciones:", round(prom_trans, 2))
print("Promedio nacional de ticket:", round(prom_ticket, 2))
print("\nProvincias con alto volumen pero bajo ticket promedio:\n")
print(provincias_oportunidad.sort_values(by='transacciones', ascending=False))

print("\n✅ Conclusión:")
print("Estas provincias son zonas activas pero con bajo ticket medio. Se recomienda implementar estrategias de fidelización o venta cruzada para aumentar la facturación por cliente.")

Promedio nacional de transacciones: 10000.0
Promedio nacional de ticket: 13017.99

Provincias con alto volumen pero bajo ticket promedio:

      provincia  transacciones  ticket_promedio
0  BUENOS AIRES          11832     13017.963350
1         CHACO          10740     12949.322318
5      MISIONES          10010     13000.146582

✅ Conclusión:
Estas provincias son zonas activas pero con bajo ticket medio. Se recomienda implementar estrategias de fidelización o venta cruzada para aumentar la facturación por cliente.


##Pregunta 3

###¿Qué zonas presentan mayor crecimiento intermensual en volumen de ventas (tendencias emergentes)?

In [183]:
# Asegurar que la fecha sea tipo datetime
df_final['fecha_venta'] = pd.to_datetime(df_final['fecha_venta'])

# Agregar columna año-mes
df_final['anio_mes'] = df_final['fecha_venta'].dt.to_period('M')

# Volumen mensual por provincia
ventas_mensuales = (
    df_final.groupby(['provincia', 'anio_mes'])['monto_venta']
    .sum()
    .reset_index()
)

# Calcular crecimiento intermensual por provincia
ventas_mensuales['crecimiento'] = ventas_mensuales.groupby('provincia')['monto_venta'].pct_change()

# Último crecimiento registrado por provincia
crecimiento_reciente = (
    ventas_mensuales.groupby('provincia')['crecimiento']
    .last()
    .sort_values(ascending=False)
)

print("Provincias con mayor crecimiento intermensual reciente:\n")
print(crecimiento_reciente.dropna().head(10))

print("\n✅ Conclusión:")
print("Las provincias con mayor crecimiento intermensual muestran tendencias emergentes y son candidatas prioritarias para expansión comercial.")

Provincias con mayor crecimiento intermensual reciente:

provincia
SALTA           0.110534
ENTRE RÍOS      0.084742
MISIONES        0.046167
CHACO           0.028931
MENDOZA         0.020070
SANTA FE        0.018167
TUCUMÁN         0.016836
BUENOS AIRES   -0.003614
CÓRDOBA        -0.003709
NEUQUÉN        -0.998843
Name: crecimiento, dtype: float64

✅ Conclusión:
Las provincias con mayor crecimiento intermensual muestran tendencias emergentes y son candidatas prioritarias para expansión comercial.


##Pregunta 4
###¿Cuáles son los rubros o categorías de comercios que generan mayor facturación total y ticket promedio?

In [184]:
# Facturación total y ticket promedio por rubro
rentabilidad_rubro = (
    df_final.groupby('rubro')
    .agg(
        facturacion_total=('monto_venta', 'sum'),
        ticket_promedio=('monto_venta', 'mean'),
        transacciones=('monto_venta', 'count')
    )
    .sort_values(by='facturacion_total', ascending=False)
)

# Formatear a 2 decimales para visualización
rentabilidad_rubro_formatted = rentabilidad_rubro.copy()
rentabilidad_rubro_formatted['facturacion_total'] = rentabilidad_rubro_formatted['facturacion_total'].map('{:,.2f}'.format)
rentabilidad_rubro_formatted['ticket_promedio'] = rentabilidad_rubro_formatted['ticket_promedio'].map('{:,.2f}'.format)

print("Rubros más rentables (Top 10 por facturación total):\n")
print(rentabilidad_rubro_formatted.head(10))

print("\n✅ Conclusión:")
print("Los rubros que encabezan la lista concentran gran parte de la facturación general. Son segmentos estratégicos para mantener y expandir el servicio POSNET.")

Rubros más rentables (Top 10 por facturación total):

             facturacion_total ticket_promedio  transacciones
rubro                                                        
RESTAURANTE     158,787,700.93       12,915.87          12294
COMERCIO        151,545,539.28       13,042.91          11619
GASTRONOMÍA     148,481,076.04       13,129.46          11309
FERRETERÍA      146,285,922.47       13,057.75          11203
ROPA            144,520,197.97       12,920.89          11185
FARMACIA        143,480,543.71       13,050.80          10994
ELECTRÓNICA     141,811,697.10       13,041.36          10874
SERVICIOS       135,297,799.22       12,940.97          10455
SUPERMERCADO    131,529,972.63       13,065.46          10067

✅ Conclusión:
Los rubros que encabezan la lista concentran gran parte de la facturación general. Son segmentos estratégicos para mantener y expandir el servicio POSNET.


##Pregunta 5

###¿Qué relación existe entre el rubro y la ubicación geográfica (qué provincias son más rentables para cada tipo de comercio)?

In [185]:
# Rentabilidad por rubro y provincia
rentabilidad_geo = (
    df_final.groupby(['provincia', 'rubro'])
    .agg(
        facturacion_total=('monto_venta', 'sum'),
        ticket_promedio=('monto_venta', 'mean'),
        transacciones=('monto_venta', 'count')
    )
    .reset_index()
)

# Top 10 combinaciones provincia–rubro más rentables
top_combinaciones = rentabilidad_geo.sort_values(
    by='facturacion_total', ascending=False
).head(10)

# Formatear a 2 decimales y eliminar la columna 'ticket_promedio'
top_combinaciones_formatted = top_combinaciones.copy()
top_combinaciones_formatted['facturacion_total'] = top_combinaciones_formatted['facturacion_total'].map('{:,.2f}'.format)
top_combinaciones_formatted['ticket_promedio'] = top_combinaciones_formatted['ticket_promedio'].map('{:,.2f}'.format)

# Eliminar la columna 'ticket_promedio' como se solicitó
top_combinaciones_formatted = top_combinaciones_formatted.drop(columns=['ticket_promedio'])

print("Provincias y rubros más rentables:\n")
print(top_combinaciones_formatted)

print("\n✅ Conclusión:")
print("Estas combinaciones indican los puntos geográficos donde ciertos rubros tienen mayor impacto económico. Son zonas prioritarias para refuerzo comercial o estrategias de fidelización sectorial.")

Provincias y rubros más rentables:

       provincia         rubro facturacion_total  transacciones
4   BUENOS AIRES   GASTRONOMÍA     27,913,639.96           2087
83       TUCUMÁN      FARMACIA     24,238,923.39           1816
80      SANTA FE  SUPERMERCADO     23,095,894.68           1756
34    ENTRE RÍOS     SERVICIOS     22,709,543.49           1743
76      SANTA FE   GASTRONOMÍA     22,411,664.68           1712
32    ENTRE RÍOS   RESTAURANTE     20,960,769.77           1589
10         CHACO   ELECTRÓNICA     20,324,358.81           1530
9          CHACO      COMERCIO     20,102,108.42           1537
63         SALTA      COMERCIO     19,793,581.76           1493
87       TUCUMÁN          ROPA     19,730,980.43           1525

✅ Conclusión:
Estas combinaciones indican los puntos geográficos donde ciertos rubros tienen mayor impacto económico. Son zonas prioritarias para refuerzo comercial o estrategias de fidelización sectorial.
