# Dataset TAMBOS (CONSOLIDACIÓN DE DATOS)

## Contexto
El dataset contiene información de las intervenciones y servicios brindados por diversas entidades del gobierno del Perú a través de las plataformas fijas TAMBOS, parte del Programa Nacional de Plataformas de Acción para la Inclusión Social (PNPAIS).

Cada archivo corresponde a un trimestre del año 2024, y en este script se consolidan todos en un solo dataset para su posterior análisis y visualización.

Son 4 datasets que contendran diversas variables.

## Variables destacadas
- `DEPARTAMENTO`: Ubicación geográfica
- `TAMBO`: Nombre del Tambo
- `ENTIDAD`: Institución que brinda el servicio
- `TIPO_INTERVENCION`: Tipo de atención o actividad realizada
- `SERVICIOS`: Número de servicios brindados
- `ATENCIONES`: Número de atenciones realizadas
- `FECHA_INTERVENCION`: Fecha exacta de la intervención

---

**Objetivo:** Consolidar los archivos y obtener un único dataset unificado y limpio para usar en análisis exploratorio (EDA), feature engineering, visualización en Power BI y posibles modelos de Machine Learning.


In [None]:
import pandas as pd
import os

In [None]:
git_url = "https://raw.githubusercontent.com/LeydiChavez/dataton-tambos/main/data/"

# Nombres exactos de los archivos con espacios reemplazados por %20
archivo_1 = "Servicios%20brindados%20por%20entidades%20a%20traves%20de%20TAMBOS-%20I%20TRIMESTRE_0.xlsx"
archivo_2 = "Servicios%20brindados%20por%20entidades%20a%20traves%20de%20TAMBOS-%20II%20TRIMESTRE.xlsx"
archivo_3 = "Servicios%20brindados%20por%20entidades%20a%20traves%20de%20TAMBOS-%20III%20TRIMESTRE.xlsx"
archivo_4 = "Servicios%20brindados%20por%20entidades%20a%20traves%20de%20TAMBOS-%20IV%20TRIMESTRE.xlsx"

# Leer cada archivo
df_1 = pd.read_excel(git_url + archivo_1)
df_2 = pd.read_excel(git_url + archivo_2)
df_3 = pd.read_excel(git_url + archivo_3)
df_4 = pd.read_excel(git_url + archivo_4)

In [None]:
# Visualizar las columnas para ver si hay alguna diferente que nos pueda causar problemas para concatenar
print("Columnas del Trimestre 1:")
print(df_1.columns)
print("\nColumnas del Trimestre 2:")
print(df_2.columns)
print("\nColumnas del Trimestre 3:")
print(df_3.columns)
print("\nColumnas del Trimestre 4:")
print(df_4.columns)

Columnas del Trimestre 1:
Index(['FECHA_CORTE', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO',
       'UBIGEO_DISTRITAL', 'UBIGEO_CCPP', 'CODIGO_PLATAFORMA', 'TAMBO',
       'NIVEL_GOBIERNO', 'SECTOR', 'ENTIDAD', 'TIPO_INTERVENCION',
       'FECHA_INTERVENCION', 'SERVICIOS', 'ATENCIONES', 'MES', 'ANIO',
       'TRIMESTRE'],
      dtype='object')

Columnas del Trimestre 2:
Index(['FECHA_CORTE', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO',
       'UBIGEO_DISTRITAL', 'UBIGEO_CCPP', 'CODIGO_PLATAFORMA', 'TAMBO',
       'NIVEL_GOBIERNO', 'SECTOR', 'ENTIDAD', 'TIPO_INTERVENCION',
       'FECHA_INTERVENCION', 'SERVICIOS', 'ATENCIONES', 'MES', 'ANIO',
       'TRIMESTRE'],
      dtype='object')

Columnas del Trimestre 3:
Index(['FECHA_CORTE', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO',
       'UBIGEO_DISTRITAL', 'UBIGEO_CCPP', 'CODIGO_PLATAFORMA', 'TAMBO',
       'NIVEL_GOBIERNO', 'SECTOR', 'ENTIDAD', 'TIPO_INTERVENCION',
       'FECHA_INTERVENCION', 'SERVICIOS', 'ATENCIONES', 'MES', 'ANIO',
       'TRIMEST

In [None]:
#Comprobamos que todos los nombres de nuestras columnas sean iguales
print("\n¿Todas las columnas son iguales? ", "\nSí" if set(df_1.columns) == set(df_2.columns) == set(df_3.columns) == set(df_4.columns) else "❌ No")


¿Todas las columnas son iguales?  
Sí


In [None]:
# Tipos de datos por cada df
tipos_df = pd.DataFrame({
    "Trimestre 1": df_1.dtypes,
    "Trimestre 2": df_2.dtypes,
    "Trimestre 3": df_3.dtypes,
    "Trimestre 4": df_4.dtypes
})

# Mostramos la tabla resultante
display(tipos_df)


Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
FECHA_CORTE,int64,int64,int64,int64
DEPARTAMENTO,object,object,object,object
PROVINCIA,object,object,object,object
DISTRITO,object,object,object,object
UBIGEO_DISTRITAL,int64,int64,int64,int64
UBIGEO_CCPP,int64,int64,int64,int64
CODIGO_PLATAFORMA,int64,int64,int64,int64
TAMBO,object,object,object,object
NIVEL_GOBIERNO,object,object,object,object
SECTOR,object,object,object,object


In [None]:
tipo1= df_1.dtypes
tipo2 = df_2.dtypes
tipo3= df_3.dtypes
tipo4 = df_4.dtypes

# Como ya verificamos que todas las columnas son iguales, usamos las del primer df
todas_columnas = df_1.columns

# Revisar columnas con diferencias de tipo entre trimestres
print("Columnas con tipos diferentes entre trimestres:\n")
for col in todas_columnas:
    tipos = {
        "Trimestre 1": tipo1.get(col),
        "Trimestre 2": tipo2.get(col),
        "Trimestre 3": tipo3.get(col),
        "Trimestre 4": tipo4.get(col)
    }

    # Si los tipos no son todos iguales, los mostramos
    if len(set(tipos.values())) > 1:
        print(f"{col}")
        for trimestre, tipo in tipos.items():
            print(f"   {trimestre}: {tipo}")
        print("-" * 40)


Columnas con tipos diferentes entre trimestres:



In [None]:
# Mostramos los primeros registros de la columna FECHA_INTERVENCION en paralelo para detectar diferencias
pd.concat(
    [df_1["FECHA_INTERVENCION"].head().rename("Trimestre 1"),
     df_2["FECHA_INTERVENCION"].head().rename("Trimestre 2"),
     df_3["FECHA_INTERVENCION"].head().rename("Trimestre 3"),
     df_4["FECHA_INTERVENCION"].head().rename("Trimestre 4")],
    axis=1
)

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
0,20240110,2024-04-26,20240909,20241022
1,20240214,2024-04-19,20240823,20241022
2,20240312,2024-04-22,20240821,20241003
3,20240214,2024-04-02,20240821,20241004
4,20240325,2024-05-24,20240708,20241016


In [None]:
# Convertir FECHA_INTERVENCION a datetime en los DataFrames que aún no lo son
#df_1["FECHA_INTERVENCION"] = pd.to_datetime(df_1["FECHA_INTERVENCION"])

In [None]:
# Convertir FECHA_INTERVENCION a datetime en los DataFrames que aún no lo son
for df in [df_1, df_3, df_4]:
    df["FECHA_INTERVENCION"] = pd.to_datetime(df["FECHA_INTERVENCION"], format="%Y%m%d") #año-mes-dia

pd.concat(
    [df_1["FECHA_INTERVENCION"].head().rename("Trimestre 1"),
     df_2["FECHA_INTERVENCION"].head().rename("Trimestre 2"),
     df_3["FECHA_INTERVENCION"].head().rename("Trimestre 3"),
     df_4["FECHA_INTERVENCION"].head().rename("Trimestre 4")],
    axis=1)

Unnamed: 0,Trimestre 1,Trimestre 2,Trimestre 3,Trimestre 4
0,2024-01-10,2024-04-26,2024-09-09,2024-10-22
1,2024-02-14,2024-04-19,2024-08-23,2024-10-22
2,2024-03-12,2024-04-22,2024-08-21,2024-10-03
3,2024-02-14,2024-04-02,2024-08-21,2024-10-04
4,2024-03-25,2024-05-24,2024-07-08,2024-10-16


In [None]:
#concatenamos todos los df en uno solo
df_concat = pd.concat([df_1, df_2, df_3, df_4], ignore_index=True)

In [None]:
#guardamos
df_concat.to_csv("datos_tambos.csv", index=False)

In [None]:
#y exportamos
from google.colab import files
files.download("datos_tambos.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
df_concat.head()

Unnamed: 0,FECHA_CORTE,DEPARTAMENTO,PROVINCIA,DISTRITO,UBIGEO_DISTRITAL,UBIGEO_CCPP,CODIGO_PLATAFORMA,TAMBO,NIVEL_GOBIERNO,SECTOR,ENTIDAD,TIPO_INTERVENCION,FECHA_INTERVENCION,SERVICIOS,ATENCIONES,MES,ANIO,TRIMESTRE
0,20240430,HUANCAVELICA,CASTROVIRREYNA,TANTARA,90412,904120039,210259,TANTARA,GOBIERNO CENTRAL,MIDAGRI - MINISTERIO DE DESARROLLO AGRARIO Y R...,AGRORURAL - PROGRAMA DE DESARROLLO PRODUCTIVO ...,PRESTACION DE SERVICIOS,2024-01-10,1,14,202401,2024,I
1,20240430,PIURA,HUANCABAMBA,HUARMACA,200304,2003040052,208845,CHALPA MOLULO,GOBIERNO LOCAL,GOBIERNO LOCAL,GERENCIA DE DESARROLLO SOCIAL-HUMANO,PRESTACION DE SERVICIOS,2024-02-14,1,13,202402,2024,I
2,20240430,HUANUCO,PACHITEA,CHAGLLA,100802,1008020026,255764,MUÑA,GOBIERNO CENTRAL,MINEM - MINISTERIO DE ENERGÍA Y MINAS,FISE - FONDO DE INCLUSIÓN SOCIAL ENERGÉTICA,PRESTACION DE SERVICIOS,2024-03-12,1,12,202403,2024,I
3,20240430,CUSCO,PARURO,CCAPI,81003,810030027,256106,CALLANCHA,GOBIERNO LOCAL,GOBIERNO LOCAL,DEMUNA - DEFENSORÍA MUNICIPAL DEL NIÑO Y DEL A...,PRESTACION DE SERVICIOS,2024-02-14,1,12,202402,2024,I
4,20240430,APURIMAC,COTABAMBAS,HAQUIRA,30504,305040075,256713,TULLA,GOBIERNO CENTRAL,MIDIS - MINISTERIO DE DESARROLLO E INCLUSIÓN S...,PNPAIS - PROGRAMA NACIONAL PLATAFORMAS DE ACCI...,EJECUCION DE SOPORTE,2024-03-25,5,11,202403,2024,I
