# Dataset TAMBOS – Análisis Exploratorio de Datos (EDA)

## Contexto
Este análisis se basa en datos consolidados de servicios brindados por entidades del Gobierno del Perú a través de las plataformas fijas TAMBOS, parte del Programa Nacional de Plataformas de Acción para la Inclusión Social (PNPAIS).

El dataset ha sido previamente consolidado a partir de cuatro archivos trimestrales del año 2024.

## Objetivo del script
Realizar un Análisis Exploratorio de Datos (EDA) para:
- Comprender la estructura y calidad del dataset
- Detectar valores faltantes o inconsistencias{
- Identificar posibles valores atípicos
- Preparar el terreno para ingeniería de variables

## Variables clave
- **DEPARTAMENTO**: Región donde se ubica el Tambo
- **TAMBO**: Nombre de la plataforma fija
- **ENTIDAD**: Institución que realiza la intervención
- **TIPO_INTERVENCION**: Tipo de servicio (prestación, soporte, etc.)
- **SERVICIOS**: Número de servicios brindados
- **ATENCIONES**: Número de atenciones realizadas
- **FECHA_INTERVENCION**: Fecha en la que se realizó la actividad

---


In [1]:
# libreria para funciones estadisticas
import numpy as np
# libreria para dataframes
import pandas as pd
# librerias de graficos
import matplotlib.pyplot as plt
import seaborn as sns
# comando para poder graficar en una sola linea
%matplotlib inline

In [2]:
#para cargarlo desde github
url = "https://raw.githubusercontent.com/LeydiChavez/dataton-tambos/main/data/datos_tambos.csv"
df = pd.read_csv(url)
df.head()

Unnamed: 0,FECHA_CORTE,DEPARTAMENTO,PROVINCIA,DISTRITO,UBIGEO_DISTRITAL,UBIGEO_CCPP,CODIGO_PLATAFORMA,TAMBO,NIVEL_GOBIERNO,SECTOR,ENTIDAD,TIPO_INTERVENCION,FECHA_INTERVENCION,SERVICIOS,ATENCIONES,MES,ANIO,TRIMESTRE
0,20240430,HUANCAVELICA,CASTROVIRREYNA,TANTARA,90412,904120039,210259,TANTARA,GOBIERNO CENTRAL,MIDAGRI - MINISTERIO DE DESARROLLO AGRARIO Y R...,AGRORURAL - PROGRAMA DE DESARROLLO PRODUCTIVO ...,PRESTACION DE SERVICIOS,2024-01-10,1,14,202401,2024,I
1,20240430,PIURA,HUANCABAMBA,HUARMACA,200304,2003040052,208845,CHALPA MOLULO,GOBIERNO LOCAL,GOBIERNO LOCAL,GERENCIA DE DESARROLLO SOCIAL-HUMANO,PRESTACION DE SERVICIOS,2024-02-14,1,13,202402,2024,I
2,20240430,HUANUCO,PACHITEA,CHAGLLA,100802,1008020026,255764,MUÑA,GOBIERNO CENTRAL,MINEM - MINISTERIO DE ENERGÍA Y MINAS,FISE - FONDO DE INCLUSIÓN SOCIAL ENERGÉTICA,PRESTACION DE SERVICIOS,2024-03-12,1,12,202403,2024,I
3,20240430,CUSCO,PARURO,CCAPI,81003,810030027,256106,CALLANCHA,GOBIERNO LOCAL,GOBIERNO LOCAL,DEMUNA - DEFENSORÍA MUNICIPAL DEL NIÑO Y DEL A...,PRESTACION DE SERVICIOS,2024-02-14,1,12,202402,2024,I
4,20240430,APURIMAC,COTABAMBAS,HAQUIRA,30504,305040075,256713,TULLA,GOBIERNO CENTRAL,MIDIS - MINISTERIO DE DESARROLLO E INCLUSIÓN S...,PNPAIS - PROGRAMA NACIONAL PLATAFORMAS DE ACCI...,EJECUCION DE SOPORTE,2024-03-25,5,11,202403,2024,I


In [7]:
#Mostraremos todos los nombres de las columnas
df.columns

Index(['FECHA_CORTE', 'DEPARTAMENTO', 'PROVINCIA', 'DISTRITO',
       'UBIGEO_DISTRITAL', 'UBIGEO_CCPP', 'CODIGO_PLATAFORMA', 'TAMBO',
       'NIVEL_GOBIERNO', 'SECTOR', 'ENTIDAD', 'TIPO_INTERVENCION',
       'FECHA_INTERVENCION', 'SERVICIOS', 'ATENCIONES', 'MES', 'ANIO',
       'TRIMESTRE'],
      dtype='object')

In [8]:
#Veamos cuantos datos contiene nuestro DataFrame
len(df)

135539

In [16]:
pd.concat(
    [df.isnull().sum(), df.dtypes],
    axis=1,
    keys=["Valores Nulos", "Tipo de Datos"]
)

Unnamed: 0,Valores Nulos,Tipo de Datos
FECHA_CORTE,0,int64
DEPARTAMENTO,0,object
PROVINCIA,0,object
DISTRITO,0,object
UBIGEO_DISTRITAL,0,int64
UBIGEO_CCPP,0,int64
CODIGO_PLATAFORMA,0,int64
TAMBO,0,object
NIVEL_GOBIERNO,0,object
SECTOR,0,object


## 1.1. FECHA_CORTE

In [19]:
#Observamos las variables
df["FECHA_CORTE"].unique()

array([20240430, 20240819, 20241017, 20250116])

Convertimos la columna FECHA_CORTE de entero (formato YYYYMMDD) a datetime para facilitar su análisis temporal