# Análisis Predictivo de Datos
## Proyecto de aula: Análisis del IPC en Colombia


### Integrantes

- Alejandro Córdoba Ríos
- Juan Camilo Manjarrés Baena
- Adrián David Perdomo Echeverri


### Descripción

Este proyecto de aula busca hacer un análisis histórico de los datos proporcionados por el **Departamento Administrativo Nacional de Estadísticas (DANE)** con respecto al **Índice de Precios al Consumidor (IPC)** en los últimos 24 meses, desde septiembre de 2022 hasta agosto de 2024, con el fin de predecir la variación de este indicador económico en el futuro. Se obtienen datos de la variación mensual del IPC total, por divisiones de bienes y servicios y categorizados por ciudades.

Las divisiones de bienes y servicios que identifica el DANE son:
- Alimentos y bebidas no alcohólicas
- Bebidas alcohólicas y tabaco
- Prendas de vestir y calzado
- Alojamiento, agua, electricidad, gas y otros combustibles
- Muebles, artículos para el hogar y para la conservación ordinaria del hogar
- Salud
- Transporte
- Información y comunicación
- Recreación y cultura
- Educación
- Restaurantes y hoteles
- Bienes y servicios diversos

Y las ciudades listadas son:
- Medellín
- Barranquilla
- Bogotá, D.C.
- Cartagena De Indias
- Tunja
- Manizales
- Florencia
- Popayán
- Valledupar
- Montería
- Neiva
- Riohacha
- Santa Marta
- Villavicencio
- Pasto
- Cúcuta
- Armenia
- Pereira
- Bucaramanga
- Sincelejo
- Ibagué
- Cali
- Otras Areas Urbanas

Los datos se obtienen del sitio oficial del DANE: https://www.dane.gov.co/index.php/comunicados-y-boletines/indice-de-precios-y-costos/ipc

### Recolección de los datos

Se obtienen los anexos de los reportes históricos mensuales que se encuentran en el enlace citado anteriormente, los cuales son documentos con formato *.xlsx*. Estos archivos de Excel contienen varias hojas con información ordenada y categorizada de distintas maneras, pero para el objetivo del proyecto de aula, nos concentraremos en los datos de la **hoja "4"**, que corresponde a **"Variación mensual, total y por divisiones de bienes y servicios, según ciudades"**.

Como son en total 24 archivos (un archivo por cada mes, desde septiembre de 2022 hasta agosto de 2024) y lo ideal es tener todos los datos en un solo archivo, vamos a iterar cada archivo para obtener su información e irla recolectando y ordenando en un archivo final con formato *.csv*. Se renombraron los archivos para seguir una convención específica, que nos servirá para que en la iteración se identifique a qué mes y año corresponde la información. Esta convención es *año-mes.xlsx*, donde año es el número con 4 dígitos y mes es el número con 2 dígitos (por ejemplo: *2023-07.xlsx*, que corresponde a julio del 2023).

Al final esperamos tener un único archivo con formato *.csv* donde cada fila contenga la siguiente información:
- Ciudad [texto]
- Categoría (división de bienes y servicios) [texto]
- Año [número]
- Mes [número]
- IPC [número]

In [5]:
%pip install pandas
%pip install openpyxl

Note: you may need to restart the kernel to use updated packages.


DEPRECATION: Loading egg at c:\python311\lib\site-packages\vboxapi-1.0-py3.11.egg is deprecated. pip 24.3 will enforce this behaviour change. A possible replacement is to use pip for package installation.. Discussion can be found at https://github.com/pypa/pip/issues/12330

[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-1.1.0-py3-none-any.whl.metadata (1.8 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
   ---------------------------------------- 0.0/250.9 kB ? eta -:--:--
   ------------- -------------------------- 81.9/250.9 kB 2.3 MB/s eta 0:00:01
   -------------------------------- ------- 204.8/250.9 kB 2.5 MB/s eta 0:00:01
   ---------------------------------------- 250.9/250.9 kB 2.2 MB/s eta 0:00:00
Downloading et_xmlfile-1.1.0-py3-none-any.whl (4.7 kB)
Installing collected packages: et-xmlfile, openpyxl
Successfully installed et-xmlfile-1.1.0 openpyxl-3.1.5
Note: you may need to restart the kernel to use updated packages.


DEPRECATION: Loading egg at c:\python311\lib\site-packages\vboxapi-1.0-py3.11.egg is deprecated. pip 24.3 will enforce this behaviour change. A possible replacement is to use pip for package installation.. Discussion can be found at https://github.com/pypa/pip/issues/12330

[notice] A new release of pip is available: 24.0 -> 24.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [6]:
import os
import pandas as pd

data_folder = 'data'
final_data = []
for filename in os.listdir(data_folder):
    slug, _ = os.path.splitext(filename)
    year, month = slug.split('-')
    
    data = pd.read_excel(os.path.join(data_folder, filename), sheet_name='4', header=6, usecols='A:N', nrows=24, skiprows=[7])

    melted_data = data.melt(id_vars=['Ciudades'], var_name='Categoría', value_name='IPC')
    melted_data['Ciudades'] = melted_data['Ciudades'].astype(str)
    melted_data['Categoría'] = melted_data['Categoría'].astype(str)
    melted_data['Año'] = int(year)
    melted_data['Mes'] = int(month)
    melted_data['IPC'] = melted_data['IPC'].astype(float)
    melted_data.rename(columns={'Ciudades': 'city', 'Categoría': 'category', 'Año': 'year', 'Mes': 'month', 'IPC': 'ipc'}, inplace=True)
    
    final_data.append(melted_data)

final_df = pd.concat(final_data, ignore_index=True)
final_df.to_csv('ipc_from_2022-09_to_2024-08.csv', index=False)
