# Análisis de Precios Históricos de Combustibles

## 1. Imports y carga del dataset

In [1]:
import pandas as pd
import numpy as np

ruta_csv = r"C:\Users\Eze\Documents\Precios historicos combustible\precios-historicos.csv"
df = pd.read_csv(ruta_csv, encoding="utf-8")

df.head()

Unnamed: 0,idempresa,empresa,direccion,localidad,provincia,idproducto,producto,idtipohorario,tipohorario,precio,fecha_vigencia,idempresabandera,empresabandera,latitud,longitud,geojson,anio,mes
0,1376,10 DE SETIEMBRE S.A.,Av. Mosconi 299,LOMAS DEL MIRADOR,BUENOS AIRES,19,Gas Oil Grado 2,2,Diurno,985.0,01/04/2024 10:11,28,PUMA,-34.658476,-58.529443,"{""type"":""Point"",""coordinates"":[-58.529443,-34....",2024,4
1,1376,10 DE SETIEMBRE S.A.,Av. Mosconi 299,LOMAS DEL MIRADOR,BUENOS AIRES,19,Gas Oil Grado 2,3,Nocturno,985.0,01/04/2024 10:11,28,PUMA,-34.658476,-58.529443,"{""type"":""Point"",""coordinates"":[-58.529443,-34....",2024,4
2,1376,10 DE SETIEMBRE S.A.,Av. Mosconi 299,LOMAS DEL MIRADOR,BUENOS AIRES,19,Gas Oil Grado 2,2,Diurno,1080.0,01/07/2024 09:43,28,PUMA,-34.658476,-58.529443,"{""type"":""Point"",""coordinates"":[-58.529443,-34....",2024,7
3,1376,10 DE SETIEMBRE S.A.,Av. Mosconi 299,LOMAS DEL MIRADOR,BUENOS AIRES,19,Gas Oil Grado 2,3,Nocturno,1080.0,01/07/2024 09:43,28,PUMA,-34.658476,-58.529443,"{""type"":""Point"",""coordinates"":[-58.529443,-34....",2024,7
4,1376,10 DE SETIEMBRE S.A.,Av. Mosconi 299,LOMAS DEL MIRADOR,BUENOS AIRES,19,Gas Oil Grado 2,2,Diurno,1108.0,01/08/2024 13:40,28,PUMA,-34.658476,-58.529443,"{""type"":""Point"",""coordinates"":[-58.529443,-34....",2024,8


## 2. Inspección general del dataset

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3265202 entries, 0 to 3265201
Data columns (total 18 columns):
 #   Column            Dtype  
---  ------            -----  
 0   idempresa         int64  
 1   empresa           object 
 2   direccion         object 
 3   localidad         object 
 4   provincia         object 
 5   idproducto        int64  
 6   producto          object 
 7   idtipohorario     int64  
 8   tipohorario       object 
 9   precio            float64
 10  fecha_vigencia    object 
 11  idempresabandera  int64  
 12  empresabandera    object 
 13  latitud           float64
 14  longitud          float64
 15  geojson           object 
 16  anio              int64  
 17  mes               int64  
dtypes: float64(3), int64(6), object(9)
memory usage: 448.4+ MB


## 3. Normalización de nombres de columnas

In [3]:
df.columns = (
    df.columns
    .str.strip()
    .str.lower()
    .str.replace(" ", "_")
)

df.columns

Index(['idempresa', 'empresa', 'direccion', 'localidad', 'provincia',
       'idproducto', 'producto', 'idtipohorario', 'tipohorario', 'precio',
       'fecha_vigencia', 'idempresabandera', 'empresabandera', 'latitud',
       'longitud', 'geojson', 'anio', 'mes'],
      dtype='object')

## 4. Conversión de fecha de vigencia


In [4]:
df["fecha_vigencia"] = pd.to_datetime(
    df["fecha_vigencia"],
    errors="coerce",
    dayfirst=True
)

df[["fecha_vigencia", "anio", "mes"]].head()

Unnamed: 0,fecha_vigencia,anio,mes
0,2024-04-01 10:11:00,2024,4
1,2024-04-01 10:11:00,2024,4
2,2024-07-01 09:43:00,2024,7
3,2024-07-01 09:43:00,2024,7
4,2024-08-01 13:40:00,2024,8


## 5. Normalización del campo precio


In [5]:
df["precio"] = pd.to_numeric(df["precio"], errors="coerce")
df["precio"].describe()

count    3.265202e+06
mean     4.212258e+02
std      2.743631e+03
min      0.000000e+00
25%      4.648000e+01
50%      1.255000e+02
75%      6.850000e+02
max      2.430000e+06
Name: precio, dtype: float64

## 6. Normalización de coordenadas geográficas


In [6]:
df["latitud"] = pd.to_numeric(df["latitud"], errors="coerce")
df["longitud"] = pd.to_numeric(df["longitud"], errors="coerce")

df[["latitud", "longitud"]].isnull().sum()

latitud     1522
longitud    1522
dtype: int64

## 7. Revisión de valores nulos


In [7]:
df.isnull().sum().sort_values(ascending=False)

geojson             1522
longitud            1522
latitud             1522
fecha_vigencia       142
empresa                0
idempresa              0
direccion              0
localidad              0
provincia              0
idproducto             0
precio                 0
tipohorario            0
idtipohorario          0
producto               0
empresabandera         0
idempresabandera       0
anio                   0
mes                    0
dtype: int64

## 8. Dimensión final del dataset


In [8]:
df.shape

(3265202, 18)

## 9. Eliminación de campo geojson y exportación para Power BI


In [9]:
df = df.drop(columns=["geojson"])

ruta_salida = r"C:\Users\Eze\Documents\Precios historicos combustible\precios-historicos-powerbi.csv"
df.to_csv(ruta_salida, index=False, encoding="utf-8")