# **Proyecto: Producción de hidrocarburos en la Nación Argentina**


## Fases del proyecto
### 1. Preparación y limpieza de los datos
### 2. Feature engineering (creación de campos nuevos)
### 3. Analisis inicial
### 4. Creación de archivo final csv 
### 5. Creación de visualizaciones y filtros 

------------------------------------------------------------------------------------------------------------------------------------


### Fase 1: Importando, limpiando y preparando los datos
Transformaiones a realizar:
* Encargarse de informacion incompleta y mal formateada
* Corregir inconsistencias
* Establecer tipos de datos correctos a los campos

In [1]:
import pandas as pd 
import numpy as np
import plotly.express as px

In [2]:
data = pd.read_csv('datos-de-fractura-de-pozos-de-hidrocarburos.csv')
#data_cuencas = pd.read_csv("cuencas-sedimentarias.csv")
data_petro = pd.read_csv("prod-petro-por-yacimiento.csv")
data_gas = pd.read_csv("prod-gas-por-yacimiento.csv")


In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4062 entries, 0 to 4061
Data columns (total 30 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   id_base_fractura_adjiv        4062 non-null   int64  
 1   idpozo                        4062 non-null   int64  
 2   sigla                         4062 non-null   object 
 3   cuenca                        4062 non-null   object 
 4   areapermisoconcesion          4062 non-null   object 
 5   yacimiento                    4062 non-null   object 
 6   formacion_productiva          4062 non-null   object 
 7   tipo_reservorio               4024 non-null   object 
 8   subtipo_reservorio            3150 non-null   object 
 9   longitud_rama_horizontal_m    4062 non-null   float64
 10  cantidad_fracturas            4062 non-null   int64  
 11  tipo_terminacion              4062 non-null   object 
 12  arena_bombeada_nacional_tn    4062 non-null   float64
 13  are

In [4]:
data["fecha_inicio_fractura"] = pd.to_datetime(data["fecha_inicio_fractura"], errors="coerce")
data["fecha_fin_fractura"] = pd.to_datetime(data["fecha_fin_fractura"], errors="coerce")
data = data.drop(columns=["anio", "mes", "empresa_informante", "mes_carga", "anio_carga", "fecha_data"])
data = data.rename(columns={"anio_if": "año_if", "anio_ff": "año_ff", "areapermisoconcesion": "area_permiso_concesion", "idpozo": "id_pozo"})

In [5]:
data[data["subtipo_reservorio"].isna()]
#print(data.duplicated().sum())
#data.drop_duplicates()
#data.dropna()
#data["cuenca"] = data["cuenca"].replace("AUSTRAL MARINA", "AUSTRAL")

Unnamed: 0,id_base_fractura_adjiv,id_pozo,sigla,cuenca,area_permiso_concesion,yacimiento,formacion_productiva,tipo_reservorio,subtipo_reservorio,longitud_rama_horizontal_m,...,agua_inyectada_m3,co2_inyectado_m3,presion_maxima_psi,potencia_equipos_fractura_hp,fecha_inicio_fractura,fecha_fin_fractura,año_if,mes_if,año_ff,mes_ff
717,893,136243,YPF.SC.ALLCN.x-2,AUSTRAL,SANTA CRUZ I - FRACCION C,LAGUNA DE LOS CAPONES NORTE,springhill,,,0.0,...,176.790,0.0,3322.0,1063.0,2019-04-29,2019-04-29,2019,4,2019,4
789,1114,160771,CGC.SCA.EPu.a-4,AUSTRAL,CAMPO INDIO ESTE - EL CERRITO,EL PUMA,ANITA,CONVENCIONAL,,0.0,...,57.406,0.0,2675.0,707.0,2019-02-14,2019-02-14,2019,2,2019,2
842,1176,8788,SJ.Nq.Cc.x-1,NEUQUINA,EL TRAPIAL - CURAMCHED,CURAMCHED,agrio,CONVENCIONAL,,0.0,...,109.000,0.0,5780.0,2433.0,2010-11-14,2010-11-14,2010,11,2010,11
843,1177,136559,CHA.Nq.ET.ia-1195,NEUQUINA,EL TRAPIAL ESTE,EL TRAPIAL,huitrín,CONVENCIONAL,,0.0,...,87.000,0.0,3050.0,1038.0,2011-09-08,2011-09-08,2011,9,2011,9
844,1178,136362,CHA.Nq.ET.ia-1280,NEUQUINA,EL TRAPIAL ESTE,EL TRAPIAL,rayoso,CONVENCIONAL,,0.0,...,105.000,0.0,1550.0,515.0,2011-08-04,2011-08-04,2011,8,2011,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3519,4201,164457,CGC.SC.EH-5015,GOLFO SAN JORGE,EL HUEMUL - KOLUEL KAIKE,EL HUEMUL,cañadon seco,CONVENCIONAL,,4.0,...,105.000,0.0,6425.0,2097.0,2023-06-21,2023-06-21,2023,6,2023,6
3520,4202,164457,CGC.SC.EH-5015,GOLFO SAN JORGE,EL HUEMUL - KOLUEL KAIKE,EL HUEMUL,cañadon seco,CONVENCIONAL,,4.0,...,97.000,0.0,5470.0,1563.0,2023-06-22,2023-06-22,2023,6,2023,6
3521,4203,164457,CGC.SC.EH-5015,GOLFO SAN JORGE,EL HUEMUL - KOLUEL KAIKE,EL HUEMUL,cañadon seco,CONVENCIONAL,,3.0,...,97.000,0.0,5340.0,1580.0,2023-06-23,2023-06-23,2023,6,2023,6
3652,4334,164943,VIS.Nq.BPO-2803(h),NEUQUINA,BAJADA DEL PALO OESTE,BAJADA DEL PALO OESTE,vaca muerta,NO DISCRIMINADO,,3220.0,...,96741.136,0.0,12899.0,27293.6,2024-01-15,2024-02-03,2024,1,2024,2


### Inspeccionando, limpiando y transformando el resto de datos

In [6]:
prod_data = pd.concat([data_petro, data_gas], ignore_index=True)

In [7]:
prod_data.head()

Unnamed: 0,indice_tiempo,anio,mes,idempresa,empresa,idareapermisoconcesion,areapermisoconcesion,idareayacimiento,areayacimiento,idcuenca,...,idprovincia,provincia,idubicacion,ubicacion,idconcepto,concepto,cantidad,observaciones,desc_mes,fecha_data
0,2025-01,2025,1,PAL,PAN AMERICAN ENERGY SL,CGCH,CENTRO GOLFO SAN JORGE MARINA CHUBUT,Y040,CGSJM-1 (Chubut),GSJ,...,U,Chubut,2,Off Shore,1,Producción Primaria (m3),0.0,Cargado automaticamente como [Sin movimientos],Enero,2025-01-31
1,2025-01,2025,1,CAP,COMPAÑÍAS ASOCIADAS PETROLERAS S.A.,SIND,SINDICATO,SIND,SINDICATO,GSJ,...,U,Chubut,1,On Shore,3,Producción por Recuperación Asistida (m3),0.0,,Enero,2025-01-31
2,2025-01,2025,1,PAL,PAN AMERICAN ENERGY SL,CGCH,CENTRO GOLFO SAN JORGE MARINA CHUBUT,Y040,CGSJM-1 (Chubut),GSJ,...,U,Chubut,2,Off Shore,2,Producción Secundaria (m3),0.0,Cargado automaticamente como [Sin movimientos],Enero,2025-01-31
3,2025-01,2025,1,PLU,PLUSPETROL S.A.,PSOE,PUESTO SILVA OESTE,PSI,PUESTO SILVA OESTE,NEU,...,R,Rio Negro,1,On Shore,1,Producción Primaria (m3),0.0,Cargado automaticamente como [Sin movimientos],Enero,2025-01-31
4,2025-01,2025,1,PLU,PLUSPETROL S.A.,PSOE,PUESTO SILVA OESTE,PSI,PUESTO SILVA OESTE,NEU,...,R,Rio Negro,1,On Shore,3,Producción por Recuperación Asistida (m3),0.0,Cargado automaticamente como [Sin movimientos],Enero,2025-01-31


In [8]:
prod_data = prod_data.rename(columns={"anio": "año", "idempresa": "id_empresa", "idareapermisoconcesion": "id_area_permiso_concesion",
                              "areapermisoconcesion": "area_permiso_concesion", "idareayacimiento": "id_area_yacimiento",
                              "areayacimiento": "area_yacimiento", "idcuenca": "id_cuenca", "idprovincia": "id_provincia",
                              "idubicacion": "id_ubicacion", "idconcepto": "id_concepto"})
prod_data["indice_tiempo"] = pd.to_datetime(prod_data["indice_tiempo"], errors="coerce")

In [9]:
prod_data = prod_data.drop(columns=["observaciones", "desc_mes", "fecha_data"])

In [10]:
prod_data = prod_data[prod_data["cantidad"] > 0]

In [11]:
prod_data["concepto"].unique()

array(['Producción Primaria (m3)', 'Producción de Agua (m3)',
       'Inyección de Agua (m3)', 'Producción No Convencional (m3)',
       'Densidad Media (Ton/m3)',
       'Producción de Gasolina Estabilizada (m3)',
       'Producción de Condensado (m3)', 'Producción Secundaria (m3)',
       'Consumo en Yacimiento (m3)',
       'Producción por Recuperación Asistida (m3)',
       'Gas de Baja Presión (Mm3)', 'Gas de Media Presión (Mm3)',
       'Gas de Alta Presión (Mm3)', 'Inyectado a Formación (Mm3)',
       'Equivalente calórico del gas (Kcal/m3)',
       'Gas No Convencional (Mm3)', 'Inyección para Almacenamiento (Mm3)',
       'Extraído del almacenamiento (Mm3)'], dtype=object)

In [12]:
def normalizar_unidades(row):
    if 'Mm3' in row["concepto"]:
        return row["cantidad"] * 1e6
    return row["cantidad"]

In [13]:
clean_prod_data = prod_data.assign(
    cantidad_normalizada = lambda x: x.apply(normalizar_unidades, axis=1),
    tipo_producto= lambda x: np.select(
        [
            x["concepto"].str.contains("Gas"),
            x["concepto"].str.contains("Primaria|Secundaria|Gasolina|Recuperación|Producción No Convencional"),
            x["concepto"].str.contains("Producción de Agua")
        ],
        ["Gas", "Petróleo", "Agua"],
        default="Otro"
    )
).dropna()

In [14]:
print(clean_prod_data.groupby("tipo_producto")["cantidad_normalizada"].describe())

                  count          mean           std     min          25%  \
tipo_producto                                                              
Agua           104498.0  5.322575e+04  1.734048e+05  0.0010      347.340   
Gas            144424.0  6.214300e+09  2.654601e+10  0.0020  2530000.000   
Otro           221654.0  2.480146e+07  4.921789e+08  0.0100        0.900   
Petróleo       129111.0  4.449440e+03  1.480206e+04  0.0001      155.505   

                        50%           75%           max  
tipo_producto                                            
Agua           2.896980e+03  2.036073e+04  2.221603e+06  
Gas            1.845870e+08  1.943272e+09  6.597156e+11  
Otro           5.073070e+03  1.024162e+04  7.882821e+10  
Petróleo       7.210900e+02  3.267262e+03  3.682665e+05  


In [15]:
#final_data.to_csv("Hidrocarburos Argentina Datos Limpios.csv", index=False)

In [16]:
px.histogram(
    clean_prod_data,
    x='indice_tiempo',
    color='tipo_producto',
    title='Distribución temporal por tipo de fluido'
).show()

ValueError: Mime type rendering requires nbformat>=4.2.0 but it is not installed

In [17]:
!pip show nbformat jupyter



In [None]:
clean_prod_data.to_parquet('data/processed/produccion_clean.parquet')
#data.to_parquet('data/processed/fracturas_clean.parquet')