<a href="https://colab.research.google.com/github/antonellafontanetto/Pre-Entrega-2-Data-Science/blob/main/Proyecto4x4_YPF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto 4x4 YPF: Primer Pilar Vaca Muerta a corto plazo

El siguiente proyecto está focalizado en predecir el comportamiento de determinadas variables en el marco del proyecto 4x4 de YPF, el cual consta de cuadriplicar la empresa en los próximos 4 años a través de la expansión de la producción, eficiencia en los procesos y mayor foco en la generación de valor.

Para lo cual el proyecta va a constar del siguiente procedimiento:

1) Recolección de Datos

2) Exploración y Procesamiento de los datos (exploración de los datos, discreción de variables, normalización, limpieza, visualización previa)

3) Modelado (construir y testear modelos para predecir o clasificar información o encontrar patrones de datos)

4) Puesta en Producción (predecir nuevos datos, comunicar los resultados, integrar los resultados con aplicación)

# Recolección de datos

Importo todas las libreras necesarias para la recolección de datos y el análisis exploratorio.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

In [3]:
produccion = pd.read_csv('/content/produccion.zip', usecols=['anio','empresa','tipopozo','tipoestado','prod_gas','prod_pet','profundidad','areayacimiento','cuenca','provincia','tipo_de_recurso','sub_tipo_recurso','prod_agua','tipoextraccion','profundidad','areapermisoconcesion','coordenadax','coordenaday','proyecto','clasificacion','subclasificacion'])
produccion

Unnamed: 0,anio,prod_pet,prod_gas,prod_agua,tipoextraccion,tipoestado,tipopozo,empresa,profundidad,areapermisoconcesion,areayacimiento,cuenca,provincia,coordenadax,coordenaday,tipo_de_recurso,proyecto,clasificacion,subclasificacion,sub_tipo_recurso
0,2018,0.000000,171.937000,0.000000,Surgencia Natural,Extracción Efectiva,Gasífero,YSUR ENERGÍA ARGENTINA S.R.L.,3828.0,ESTACION FERNANDEZ ORO,ESTACION FERNANDEZ ORO,NEUQUINA,Rio Negro,-67.864960,-39.016722,NO CONVENCIONAL,GAS PLUS,EXPLOTACION,DESARROLLO,TIGHT
1,2017,0.000000,245.850000,16.680000,Plunger Lift,Extracción Efectiva,Gasífero,YSUR ENERGÍA ARGENTINA S.R.L.,2338.4,ANTICLINAL CAMPAMENTO,ANTICLINAL CAMPAMENTO SUR,NEUQUINA,Neuquén,-69.733102,-39.024859,NO CONVENCIONAL,GAS PLUS,EXPLOTACION,DESARROLLO,TIGHT
2,2018,0.000000,514.696000,17.000000,Surgencia Natural,Extracción Efectiva,Gasífero,YSUR ENERGÍA ARGENTINA S.R.L.,2707.0,ESTACION FERNANDEZ ORO,ESTACION FERNANDEZ ORO,NEUQUINA,Rio Negro,-67.837875,-39.019313,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,TIGHT
3,2015,0.000000,422.110000,0.000000,Bombeo Mecánico,Extracción Efectiva,Gasífero,YSUR ENERGÍA ARGENTINA S.R.L.,3305.0,AL NORTE DE LA DORSAL,GUANACO,NEUQUINA,Neuquén,-69.255971,-38.860779,NO CONVENCIONAL,GAS PLUS,EXPLOTACION,DESARROLLO,TIGHT
4,2018,0.000000,217.103000,7.300000,Surgencia Natural,Extracción Efectiva,Gasífero,YSUR ENERGÍA ARGENTINA S.R.L.,2618.0,AL NORTE DE LA DORSAL,GUANACO,NEUQUINA,Neuquén,-69.231360,-38.869270,NO CONVENCIONAL,GAS PLUS,EXPLOTACION,DESARROLLO,TIGHT
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
345377,2024,14.049906,17.378994,72.385001,Bombeo Mecánico,Extracción Efectiva,Petrolífero,Petrolera Aconcagua Energia S.A.,2585.0,ENTRE LOMAS,EL CARACOL,NEUQUINA,Neuquén,-68.452390,-37.954170,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,AVANZADA,SHALE
345378,2023,0.000000,0.000000,0.000000,,,,Petrolera Aconcagua Energia S.A.,2848.0,ENTRE LOMAS,CHARCO BAYO,NEUQUINA,Rio Negro,-68.099940,-38.174340,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,TIGHT
345379,2024,60.960855,602.844409,63.852351,Surgencia Natural,Extracción Efectiva,Petrolífero,Petrolera Aconcagua Energia S.A.,2840.0,ENTRE LOMAS,CHARCO BAYO,NEUQUINA,Rio Negro,-68.106619,-38.178494,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,TIGHT
345380,2024,0.000000,0.000000,0.000000,Surgencia Natural,Parado Transitoriamente,Gasífero,Petrolera Aconcagua Energia S.A.,2400.0,ENTRE LOMAS,CHARCO BAYO,NEUQUINA,Rio Negro,-68.129670,-38.149710,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,TIGHT


In [4]:
#Filtro por cada dataset solo los registros para YPF S.A.
prod_ypf = produccion[(produccion['empresa'] == 'YPF S.A.')&(produccion['cuenca'] == 'NEUQUINA')&(produccion['anio']>2022)]

prod_ypf

Unnamed: 0,anio,prod_pet,prod_gas,prod_agua,tipoextraccion,tipoestado,tipopozo,empresa,profundidad,areapermisoconcesion,areayacimiento,cuenca,provincia,coordenadax,coordenaday,tipo_de_recurso,proyecto,clasificacion,subclasificacion,sub_tipo_recurso
8572,2025,32.29,172.10,0.00,Plunger Lift,Extracción Efectiva,Gasífero,YPF S.A.,3844.0,ESTACION FERNANDEZ ORO,ESTACION FERNANDEZ ORO,NEUQUINA,Rio Negro,-67.810843,-39.024083,NO CONVENCIONAL,GAS PLUS,EXPLOTACION,DESARROLLO,TIGHT
8578,2025,0.00,0.00,0.00,Surgencia Natural,Abandonado,Otro tipo,YPF S.A.,2827.0,EL OREJANO,EL OREJANO,NEUQUINA,Neuquén,-69.179098,-38.009987,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8584,2025,0.00,0.00,0.00,Bombeo Mecánico,En Estudio,Otro tipo,YPF S.A.,2977.0,LA AMARGA CHICA,LA AMARGA CHICA,NEUQUINA,Neuquén,-68.748543,-38.176774,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8590,2025,0.00,0.00,0.00,Surgencia Natural,Abandonado,Otro tipo,YPF S.A.,4092.0,EL OREJANO,EL OREJANO,NEUQUINA,Neuquén,-69.200359,-37.958765,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8596,2025,55.99,3.37,0.00,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,4945.0,LOMA CAMPANA,LOMA CAMPANA,NEUQUINA,Neuquén,-68.678007,-38.329983,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199438,2024,0.00,0.00,0.00,Sin Sistema de Extracción,En Inyección Efectiva,Sumidero,YPF S.A.,2046.0,AGUADA DEL CHAÑAR,LOMA COLORADA,NEUQUINA,Neuquén,-68.525949,-38.122077,NO CONVENCIONAL,Sin Proyecto,SERVICIO,CONTROL,SHALE
199440,2024,1642.63,101.18,1102.79,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,5889.0,AGUADA DEL CHAÑAR,LOMA COLORADA,NEUQUINA,Neuquén,-68.558082,-38.076855,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199442,2024,2441.10,153.31,1287.65,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,0.0,AGUADA DEL CHAÑAR,LOMA COLORADA,NEUQUINA,Neuquén,-68.558013,-38.076854,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199446,2024,0.00,0.00,0.00,Surgencia Natural,Parado Transitoriamente,Gasífero,YPF S.A.,4491.0,LAS TACANAS,LAS TACANAS,NEUQUINA,Neuquén,-69.335181,-38.710951,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE


In [5]:
#Con rename se logró renombrar las columnas que tenían nombres abreviados o poco legibles
prod_ypf=prod_ypf.rename(columns={'anio':'Año','prod_pet':'Produccion de Petroleo','prod_gas':'Produccion de Gas','prod_agua':'Produccion de agua','tipoextraccion':'Tipo de extraccion','tipoestado':'Tipo de estado','tipopozo':'Tipo de pozo','empresa':'Empresa','profundidad':'Profundidad','areapermisoconcesion':'Area de permiso de concesion','cuenca':'Cuenca','provincia':'Provincia','tipo_de_recurso':'Tipo de recurso','proyecto':'Proyecto','clasificacion':'Clasificacion','subclasificacion':'Subclasificacion','sub_tipo_recurso':'Subtipo de recurso'})
prod_ypf

Unnamed: 0,Año,Produccion de Petroleo,Produccion de Gas,Produccion de agua,Tipo de extraccion,Tipo de estado,Tipo de pozo,Empresa,Profundidad,Area de permiso de concesion,areayacimiento,Cuenca,Provincia,coordenadax,coordenaday,Tipo de recurso,Proyecto,Clasificacion,Subclasificacion,Subtipo de recurso
8572,2025,32.29,172.10,0.00,Plunger Lift,Extracción Efectiva,Gasífero,YPF S.A.,3844.0,ESTACION FERNANDEZ ORO,ESTACION FERNANDEZ ORO,NEUQUINA,Rio Negro,-67.810843,-39.024083,NO CONVENCIONAL,GAS PLUS,EXPLOTACION,DESARROLLO,TIGHT
8578,2025,0.00,0.00,0.00,Surgencia Natural,Abandonado,Otro tipo,YPF S.A.,2827.0,EL OREJANO,EL OREJANO,NEUQUINA,Neuquén,-69.179098,-38.009987,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8584,2025,0.00,0.00,0.00,Bombeo Mecánico,En Estudio,Otro tipo,YPF S.A.,2977.0,LA AMARGA CHICA,LA AMARGA CHICA,NEUQUINA,Neuquén,-68.748543,-38.176774,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8590,2025,0.00,0.00,0.00,Surgencia Natural,Abandonado,Otro tipo,YPF S.A.,4092.0,EL OREJANO,EL OREJANO,NEUQUINA,Neuquén,-69.200359,-37.958765,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8596,2025,55.99,3.37,0.00,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,4945.0,LOMA CAMPANA,LOMA CAMPANA,NEUQUINA,Neuquén,-68.678007,-38.329983,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199438,2024,0.00,0.00,0.00,Sin Sistema de Extracción,En Inyección Efectiva,Sumidero,YPF S.A.,2046.0,AGUADA DEL CHAÑAR,LOMA COLORADA,NEUQUINA,Neuquén,-68.525949,-38.122077,NO CONVENCIONAL,Sin Proyecto,SERVICIO,CONTROL,SHALE
199440,2024,1642.63,101.18,1102.79,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,5889.0,AGUADA DEL CHAÑAR,LOMA COLORADA,NEUQUINA,Neuquén,-68.558082,-38.076855,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199442,2024,2441.10,153.31,1287.65,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,0.0,AGUADA DEL CHAÑAR,LOMA COLORADA,NEUQUINA,Neuquén,-68.558013,-38.076854,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199446,2024,0.00,0.00,0.00,Surgencia Natural,Parado Transitoriamente,Gasífero,YPF S.A.,4491.0,LAS TACANAS,LAS TACANAS,NEUQUINA,Neuquén,-69.335181,-38.710951,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE


In [6]:
#Vamos a ver que tipo de estructura tiene prod_ypf
type(prod_ypf)

In [7]:
#Con la función shape podemos ver cuantas features y registros contiene el dataframe prod_ypf
prod_ypf.shape

(56418, 20)

In [8]:
#Con la función columns puedo visualizar los nombres de los features
prod_ypf.columns

Index(['Año', 'Produccion de Petroleo', 'Produccion de Gas',
       'Produccion de agua', 'Tipo de extraccion', 'Tipo de estado',
       'Tipo de pozo', 'Empresa', 'Profundidad',
       'Area de permiso de concesion', 'areayacimiento', 'Cuenca', 'Provincia',
       'coordenadax', 'coordenaday', 'Tipo de recurso', 'Proyecto',
       'Clasificacion', 'Subclasificacion', 'Subtipo de recurso'],
      dtype='object')

In [9]:
#A través de la función head() puedo visualizar los primeros 5 registros
prod_ypf.head()

Unnamed: 0,Año,Produccion de Petroleo,Produccion de Gas,Produccion de agua,Tipo de extraccion,Tipo de estado,Tipo de pozo,Empresa,Profundidad,Area de permiso de concesion,areayacimiento,Cuenca,Provincia,coordenadax,coordenaday,Tipo de recurso,Proyecto,Clasificacion,Subclasificacion,Subtipo de recurso
8572,2025,32.29,172.1,0.0,Plunger Lift,Extracción Efectiva,Gasífero,YPF S.A.,3844.0,ESTACION FERNANDEZ ORO,ESTACION FERNANDEZ ORO,NEUQUINA,Rio Negro,-67.810843,-39.024083,NO CONVENCIONAL,GAS PLUS,EXPLOTACION,DESARROLLO,TIGHT
8578,2025,0.0,0.0,0.0,Surgencia Natural,Abandonado,Otro tipo,YPF S.A.,2827.0,EL OREJANO,EL OREJANO,NEUQUINA,Neuquén,-69.179098,-38.009987,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8584,2025,0.0,0.0,0.0,Bombeo Mecánico,En Estudio,Otro tipo,YPF S.A.,2977.0,LA AMARGA CHICA,LA AMARGA CHICA,NEUQUINA,Neuquén,-68.748543,-38.176774,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8590,2025,0.0,0.0,0.0,Surgencia Natural,Abandonado,Otro tipo,YPF S.A.,4092.0,EL OREJANO,EL OREJANO,NEUQUINA,Neuquén,-69.200359,-37.958765,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
8596,2025,55.99,3.37,0.0,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,4945.0,LOMA CAMPANA,LOMA CAMPANA,NEUQUINA,Neuquén,-68.678007,-38.329983,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE


In [10]:
# Mientras que con la función tail(15) puedo visualizar los últimos 15 registros del dataframe
prod_ypf.tail(15)

Unnamed: 0,Año,Produccion de Petroleo,Produccion de Gas,Produccion de agua,Tipo de extraccion,Tipo de estado,Tipo de pozo,Empresa,Profundidad,Area de permiso de concesion,areayacimiento,Cuenca,Provincia,coordenadax,coordenaday,Tipo de recurso,Proyecto,Clasificacion,Subclasificacion,Subtipo de recurso
199418,2024,3409.13,645.07,1584.58,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,6061.0,BANDURRIA SUR,BANDURRIA SUR,NEUQUINA,Neuquén,-68.726359,-38.305617,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199420,2024,5.33,4.13,569.26,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,5990.0,BANDURRIA SUR,BANDURRIA SUR,NEUQUINA,Neuquén,-68.880231,-38.238338,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199422,2024,570.73,166.81,1241.24,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,5405.0,BANDURRIA SUR,BANDURRIA SUR,NEUQUINA,Neuquén,-68.70551,-38.313932,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199424,2024,1523.42,445.38,2753.77,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,6248.0,BANDURRIA SUR,BANDURRIA SUR,NEUQUINA,Neuquén,-68.705921,-38.313933,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199426,2024,3054.73,987.58,2708.32,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,6501.0,BANDURRIA SUR,BANDURRIA SUR,NEUQUINA,Neuquén,-68.705614,-38.313932,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199428,2024,2967.65,980.35,2439.32,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,6336.0,BANDURRIA SUR,BANDURRIA SUR,NEUQUINA,Neuquén,-68.705819,-38.313933,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199430,2024,1775.53,542.29,2729.5,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,6427.0,BANDURRIA SUR,BANDURRIA SUR,NEUQUINA,Neuquén,-68.705716,-38.313933,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199432,2024,5.03,1.04,403.62,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,6113.0,BANDURRIA SUR,BANDURRIA SUR,NEUQUINA,Neuquén,-68.880333,-38.238338,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199434,2024,3904.39,203.65,867.7,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,0.0,AGUADA DEL CHAÑAR,LOMA COLORADA,NEUQUINA,Neuquén,-68.558196,-38.076856,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE
199436,2024,2543.15,168.2,950.83,Surgencia Natural,Extracción Efectiva,Petrolífero,YPF S.A.,6030.0,AGUADA DEL CHAÑAR,LOMA COLORADA,NEUQUINA,Neuquén,-68.55831,-38.076856,NO CONVENCIONAL,Sin Proyecto,EXPLOTACION,DESARROLLO,SHALE


In [11]:
# Con dtypes podemos visualizar los tipos de datos que contiene cada feature (enteros, flotantes y objetos)
prod_ypf.dtypes

Unnamed: 0,0
Año,int64
Produccion de Petroleo,float64
Produccion de Gas,float64
Produccion de agua,float64
Tipo de extraccion,object
Tipo de estado,object
Tipo de pozo,object
Empresa,object
Profundidad,float64
Area de permiso de concesion,object


In [13]:
# Ahora nos interesa ver cuantos son los datos faltantes por cada feature, en este caso no tenemos datos Nan
datosfaltantes = prod_ypf.isnull().sum()
print (datosfaltantes)

Año                             0
Produccion de Petroleo          0
Produccion de Gas               0
Produccion de agua              0
Tipo de extraccion              0
Tipo de estado                  0
Tipo de pozo                    0
Empresa                         0
Profundidad                     0
Area de permiso de concesion    0
areayacimiento                  0
Cuenca                          0
Provincia                       0
coordenadax                     0
coordenaday                     0
Tipo de recurso                 0
Proyecto                        0
Clasificacion                   0
Subclasificacion                0
Subtipo de recurso              0
dtype: int64


In [24]:
#Con la función describe puedo obtener todo lo relacionado a la estadística descriptiva (media, desvio estandar, mínimo, máximo, etc)
prod_ypf.describe()

Unnamed: 0,Año,Produccion de Petroleo,Produccion de Gas,Produccion de agua,Profundidad,coordenadax,coordenaday
count,56418.0,56418.0,56418.0,56418.0,56418.0,56418.0,56418.0
mean,2023.694601,475.228559,341.947332,187.986783,4111.578969,-68.747648,-38.448878
std,0.666078,1087.901163,1033.316212,577.349776,8018.702345,0.39326,0.307162
min,2023.0,0.0,0.0,0.0,0.0,-69.690352,-39.030925
25%,2023.0,0.0,1.73,0.0,3042.0,-68.929286,-38.713258
50%,2024.0,13.74,60.815,6.16,3838.0,-68.749217,-38.354928
75%,2024.0,344.0875,237.355,78.795,5145.0,-68.609166,-38.304814
max,2025.0,10489.26,17143.07,24615.83,378939.0,-67.67916,-36.206


In [26]:
prod_ypf_2023=prod_ypf[prod_ypf['Año']==2023]
prod_ypf_2023
media_2023=prod_ypf_2023['Produccion de Petroleo'].mean()
media_2023


np.float64(445.29436681957833)

In [27]:
prod_ypf_2024=prod_ypf[prod_ypf['Año']==2024]
prod_ypf_2024
media_2024=prod_ypf_2024['Produccion de Petroleo'].mean()
media_2024

np.float64(487.16603230498356)

In [29]:
prod_ypf_2025=prod_ypf[prod_ypf['Año']==2025]
prod_ypf_2025
media_2025=prod_ypf_2025['Produccion de Petroleo'].mean()
media_2025

np.float64(536.3812050222018)