## Este notebook explora los datos de produccion de Oil & Gas en Colombia en 2020.

Este notebook hace un analisis descriptivo, explorando los datos de produccion de Oil & Gas de 2020 recopilados de .https://datos.gov.co/. El notebook resuelve las siguientes preguntas basicas, para conocer mas del sector de hidrocarburos en Colombia.

- Cuales departamentos producen mas crudo y gas?

- Cual fue el promedio de produccion de los ultimos 5 yrs de crudo y gas?

This notebook is written in **Python** so the default cell type is Python. However, you can use different languages by using the `%LANGUAGE` syntax. Python, Scala, SQL, and R are all supported.

In [0]:
# ------------------- Cuales son los departamentos 'petroleros' y 'Gasiferos' por excelencia en Colombia? ----------------------------------------------#

In [0]:
# Analizamos la produccion de Gas Total & promedio en 2020

In [0]:
# File location and type
file_location = "/FileStore/tables/Producci_n_Fiscalizada_de_Gas_2020.csv"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

Departamento,Municipio,Latitud,Longitud,Geolocalizacion,Operadora,Contrato,Campo,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),ECOPETROL S.A.,AREA TECA-COCORNA,TECA COCORNA,0.26875,0.28082,0.28249,0.17593,0.14827,0.12886,0.12661,0.14582,0.13371,0.1535,0.16032,0.15198
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),MANSAROVAR ENERGY COLOMBIA LTD,NARE SUR,NARE,0.04317,0.04236,0.03968,0.04256,0.03922,0.04308,0.04498,0.03692,0.04207,0.03917,0.00812,0.01365
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),MANSAROVAR ENERGY COLOMBIA LTD,UNDERRIVER,NARE,0.1662,0.17403,0.15673,0.17453,0.15072,0.16928,0.15835,0.14151,0.12071,0.16803,0.06886,0.11263
ANTIOQUIA,PUERTO TRIUNFO,5.954830151,-74.6861918,POINT (-74.6861918 5.954830151),ECOPETROL S.A.,AREA TECA-COCORNA,TECA COCORNA,0.03666,0.03514,0.02448,0.06507,0.05484,0.04766,0.04683,0.05393,0.04946,0.05678,0.0593,0.05621
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,CASABE,MAGDALENA MEDIO-CASABE,0.47903,0.46218,0.39526,0.35935,0.40907,0.47811,0.43666,0.47269,0.45607,0.48623,0.44965,0.48276
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,CASABE SUR,MAGDALENA MEDIO-CASABE,0.74925,0.69057,0.72372,0.70994,0.66136,0.66038,0.63614,0.61039,0.64691,0.66383,0.68241,0.62496
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,PEÑAS BLANCAS,MAGDALENA MEDIO-CASABE,0.21823,0.13947,0.17113,0.1498,0.16593,0.16845,0.17184,0.15567,0.13416,0.14384,0.12919,0.06978
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),SIERRACOL ENERGY ARAUCA LLC,CAÑO LIMÓN,CRAVO NORTE,1.46446,1.15652,1.03515,1.05805,1.10896,1.1355,1.11083,1.23408,1.23138,1.24803,1.25812,1.25826
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),SIERRACOL ENERGY ARAUCA LLC,CAÑO YARUMAL,CRAVO NORTE,0.20687,0.18735,0.15385,0.11024,0.12438,0.15254,0.13777,0.15717,0.1562,0.15139,0.15047,0.14456
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),SIERRACOL ENERGY ARAUCA LLC,CHIPIRÓN,CHIPIRÓN,0.41802,0.40112,0.38973,0.35975,0.42887,0.40091,0.41938,0.36565,0.42358,0.41679,0.35801,0.36504


In [0]:
df.printSchema()

root
 |-- Departamento: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Latitud: double (nullable = true)
 |-- Longitud: double (nullable = true)
 |-- Geolocalizacion: string (nullable = true)
 |-- Operadora: string (nullable = true)
 |-- Contrato: string (nullable = true)
 |-- Campo: string (nullable = true)
 |-- Enero: double (nullable = true)
 |-- Febrero: double (nullable = true)
 |-- Marzo: double (nullable = true)
 |-- Abril: double (nullable = true)
 |-- Mayo: double (nullable = true)
 |-- Junio: double (nullable = true)
 |-- Julio: double (nullable = true)
 |-- Agosto: double (nullable = true)
 |-- Septiembre: double (nullable = true)
 |-- Octubre: double (nullable = true)
 |-- Noviembre: double (nullable = true)
 |-- Diciembre: double (nullable = true)



In [0]:
from pyspark.sql.functions import *
from pyspark.sql import functions as F
totalGasProduction = (df.agg(F.sum(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.Septiembre+df.Octubre+df.Noviembre+df.Diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasTotals"))

In [0]:
totalGasProduction = totalGasProduction.withColumn("GasTotals", totalGasProduction.GasTotals*30*1000)

In [0]:
totalGasProduction.show()

+-------------------+
|          GasTotals|
+-------------------+
|6.956922332999997E8|
+-------------------+



In [0]:
totalGasProductionperDept = (df.groupBy("Departamento")
.agg(F.sum(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.Septiembre+df.Octubre+df.Noviembre+df.Diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))","GasTotalsperDept")
.orderBy(col("GasTotalsperDept").desc()))

In [0]:
totalGasProductionperDept = totalGasProductionperDept.withColumn("GasTotalsperDept", totalGasProductionperDept.GasTotalsperDept*30*1000)

In [0]:
totalGasProductionperDept.show()

+------------------+--------------------+
|      Departamento|    GasTotalsperDept|
+------------------+--------------------+
|          CASANARE|4.9772476770000017E8|
|           GUAJIRA|4.8133178400000006E7|
|             SUCRE| 4.149214050000001E7|
|           CORDOBA|        3.57950085E7|
|         SANTANDER|1.3944830399999997E7|
|NORTE DE SANTANDER|1.3458158100000001E7|
|         ATLANTICO|           8568747.6|
|             CESAR|           6300980.4|
|              META|           5207997.9|
|             HUILA|   4753733.999999999|
|         MAGDALENA|           4105402.8|
|            BOYACA|           3981365.4|
|            ARAUCA|           3322093.2|
|            TOLIMA|           3145143.9|
|          PUTUMAYO|           2338543.5|
|           BOLIVAR|  2290376.1000000006|
|         ANTIOQUIA|            605531.7|
|      CUNDINAMARCA|  357923.39999999997|
|            NARIÑO|            166167.3|
|             CAUCA|               142.5|
+------------------+--------------

In [0]:
AvgGasProductionRate = (df.agg(F.avg(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.Septiembre+df.Octubre+df.Noviembre+df.Diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasavgRate")
.orderBy(col("GasavgRate").desc()))

In [0]:
AvgGasProductionRate = AvgGasProductionRate.withColumn("GasavgRate", AvgGasProductionRate.GasavgRate*(348*1000)/12)

In [0]:
AvgGasProductionRate.show()

+------------------+
|        GasavgRate|
+------------------+
|1932478.4258333326|
+------------------+



In [0]:
AvgGasProductionRatePerDept = (df.groupBy("Departamento")
.agg(F.avg(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.Septiembre+df.Octubre+df.Noviembre+df.Diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasavgRatePerDept")
.orderBy(col("GasavgRatePerDept").desc()))

In [0]:
AvgGasProductionRatePerDept = AvgGasProductionRatePerDept.withColumn("GasavgRatePerDept", AvgGasProductionRatePerDept.GasavgRatePerDept/8)

In [0]:
AvgGasProductionRatePerDept.show(5)

+------------+------------------+
|Departamento| GasavgRatePerDept|
+------------+------------------+
|     GUAJIRA|         40.110982|
|    CASANARE|24.398272926470593|
|   ATLANTICO|        17.8515575|
|       SUCRE|13.298762980769233|
|     CORDOBA| 8.773286397058822|
+------------+------------------+
only showing top 5 rows



In [0]:
display(totalGasProductionperDept)

Departamento,GasTotalsperDept
CASANARE,497724767.70000017
GUAJIRA,48133178.400000006
SUCRE,41492140.50000001
CORDOBA,35795008.5
SANTANDER,13944830.399999997
NORTE DE SANTANDER,13458158.1
ATLANTICO,8568747.6
CESAR,6300980.4
META,5207997.9
HUILA,4753733.999999999


In [0]:
# Podemos observar que los departamentos con mayor produccion de Gas en 2021 son Casanare de lejos, Guajira, Cordoba y Sucre.

In [0]:
# Podemos hacer el mismo analisis para el petroleo en 2021.

In [0]:
# File location and type
file_location = "/FileStore/tables/Producci_n_Fiscalizada_de_Petr_leo_2020.csv"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df1 = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df1)

Departamento,Municipio,Latitud,Longitud,Geolocalizacion,Operadora,Contrato,Campo,enero,febrero,marzo,abril,mayo,junio,julio,agosto,septiembre,octubre,noviembre,diciembre
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),ECOPETROL S.A.,TECA COCORNA,AREA TECA-COCORNA,1765.84,1689.32,1826.93,1537.57,1238.72,1049.21,975.58,949.0,943.07,1276.13,1327.46,1256.37
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),MANSAROVAR ENERGY COLOMBIA LTD,NARE,NARE SUR,187.33,184.97,173.58,191.32,193.94,166.74,168.84,152.02,147.4,155.1,140.81,122.48
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),MANSAROVAR ENERGY COLOMBIA LTD,NARE,UNDERRIVER,645.83,625.85,632.27,662.28,569.9,443.57,545.7,523.7,448.83,522.13,502.12,466.15
ANTIOQUIA,PUERTO TRIUNFO,5.954830151,-74.6861918,POINT (-74.6861918 5.954830151),ECOPETROL S.A.,TECA COCORNA,AREA TECA-COCORNA,119.7,118.32,81.96,0.0,0.0,0.0,14.05,104.08,94.44,76.66,76.14,74.72
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO-CASABE,CASABE,11636.58,11584.22,11488.16,10711.52,9483.4,9402.73,9599.38,9527.73,9991.97,10483.05,10633.2,10530.89
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO-CASABE,CASABE SUR,1852.6,1763.47,1831.5,1838.38,1539.16,1541.67,1573.16,1514.94,1638.69,1639.14,1663.82,1558.06
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO-CASABE,PEÑAS BLANCAS,1191.87,1119.56,1092.48,1108.8,1039.93,1057.1,1055.03,952.72,967.7,939.22,879.44,993.63
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),SIERRACOL ENERGY ARAUCA LLC,CRAVO NORTE,CAÑO LIMÓN,20370.23,20604.03,20788.68,20137.07,20283.84,20238.3,20358.06,20210.37,19326.15,19432.16,19731.48,20225.02
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),SIERRACOL ENERGY ARAUCA LLC,CRAVO NORTE,CAÑO YARUMAL,3080.65,3717.21,3536.77,2438.2,2648.68,3094.5,2918.32,2936.71,2779.71,2708.99,2637.9,2612.22
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),SIERRACOL ENERGY ARAUCA LLC,CHIPIRÓN,CHIPIRÓN,5400.06,5165.76,4893.0,4472.57,5042.42,731.4,4991.26,674.95,4718.89,4391.52,4304.02,4175.77


In [0]:
df1.printSchema()

root
 |-- Departamento: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Latitud: double (nullable = true)
 |-- Longitud: double (nullable = true)
 |-- Geolocalizacion: string (nullable = true)
 |-- Operadora: string (nullable = true)
 |-- Contrato: string (nullable = true)
 |-- Campo: string (nullable = true)
 |-- enero: double (nullable = true)
 |-- febrero: double (nullable = true)
 |-- marzo: double (nullable = true)
 |-- abril: double (nullable = true)
 |-- mayo: double (nullable = true)
 |-- junio: double (nullable = true)
 |-- julio: double (nullable = true)
 |-- agosto: double (nullable = true)
 |-- septiembre: double (nullable = true)
 |-- octubre: double (nullable = true)
 |-- noviembre: double (nullable = true)
 |-- diciembre: double (nullable = true)



In [0]:
totalOilProduction = (df1.agg(F.sum(df1.enero+df1.febrero+df1.marzo+df1.abril+df1.mayo+df1.junio+df1.julio+df1.agosto+df1.septiembre+df1.octubre+df1.noviembre+df1.diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilTotals"))

In [0]:
totalOilProduction = totalOilProduction.withColumn("OilTotals", totalOilProduction.OilTotals*30)

In [0]:
totalOilProduction.show()

+-------------------+
|          OilTotals|
+-------------------+
|2.812930019999999E8|
+-------------------+



In [0]:
totalOilProductionPerDept = (df1.groupBy("Departamento")
.agg(F.sum(df1.enero+df1.febrero+df1.marzo+df1.abril+df1.mayo+df1.junio+df1.julio+df1.agosto+df1.septiembre+df1.octubre+df1.noviembre+df1.diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilTotalsPerDept")
.orderBy(col("OilTotalsPerDept").desc()))

In [0]:
totalOilProductionPerDept = totalOilProductionPerDept.withColumn("OilTotalsPerDept", totalOilProductionPerDept.OilTotalsPerDept*30)

In [0]:
totalOilProductionPerDept.show(5)

+------------+--------------------+
|Departamento|    OilTotalsPerDept|
+------------+--------------------+
|        META|1.4378483099999997E8|
|    CASANARE|        5.00569302E7|
|      ARAUCA|2.0624205599999998E7|
|   SANTANDER|        1.85219325E7|
|      BOYACA|        1.03927167E7|
+------------+--------------------+
only showing top 5 rows



In [0]:
AvgOilProductionRate = (df1.agg(F.avg(df1.enero+df1.febrero+df1.marzo+df1.abril+df1.mayo+df1.junio+df1.julio+df1.agosto+df1.septiembre+df1.octubre+df1.noviembre+df1.diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilavgRate"))

In [0]:
AvgOilProductionRate = AvgOilProductionRate.withColumn("OilavgRate", AvgOilProductionRate.OilavgRate*445/12)

In [0]:
AvgOilProductionRate.show()

+-----------------+
|       OilavgRate|
+-----------------+
|781369.4499999997|
+-----------------+



In [0]:
AvgOilProductionRatePerDept = (df1.groupBy("Departamento")
.agg(F.avg(df1.enero+df1.febrero+df1.marzo+df1.abril+df1.mayo+df1.junio+df1.julio+df1.agosto+df1.septiembre+df1.octubre+df1.noviembre+df1.diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilavgRatePerDept")
.orderBy(col("OilavgRatePerDept").desc()))

In [0]:
AvgOilProductionRatePerDept = AvgOilProductionRatePerDept.withColumn("OilavgRatePerDept", AvgOilProductionRatePerDept.OilavgRatePerDept/12)

In [0]:
AvgOilProductionRatePerDept.show(5)

+------------+------------------+
|Departamento| OilavgRatePerDept|
+------------+------------------+
|        META| 5187.042965367965|
|     BOLIVAR| 4049.881666666666|
|      BOYACA| 2405.721458333333|
|      ARAUCA| 2387.060833333333|
|   ANTIOQUIA|2173.7265476190473|
+------------+------------------+
only showing top 5 rows



In [0]:
display(totalOilProductionPerDept)

Departamento,OilTotalsPerDept
META,143784830.99999997
CASANARE,50056930.2
ARAUCA,20624205.6
SANTANDER,18521932.5
BOYACA,10392716.7
HUILA,8297508.9
PUTUMAYO,7103457.6
BOLIVAR,5831829.6
ANTIOQUIA,5477790.9
CESAR,5426596.200000001
