## Este notebook explora los datos de produccion de Oil & Gas en Colombia en 2018.

Este notebook hace un analisis descriptivo, explorando los datos de produccion de Oil & Gas de 2018 recopilados de .https://datos.gov.co/. El notebook resuelve las siguientes preguntas basicas, para conocer mas del sector de hidrocarburos en Colombia.

- Cuales departamentos producen mas crudo y gas?

- Cual fue el promedio de produccion de los ultimos 5 yrs de crudo y gas?

This notebook is written in **Python** so the default cell type is Python. However, you can use different languages by using the `%LANGUAGE` syntax. Python, Scala, SQL, and R are all supported.

In [0]:
# ------------------- Cuales son los departamentos 'petroleros' y 'Gasiferos' por excelencia en Colombia? ----------------------------------------------#

In [0]:
# Analizamos la produccion de Gas Total & promedio en 2018

In [0]:
# File location and type
file_location = "/FileStore/tables/Producci_n_Fiscalizada_de_Gas_2018.csv"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

Departamento,Municipio,Latitud,Longitud,Geolocalizacion,Operadora,Contrato,Campo,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),ECOPETROL S.A.,OPERACION-DIRECTA ECOPETROL,AREA TECA-COCORNA,0.18,0.17,0.16,0.17,0.19,0.18,0.19,0.2,0.19,0.18,0.2,0.22
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),MANSAROVAR ENERGY COLOMBIA LTD,NARE,NARE SUR,0.02,0.03,0.03,0.03,0.03,0.03,0.03,0.04,0.04,0.03,0.03,0.02
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),MANSAROVAR ENERGY COLOMBIA LTD,NARE,UNDERRIVER,0.1,0.11,0.12,0.12,0.12,0.12,0.14,0.13,0.12,0.11,0.12,0.1
ANTIOQUIA,PUERTO TRIUNFO,5.954830151,-74.6861918,POINT (-74.6861918 5.954830151),ECOPETROL S.A.,OPERACION-DIRECTA ECOPETROL,AREA TECA-COCORNA,0.11,0.1,0.1,0.11,0.11,0.1,0.1,0.1,0.1,0.09,0.09,0.08
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO,CASABE,0.68,0.79,0.78,0.63,0.68,0.6,0.53,0.59,0.6,0.59,0.58,0.54
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO,CASABE SUR,0.67,0.7,0.81,0.87,0.88,0.87,0.8,0.88,0.9,0.9,0.76,0.7
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO,PEÑAS BLANCAS,0.29,0.29,0.31,0.35,0.29,0.32,0.35,0.34,0.36,0.3,0.25,0.24
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),OCCIDENTAL DE COLOMBIA LLC,CHIPIRÓN,CHIPIRÓN,0.27,0.27,0.27,0.32,0.3,0.36,0.37,0.41,0.38,0.34,0.36,0.45
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),OCCIDENTAL DE COLOMBIA LLC,CHIPIRÓN,GALEMBO,0.01,0.01,0.01,0.01,0.01,0.01,0.01,0.01,0.0,0.0,0.0,0.01
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),OCCIDENTAL DE COLOMBIA LLC,CHIPIRÓN,MACANA,0.01,0.01,0.01,0.01,0.01,0.02,0.01,0.01,0.01,0.01,0.01,0.01


In [0]:
df.printSchema()

root
 |-- Departamento: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Latitud: double (nullable = true)
 |-- Longitud: double (nullable = true)
 |-- Geolocalizacion: string (nullable = true)
 |-- Operadora: string (nullable = true)
 |-- Contrato: string (nullable = true)
 |-- Campo: string (nullable = true)
 |-- Enero: double (nullable = true)
 |-- Febrero: double (nullable = true)
 |-- Marzo: double (nullable = true)
 |-- Abril: double (nullable = true)
 |-- Mayo: double (nullable = true)
 |-- Junio: double (nullable = true)
 |-- Julio: double (nullable = true)
 |-- Agosto: double (nullable = true)
 |-- Septiembre: double (nullable = true)
 |-- Octubre: double (nullable = true)
 |-- Noviembre: double (nullable = true)
 |-- Diciembre: double (nullable = true)



In [0]:
from pyspark.sql.functions import *
from pyspark.sql import functions as F
totalGasProduction = (df.agg(F.sum(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.Septiembre+df.Octubre+df.Noviembre+df.Diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasTotals"))

In [0]:
totalGasProduction = totalGasProduction.withColumn("GasTotals", totalGasProduction.GasTotals*30*1000)

In [0]:
totalGasProduction.show()

+-------------------+
|          GasTotals|
+-------------------+
|8.109041999999993E8|
+-------------------+



In [0]:
totalGasProductionperDept = (df.groupBy("Departamento")
.agg(F.sum(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.Septiembre+df.Octubre+df.Noviembre+df.Diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))","GasTotalsperDept")
.orderBy(col("GasTotalsperDept").desc()))

In [0]:
totalGasProductionperDept = totalGasProductionperDept.withColumn("GasTotalsperDept", totalGasProductionperDept.GasTotalsperDept*30*1000)

In [0]:
totalGasProductionperDept.show(5)

+------------------+--------------------+
|      Departamento|    GasTotalsperDept|
+------------------+--------------------+
|          CASANARE| 5.863328999999999E8|
|           GUAJIRA| 8.579160000000001E7|
|             SUCRE|           3.05634E7|
|           CORDOBA|2.9690700000000004E7|
|         SANTANDER|           1.66272E7|
|   DEPARTAMENTO NN|           1.40694E7|
|             CESAR|   6816900.000000001|
|              META|           6371400.0|
|            BOYACA|           6190500.0|
|             HUILA|           5259300.0|
|         MAGDALENA|           4649100.0|
|          PUTUMAYO|   4434900.000000002|
|            TOLIMA|   3601800.000000001|
|         ATLANTICO|           3111600.0|
|            ARAUCA|  1871100.0000000002|
|NORTE DE SANTANDER|           1837500.0|
|           BOLIVAR|           1761300.0|
|         ANTIOQUIA|   786300.0000000001|
|            NARIÑO|            570600.0|
|      CUNDINAMARCA|            566700.0|
+------------------+--------------

In [0]:
AvgGasProductionRate = (df.agg(F.avg(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.Septiembre+df.Octubre+df.Noviembre+df.Diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasavgRate"))

In [0]:
AvgGasProductionRate = AvgGasProductionRate.withColumn("GasavgRate", AvgGasProductionRate.GasavgRate*(335*1000)/12)

In [0]:
AvgGasProductionRate.show()

+------------------+
|        GasavgRate|
+------------------+
|2252511.6666666646|
+------------------+



In [0]:
AvgGasProductionRatePerDept = (df.groupBy("Departamento")
.agg(F.avg(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.Septiembre+df.Octubre+df.Noviembre+df.Diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasavgRatePerDept")
.orderBy(col("GasavgRatePerDept").desc()))

In [0]:
AvgGasProductionRatePerDept = AvgGasProductionRatePerDept.withColumn("GasavgRatePerDept", AvgGasProductionRatePerDept.GasavgRatePerDept/8)

In [0]:
AvgGasProductionRatePerDept.show(5)

+---------------+------------------+
|   Departamento| GasavgRatePerDept|
+---------------+------------------+
|        GUAJIRA|119.15500000000003|
|DEPARTAMENTO NN|58.622499999999995|
|       CASANARE| 29.08397321428571|
|          SUCRE|11.577045454545456|
|        CORDOBA| 9.516250000000001|
+---------------+------------------+
only showing top 5 rows



In [0]:
display(totalGasProductionperDept)

Departamento,GasTotalsperDept
CASANARE,586332899.9999999
GUAJIRA,85791600.00000001
SUCRE,30563400.0
CORDOBA,29690700.000000004
SANTANDER,16627200.0
DEPARTAMENTO NN,14069400.0
CESAR,6816900.000000001
META,6371400.0
BOYACA,6190500.0
HUILA,5259300.0


In [0]:
# Podemos hacer el mismo analisis para el petroleo en 2018.

In [0]:
# File location and type
file_location = "/FileStore/tables/Producci_n_Fiscalizada_de_Petr_leo_2018.csv"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df1 = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df1)

Departamento,Municipio,Latitud,Longitud,Geolocalizacion,Operadora,Contrato,Campo,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),ECOPETROL S.A.,OPERACION-DIRECTA ECOPETROL,AREA TECA-COCORNA,1291,1232,1147,1183,1265,1202,1276,1327,1404,1219,1334,1374
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),MANSAROVAR ENERGY COLOMBIA LTD,NARE,NARE SUR,219,296,253,269,199,201,217,232,232,220,221,207
ANTIOQUIA,PUERTO NARE,6.126539139,-74.70317722,POINT (-74.70317722 6.126539139),MANSAROVAR ENERGY COLOMBIA LTD,NARE,UNDERRIVER,800,880,849,803,893,834,716,764,841,718,703,705
ANTIOQUIA,PUERTO TRIUNFO,5.954830151,-74.6861918,POINT (-74.6861918 5.954830151),ECOPETROL S.A.,OPERACION-DIRECTA ECOPETROL,AREA TECA-COCORNA,289,274,285,303,313,291,283,287,167,278,276,226
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO,CASABE,11363,10968,10281,10223,10178,11257,10669,10729,11066,10799,10509,10602
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO,CASABE SUR,2134,2017,2125,2116,1976,2110,2117,2058,2009,2063,2014,1942
ANTIOQUIA,YONDO,6.925159318,-74.15824041,POINT (-74.15824041 6.925159318),ECOPETROL S.A.,MAGDALENA MEDIO,PEÑAS BLANCAS,1008,976,1071,1108,1060,1067,1187,1189,1075,1042,1146,1096
ANTIOQUIA,SONSÓN,5.826388779,-74.83637623,POINT (-74.83637623 5.826388779),INGENIERIA CONSTRUCCIONES Y EQUIPOS CONEQUIPOS ING S.A.S.,VMM 12,WOLF,0,0,0,0,0,0,0,0,0,0,0,0
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),OCCIDENTAL DE COLOMBIA LLC,CHIPIRÓN,CHIPIRÓN,8583,8856,8665,8558,8225,8053,8151,8141,7974,7692,7855,7919
ARAUCA,ARAUCA,6.796280825,-70.50921153,POINT (-70.50921153 6.796280825),OCCIDENTAL DE COLOMBIA LLC,CHIPIRÓN,GALEMBO,218,263,229,201,175,173,165,121,96,105,106,134


In [0]:
df1.printSchema()

root
 |-- Departamento: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Latitud: double (nullable = true)
 |-- Longitud: double (nullable = true)
 |-- Geolocalizacion: string (nullable = true)
 |-- Operadora: string (nullable = true)
 |-- Contrato: string (nullable = true)
 |-- Campo: string (nullable = true)
 |-- Enero: integer (nullable = true)
 |-- Febrero: integer (nullable = true)
 |-- Marzo: integer (nullable = true)
 |-- Abril: integer (nullable = true)
 |-- Mayo: integer (nullable = true)
 |-- Junio: integer (nullable = true)
 |-- Julio: integer (nullable = true)
 |-- Agosto: integer (nullable = true)
 |-- Septiembre: integer (nullable = true)
 |-- Octubre: integer (nullable = true)
 |-- Noviembre: integer (nullable = true)
 |-- Diciembre: integer (nullable = true)



In [0]:
totalOilProduction = (df1.agg(F.sum(df1.Enero+df1.Febrero+df1.Marzo+df1.Abril+df1.Mayo+df1.Junio+df1.Julio+df1.Agosto+df1.Septiembre+df1.Octubre+df1.Noviembre+df1.Diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilTotals"))

In [0]:
totalOilProduction = totalOilProduction.withColumn("OilTotals", totalOilProduction.OilTotals*30)

In [0]:
totalOilProduction.show()

+---------+
|OilTotals|
+---------+
|311469270|
+---------+



In [0]:
totalOilProductionPerDept = (df1.groupBy("Departamento")
.agg(F.sum(df1.Enero+df1.Febrero+df1.Marzo+df1.Abril+df1.Mayo+df1.Junio+df1.Julio+df1.Agosto+df1.Septiembre+df1.Octubre+df1.Noviembre+df1.Diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilTotalsPerDept")
.orderBy(col("OilTotalsPerDept").desc()))

In [0]:
totalOilProductionPerDept = totalOilProductionPerDept.withColumn("OilTotalsPerDept", totalOilProductionPerDept.OilTotalsPerDept*30)

In [0]:
totalOilProductionPerDept.show(5)

+------------+----------------+
|Departamento|OilTotalsPerDept|
+------------+----------------+
|        META|       151730550|
|    CASANARE|        61239240|
|   SANTANDER|        23035110|
|      ARAUCA|        17208120|
|      BOYACA|        12251940|
+------------+----------------+
only showing top 5 rows



In [0]:
AvgOilProductionRate = (df1.agg(F.avg(df1.Enero+df1.Febrero+df1.Marzo+df1.Abril+df1.Mayo+df1.Junio+df1.Julio+df1.Agosto+df1.Septiembre+df1.Octubre+df1.Noviembre+df1.Diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilavgRate"))

In [0]:
AvgOilProductionRate = AvgOilProductionRate.withColumn("OilavgRate", AvgOilProductionRate.OilavgRate*469/12)

In [0]:
AvgOilProductionRate.show()

+-----------------+
|       OilavgRate|
+-----------------+
|865192.4166666666|
+-----------------+



In [0]:
AvgOilProductionRatePerDept = (df1.groupBy("Departamento")
.agg(F.avg(df1.Enero+df1.Febrero+df1.Marzo+df1.Abril+df1.Mayo+df1.Junio+df1.Julio+df1.Agosto+df1.Septiembre+df1.Octubre+df1.Noviembre+df1.Diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilavgRatePerDept")
.orderBy(col("OilavgRatePerDept").desc()))

In [0]:
AvgOilProductionRatePerDept = AvgOilProductionRatePerDept.withColumn("OilavgRatePerDept", AvgOilProductionRatePerDept.OilavgRatePerDept/12)

In [0]:
AvgOilProductionRatePerDept.show(5)

+------------+------------------+
|Departamento| OilavgRatePerDept|
+------------+------------------+
|        META|       5268.421875|
|      BOYACA|2617.9358974358975|
|   ANTIOQUIA|          2053.625|
|   SANTANDER| 1881.953431372549|
|      ARAUCA|1838.4743589743591|
+------------+------------------+
only showing top 5 rows



In [0]:
display(totalOilProductionPerDept)

Departamento,OilTotalsPerDept
META,151730550
CASANARE,61239240
SANTANDER,23035110
ARAUCA,17208120
BOYACA,12251940
PUTUMAYO,11961480
HUILA,8686050
CESAR,8261100
ANTIOQUIA,5914440
TOLIMA,5345400
