## Este notebook explora los datos de produccion de Oil & Gas en Colombia en 2017.

Este notebook hace un analisis descriptivo, explorando los datos de produccion de Oil & Gas de 2017 recopilados de .https://datos.gov.co/. El notebook resuelve las siguientes preguntas basicas, para conocer mas del sector de hidrocarburos en Colombia.

- Cuales departamentos producen mas crudo y gas?

- Cual fue el promedio de produccion de los ultimos 5 yrs de crudo y gas?

This notebook is written in **Python** so the default cell type is Python. However, you can use different languages by using the `%LANGUAGE` syntax. Python, Scala, SQL, and R are all supported.

In [0]:
# ------------------- Cuales son los departamentos 'petroleros' y 'Gasiferos' por excelencia en Colombia? ----------------------------------------------#

In [0]:
# Analizamos la produccion de Gas Total & promedio en 2017

In [0]:
# File location and type
file_location = "/FileStore/tables/Producci_n_Fiscalizada_de_Gas_2017.csv"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df)

Departamento,Municipio,Operadora,Campo,Contrato,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,SEPTIEMBRE,OCTUBRE,NOVIEMBRE,DICIEMBRE
TOLIMA,ESPINAL,PACIFIC STRATUS ENERGY COLOMBIA CORP,ABANICO,ABANICO,0.0,0.0,0.0,0.0,0.0,0.169,0.158,0.0,0.0,0.0,0.0,0.0
TOLIMA,ESPINAL,PACIFIC STRATUS ENERGY COLOMBIA CORP,ABANICO,ABANICO,0.137,0.17,0.169,0.136,0.159,0.0,0.0,0.155,0.158,0.163,0.193,0.14
BOYACA,PUERTO BOYACA,MANSAROVAR ENERGY COLOMBIA LTD,ABARCO,NARE,0.139,0.157,0.197,0.184,0.201,0.2,0.209,0.198,0.177,0.166,0.176,0.182
PUTUMAYO,SAN MIGUEL,ECOPETROL S.A.,ACAE SAN MIGUEL,ORITO,0.287,0.296,0.308,0.209,0.229,0.0,0.0,0.0,0.0,0.0,0.0,0.0
PUTUMAYO,SAN MIGUEL,ECOPETROL S.A.,ACAE SAN MIGUEL,ORITO,0.0,0.0,0.0,0.0,0.0,0.216,0.258,0.312,0.284,0.309,0.309,0.283
CESAR,SAN MARTÍN,GRAN TIERRA ENERGY COLOMBIA LTD,ACORDIONERO,MIDAS,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.283,2.56,2.696,3.303,4.615
CESAR,SAN MARTÍN,PETROLEOS DEL NORTE S.A,ACORDIONERO,MIDAS,0.792,0.878,0.874,1.187,1.217,0.0,0.0,0.0,0.0,0.0,0.0,0.0
CESAR,SAN MARTÍN,UNION TEMPORAL MIDAS,ACORDIONERO,MIDAS,0.0,0.0,0.0,0.0,0.0,1.479,1.717,0.0,0.0,0.0,0.0,0.0
CASANARE,SAN LUIS DE PALENQUE,PAREX RESOURCES COLOMBIA LTD. SUCURSAL,ADALIA,LLA 30,0.011,0.011,0.011,0.011,0.011,0.011,0.012,0.012,0.011,0.011,0.013,0.014
SANTANDER,SIMACOTA,ECOPETROL S.A.,AGUAS BLANCAS,DE MARES,0.905,1.15,0.0,0.0,0.002,0.293,0.39,0.277,0.214,0.54,0.243,0.213


In [0]:
df.printSchema()

root
 |-- Departamento: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Operadora: string (nullable = true)
 |-- Campo: string (nullable = true)
 |-- Contrato: string (nullable = true)
 |-- Enero: double (nullable = true)
 |-- Febrero: double (nullable = true)
 |-- Marzo: double (nullable = true)
 |-- Abril: double (nullable = true)
 |-- Mayo: double (nullable = true)
 |-- Junio: double (nullable = true)
 |-- Julio: double (nullable = true)
 |-- Agosto: double (nullable = true)
 |-- SEPTIEMBRE: double (nullable = true)
 |-- OCTUBRE: double (nullable = true)
 |-- NOVIEMBRE: double (nullable = true)
 |-- DICIEMBRE: double (nullable = true)



In [0]:
from pyspark.sql.functions import *
from pyspark.sql import functions as F
totalGasProduction = (df.agg(F.sum(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.SEPTIEMBRE+df.OCTUBRE+df.NOVIEMBRE+df.DICIEMBRE))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasTotals"))

In [0]:
totalGasProduction = totalGasProduction.withColumn("GasTotals", totalGasProduction.GasTotals*30*1000)

In [0]:
totalGasProduction.show()

+-------------------+
|          GasTotals|
+-------------------+
|8.346251100000004E8|
+-------------------+



In [0]:
totalGasProductionperDept = (df.groupBy("Departamento")
.agg(F.sum(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.SEPTIEMBRE+df.OCTUBRE+df.NOVIEMBRE+df.DICIEMBRE))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))","GasTotalsperDept")
.orderBy(col("GasTotalsperDept").desc()))

In [0]:
totalGasProductionperDept = totalGasProductionperDept.withColumn("GasTotalsperDept", totalGasProductionperDept.GasTotalsperDept*30*1000)

In [0]:
totalGasProductionperDept.show(5)

+------------+--------------------+
|Departamento|    GasTotalsperDept|
+------------+--------------------+
|    CASANARE| 6.004339800000001E8|
|     GUAJIRA|         1.0057674E8|
|       SUCRE|2.7047400000000004E7|
|     CORDOBA|           2.29218E7|
|   SANTANDER|          1.805286E7|
+------------+--------------------+
only showing top 5 rows



In [0]:
AvgGasProductionRate = (df.agg(F.avg(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.SEPTIEMBRE+df.OCTUBRE+df.NOVIEMBRE+df.DICIEMBRE))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasavgRate"))

In [0]:
AvgGasProductionRate = AvgGasProductionRate.withColumn("GasavgRate", AvgGasProductionRate.GasavgRate*(376*1000)/12)

In [0]:
AvgGasProductionRate.show()

+------------------+
|        GasavgRate|
+------------------+
|2318403.0833333344|
+------------------+



In [0]:
AvgGasProductionRatePerDept = (df.groupBy("Departamento")
.agg(F.avg(df.Enero+df.Febrero+df.Marzo+df.Abril+df.Mayo+df.Junio+df.Julio+df.Agosto+df.SEPTIEMBRE+df.OCTUBRE+df.NOVIEMBRE+df.DICIEMBRE))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "GasavgRatePerDept")
.orderBy(col("GasavgRatePerDept").desc()))

In [0]:
AvgGasProductionRatePerDept = AvgGasProductionRatePerDept.withColumn("GasavgRatePerDept", AvgGasProductionRatePerDept.GasavgRatePerDept/12)

In [0]:
AvgGasProductionRatePerDept.show(5)

+---------------+------------------+
|   Departamento| GasavgRatePerDept|
+---------------+------------------+
|        GUAJIRA|139.68991666666668|
|DEPARTAMENTO NN|40.711166666666664|
|       CASANARE| 17.55654912280702|
|          SUCRE| 7.513166666666668|
|        CORDOBA| 7.074629629629629|
+---------------+------------------+
only showing top 5 rows



In [0]:
display(totalGasProductionperDept)

Departamento,GasTotalsperDept
CASANARE,600433980.0000001
GUAJIRA,100576740.0
SUCRE,27047400.000000004
CORDOBA,22921800.0
SANTANDER,18052860.0
DEPARTAMENTO NN,14656020.0
META,8149320.000000002
MAGDALENA,6636780.000000001
HUILA,6292890.000000001
BOYACA,5988120.000000001


In [0]:
# Podemos hacer el mismo analisis para el petroleo en 2017.

In [0]:
# File location and type
file_location = "/FileStore/tables/Producci_n_Fiscalizada_de_Petr_leo_2017.csv"
file_type = "csv"

# CSV options
infer_schema = "true"
first_row_is_header = "true"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df1 = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .load(file_location)

display(df1)

Departamento,Municipio,Operadora,Contrato,Campo,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
ANTIOQUIA,PUERTO NARE,ECOPETROL S.A.,OPERACION-DIRECTA ECOPETROL,AREA TECA-COCORNA,1231,1109,1026,1036,1047,1122,1133,1164,1130,1078,1156,1099
ANTIOQUIA,PUERTO NARE,MANSAROVAR ENERGY COLOMBIA LTD,NARE ASOCIACION,NARE,272,257,253,233,262,216,194,162,232,244,222,209
ANTIOQUIA,PUERTO NARE,MANSAROVAR ENERGY COLOMBIA LTD,NARE ASOCIACION,UNDERRIVER,936,797,880,900,994,802,765,815,888,846,720,833
ANTIOQUIA,PUERTO TRIUNFO,ECOPETROL S.A.,OPERACION-DIRECTA ECOPETROL,AREA TECA-COCORNA,393,386,362,365,396,382,369,342,280,264,282,278
ANTIOQUIA,YONDO,ECOPETROL S.A.,CASABE,CASABE,12745,12535,12756,12720,12492,13127,12377,12084,11965,11751,11932,11634
ANTIOQUIA,YONDO,ECOPETROL S.A.,CASABE,CASABE SUR,2301,2487,2393,2268,2187,2277,2323,2274,2125,2254,2194,2123
ANTIOQUIA,YONDO,ECOPETROL S.A.,CASABE,PEÑAS BLANCAS,1437,1532,1420,1399,1391,1193,1193,1182,1190,1204,1200,1118
ARAUCA,ARAUCA,OCCIDENTAL DE COLOMBIA LLC,CHIPIRON,CHIPIRÓN,11376,13009,3673,12833,11878,11159,10682,11371,11045,10036,9120,8406
ARAUCA,ARAUCA,OCCIDENTAL DE COLOMBIA LLC,CHIPIRON,GALEMBO,5,-,54,400,297,234,215,233,262,253,38,226
ARAUCA,ARAUCA,OCCIDENTAL DE COLOMBIA LLC,CHIPIRON,MACANA,111,524,209,440,505,519,422,455,397,350,454,407


In [0]:
df1.printSchema()

root
 |-- Departamento: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Operadora: string (nullable = true)
 |-- Contrato: string (nullable = true)
 |-- Campo: string (nullable = true)
 |-- Enero: string (nullable = true)
 |-- Febrero: string (nullable = true)
 |-- Marzo: string (nullable = true)
 |-- Abril: string (nullable = true)
 |-- Mayo: string (nullable = true)
 |-- Junio: string (nullable = true)
 |-- Julio: string (nullable = true)
 |-- Agosto: string (nullable = true)
 |-- Septiembre: string (nullable = true)
 |-- Octubre: string (nullable = true)
 |-- Noviembre: string (nullable = true)
 |-- Diciembre: string (nullable = true)



In [0]:
from pyspark.sql.types import StructType,StructField, StringType, IntegerType, DoubleType

schema = StructType([ \
    StructField("Departamento",StringType(),True), \
    StructField("Municipio",StringType(),True), \
    StructField("Operadora",StringType(),True), \
    StructField("Contrato",StringType(),True), \
    StructField("Campo",StringType(),True), \
    StructField("Enero",DoubleType(),True), \
    StructField("Febrero",DoubleType(),True), \
    StructField("Marzo",DoubleType(),True), \
    StructField("Abril",DoubleType(),True), \
    StructField("Mayo",DoubleType(),True), \
    StructField("Junio",DoubleType(),True), \
    StructField("Julio",DoubleType(),True), \
    StructField("Agosto",DoubleType(),True), \
    StructField("Septiembre",DoubleType(),True), \
    StructField("Octubre",DoubleType(),True), \
    StructField("Noviembre",DoubleType(),True), \
    StructField("Diciembre",DoubleType(),True), \
  ])

# File location and type
file_location = "/FileStore/tables/Producci_n_Fiscalizada_de_Petr_leo_2017.csv"
file_type = "csv"

# CSV options
infer_schema = "false"
first_row_is_header = "true"
delimiter = ","

# The applied options are for CSV files. For other file types, these will be ignored.
df1 = spark.read.format(file_type) \
  .option("inferSchema", infer_schema) \
  .option("header", first_row_is_header) \
  .option("sep", delimiter) \
  .schema(schema)\
  .load(file_location)

display(df1)

Departamento,Municipio,Operadora,Contrato,Campo,Enero,Febrero,Marzo,Abril,Mayo,Junio,Julio,Agosto,Septiembre,Octubre,Noviembre,Diciembre
ANTIOQUIA,PUERTO NARE,ECOPETROL S.A.,OPERACION-DIRECTA ECOPETROL,AREA TECA-COCORNA,,,,,,,,,,,,
ANTIOQUIA,PUERTO NARE,MANSAROVAR ENERGY COLOMBIA LTD,NARE ASOCIACION,NARE,272.0,257.0,253.0,233.0,262.0,216.0,194.0,162.0,232.0,244.0,222.0,209.0
ANTIOQUIA,PUERTO NARE,MANSAROVAR ENERGY COLOMBIA LTD,NARE ASOCIACION,UNDERRIVER,936.0,797.0,880.0,900.0,994.0,802.0,765.0,815.0,888.0,846.0,720.0,833.0
ANTIOQUIA,PUERTO TRIUNFO,ECOPETROL S.A.,OPERACION-DIRECTA ECOPETROL,AREA TECA-COCORNA,393.0,386.0,362.0,365.0,396.0,382.0,369.0,342.0,280.0,264.0,282.0,278.0
ANTIOQUIA,YONDO,ECOPETROL S.A.,CASABE,CASABE,,,,,,,,,,,,
ANTIOQUIA,YONDO,ECOPETROL S.A.,CASABE,CASABE SUR,,,,,,,,,,,,
ANTIOQUIA,YONDO,ECOPETROL S.A.,CASABE,PEÑAS BLANCAS,,,,,,,,,,,,
ARAUCA,ARAUCA,OCCIDENTAL DE COLOMBIA LLC,CHIPIRON,CHIPIRÓN,,,,,,,,,,,,
ARAUCA,ARAUCA,OCCIDENTAL DE COLOMBIA LLC,CHIPIRON,GALEMBO,5.0,,54.0,400.0,297.0,234.0,215.0,233.0,262.0,253.0,38.0,226.0
ARAUCA,ARAUCA,OCCIDENTAL DE COLOMBIA LLC,CHIPIRON,MACANA,111.0,524.0,209.0,440.0,505.0,519.0,422.0,455.0,397.0,350.0,454.0,407.0


In [0]:
df1.printSchema()

root
 |-- Departamento: string (nullable = true)
 |-- Municipio: string (nullable = true)
 |-- Operadora: string (nullable = true)
 |-- Contrato: string (nullable = true)
 |-- Campo: string (nullable = true)
 |-- Enero: double (nullable = true)
 |-- Febrero: double (nullable = true)
 |-- Marzo: double (nullable = true)
 |-- Abril: double (nullable = true)
 |-- Mayo: double (nullable = true)
 |-- Junio: double (nullable = true)
 |-- Julio: double (nullable = true)
 |-- Agosto: double (nullable = true)
 |-- Septiembre: double (nullable = true)
 |-- Octubre: double (nullable = true)
 |-- Noviembre: double (nullable = true)
 |-- Diciembre: double (nullable = true)



In [0]:
totalOilProduction = (df1.agg(F.sum(df1.Enero+df1.Febrero+df1.Marzo+df1.Abril+df1.Mayo+df1.Junio+df1.Julio+df1.Agosto+df1.Septiembre+df1.Octubre+df1.Noviembre+df1.Diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilTotals"))

In [0]:
totalOilProduction = totalOilProduction.withColumn("OilTotals", totalOilProduction.OilTotals*30)

In [0]:
totalOilProduction.show()

+----------+
| OilTotals|
+----------+
|1.936731E7|
+----------+



In [0]:
totalOilProductionPerDept = (df1.groupBy("Departamento")
.agg(F.sum(df1.Enero+df1.Febrero+df1.Marzo+df1.Abril+df1.Mayo+df1.Junio+df1.Julio+df1.Agosto+df1.Septiembre+df1.Octubre+df1.Noviembre+df1.Diciembre))
.withColumnRenamed("sum((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilTotalsPerDept")
.orderBy(col("OilTotalsPerDept").desc()))

In [0]:
totalOilProductionPerDept = totalOilProductionPerDept.withColumn("OilTotalsPerDept", totalOilProductionPerDept.OilTotalsPerDept*30)

In [0]:
totalOilProductionPerDept.show(5)

+------------+----------------+
|Departamento|OilTotalsPerDept|
+------------+----------------+
|    CASANARE|       9016020.0|
|        META|       2511210.0|
|       HUILA|       1388220.0|
|    PUTUMAYO|       1349280.0|
|   SANTANDER|       1090560.0|
+------------+----------------+
only showing top 5 rows



In [0]:
AvgOilProductionRate = (df1.agg(F.avg(df1.Enero+df1.Febrero+df1.Marzo+df1.Abril+df1.Mayo+df1.Junio+df1.Julio+df1.Agosto+df1.Septiembre+df1.Octubre+df1.Noviembre+df1.Diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilavgRate"))

In [0]:
AvgOilProductionRate = AvgOilProductionRate.withColumn("OilavgRate", AvgOilProductionRate.OilavgRate*467/12)

In [0]:
AvgOilProductionRate.show()

+-----------------+
|       OilavgRate|
+-----------------+
|138042.3347069597|
+-----------------+



In [0]:
AvgOilProductionRatePerDept  = (df1.groupBy("Departamento")
.agg(F.avg(df1.Enero+df1.Febrero+df1.Marzo+df1.Abril+df1.Mayo+df1.Junio+df1.Julio+df1.Agosto+df1.Septiembre+df1.Octubre+df1.Noviembre+df1.Diciembre))
.withColumnRenamed("avg((((((((((((Enero + Febrero) + Marzo) + Abril) + Mayo) + Junio) + Julio) + Agosto) + Septiembre) + Octubre) + Noviembre) + Diciembre))", "OilavgRatePerDept")
.orderBy(col("OilavgRatePerDept").desc()))

In [0]:
AvgOilProductionRatePerDept = AvgOilProductionRatePerDept.withColumn("OilavgRatePerDept", AvgOilProductionRatePerDept.OilavgRatePerDept/12)

In [0]:
AvgOilProductionRatePerDept.show(5)

+------------+-----------------+
|Departamento|OilavgRatePerDept|
+------------+-----------------+
|       CAUCA|571.3333333333334|
|   ANTIOQUIA|473.0833333333333|
|    PUTUMAYO|416.4444444444444|
|      BOYACA|390.9444444444444|
|     BOLIVAR|355.6666666666667|
+------------+-----------------+
only showing top 5 rows



In [0]:
display(totalOilProductionPerDept)

Departamento,OilTotalsPerDept
CASANARE,9016020.0
META,2511210.0
HUILA,1388220.0
PUTUMAYO,1349280.0
SANTANDER,1090560.0
TOLIMA,1046490.0
CESAR,653700.0
ARAUCA,624660.0
ANTIOQUIA,510930.0
BOYACA,422220.0
