# Pandas for data cleaning and analysis
Lo primero es importar las librerías pandas y numpy


In [None]:
import pandas as pd
import numpy as np

Luego hay que leer los datos del archivo BIP_pozos.csv. Para eso usamos pd.read_csv("ubicacion_del_archivo/nombre_del_archivo.csv")
      (para otros formatos ver https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html):

In [None]:
df=pd.read_csv("BIP_pozos.csv")

df es ahora un DataFrame de Pandas con lo datos del archivo "BIP_pozos.csv"

Para ver que columnas hay, cuantas filas hay y qué tipos de datos contienen

In [None]:

df.info()

Algo que uno a veces necesita saber es cuántos valores únicos o diferentes hay para una columna

In [None]:
df.nunique()

Para ver las llaves (keys) de las columnas

In [None]:
df.keys()

Uno puede seleccionar columnas así

In [None]:
df["DEPARTAMEN"]

y puede seleccionar varias columnas así

In [None]:
df[["DEPARTAMEN", "WELL_DRILL"]]

Para excluir una columna de un DataFrame

antes

In [None]:
df.keys()

eliminar columna

In [None]:
df=df.drop(["WELL_ALIAS"], axis=1) #o df.drop(["WELL_ALIAS"], axis=1, inplace=True)

In [None]:
df.keys()

para acceder a filas específicas

In [None]:
df.iloc[100:111]

Para acceder/seleccionar de manera condicional

In [None]:
df[df['DEPARTAMEN'] == 'META']

Y todo lo anterior se puede combinar




In [None]:
df[["DEPARTAMEN", "WELL_DRILL"]][df['DEPARTAMEN'] == 'META'].iloc[100:111]

In [None]:
df.describe()

In [None]:
"""
df.max()
df.min()
df.mean()
df.median()
df.count()
df.std()
"""

In [None]:
df["DEPARTAMEN"].value_counts()

A lo que vinimos: limpieza de datos

Problemas usuales: valores nulos, datos vacios, datos incorrectos.

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

Repitamos lo mismo para un pedazo del DataFrame y así poder "ver" qué pasa

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111]

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].isnull()

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].isnull().sum()

**Qué hacer cuando faltan datos??**

**Esa es la gran pregunta...**

Opción 1: quitar las filas que tengan datos faltantes

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].dropna()

Opción 2: quitar las columnas que tengan datos faltantes

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].dropna(axis=1)

Opción 3: remplazar datos faltantes

In [None]:
df[["FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].fillna(df["FORMACION1"].iloc[444])

In [None]:
df[["FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].fillna("no me importa")

##**Agrupaciones

In [None]:
df.groupby('DEPARTAMEN')["WELL_TVD"].mean()

In [None]:
#df.groupby('DEPARTAMEN')["WELL_TVD"].max()

In [None]:
#df.groupby('DEPARTAMEN')["WELL_TVD"].sum()
df.keys()

In [None]:
df.groupby(['DEPARTAMEN', 'WELL_COUNT'])["WELL_TVD"].mean()

## Aplicar una función a los datos de una columna

### Ejemplo1

In [None]:
df["WELL_TVD_+1000000"] = df["WELL_TVD"].apply(lambda x: x+1000000)

In [None]:
df[["WELL_TVD_+1000000", "WELL_TVD" ]]

### Ejemplo 2 

In [None]:
#defino una funcion, por ejemplo para corregir los errores en los nombre de los deptos:

In [None]:
#primero miro 
df.groupby('DEPARTAMEN')["WELL_TVD"].count()

In [None]:
# defino la funcion para corregir los nombres:
def corregir_nombres(w):
  if("ASANAR" in w):
    return "CASANARE"
  elif("NTICO" in w and "OFFSHORE" not in w):
    return "ATLANTICO"
  if("BOL" in w):
    return "BOLIVAR"
  if("BOYA" in w):
    return "BOYACA"
  if("COR" in w):
    return "CORDOBA"
  if("DOBA" in w):
    return "CORDOBA"
  else:
    return w


el error que sigue quedó de intento: la idea es que hay que saber también entender los errores

In [None]:
df["DEPARTAMEN NOMBRE CORREGIDO"] = df["DEPARTAMEN"].apply(lambda x: corregir_nombres(str(x)))

In [None]:
df["DEPARTAMEN"]=df["DEPARTAMEN"].astype("str")

In [None]:
df["DEPARTAMEN NOMBRE CORREGIDO"] = df["DEPARTAMEN"].apply(lambda x: corregir_nombres(x))

In [None]:
df.keys()

In [None]:
df.groupby(['DEPARTAMEN', "DEPARTAMEN NOMBRE CORREGIDO"])["WELL_TVD"].count()

Operaciones sobre cols

In [None]:
df["suma"] = df["WELL_TVD"]+df["WELL_X_DEP"]

In [None]:
df[["WELL_TVD", "WELL_X_DEP", "suma"]]

## Otras cosas útiles

### concatenar bases de datos

agregar filas (ojo: ambos DataFrames tienen que tener las mismas columnas!!)

In [None]:
first_5 = df.head()
last_5 = df[178:]
combined = pd.concat([first_5,last_5], axis = 0)

### agregar columnas

In [None]:
df.keys()

In [None]:
df2= df[[]]