# Pandas for data cleaning and analysis

Pandas has two main data structures:
- **`Series`**: A one-dimensional labeled array, like a single column of data.
- **`DataFrame`**: A two-dimensional labeled data structure with columns of potentially different types, similar to a spreadsheet or SQL table.

## The Dataframe
The dataframe is the most important object inside pandas. It allows to represent, access, process, etc multi-dimensional data. 

![Pandas dataframe](https://www.w3resource.com/w3r_images/pandas-data-structure.svg)

Source: https://www.w3resource.com/python-exercises/pandas/index.php

![Pandas dataframe example](https://miro.medium.com/max/1400/1*ZSehcrMtBWN7_qCWq_HiSg.png)

Source: https://medium.com/dunder-data/selecting-subsets-of-data-in-pandas-6fcd0170be9c

You can initialize a dataframe in several ways. For example, you can use a dictionary or a nested list. Or you can read from a file, either local or online. 
For example, you can do something like

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

df = pd.DataFrame([[909976, "Sweden"],
                   [8615246, "United Kingdom"],
                   [2872086, "Italy"],
                   [2273305, "France"],
                   [344444, np.nan]])
df

In [None]:
df.dropna()

In [None]:
df.fillna("Unknown")

In [None]:
df = df.dropna()
df

In [None]:
df.index = ["Stockholm", "London", "Rome", "Paris"]
df.columns = ["Population", "State"]
df

## Pandas vs. Polars

Polars is a newer, extremely fast DataFrame library built in Rust. It's gaining popularity for its performance, especially on large datasets.

| Feature | Pandas | Polars |
|---|---|---|
| **Backend** | Python/NumPy (partially C) | Rust (built on Apache Arrow)  |
| **Performance** | Slower, especially on large data.  | Significantly faster (5-100x) due to parallelism and query optimization.  |
| **Execution Model** | Eager (executes line-by-line)  | Supports both Eager and Lazy execution (optimizes the whole query before running)  |
| **Memory Usage** | Higher memory footprint.  | More memory efficient.  |
| **API** | Very flexible, but can be inconsistent (e.g., `inplace`). | More consistent and expressive, encourages method chaining.  |
| **Ecosystem** | Mature and extensive. Integrates with almost every data science library (scikit-learn, Matplotlib, etc.). | Growing, but less integrated with the broader ML ecosystem.  |

**When to choose which?**
- **Pandas**: Excellent for data exploration, smaller datasets (up to a few GB), and projects that need deep integration with libraries like scikit-learn.
- **Polars**: Ideal for large datasets, performance-critical data transformations, and building data pipelines where speed and memory are key. 

### Polars Syntax Example

Notice the similarity, but also the use of expressions (`pl.col()`).

:::{exercise} 
Complete the demo (find a data source) and create a script with inline dependencies. 
:::

In [None]:
import polars as pl

# Same data in a Polars DataFrame
df_pl = pl.DataFrame(data)

# The same aggregation, but using the Polars expression API
polar_stats = df_pl.group_by('Experiment').agg(
    pl.col('Measurement').mean().alias('mean'),
    pl.col('Measurement').std().alias('std')
)

print(polar_stats)

## Applied pandas tutorial

En este tutorial se hará una manipulación y limpieza de datos en un archivo de pozos petroleros en Colombia. 

### Cargando y explorando los datos
Lo primero es importar las librerías pandas y numpy

In [None]:
import pandas as pd
import numpy as np

Luego hay que leer los datos del archivo BIP_pozos.csv. El archivo se encuentra en la la carpete de datos del curso. Puede descargarlo y ponerlo en esta carpeta. Para esto se usa `pd.read_csv("ubicacion_del_archivo/nombre_del_archivo.csv")` 
      (para otros formatos ver <https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html>):

In [None]:
df=pd.read_csv("BIP_pozos.csv")

df es ahora un DataFrame de Pandas con lo datos del archivo "BIP_pozos.csv"

Para ver que columnas hay, cuantas filas hay y qué tipos de datos contienen

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.head()

Algo que uno a veces necesita saber es cuántos valores únicos o diferentes hay para una columna

In [None]:
df.nunique()

Para ver las llaves (keys) de las columnas

In [None]:
df.keys()

Uno puede seleccionar columnas así

In [None]:
df["DEPARTAMEN"]

y puede seleccionar varias columnas así

In [None]:
df[["DEPARTAMEN", "WELL_DRILL"]]

Para excluir una columna de un DataFrame

In [None]:
# Estas son las columnas originales
df.keys()

y ahora eliminar la columna `WELL_ALIAS`

In [None]:
df=df.drop(["WELL_ALIAS"], axis=1) #o df.drop(["WELL_ALIAS"], axis=1, inplace=True)

In [None]:
df.keys()

para acceder a filas específicas

In [None]:
df.iloc[100:111]

Para acceder/seleccionar de manera condicional

In [None]:
df[df['DEPARTAMEN'] == 'META']

Y todo lo anterior se puede combinar




In [None]:
df[["DEPARTAMEN", "WELL_DRILL"]][df['DEPARTAMEN'] == 'META'].iloc[100:111]

In [None]:
df["DEPARTAMEN"].value_counts()

### Limpieza de datos

Problemas usuales: valores nulos, datos vacios, datos incorrectos.

In [None]:
df.isnull()

In [None]:
df.isnull().sum()

Repitamos lo mismo para un pedazo del DataFrame y así poder "ver" qué pasa

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111]

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].isnull()

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].isnull().sum()

**Qué hacer cuando faltan datos??**
- Quitar los datos faltantes (por fila o columna)
- Aproximar los datos faltantes (cómo?)

Opción 1: quitar las filas que tengan datos faltantes

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].dropna()

Opción 2: quitar las columnas que tengan datos faltantes

In [None]:
df[["DEPARTAMEN", "WELL_DRILL", "FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].dropna(axis=1)

Opción 3: remplazar datos faltantes

In [None]:
df[["FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].fillna(df["FORMACION1"].iloc[444])

In [None]:
df[["FORMACION1"]][df['DEPARTAMEN'] == 'META'].iloc[100:111].fillna("no me importa")

## More data exploration
### Agrupaciones

In [None]:
df.groupby('DEPARTAMEN')["WELL_TVD"].mean()

In [None]:
#df.groupby('DEPARTAMEN')["WELL_TVD"].max()

In [None]:
#df.groupby('DEPARTAMEN')["WELL_TVD"].sum()
df.keys()

In [None]:
df.groupby(['DEPARTAMEN', 'WELL_COUNT'])["WELL_TVD"].mean()

### Aplicar una función a los datos de una columna

#### Ejemplo1

In [None]:
df["WELL_TVD_+1000000"] = df["WELL_TVD"].apply(lambda x: x+1000000)

In [None]:
df[["WELL_TVD_+1000000", "WELL_TVD" ]]

#### Ejemplo 2 

In [None]:
#defino una funcion, por ejemplo para corregir los errores en los nombre de los deptos:

In [None]:
#primero miro 
df.groupby('DEPARTAMEN')["WELL_TVD"].count()

In [None]:
# defino la funcion para corregir los nombres:
def corregir_nombres(w):
  if("ASANAR" in w):
    return "CASANARE"
  elif("NTICO" in w and "OFFSHORE" not in w):
    return "ATLANTICO"
  if("BOL" in w):
    return "BOLIVAR"
  if("BOYA" in w):
    return "BOYACA"
  if("COR" in w):
    return "CORDOBA"
  if("DOBA" in w):
    return "CORDOBA"
  else:
    return w


el error que sigue quedó de intento: la idea es que hay que saber también entender los errores

In [None]:
df["DEPARTAMEN NOMBRE CORREGIDO"] = df["DEPARTAMEN"].apply(lambda x: corregir_nombres(str(x)))

In [None]:
df["DEPARTAMEN"]=df["DEPARTAMEN"].astype("str")

In [None]:
df["DEPARTAMEN NOMBRE CORREGIDO"] = df["DEPARTAMEN"].apply(lambda x: corregir_nombres(x))

In [None]:
df.keys()

In [None]:
df.groupby(['DEPARTAMEN', "DEPARTAMEN NOMBRE CORREGIDO"])["WELL_TVD"].count()

### Operaciones sobre cols

In [None]:
df["suma"] = df["WELL_TVD"]+df["WELL_X_DEP"]

In [None]:
df[["WELL_TVD", "WELL_X_DEP", "suma"]]

## Otras cosas útiles

### concatenar bases de datos

Agregar filas (ojo: ambos DataFrames tienen que tener las mismas columnas!!)

In [None]:
first_5 = df.head()
last_5 = df[178:]
combined = pd.concat([first_5,last_5], axis = 0)

### agregar columnas

In [None]:
df.keys()

In [None]:
df2= df[[]]

In [None]:
df2