In [24]:
"""
Laboratorio 01: Exploración y Diagnóstico de Calidad de Datos
==============================================================

Objetivo: Aprender a identificar problemas comunes de calidad en datos
          de la industria petrolera.

Tareas:
1. Cargar y explorar el dataset de producción diaria
2. Identificar y cuantificar valores faltantes
3. Detectar valores anómalos o imposibles
4. Generar un reporte básico de calidad
5. Visualizar los patrones de problemas encontrados

Tiempo estimado: 30 minutos
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [25]:
print("LABORATORIO 01: EXPLORACIÓN Y DIAGNÓSTICO DE CALIDAD")
print("=" * 55)

# TAREA 1: Cargar el dataset
# ==========================
print("\nTAREA 1: Cargar datos de producción")
print("-" * 40)

# TO DO: Cargar el archivo 'produccion_diaria.csv' desde la carpeta datos            
df = pd.read_csv('/workspaces/CursoPython-Basico-JuanDavid/Sesión_14/datos/produccion_diaria.csv')


# TO DO: Mostrar información básica del dataset
# - Número de filas y columnas
print(f"Dataset cargado: {df.shape[0]} filas, {df.shape[1]} columnas")
# - Primeras 5 filas
print(df.head())
# - Tipos de datos de cada columna
print(df.info())
print(f"Columnas: {list(df.columns)}")


LABORATORIO 01: EXPLORACIÓN Y DIAGNÓSTICO DE CALIDAD

TAREA 1: Cargar datos de producción
----------------------------------------
Dataset cargado: 365 filas, 8 columnas
        fecha   pozo_id  produccion_oil_bbl  produccion_gas_mcf  \
0  2023-01-01  POZO-003               593.6              2435.0   
1  2023-01-02  POZO-004               519.8              2313.0   
2  2023-01-03  POZO-001               468.7              2111.0   
3  2023-01-04  POZO-003               473.9              2417.0   
4  2023-01-05  POZO-003               500.7              2278.0   

   produccion_agua_bbl  presion_boca_psi  temperatura_f  horas_operacion  
0                 96.4           14590.0         1770.6            22.41  
1                 64.8            1539.0          191.5            22.37  
2                 98.6            1620.0          184.0            23.23  
3                 96.2            1568.0          171.2            21.91  
4                  NaN            1473.0          17

In [26]:
# TAREA 2: Análisis de valores faltantes
# =======================================
print("\nTAREA 2: Identificar valores faltantes")
print("-" * 40)

# TO DO: Calcular el número de valores faltantes por columna. # Usar df.isnull().sum()
valores_faltantes = df.isnull().sum()

# TO DO: Calcular el porcentaje de valores faltantes por columna
porcentaje_faltantes = (valores_faltantes / len(df)) * 100

# TO DO: Mostrar solo las columnas que tienen valores faltantes
print("\nColumnas con valores faltantes:")

# Iterar sobre las columnas y mostrar solo las que tienen NaN
for col in df.columns:
    if valores_faltantes[col] > 0:
        print(f"{col}: {valores_faltantes[col]} faltantes ({porcentaje_faltantes[col]:.2f}%)")



TAREA 2: Identificar valores faltantes
----------------------------------------

Columnas con valores faltantes:
produccion_oil_bbl: 18 faltantes (4.93%)
produccion_gas_mcf: 17 faltantes (4.66%)
produccion_agua_bbl: 18 faltantes (4.93%)
presion_boca_psi: 10 faltantes (2.74%)
temperatura_f: 22 faltantes (6.03%)


In [28]:
# TAREA 3: Detectar valores anómalos
# ===================================
print("\nTAREA 3: Detectar valores anómalos o imposibles")
print("-" * 40)

# TO DO: Identificar valores negativos en columnas de producción. # Las columnas de producción no pueden tener valores negativos
columnas_produccion = ['produccion_oil_bbl', 'produccion_gas_mcf', 'produccion_agua_bbl']
print("\nValores negativos en producción:")
for col in columnas_produccion:
    if col in df.columns:
        num_negativos = (df[col] < 0).sum()
        if num_negativos > 0:
            print(f"{col}: {num_negativos} valores negativos encontrados")

# TO DO: Identificar valores fuera de rango operacional normal. # Presión normal: 1000-2000 psi. # Temperatura normal: 150-210 °F

print("\nValores fuera de rango operacional:")

presion_sospechosa = df[(df['presion_boca_psi'] < 1000) | (df['presion_boca_psi'] > 2000)]
if len(presion_sospechosa) > 0:
    print(f"\nPresión fuera de rango operacional normal:")
    print(f"  Registros: {len(presion_sospechosa)}")
    print(f"  Valores: {presion_sospechosa['presion_boca_psi'].values[:5]}...")

temperatura_sospechosa = df[(df['temperatura_f'] < 150) | (df['temperatura_f'] > 210)]
if len(temperatura_sospechosa) > 0:
    print(f"\nTemperatura fuera de rango operacional normal:")
    print(f"  Registros: {len(temperatura_sospechosa)}")
    print(f"  Valores: {temperatura_sospechosa['temperatura_f'].values[:5]}...")






TAREA 3: Detectar valores anómalos o imposibles
----------------------------------------

Valores negativos en producción:
produccion_agua_bbl: 5 valores negativos encontrados

Valores fuera de rango operacional:

Presión fuera de rango operacional normal:
  Registros: 1
  Valores: [14590.]...

Temperatura fuera de rango operacional normal:
  Registros: 1
  Valores: [1770.6]...
