In [1]:
import pandas as pd
import numpy as np

# Datos de ejemplo: proyectos de consultoría
proyectos = pd.DataFrame({
    'proyecto_id': ['P001', 'P002', 'P003', 'P004', 'P005', 'P006'],
    'cliente': ['Empresa A', 'Empresa B', 'Empresa A', 'Empresa C', 'Empresa B', 'Empresa D'],
    'presupuesto': [50000, 75000, 30000, 120000, 45000, 90000],
    'duracion_dias': [30, 45, 20, 60, 25, 50],
    'estado': ['Completado', 'En Progreso', 'Completado', 'Retrasado', 'En Progreso', 'Completado'],
    'region': ['Norte', 'Sur', 'Norte', 'Centro', 'Sur', 'Norte']
})

print(proyectos)

  proyecto_id    cliente  presupuesto  duracion_dias       estado  region
0        P001  Empresa A        50000             30   Completado   Norte
1        P002  Empresa B        75000             45  En Progreso     Sur
2        P003  Empresa A        30000             20   Completado   Norte
3        P004  Empresa C       120000             60    Retrasado  Centro
4        P005  Empresa B        45000             25  En Progreso     Sur
5        P006  Empresa D        90000             50   Completado   Norte


OPERADOR AND (&)

In [2]:
# Proyectos con presupuesto mayor a 50,000 Y duración menor a 50 días
filtro_and = proyectos[(proyectos['presupuesto'] > 50000) & 
                       (proyectos['duracion_dias'] < 50)]

print("Proyectos con presupuesto alto y duración corta:")
print(filtro_and)

Proyectos con presupuesto alto y duración corta:
  proyecto_id    cliente  presupuesto  duracion_dias       estado region
1        P002  Empresa B        75000             45  En Progreso    Sur


OPERADOR OR (|)

In [3]:
# Proyectos retrasados O con presupuesto muy alto
filtro_or = proyectos[(proyectos['estado'] == 'Retrasado') | 
                      (proyectos['presupuesto'] > 100000)]

print("Proyectos retrasados o de alto presupuesto:")
print(filtro_or)

Proyectos retrasados o de alto presupuesto:
  proyecto_id    cliente  presupuesto  duracion_dias     estado  region
3        P004  Empresa C       120000             60  Retrasado  Centro


OPERADOR NOT ()

In [4]:
# Proyectos que NO están completados
filtro_not = proyectos[~(proyectos['estado'] == 'Completado')]

print("Proyectos no completados:")
print(filtro_not)

Proyectos no completados:
  proyecto_id    cliente  presupuesto  duracion_dias       estado  region
1        P002  Empresa B        75000             45  En Progreso     Sur
3        P004  Empresa C       120000             60    Retrasado  Centro
4        P005  Empresa B        45000             25  En Progreso     Sur


Mètodo isin() para Múltiples Valores

USO BÁSICO DEL ISIN()

In [5]:
# Proyectos de regiones específicas
regiones_interes = ['Norte', 'Sur']
filtro_regiones = proyectos[proyectos['region'].isin(regiones_interes)]

print("Proyectos de Norte y Sur:")
print(filtro_regiones)

Proyectos de Norte y Sur:
  proyecto_id    cliente  presupuesto  duracion_dias       estado region
0        P001  Empresa A        50000             30   Completado  Norte
1        P002  Empresa B        75000             45  En Progreso    Sur
2        P003  Empresa A        30000             20   Completado  Norte
4        P005  Empresa B        45000             25  En Progreso    Sur
5        P006  Empresa D        90000             50   Completado  Norte


COMBINANDO ISIN () CON OTRAS CONDICIONES

In [6]:
# Proyectos de ciertas regiones Y con presupuesto alto
filtro_complejo = proyectos[
    proyectos['region'].isin(['Norte', 'Centro']) & 
    (proyectos['presupuesto'] > 60000)
]

print("Proyectos de Norte/Centro con presupuesto alto:")
print(filtro_complejo)

Proyectos de Norte/Centro con presupuesto alto:
  proyecto_id    cliente  presupuesto  duracion_dias      estado  region
3        P004  Empresa C       120000             60   Retrasado  Centro
5        P006  Empresa D        90000             50  Completado   Norte


USO INVERSO DE ISIN ()

In [7]:
# Proyectos que NO son de la región Norte
filtro_no_norte = proyectos[~proyectos['region'].isin(['Norte'])]

print("Proyectos fuera de la región Norte:")
print(filtro_no_norte)

Proyectos fuera de la región Norte:
  proyecto_id    cliente  presupuesto  duracion_dias       estado  region
1        P002  Empresa B        75000             45  En Progreso     Sur
3        P004  Empresa C       120000             60    Retrasado  Centro
4        P005  Empresa B        45000             25  En Progreso     Sur


MÉTODO QUERY() - SINTAXIS ALTERNATIVA

In [8]:
# Sintaxis tradicional
filtro_tradicional = proyectos[
    (proyectos['presupuesto'] > 50000) & 
    (proyectos['duracion_dias'] < 50)
]

# Usando query() - más legible
filtro_query = proyectos.query('presupuesto > 50000 and duracion_dias < 50')

print("Ambos métodos producen el mismo resultado:")
print(filtro_query.equals(filtro_tradicional))

Ambos métodos producen el mismo resultado:
True


VENTAJAS DEL MÉTODO QUERY ()

In [9]:
# Consultas complejas más legibles
filtro_complejo_query = proyectos.query(
    'presupuesto > 40000 and '
    'estado in ["En Progreso", "Retrasado"] and '
    'region != "Centro"'
)

print("Filtro complejo con query():")
print(filtro_complejo_query)

Filtro complejo con query():
  proyecto_id    cliente  presupuesto  duracion_dias       estado region
1        P002  Empresa B        75000             45  En Progreso    Sur
4        P005  Empresa B        45000             25  En Progreso    Sur


Casos Prácticos en Consultoría

Caso 1: Identificación de Proyectos de Riesgo

In [10]:
# Proyectos que requieren atención especial
proyectos_riesgo = proyectos[
    (proyectos['estado'] == 'Retrasado') |
    ((proyectos['presupuesto'] > 80000) & (proyectos['duracion_dias'] > 40))
]

print("Proyectos de riesgo:")
print(proyectos_riesgo[['proyecto_id', 'cliente', 'estado', 'presupuesto']])

Proyectos de riesgo:
  proyecto_id    cliente      estado  presupuesto
3        P004  Empresa C   Retrasado       120000
5        P006  Empresa D  Completado        90000


Caso 2: Análisis por Cliente Estratégico

In [11]:
# Clientes con múltiples proyectos activos
clientes_estrategicos = ['Empresa A', 'Empresa B']

proyectos_estrategicos = proyectos[
    proyectos['cliente'].isin(clientes_estrategicos) & 
    (proyectos['estado'] != 'Completado')
]

print("Proyectos activos de clientes estratégicos:")
print(proyectos_estrategicos)

Proyectos activos de clientes estratégicos:
  proyecto_id    cliente  presupuesto  duracion_dias       estado region
1        P002  Empresa B        75000             45  En Progreso    Sur
4        P005  Empresa B        45000             25  En Progreso    Sur


Caso 3: Filtrado por Rangos de Presupuesto

In [12]:
# Proyectos de presupuesto medio (entre 40k y 80k)
rango_medio = proyectos[
    (proyectos['presupuesto'] >= 40000) & 
    (proyectos['presupuesto'] <= 80000)
]

print("Proyectos de presupuesto medio:")
print(rango_medio)

Proyectos de presupuesto medio:
  proyecto_id    cliente  presupuesto  duracion_dias       estado region
0        P001  Empresa A        50000             30   Completado  Norte
1        P002  Empresa B        75000             45  En Progreso    Sur
4        P005  Empresa B        45000             25  En Progreso    Sur


Técnicas Avanzadas

Filtrado con Funciones Personalizadas

In [13]:
# Función para identificar proyectos urgentes
def es_urgente(row):
    return (row['estado'] == 'Retrasado' or 
            (row['duracion_dias'] > 45 and row['presupuesto'] > 70000))

# Aplicar la función
proyectos['urgente'] = proyectos.apply(es_urgente, axis=1)
proyectos_urgentes = proyectos[proyectos['urgente']]

print("Proyectos urgentes:")
print(proyectos_urgentes[['proyecto_id', 'cliente', 'estado', 'urgente']])

Proyectos urgentes:
  proyecto_id    cliente      estado  urgente
3        P004  Empresa C   Retrasado     True
5        P006  Empresa D  Completado     True


Filtrado con Expresiones Regulares

In [27]:
# Clientes cuyo nombre contiene "Empresa"
import re

# Usando str.contains()
filtro_regex = proyectos[proyectos['cliente'].str.contains('Empresa [AB]')]

print("Clientes Empresa A o B:")
print(filtro_regex)

Clientes Empresa A o B:
  proyecto_id    cliente  presupuesto  duracion_dias       estado region  \
0        P001  Empresa A        50000             30   Completado  Norte   
1        P002  Empresa B        75000             45  En Progreso    Sur   
2        P003  Empresa A        30000             20   Completado  Norte   
4        P005  Empresa B        45000             25  En Progreso    Sur   

   urgente  
0    False  
1    False  
2    False  
4    False  


Filtrado por Múltiples Columnas Simultáneamente

In [26]:
# Condiciones que involucran múltiples métricas
condiciones_complejas = (
    (proyectos['presupuesto'] / proyectos['duracion_dias'] > 1500) &  # Alto valor diario
    (proyectos['estado'] != 'Completado') &
    (proyectos['region'].isin(['Norte', 'Sur']))
)

proyectos_complejos = proyectos[condiciones_complejas]
print("Proyectos con alta rentabilidad diaria:")
print(proyectos_complejos)

Proyectos con alta rentabilidad diaria:
  proyecto_id    cliente  presupuesto  duracion_dias       estado region  \
1        P002  Empresa B        75000             45  En Progreso    Sur   
4        P005  Empresa B        45000             25  En Progreso    Sur   

   urgente  
1    False  
4    False  


Ejercicios Prácticos

Ejercicio 1: Filtrado Básico

In [23]:
# TODO: Encuentra todos los proyectos que:
# 1. Tengan un presupuesto mayor a 60,000
# 2. Y estén en estado "En Progreso" o "Retrasado"

# Tu solución aquí:

print (proyectos)

filtro_solicitado = proyectos.query(
    'presupuesto > 60000 and estado in ["En Progreso", "Retrasado"]'
)
print("Proyectos con presupuesto alto y en progreso o retrasado:")
print(filtro_solicitado) 

  proyecto_id    cliente  presupuesto  duracion_dias       estado  region  \
0        P001  Empresa A        50000             30   Completado   Norte   
1        P002  Empresa B        75000             45  En Progreso     Sur   
2        P003  Empresa A        30000             20   Completado   Norte   
3        P004  Empresa C       120000             60    Retrasado  Centro   
4        P005  Empresa B        45000             25  En Progreso     Sur   
5        P006  Empresa D        90000             50   Completado   Norte   

   urgente  
0    False  
1    False  
2    False  
3     True  
4    False  
5     True  
Proyectos con presupuesto alto y en progreso o retrasado:
  proyecto_id    cliente  presupuesto  duracion_dias       estado  region  \
1        P002  Empresa B        75000             45  En Progreso     Sur   
3        P004  Empresa C       120000             60    Retrasado  Centro   

   urgente  
1    False  
3     True  


Ejercicio 2: Uso de isin()

In [20]:
# TODO: Encuentra proyectos que:
# 1. Sean de las regiones Norte o Centro
# 2. Y pertenezcan a Empresa A o Empresa C

# Tu solución aquí:

filtro_region_empresa = proyectos.query(
    'region in ["Norte", "Centro"] and cliente in ["Empresa A", "Empresa C"]'
)
print("Proyectos de Norte/Centro de Empresa A o C:")
print(filtro_region_empresa)    

Proyectos de Norte/Centro de Empresa A o C:
  proyecto_id    cliente  presupuesto  duracion_dias      estado  region  \
0        P001  Empresa A        50000             30  Completado   Norte   
2        P003  Empresa A        30000             20  Completado   Norte   
3        P004  Empresa C       120000             60   Retrasado  Centro   

   urgente  
0    False  
2    False  
3     True  


Ejercicio 3: Filtrado con Negación

In [21]:
# TODO: Encuentra proyectos que:
# 1. NO estén completados
# 2. Y NO sean de la región Sur

# Tu solución aquí:
filtro_no_completados = proyectos[proyectos['estado'] != 'Completado']
filtro_no_sur = filtro_no_completados[filtro_no_completados['region'] != 'Sur']

print("Proyectos no completados y no de la región Sur:")
print(filtro_no_sur)


Proyectos no completados y no de la región Sur:
  proyecto_id    cliente  presupuesto  duracion_dias     estado  region  \
3        P004  Empresa C       120000             60  Retrasado  Centro   

   urgente  
3     True  
