In [1]:
# Instalar dependencias necesarias
# pip install pandas openpyxl xlrd

import pandas as pd
import numpy as np
from datetime import datetime, timedelta

0. SINTAXIS BÁSICA

In [2]:
# Lectura simple
#df = pd.read_excel('archivo.xlsx')

# Con hoja específica
#df = pd.read_excel('archivo.xlsx', sheet_name='Hoja1')

1. CREACIÓN ARCHIVOS EXCEL

In [3]:
# Crear un archivo Excel con múltiples hojas
with pd.ExcelWriter('datos/encuestas_satisfaccion.xlsx', engine='openpyxl') as writer:
    # Hoja 1: Resultados
    resultados = pd.DataFrame({
        'cliente': ['Tech Corp', 'Finance Ltd', 'Retail SA', 'Energy Co', 'Health Inc'],
        'proyecto': ['P001', 'P002', 'P003', 'P004', 'P005'],
        'satisfaccion_general': [4.5, 4.2, 4.8, 3.9, 4.6],
        'calidad_entrega': [4.6, 4.3, 4.9, 4.0, 4.5],
        'comunicacion': [4.4, 4.1, 4.7, 3.8, 4.7],
        'valor_precio': [4.5, 4.2, 4.8, 3.9, 4.6],
        'fecha_encuesta': pd.date_range('2024-01-01', periods=5, freq='W')
    })
    resultados.to_excel(writer, sheet_name='Resultados', index=False)

    # Hoja 2: Preguntas
    preguntas = pd.DataFrame({
        'id_pregunta': ['Q1', 'Q2', 'Q3', 'Q4'],
        'categoria': ['General', 'Calidad', 'Comunicación', 'Valor'],
        'pregunta': [
            '¿Qué tan satisfecho está con el proyecto en general?',
            '¿Cómo califica la calidad de los entregables?',
            '¿Cómo evalúa la comunicación del equipo?',
            '¿Considera que recibió valor por su inversión?'
        ],
        'escala': ['1-5', '1-5', '1-5', '1-5']
    })
    preguntas.to_excel(writer, sheet_name='Preguntas', index=False)

print("Archivo 'encuestas_satisfaccion.xlsx' creado exitosamente")

Archivo 'encuestas_satisfaccion.xlsx' creado exitosamente


2. LECTURA BÁSICA

In [4]:
# Leer la primera hoja (por defecto)
df_resultados = pd.read_excel('datos/encuestas_satisfaccion.xlsx')
print("Primera hoja del archivo:")
print(df_resultados)

Primera hoja del archivo:
       cliente proyecto  satisfaccion_general  calidad_entrega  comunicacion  \
0    Tech Corp     P001                   4.5              4.6           4.4   
1  Finance Ltd     P002                   4.2              4.3           4.1   
2    Retail SA     P003                   4.8              4.9           4.7   
3    Energy Co     P004                   3.9              4.0           3.8   
4   Health Inc     P005                   4.6              4.5           4.7   

   valor_precio fecha_encuesta  
0           4.5     2024-01-07  
1           4.2     2024-01-14  
2           4.8     2024-01-21  
3           3.9     2024-01-28  
4           4.6     2024-02-04  


3. LEER HOJA ESPECÍFICA

In [5]:
# Por nombre
df_preguntas = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    sheet_name='Preguntas'
)
print("\nHoja 'Preguntas':")
print(df_preguntas)

# Por índice (0-based)
df_primera_hoja = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    sheet_name=0
)
print("\nPrimera hoja por índice:")
print(df_primera_hoja.head(2))


Hoja 'Preguntas':
  id_pregunta     categoria  \
0          Q1       General   
1          Q2       Calidad   
2          Q3  Comunicación   
3          Q4         Valor   

                                            pregunta escala  
0  ¿Qué tan satisfecho está con el proyecto en ge...    1-5  
1      ¿Cómo califica la calidad de los entregables?    1-5  
2           ¿Cómo evalúa la comunicación del equipo?    1-5  
3     ¿Considera que recibió valor por su inversión?    1-5  

Primera hoja por índice:
       cliente proyecto  satisfaccion_general  calidad_entrega  comunicacion  \
0    Tech Corp     P001                   4.5              4.6           4.4   
1  Finance Ltd     P002                   4.2              4.3           4.1   

   valor_precio fecha_encuesta  
0           4.5     2024-01-07  
1           4.2     2024-01-14  


4. LEER MÚLTIPLES HOJAS

In [6]:
# Leer todas las hojas
todas_hojas = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    sheet_name=None  # Devuelve un diccionario
)

print("\nHojas disponibles:")
for nombre_hoja, df in todas_hojas.items():
    print(f"- {nombre_hoja}: {df.shape}")

# Leer hojas específicas
hojas_seleccionadas = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    sheet_name=['Resultados', 'Preguntas']
)

print("\nDatos de hojas seleccionadas:")
for nombre, df in hojas_seleccionadas.items():
    print(f"\n{nombre}:")
    print(df.head(2))


Hojas disponibles:
- Resultados: (5, 7)
- Preguntas: (4, 4)

Datos de hojas seleccionadas:

Resultados:
       cliente proyecto  satisfaccion_general  calidad_entrega  comunicacion  \
0    Tech Corp     P001                   4.5              4.6           4.4   
1  Finance Ltd     P002                   4.2              4.3           4.1   

   valor_precio fecha_encuesta  
0           4.5     2024-01-07  
1           4.2     2024-01-14  

Preguntas:
  id_pregunta categoria                                           pregunta  \
0          Q1   General  ¿Qué tan satisfecho está con el proyecto en ge...   
1          Q2   Calidad      ¿Cómo califica la calidad de los entregables?   

  escala  
0    1-5  
1    1-5  


5. SELECCIÓN DE COLUMNAS

In [7]:
# Leer solo columnas específicas
columnas_interes = ['cliente', 'satisfaccion_general', 'fecha_encuesta']
df_parcial = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    usecols=columnas_interes
)
print("\nColumnas seleccionadas:")
print(df_parcial)

# Usando índices de columnas (A, B, C...)
df_por_letras = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    usecols='A:C,G'  # Columnas A hasta C, y G
)
print("\nColumnas A-C y G:")
print(df_por_letras)


Columnas seleccionadas:
       cliente  satisfaccion_general fecha_encuesta
0    Tech Corp                   4.5     2024-01-07
1  Finance Ltd                   4.2     2024-01-14
2    Retail SA                   4.8     2024-01-21
3    Energy Co                   3.9     2024-01-28
4   Health Inc                   4.6     2024-02-04

Columnas A-C y G:
       cliente proyecto  satisfaccion_general fecha_encuesta
0    Tech Corp     P001                   4.5     2024-01-07
1  Finance Ltd     P002                   4.2     2024-01-14
2    Retail SA     P003                   4.8     2024-01-21
3    Energy Co     P004                   3.9     2024-01-28
4   Health Inc     P005                   4.6     2024-02-04


6. ARCHIVO CON FORMATO COMPLEJO

In [8]:
# Crear Excel con formato más complejo
tiempos_gastos_data = {
    'Hoja Tiempos': pd.DataFrame({
        'Semana': ['', '', 'Semana 1', 'Semana 2', 'Semana 3', 'Semana 4'],
        'Proyecto': ['REPORTE DE TIEMPOS', 'Enero 2024', 'P001', 'P001', 'P002', 'P002'],
        'Consultor': ['', '', 'Ana García', 'Ana García', 'Carlos López', 'Carlos López'],
        'Horas_Lun': ['', '', 8, 8, 6, 7],
        'Horas_Mar': ['', '', 8, 7, 8, 8],
        'Horas_Mie': ['', '', 8, 8, 8, 6],
        'Horas_Jue': ['', '', 7, 8, 7, 8],
        'Horas_Vie': ['', '', 7, 6, 8, 7],
        'Total': ['', '', 38, 37, 37, 36]
    }),
    'Hoja Gastos': pd.DataFrame({
        'Proyecto': ['P001', 'P001', 'P002', 'P002', 'P003'],
        'Categoria': ['Viajes', 'Software', 'Viajes', 'Consultores', 'Software'],
        'Descripcion': ['Vuelo a cliente', 'Licencias', 'Hotel', 'Subcontratación', 'Herramientas'],
        'Monto': [1200, 500, 800, 3000, 750],
        'Fecha': pd.date_range('2024-01-01', periods=5, freq='W'),
        'Aprobado': ['Sí', 'Sí', 'Sí', 'Pendiente', 'Sí']
    })
}

with pd.ExcelWriter('datos/tiempos_gastos.xlsx', engine='openpyxl') as writer:
    tiempos_gastos_data['Hoja Tiempos'].to_excel(
        writer, sheet_name='Tiempos', index=False
    )
    tiempos_gastos_data['Hoja Gastos'].to_excel(
        writer, sheet_name='Gastos', index=False
    )

# Leer saltando las filas de encabezado
df_tiempos_limpio = pd.read_excel(
    'datos/tiempos_gastos.xlsx',
    sheet_name='Tiempos',
    skiprows=2  # Saltar las primeras 2 filas
)
print("Tiempos (sin encabezado):")
print(df_tiempos_limpio)

Tiempos (sin encabezado):
  Unnamed: 0 Enero 2024    Unnamed: 2  Unnamed: 3  Unnamed: 4  Unnamed: 5  \
0   Semana 1       P001    Ana García           8           8           8   
1   Semana 2       P001    Ana García           8           7           8   
2   Semana 3       P002  Carlos López           6           8           8   
3   Semana 4       P002  Carlos López           7           8           6   

   Unnamed: 6  Unnamed: 7  Unnamed: 8  
0           7           7          38  
1           8           6          37  
2           7           8          37  
3           8           7          36  


7. CONVERSIÓN TIPOS DE DATOS

In [9]:
# Especificar tipos de datos al leer
dtype_spec = {
    'Proyecto': 'string',
    'Categoria': 'string',
    'Monto': 'float64',
    'Aprobado': 'string'
}

df_gastos = pd.read_excel(
    'datos/tiempos_gastos.xlsx',
    sheet_name='Gastos',
    dtype=dtype_spec,
    parse_dates=['Fecha']
)

print("\nGastos con tipos específicos:")
print(df_gastos.info())


Gastos con tipos específicos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   Proyecto     5 non-null      string        
 1   Categoria    5 non-null      string        
 2   Descripcion  5 non-null      object        
 3   Monto        5 non-null      float64       
 4   Fecha        5 non-null      datetime64[ns]
 5   Aprobado     5 non-null      string        
dtypes: datetime64[ns](1), float64(1), object(1), string(3)
memory usage: 372.0+ bytes
None


8. MANEJO DE CELDAS COMBINADAS

In [10]:
# Crear Excel con celdas combinadas (simulado)
reporte_regional = pd.DataFrame({
    'Region': ['Norte', 'Norte', 'Norte', 'Sur', 'Sur', 'Sur'],
    'Mes': ['Enero', 'Febrero', 'Marzo', 'Enero', 'Febrero', 'Marzo'],
    'Ventas': [120000, 135000, 140000, 95000, 105000, 115000],
    'Gastos': [80000, 85000, 82000, 70000, 72000, 75000],
    'Utilidad': [40000, 50000, 58000, 25000, 33000, 40000]
})

reporte_regional.to_excel('datos/reporte_regional.xlsx', index=False)

# Leer y procesar
df_regional = pd.read_excel('datos/reporte_regional.xlsx')

# Agrupar por región para manejar datos jerárquicos
resumen_regional = df_regional.groupby('Region').agg({
    'Ventas': 'sum',
    'Gastos': 'sum',
    'Utilidad': 'sum'
})
print("\nResumen por región:")
print(resumen_regional)


Resumen por región:
        Ventas  Gastos  Utilidad
Region                          
Norte   395000  247000    148000
Sur     315000  217000     98000


9. LECTURA SELECTIVA DE FILAS

In [11]:
# Leer solo las primeras N filas
df_muestra = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    nrows=3
)
print("Primeras 3 filas:")
print(df_muestra)

# Leer rangos específicos
df_rango = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    skiprows=1,
    nrows=3
)
print("\nFilas 2-4:")
print(df_rango)

Primeras 3 filas:
       cliente proyecto  satisfaccion_general  calidad_entrega  comunicacion  \
0    Tech Corp     P001                   4.5              4.6           4.4   
1  Finance Ltd     P002                   4.2              4.3           4.1   
2    Retail SA     P003                   4.8              4.9           4.7   

   valor_precio fecha_encuesta  
0           4.5     2024-01-07  
1           4.2     2024-01-14  
2           4.8     2024-01-21  

Filas 2-4:
     Tech Corp  P001  4.5  4.6  4.4  4.5.1 2024-01-07 00:00:00
0  Finance Ltd  P002  4.2  4.3  4.1    4.2          2024-01-14
1    Retail SA  P003  4.8  4.9  4.7    4.8          2024-01-21
2    Energy Co  P004  3.9  4.0  3.8    3.9          2024-01-28


10. CONFIGURACIÓN DE ÍNDICES

In [12]:
# Establecer columna como índice
df_con_indice = pd.read_excel(
    'datos/encuestas_satisfaccion.xlsx',
    index_col='proyecto'
)
print("\nCon proyecto como índice:")
print(df_con_indice)


Con proyecto como índice:
              cliente  satisfaccion_general  calidad_entrega  comunicacion  \
proyecto                                                                     
P001        Tech Corp                   4.5              4.6           4.4   
P002      Finance Ltd                   4.2              4.3           4.1   
P003        Retail SA                   4.8              4.9           4.7   
P004        Energy Co                   3.9              4.0           3.8   
P005       Health Inc                   4.6              4.5           4.7   

          valor_precio fecha_encuesta  
proyecto                               
P001               4.5     2024-01-07  
P002               4.2     2024-01-14  
P003               4.8     2024-01-21  
P004               3.9     2024-01-28  
P005               4.6     2024-02-04  


11. ANÁLISIS POST-IMPORTACIÓN

In [13]:
def analizar_excel_importado(filepath, sheet_name=0):
    """Función para análisis inicial de datos Excel"""
    # Leer datos
    df = pd.read_excel(filepath, sheet_name=sheet_name)

    print(f"\n{'='*50}")
    print(f"Análisis de: {filepath}")
    print(f"Hoja: {sheet_name}")
    print(f"{'='*50}")

    # Información básica
    print(f"\nForma: {df.shape}")
    print(f"Columnas: {list(df.columns)}")

    # Tipos de datos
    print("\nTipos de datos:")
    print(df.dtypes)

    # Valores faltantes
    print("\nValores faltantes por columna:")
    print(df.isnull().sum())

    # Estadísticas para columnas numéricas
    print("\nEstadísticas descriptivas:")
    print(df.describe())

    return df

# Aplicar análisis
df_analizado = analizar_excel_importado(
    'datos/encuestas_satisfaccion.xlsx',
    'Resultados'
)


Análisis de: datos/encuestas_satisfaccion.xlsx
Hoja: Resultados

Forma: (5, 7)
Columnas: ['cliente', 'proyecto', 'satisfaccion_general', 'calidad_entrega', 'comunicacion', 'valor_precio', 'fecha_encuesta']

Tipos de datos:
cliente                         object
proyecto                        object
satisfaccion_general           float64
calidad_entrega                float64
comunicacion                   float64
valor_precio                   float64
fecha_encuesta          datetime64[ns]
dtype: object

Valores faltantes por columna:
cliente                 0
proyecto                0
satisfaccion_general    0
calidad_entrega         0
comunicacion            0
valor_precio            0
fecha_encuesta          0
dtype: int64

Estadísticas descriptivas:
       satisfaccion_general  calidad_entrega  comunicacion  valor_precio  \
count              5.000000         5.000000      5.000000      5.000000   
mean               4.400000         4.460000      4.340000      4.400000   
min   

12. EXPORTACIÓN BÁSICA A EXCEL

In [14]:
# Crear datos de ejemplo
dashboard_data = pd.DataFrame({
    'KPI': ['Ingresos', 'Gastos', 'Utilidad', 'Margen'],
    'Q1': [250000, 180000, 70000, 0.28],
    'Q2': [280000, 195000, 85000, 0.30],
    'Q3': [310000, 205000, 105000, 0.34],
    'Q4': [350000, 220000, 130000, 0.37]
})

# Exportar a Excel
dashboard_data.to_excel('datos/dashboard_kpis.xlsx', index=False)
print("Dashboard exportado")

Dashboard exportado


13. EXPORTACIÓN MÚLTIPLES HOJAS CON FORMATO A EXCEL

In [None]:
# Crear reporte completo con múltiples hojas
with pd.ExcelWriter('datos/reporte_ejecutivo.xlsx', engine='openpyxl') as writer:
    # Hoja 1: Resumen Ejecutivo
    resumen = pd.DataFrame({
        'Métrica': ['Ingresos Totales', 'Gastos Totales', 'Utilidad Neta', 
                    'Proyectos Activos', 'Satisfacción Promedio'],
        'Valor': [1190000, 800000, 390000, 12, 4.4],
        'Vs. Año Anterior': ['+15%', '+10%', '+25%', '+3', '+0.2']
    })
    resumen.to_excel(writer, sheet_name='Resumen', index=False)

    # Hoja 2: Detalle por Cliente
    clientes = pd.DataFrame({
        'Cliente': ['Tech Corp', 'Finance Ltd', 'Retail SA', 'Energy Co'],
        'Proyectos': [3, 2, 4, 2],
        'Facturación': [450000, 280000, 320000, 140000],
        'Margen': [0.32, 0.28, 0.35, 0.25]
    })
    clientes.to_excel(writer, sheet_name='Por Cliente', index=False)

    # Hoja 3: Proyecciones
    proyecciones = pd.DataFrame({
        'Mes': pd.date_range('2024-01', periods=12, freq='M'),
        'Ingreso_Proyectado': np.random.randint(280000, 400000, 12),
        'Gasto_Proyectado': np.random.randint(200000, 280000, 12)
    })
    proyecciones['Utilidad_Proyectada'] = (
        proyecciones['Ingreso_Proyectado'] - proyecciones['Gasto_Proyectado']
    )
    proyecciones.to_excel(writer, sheet_name='Proyecciones', index=False)

print("Reporte ejecutivo creado con 3 hojas")


Reporte ejecutivo creado con 3 hojas


  'Mes': pd.date_range('2024-01', periods=12, freq='M'),
