# Preparación para Pruebas Técnicas - ETL con Python y Excel


    Esta notebook incluye todos los conceptos, códigos y ejemplos relacionados con ETL en Python 
    utilizando Excel, organizados para facilitar el estudio y la práctica.
    

## Herramientas principales para ETL con Excel


    - **pandas**: Manipulación de datos tabulares.
    - **openpyxl**: Manipulación directa de archivos Excel (celdas, hojas, estilos).
    - **xlrd/xlsxwriter**: Complementos para trabajar con diferentes formatos.
    

## Extracción de Datos desde Excel

In [7]:
# Modificaciones añadidas para mayor claridad
# Descripción de lo que hace cada línea del código:

import pandas as pd
import chunk

# Leer todas las hojas de un archivo Excel
file = 'ventas.xlsx'
hojas = pd.read_excel(file, sheet_name=None)  # Cargar todas las hojas como diccionario

# Acceso a una hoja específica
df_hoja1 = hojas['Ventas']

# Combinar todas las hojas en un solo DataFrame
df_combined = pd.concat(hojas.values(), ignore_index=True)
print(df_combined.head())
    

     Producto  Cantidad  Precio Unitario Fecha de Venta Región
0  Producto A       120             10.5     2023-01-15  Norte
1  Producto B        85              8.0     2023-01-16    Sur
2  Producto C       150             12.0     2023-01-17  Norte
3  Producto D        90             15.0     2023-01-18   Este
4  Producto E       200              9.5     2023-01-19  Oeste


  import chunk


In [8]:
# Modificaciones añadidas para mayor claridad
# Descripción de lo que hace cada línea del código:

# Leer un archivo Excel en fragmentos de 1000 filas (chunking)
chunks = pd.read_excel('ventas.xlsx', chunksize=10)
for chunk in chunks:
    print(chunk.head())
    

TypeError: read_excel() got an unexpected keyword argument 'chunksize'

## Transformación de Datos

In [None]:
# Modificaciones añadidas para mayor claridad
# Descripción de lo que hace cada línea del código:

# Rellenar valores faltantes
df = pd.read_excel('ventas.xlsx')
df['Columna'] = df['Columna'].fillna('Valor por defecto')

# Crear una columna basada en cálculos
df['Costo_Total'] = df['Cantidad'] * df['Precio_Unitario']

# Agrupar datos y calcular métricas
reporte = df.groupby('Categoría').agg({
    'Cantidad': 'sum',
    'Precio_Unitario': 'mean'
}).reset_index()
print(reporte)
    

NameError: name 'df' is not defined

## Carga de Datos Procesados

In [11]:
# Modificaciones añadidas para mayor claridad
# Descripción de lo que hace cada línea del código:

# Guardar en un nuevo archivo Excel
df.to_excel('resultado.xlsx', index=False)

# Crear múltiples hojas en un archivo Excel
with pd.ExcelWriter('archivo_con_hojas.xlsx', engine='openpyxl') as writer:
    df1.to_excel(writer, sheet_name='Hoja1', index=False)
    df2.to_excel(writer, sheet_name='Hoja2', index=False)
    

NameError: name 'df' is not defined

## Automatización y Pipelines

In [None]:
# Modificaciones añadidas para mayor claridad
# Descripción de lo que hace cada línea del código:

# Pipeline ETL: Lectura, transformación y exportación
df = pd.read_excel('productos.xlsx')
df_filtrado = df[df['Cantidad'] > 100]
df_filtrado['Costo_Total'] = df_filtrado['Cantidad'] * df_filtrado['Precio']
df_filtrado.to_excel('productos_filtrados.xlsx', index=False)
print("Pipeline ETL completado.")
    

## Validación y Manejo de Errores

In [None]:
# Modificaciones añadidas para mayor claridad
# Descripción de lo que hace cada línea del código:

# Verificar valores faltantes
print(df.isnull().sum())

# Manejar errores durante el ETL
try:
    df = pd.read_excel('archivo.xlsx')
    df['Costo_Total'] = df['Cantidad'] * df['Precio']
    df.to_excel('resultado.xlsx', index=False)
    print("Proceso completado exitosamente.")
except FileNotFoundError:
    print("Error: El archivo no fue encontrado.")
except Exception as e:
    print(f"Error inesperado: {e}")
    

## Consultas avanzadas en Excel

In [None]:

import pandas as pd

# Leer un archivo Excel
df = pd.read_excel('ventas.xlsx')

# Consulta 1: Ventas totales por producto
ventas_totales = df.groupby('Producto')['Cantidad'].sum().reset_index()
print("Ventas totales por producto:")
print(ventas_totales)

# Consulta 2: Productos con ventas mayores a un umbral
umbral = 100
productos_destacados = df[df['Cantidad'] > umbral]
print(f"Productos con ventas mayores a {umbral}:")
print(productos_destacados)
    

## Generación de gráficos para informes

In [None]:

import matplotlib.pyplot as plt

# Gráfica de barras: Ventas totales por producto
plt.figure(figsize=(10, 6))
plt.bar(ventas_totales['Producto'], ventas_totales['Cantidad'], color='skyblue')
plt.xlabel('Producto')
plt.ylabel('Cantidad vendida')
plt.title('Ventas Totales por Producto')
plt.xticks(rotation=45)
plt.tight_layout()
plt.savefig('ventas_totales_por_producto.png')  # Guardar gráfico como imagen
plt.show()

# Gráfica de pastel: Proporción de ventas por producto
plt.figure(figsize=(8, 8))
plt.pie(ventas_totales['Cantidad'], labels=ventas_totales['Producto'], autopct='%1.1f%%', startangle=140)
plt.title('Proporción de Ventas por Producto')
plt.tight_layout()
plt.savefig('proporcion_ventas_por_producto.png')  # Guardar gráfico como imagen
plt.show()
    