In [1]:
import pandas as pd
import numpy as np

# --- Crear un archivo CSV de ejemplo ---
datos_csv = {
    'ID_Venta': [101, 102, 103, 104, 105, 102],
    'Producto': ['Teclado', 'Mouse', 'Monitor', 'Teclado', 'CPU', 'Mouse'],
    'Cantidad': [10, 15, 5, 8, 3, 15],
    'Precio_Unitario': [50, 25, 300, 55, 800, 25],
    'Fecha': ['2023-01-10', '2023-01-11', '2023-01-11', '2023-01-12', '2023-01-13', '2023-01-11']
}
df_ventas_origen = pd.DataFrame(datos_csv)
# Añadimos una fila con valores nulos para el paso de limpieza
fila_nula = pd.DataFrame([{'ID_Venta': 106, 'Producto': 'Webcam', 'Cantidad': np.nan, 'Precio_Unitario': 120, 'Fecha': '2023-01-14'}])
df_ventas_origen = pd.concat([df_ventas_origen, fila_nula], ignore_index=True)
df_ventas_origen.to_csv('datos_ventas.csv', index=False)


# --- Crear un archivo Excel de ejemplo ---
datos_excel = {
    'ID_Empleado': [1, 2, 3, 4],
    'Nombre': ['Ana', 'Luis', 'Marta', 'Juan'],
    'Departamento': ['Ventas', 'TI', 'Ventas', 'Marketing']
}
df_empleados_origen = pd.DataFrame(datos_excel)
df_empleados_origen.to_excel('datos_empleados.xlsx', index=False)

print("Archivos 'datos_ventas.csv' y 'datos_empleados.xlsx' creados con éxito.")

Archivos 'datos_ventas.csv' y 'datos_empleados.xlsx' creados con éxito.


# 1. Carga de datos

In [2]:
# --- 1.a. Importar un archivo CSV en un DataFrame de Pandas ---
print("\n--- Cargando archivo CSV ---")
df_csv = pd.read_csv('datos_ventas.csv')
print("Datos desde CSV:")
print(df_csv)

# --- 1.b. Cargar un archivo Excel en otro DataFrame ---
print("\n--- Cargando archivo Excel ---")
df_excel = pd.read_excel('datos_empleados.xlsx')
print("Datos desde Excel:")
print(df_excel)

# --- 1.c. Extraer información de una tabla web utilizando read_html() ---
# Usaremos una tabla de ejemplo de Wikipedia: Países por población.
print("\n--- Cargando datos desde una tabla web ---")
url = 'https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n'
# read_html() devuelve una LISTA de todos los DataFrames encontrados en la página.
lista_de_tablas = pd.read_html(url)
# Generalmente, la tabla que nos interesa es una de las primeras. La inspeccionamos y seleccionamos.
# En este caso, es la segunda tabla de la página (índice 1).
df_web = lista_de_tablas[1]
print("Primeras 5 filas de la tabla extraída de la web:")
print(df_web.head())


--- Cargando archivo CSV ---
Datos desde CSV:
   ID_Venta Producto  Cantidad  Precio_Unitario       Fecha
0       101  Teclado      10.0               50  2023-01-10
1       102    Mouse      15.0               25  2023-01-11
2       103  Monitor       5.0              300  2023-01-11
3       104  Teclado       8.0               55  2023-01-12
4       105      CPU       3.0              800  2023-01-13
5       102    Mouse      15.0               25  2023-01-11
6       106   Webcam       NaN              120  2023-01-14

--- Cargando archivo Excel ---
Datos desde Excel:
   ID_Empleado Nombre Departamento
0            1    Ana       Ventas
1            2   Luis           TI
2            3  Marta       Ventas
3            4   Juan    Marketing

--- Cargando datos desde una tabla web ---
Primeras 5 filas de la tabla extraída de la web:
  Continente, subcontinente o región geográfica  \
0                                        África   
1                                África Central   
2

# 2. Limpieza y Estructuración de Datos

In [5]:
df_a_limpiar = df_csv.copy() # Hacemos una copia para no modificar el original
print("\nDataFrame original antes de la limpieza:")
print(df_a_limpiar)

# --- 2.a. Identificar valores nulos y decidir si deben ser imputados o eliminados ---
print("\nIdentificando valores nulos por columna:")
print(df_a_limpiar.isnull().sum())

# Decisión: La columna 'Cantidad' tiene un valor nulo.
# Como es una columna numérica, una buena estrategia es imputarlo con el promedio (mean).
media_cantidad = df_a_limpiar['Cantidad'].mean()
df_a_limpiar.fillna({'Cantidad':media_cantidad}, inplace=True)
print("\nDataFrame después de imputar valores nulos:")
print(df_a_limpiar)

# --- 2.b. Eliminar filas duplicadas si es necesario ---
print(f"\nNúmero de filas duplicadas encontradas: {df_a_limpiar.duplicated().sum()}")
# El metodo drop_duplicates() elimina estas filas.
df_a_limpiar.drop_duplicates(inplace=True)
print("\nDataFrame después de eliminar duplicados:")
print(df_a_limpiar)

# --- 2.c. Verificar y ajustar los tipos de datos ---
print("\nTipos de datos actuales (dtypes):")
print(df_a_limpiar.dtypes)

# Ajuste: La columna 'Fecha' está como 'object' (texto). La convertiremos a tipo datetime.
# La columna 'Cantidad' es float64 por la imputación, la pasaremos a entero (int).
df_a_limpiar['Fecha'] = pd.to_datetime(df_a_limpiar['Fecha'])
df_a_limpiar['Cantidad'] = df_a_limpiar['Cantidad'].astype(int)

print("\nTipos de datos ajustados:")
print(df_a_limpiar.dtypes)
print(df_a_limpiar)


DataFrame original antes de la limpieza:
   ID_Venta Producto  Cantidad  Precio_Unitario       Fecha
0       101  Teclado      10.0               50  2023-01-10
1       102    Mouse      15.0               25  2023-01-11
2       103  Monitor       5.0              300  2023-01-11
3       104  Teclado       8.0               55  2023-01-12
4       105      CPU       3.0              800  2023-01-13
5       102    Mouse      15.0               25  2023-01-11
6       106   Webcam       NaN              120  2023-01-14

Identificando valores nulos por columna:
ID_Venta           0
Producto           0
Cantidad           1
Precio_Unitario    0
Fecha              0
dtype: int64

DataFrame después de imputar valores nulos:
   ID_Venta Producto   Cantidad  Precio_Unitario       Fecha
0       101  Teclado  10.000000               50  2023-01-10
1       102    Mouse  15.000000               25  2023-01-11
2       103  Monitor   5.000000              300  2023-01-11
3       104  Teclado   8.0000

# 3. Transformación y Optimización

In [6]:
df_transformado = df_a_limpiar.copy()

# Agregamos una columna calculada para que el análisis sea más interesante.
df_transformado['Ingreso_Total'] = df_transformado['Cantidad'] * df_transformado['Precio_Unitario']

# --- 3.a. Seleccionar las columnas más relevantes para el análisis ---
columnas_relevantes = ['Fecha', 'Producto', 'Cantidad', 'Ingreso_Total']
df_final = df_transformado[columnas_relevantes]
print("\nDataFrame con columnas seleccionadas:")
print(df_final)

# --- 3.b. Renombrar columnas para mejorar la legibilidad ---
nuevos_nombres = {
    'Fecha': 'Fecha de Venta',
    'Producto': 'Nombre del Producto',
    'Cantidad': 'Unidades Vendidas',
    'Ingreso_Total': 'Ingresos ($)'
}
df_final = df_final.rename(columns=nuevos_nombres)
print("\nDataFrame con columnas renombradas:")
print(df_final)

# --- 3.c. Ordenar los datos en función de una columna clave ---
# Ordenaremos por ingresos, de mayor a menor.
df_final = df_final.sort_values(by='Ingresos ($)', ascending=False)
print("\nDataFrame ordenado por Ingresos:")
print(df_final)


DataFrame con columnas seleccionadas:
       Fecha Producto  Cantidad  Ingreso_Total
0 2023-01-10  Teclado        10            500
1 2023-01-11    Mouse        15            375
2 2023-01-11  Monitor         5           1500
3 2023-01-12  Teclado         8            440
4 2023-01-13      CPU         3           2400
6 2023-01-14   Webcam         9           1080

DataFrame con columnas renombradas:
  Fecha de Venta Nombre del Producto  Unidades Vendidas  Ingresos ($)
0     2023-01-10             Teclado                 10           500
1     2023-01-11               Mouse                 15           375
2     2023-01-11             Monitor                  5          1500
3     2023-01-12             Teclado                  8           440
4     2023-01-13                 CPU                  3          2400
6     2023-01-14              Webcam                  9          1080

DataFrame ordenado por Ingresos:
  Fecha de Venta Nombre del Producto  Unidades Vendidas  Ingresos ($)
4

# 4. Exportación de Datos

In [7]:
# --- 4.a. Guardar el DataFrame limpio en un archivo CSV sin incluir el índice ---
df_final.to_csv('ventas_procesadas.csv', index=False)
print("\nDataFrame guardado exitosamente en 'ventas_procesadas.csv'")


# --- 4.b. Exportar los datos procesados a Excel para su visualización ---
df_final.to_excel('ventas_procesadas.xlsx', index=False, sheet_name='Reporte de Ventas')
print("DataFrame guardado exitosamente en 'ventas_procesadas.xlsx'")


DataFrame guardado exitosamente en 'ventas_procesadas.csv'
DataFrame guardado exitosamente en 'ventas_procesadas.xlsx'
