# Actividad 3 - Módulo 3

## Configuración inicial

In [1]:
# Importamos librerías
import pandas as pd
import os
import glob

# Obtener la ruta del directorio donde está el script
script_dir = os.getcwd()
datos_dir = os.path.join(script_dir, "datos")

## 1. Leer archivos CSV

In [2]:
# Leer archivos CSV
df_csv_list = []
csv_files = []
for file in glob.glob(os.path.join(datos_dir, "*.csv")):
    df = pd.read_csv(file)
    df_csv_list.append(df)
    csv_files.append(os.path.basename(file))
    print(f"CSV leído: {os.path.basename(file)}")

# Concatenar CSV
df_csv = pd.concat(df_csv_list, ignore_index=True) if df_csv_list else pd.DataFrame()

CSV leído: clientes.csv


## 2. Leer archivos Excel

In [3]:
# Leer archivos Excel
df_excel_list = []
excel_files = []
for file in glob.glob(os.path.join(datos_dir, "*.xlsx")) + glob.glob(os.path.join(datos_dir, "*.xls")):
    df = pd.read_excel(file, sheet_name=0)
    df_excel_list.append(df)
    excel_files.append(os.path.basename(file))
    print(f"Excel leído: {os.path.basename(file)}")

# Concatenar Excel
df_excel = pd.concat(df_excel_list, ignore_index=True) if df_excel_list else pd.DataFrame()

Excel leído: ventas.xlsx


## 3. Integra ambos DataFrames (CSV y Excel) en un solo DataFrame global

In [4]:
# Integrar ambos dataframes
df_global = pd.concat([df_csv, df_excel], ignore_index=True)
df_global.head()

Unnamed: 0,id_cliente,nombre,edad,ciudad,correo,id_venta,producto,cantidad,monto,fecha,vendedor
0,1,Pedro Martínez,46.0,La Paz,pedro.martínez61@gmail.com,,,,,,
1,2,Pedro Silva,36.0,Caracas,pedro.silva75@outlook.com,,,,,,
2,3,Lucía Sánchez,53.0,La Paz,lucía.sánchez24@outlook.com,,,,,,
3,4,María Sánchez,19.0,La Paz,maría.sánchez30@yahoo.com,,,,,,
4,5,Ana Sánchez,50.0,Asunción,ana.sánchez22@gmail.com,,,,,,


## 4. Extrae una tabla de la web

In [5]:
# Extraer tabla desde la web
url = "https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_y_territorios_dependientes_por_poblaci%C3%B3n"
tables = pd.read_html(url)
df_web = tables[0]
df_web.head()

Unnamed: 0,N.º,País (o territorio dependiente),Proyección exponencial de la población al 1/7/2025[7]​,Total mun- dial (%),Cambio medio anual (%)[8]​,Cambio absoluto anual promedio,Cambio medio abs. total anual (%),Años para even- tual du- pli- ca- ción[9]​,"Censo más reciente, última estimación oficial, proyección de la ONU o reloj de población nacional",Fecha de esta última cifra de población en particular (d/mm/aaaa)[10]​,Tipo[11]​,Enlace o hipervínculo (usualmente de tipo oficial) de esta última cifra de población
0,1,India,1 417 492 000,1753,90,12 692 000,1520,78,1 417 492 000,1/07/2025,A,web.archive.org
1,2,China[12]​,1 407 934 000,1742,-5,-1 390 000,-,-,1 408 280 000,31/12/2024,E,www.stats.gov.cn
2,3,Estados Unidos,342 181 000,423,61,2 084 000,250,114,342 050 000,3/07/2025,R,www.census.gov
3,4,Indonesia,285 783 000,353,117,3 337 000,400,60,282 477 584,30/06/2024,E,dispendukcapil.acehtimurkab.go.id
4,5,Pakistán,256 204 000,317,256,6 567 000,786,27,241 499 431,1/03/2023,C,www.pbs.gov.pk


## 5. Genera una hoja resumen con estadísticas descriptivas básicas

In [6]:
# Crear resumen
if not df_global.empty:
    df_resumen = df_global.describe()
else:
    df_resumen = pd.DataFrame({'Mensaje': ['No hay datos para analizar']})

## 6. Exporta los resultados

In [7]:
# Exportar a Excel
output_file = os.path.join(script_dir, "consolidado_resultados.xlsx")
with pd.ExcelWriter(output_file, engine='openpyxl') as writer:
    df_csv.to_excel(writer, sheet_name='Datos_CSV', index=False)
    df_excel.to_excel(writer, sheet_name='Datos_Excel', index=False)
    df_resumen.to_excel(writer, sheet_name='Resumen')
    df_web.to_excel(writer, sheet_name='Web', index=False)

print("Archivo consolidado_resultados.xlsx creado")

Archivo consolidado_resultados.xlsx creado


## 7. Documentación
---
### 1. Descripción
Script de Python que automatiza la extracción, integración y consolidación de datos desde archivos CSV, Excel y web en un único archivo Excel con múltiples hojas.

---
### 2. Funcionamiento
El script genera un archivo `consolidado_resultados.xlsx` con 4 hojas:
- **Datos_CSV**: Todos los archivos CSV combinados
- **Datos_Excel**: Todos los archivos Excel combinados
- **Resumen**: Estadísticas descriptivas del conjunto de datos
- **Web**: Tabla de países por población de Wikipedia

---
### 3. Notas
- El script busca archivos en la carpeta `datos/` relativa a su ubicación
- Lee solo la primera hoja de cada archivo Excel
- Requiere conexión a internet para la extracción de datos web
- Los archivos CSV y Excel deben tener estructura compatible para concatenarse correctamente