<a href="https://colab.research.google.com/github/MiyoBran/Alura-ONE-G9/blob/main/formacion-Aprendiendo-a-hacer-ETL-G9-ONE/02-pandas-e-s-diferentes-formatos-archivo/ETL_02_Pandas_I_O_Excel.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Chardet es una biblioteca de Python (y una herramienta de l√≠nea de comandos) utilizada para detectar autom√°ticamente la codificaci√≥n de caracteres de archivos de texto o secuencias de bytes, siendo ideal cuando se desconoce la codificaci√≥n (ej. UTF-8, ASCII, ISO-8859). Soporta una amplia gama de codificaciones, incluyendo variantes de Unicode y asi√°ticas, devolviendo la codificaci√≥n m√°s probable con un nivel de confianza.

```
import chardet

# Leer el archivo en modo binario
with open('archivo.txt', 'rb') as f:
    datos = f.read()
    resultado = chardet.detect(datos)
    print(resultado)
# Salida: {'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

```



##**Aula 2 - Leyendo archivos Excel**

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


##**Importando archivos Excel**

In [2]:
import pandas as pd

In [3]:
#datos = pd.read_csv('superstore_data.csv')
archivo = '/content/drive/MyDrive/Pandas/emisiones_CO2.xlsx'
datos_co2 = pd.read_excel(archivo)

In [4]:
datos_co2.head()

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganist√°n,AFG,1750,0.0,,,,,,,
1,Afganist√°n,AFG,1751,0.0,,,,,,,
2,Afganist√°n,AFG,1752,0.0,,,,,,,
3,Afganist√°n,AFG,1753,0.0,,,,,,,
4,Afganist√°n,AFG,1754,0.0,,,,,,,


In [5]:
#Con este metodo puedo saber los nombres de las hojas del archivo excel
pd.ExcelFile(archivo).sheet_names

['emisiones_C02', 'emisiones_percapita', 'fuentes']

### üìä Ingesta de Datos Tridimensionales: Archivos Excel (`.xlsx`)

**Concepto de Negocio:**
A diferencia de los archivos CSV (que son texto plano bidimensional), los archivos de Excel son "Libros" que contienen m√∫ltiples "Hojas" (Sheets). Esto a√±ade una tercera dimensi√≥n a los datos. Al ingestar un Excel en Pandas, debemos ser expl√≠citos sobre qu√© hoja queremos leer; de lo contrario, Pandas cargar√° √∫nicamente la primera hoja por defecto.

**Optimizaci√≥n de Memoria (Clean Code):**
* **Mala Pr√°ctica:** Usar `pd.read_excel()` y luego `pd.ExcelFile()` por separado. Esto fuerza al sistema a abrir y descomprimir el archivo pesado dos veces.
* **Buena Pr√°ctica:** Crear un objeto `pd.ExcelFile` primero. Esto carga el archivo en la memoria cach√© del servidor una sola vez. Luego usamos ese objeto tanto para inspeccionar los nombres de las hojas como para extraer los datos mediante su m√©todo `.parse()`.

In [6]:
import pandas as pd

# 1. Definici√≥n de Rutas
RUTA_EXCEL_EMISIONES = '/content/drive/MyDrive/Pandas/emisiones_CO2.xlsx'

# 2. Ingesta Inteligente (Cargamos el "Libro" completo en memoria cach√©)
# Esto es mucho m√°s eficiente que usar read_excel directamente
libro_excel = pd.ExcelFile(RUTA_EXCEL_EMISIONES)

# 3. Auditor√≠a de Estructura (Verificamos qu√© hojas existen)
lista_hojas = libro_excel.sheet_names
print(f"üìë El archivo Excel contiene {len(lista_hojas)} hojas:")
print(lista_hojas)
print("-" * 40)

# 4. Extracci√≥n de Datos
# Por ahora extraemos la primera hoja (√≠ndice 0 o por su nombre exacto)
# El m√©todo .parse() extrae la tabla desde el libro que ya est√° en memoria
df_emisiones = libro_excel.parse(lista_hojas[0])

# 5. Inspecci√≥n visual
display(df_emisiones.head())

üìë El archivo Excel contiene 3 hojas:
['emisiones_C02', 'emisiones_percapita', 'fuentes']
----------------------------------------


Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganist√°n,AFG,1750,0.0,,,,,,,
1,Afganist√°n,AFG,1751,0.0,,,,,,,
2,Afganist√°n,AFG,1752,0.0,,,,,,,
3,Afganist√°n,AFG,1753,0.0,,,,,,,
4,Afganist√°n,AFG,1754,0.0,,,,,,,


### **Par√°metros de la funci√≥n read_excel**

Documentaci√≥n: https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

### üìÇ Diversidad de Formatos: M√°s all√° del `.xlsx`

**Concepto de Negocio:**
En el mundo real corporativo, los datos no siempre llegan en el formato m√°s moderno. Los sistemas heredados (Legacy Systems), las pol√≠ticas de seguridad y las normativas de software libre obligan al Cient√≠fico de Datos a saber procesar m√∫ltiples extensiones de hojas de c√°lculo.

**Diccionario de Extensiones:**
* **`.xls` (Legacy):** Formato antiguo (pre-2007). Basado en binario.
* **`.xlsx` (Est√°ndar Actual):** Basado en XML. Es el est√°ndar de la industria.
* **`.xlsm` (Macros):** Contiene scripts ejecutables (VBA). *Nota de Seguridad:* Pandas extrae los datos de forma segura ignorando las macros, lo cual es ideal para evitar inyecciones de c√≥digo malicioso.
* **`.xlsb` (Binario Optimizado):** Guarda los datos de forma binaria en lugar de XML. Es significativamente m√°s r√°pido para leer y escribir. Ideal para archivos masivos (Ej. +1 mill√≥n de filas).
* **`.ods` / `.odf` (Open Source):** Formato de documento abierto (LibreOffice, OpenOffice). Muy com√∫n en la administraci√≥n p√∫blica.

**üõ†Ô∏è Tip de Arquitectura de Software (Engines):**
Aunque la funci√≥n siempre es `pd.read_excel()`, Pandas requiere motores espec√≠ficos para procesar formatos que no sean `.xlsx`. Si te enfrentas a un archivo especial, recuerda usar el par√°metro `engine`:
* Para `.xlsb` -> `engine='pyxlsb'`
* Para `.ods` -> `engine='odf'`
* Para `.xls` -> `engine='xlrd'`

In [7]:
percapita = pd.read_excel(archivo, sheet_name='emisiones_percapita')

In [8]:
#tambien podemos usar el metodo tail() en vez de head()
percapita.tail()

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0
63103,Global,WLD,2021,4693699.0,1893923.0,1496614.0,1001585.0,211472.0,52663.0,37443.0


In [9]:
#alternativamente podemos tomar registros aleatorios con sample(int)
percapita.sample(8)

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros
8858,Burundi,BDI,1904,,,,,,,
32005,Liechtenstein,LIE,1931,,,,,,,
29548,Incendios Petroleros En Kuwait,,1922,,,,,,,
23835,Guayana,GUY,1921,,,,,,,
12339,Costa Rica,CRI,1849,,,,,,,
10305,Chad,TCD,1991,63670.0,0.0,63670.0,0.0,,0.0,
59698,Tanzania,TZA,1880,,,,,,,
13064,Cuba,CUB,1758,,,,,,,


In [10]:
fuentes = pd.read_excel(archivo, sheet_name='fuentes')


In [11]:
fuentes.tail()

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros,Per Capita
63099,Global,WLD,2017,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63100,Global,WLD,2018,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63101,Global,WLD,2019,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63102,Global,WLD,2020,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."
63103,Global,WLD,2021,"CDIAC 2022, BP, and Sum of countries",CDIAC 2022 and BP,CDIAC 2022 and BP,CDIAC 2022 and BP,Andrew cement,CDIAC 2022 and GCP,[NONE],"CDIAC 2022, BP, Sum of countries, and UN popul..."


In [12]:
#Veremos que tambien podemos solo guardar una x cantidad de lineas usando nrows
datos_primeras_lineas = pd.read_csv('/content/drive/MyDrive/Pandas/superstore_data.csv',nrows=5)
datos_primeras_lineas

Unnamed: 0,Id,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,Response,Complain
0,1826,1970,Graduation,Divorced,84835,0,0,6/16/2014,0,189,...,111,189,218,1,4,4,6,1,1,0
1,1,1961,Graduation,Single,57091,0,0,6/15/2014,0,464,...,7,0,37,1,7,3,7,5,1,0
2,10476,1958,Graduation,Married,67267,0,1,5/13/2014,0,134,...,15,2,30,1,3,2,5,2,0,0
3,1386,1967,Graduation,Together,32474,1,1,11/5/2014,0,10,...,0,0,0,1,1,0,2,7,0,0
4,5371,1989,Graduation,Single,21474,1,0,8/4/2014,0,6,...,11,0,34,2,3,1,2,7,1,0


In [13]:
# Aqui el metodo que nos permite "seleccionar" solo algunas columnas, usando ":"
# ponemos el intervalo de columnas que queremos.
intervalo = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols= 'A:D')

In [14]:
intervalo

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total
0,Afganist√°n,AFG,1750,0.000000e+00
1,Afganist√°n,AFG,1751,0.000000e+00
2,Afganist√°n,AFG,1752,0.000000e+00
3,Afganist√°n,AFG,1753,0.000000e+00
4,Afganist√°n,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


In [15]:
# tambien podemos usar ambos parametros a la vez, de manera que tenemos una
# cantidad de columnas y una cantidad de filas.
intervalo_2 = pd.read_excel(archivo, sheet_name='emisiones_C02', usecols= 'A:D', nrows=10)

In [16]:
intervalo_2

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total
0,Afganist√°n,AFG,1750,0
1,Afganist√°n,AFG,1751,0
2,Afganist√°n,AFG,1752,0
3,Afganist√°n,AFG,1753,0
4,Afganist√°n,AFG,1754,0
5,Afganist√°n,AFG,1755,0
6,Afganist√°n,AFG,1756,0
7,Afganist√°n,AFG,1757,0
8,Afganist√°n,AFG,1758,0
9,Afganist√°n,AFG,1759,0


### üïµÔ∏è‚Äç‚ôÇÔ∏è Auditor√≠a de Datos y Filtrado Espec√≠fico de Excel

**Concepto de Negocio:**
Al importar libros de Excel complejos, es obligatorio realizar un muestreo de calidad (QA) para verificar la integridad de los datos. Adem√°s, los proveedores suelen enviar planillas con decenas de columnas de c√°lculos intermedios que no necesitamos en nuestro sistema central.

**Herramientas de Muestreo:**
* `.head(n)`: Extrae los primeros 'n' registros.
* `.tail(n)`: Extrae los √∫ltimos 'n' registros (ideal para ver los datos m√°s recientes).
* `.sample(n)`: Extrae 'n' registros aleatorios (ideal para detectar errores ocultos en el grueso de los datos).

**Filtrado Nativo de Excel:**
El par√°metro `usecols` en Excel acepta la notaci√≥n de rangos cl√°sicos (ej. `'A:D'`). Combinado con `nrows`, nos permite extraer un "cuadrante" exacto de la hoja de c√°lculo de manera muy eficiente.

In [18]:
# Nota: Asumimos que la variable 'libro_excel' (pd.ExcelFile)
# ya est√° cargada en memoria desde la celda anterior.

# ---------------------------------------------------------
# 1. Auditor√≠a de Calidad (Muestreo Aleatorio y Final)
# ---------------------------------------------------------
df_per_capita = libro_excel.parse('emisiones_percapita')

print("--- Auditor√≠a QA: √öltimos 5 registros (Tail) ---")
display(df_per_capita.tail())

print("\n--- Auditor√≠a QA: 5 registros Aleatorios (Sample) ---")
display(df_per_capita.sample(5))


# ---------------------------------------------------------
# 2. Ingesta Filtrada (Cuadrante Espec√≠fico)
# ---------------------------------------------------------
# Extraemos solo las columnas A, B, C y D, y apenas las primeras 10 filas.
df_emisiones_resumen = libro_excel.parse(
    'emisiones_C02',
    usecols='A:D',
    nrows=10
)

print("\n--- Resumen Gerencial (Filtrado por Rango A:D) ---")
display(df_emisiones_resumen)

--- Auditor√≠a QA: √öltimos 5 registros (Tail) ---


Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros
63099,Global,WLD,2017,4749682.0,1908857.0,1610910.0,940144.0,198416.0,51579.0,39776.0
63100,Global,WLD,2018,4792753.0,1919213.0,1596350.0,979965.0,204225.0,53634.0,39366.0
63101,Global,WLD,2019,4775633.0,1896468.0,1589920.0,984878.0,208309.0,56569.0,39490.0
63102,Global,WLD,2020,4497423.0,1807760.0,1427353.0,963695.0,208844.0,51981.0,37789.0
63103,Global,WLD,2021,4693699.0,1893923.0,1496614.0,1001585.0,211472.0,52663.0,37443.0



--- Auditor√≠a QA: 5 registros Aleatorios (Sample) ---


Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros
37107,Montserrat,MSR,1865,,,,,,,
36550,Mongolia,MNG,1852,,,,,,,
22084,Groenlandia,GRL,1802,,,,,,,
53184,San Crist√≥bal Y Nieves-Anguila,KNA,1894,,,,,,,
19885,Polinesio Franc√©s,PYF,1779,,,,,,,



--- Resumen Gerencial (Filtrado por Rango A:D) ---


Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total
0,Afganist√°n,AFG,1750,0
1,Afganist√°n,AFG,1751,0
2,Afganist√°n,AFG,1752,0
3,Afganist√°n,AFG,1753,0
4,Afganist√°n,AFG,1754,0
5,Afganist√°n,AFG,1755,0
6,Afganist√°n,AFG,1756,0
7,Afganist√°n,AFG,1757,0
8,Afganist√°n,AFG,1758,0
9,Afganist√°n,AFG,1759,0


### ‚è±Ô∏è Auditor√≠a de Rendimiento: I/O vs. CPU (El costo de leer Excel)

**Observaci√≥n de Arquitectura:**
Aunque utilizamos `pd.ExcelFile` para cargar el libro en la memoria cach√©, la extracci√≥n de la hoja de c√°lculo (`.parse()`) demor√≥ aproximadamente 5 segundos. ¬øPor qu√© no fue instant√°neo si ya estaba en la RAM?

En t√©rminos de sistemas, debemos separar dos operaciones que consumen tiempo:
1. **El cuello de botella I/O (Entrada/Salida):** Es el tiempo que tarda el servidor en ir a buscar el archivo f√≠sico al disco duro (o a Google Drive a trav√©s de la red) y traerlo a la memoria RAM. `pd.ExcelFile` ejecuta este paso **una sola vez**. (Es como traer la caja fuerte del archivo muerto a tu escritorio).
2. **El cuello de botella de la CPU (Procesamiento):** Los archivos `.xlsx` son en realidad archivos comprimidos (`.zip`) llenos de documentos de texto en lenguaje XML. Cuando ejecutamos `.parse()`, el motor de Python (`openpyxl`) tiene que leer l√≠nea por l√≠nea ese XML y transformarlo matem√°ticamente en una tabla estructurada (DataFrame) de Pandas.

[Image of pandas ExcelFile memory caching and XML parsing]

**Conclusi√≥n Gerencial:**
Ese trabajo de traducci√≥n XML para m√°s de 63,000 registros es un proceso intensivo para el procesador (CPU), y de ah√≠ provienen esos 5 segundos. Sin embargo, gracias a nuestra optimizaci√≥n, evitamos repetir el costoso "viaje de red" inicial que el motor habr√≠a hecho si us√°bamos la funci√≥n b√°sica m√∫ltiples veces.

##**Escribiendo archivos Excel**


In [19]:
# El metodo que nos permite guardar ---> se borrara cuando se cierre la sesion
#Aqui , de manera similar al csv , usamos index=False
intervalo.to_excel('co2_percapita.xlsx', index=False)

In [20]:
pd.read_excel('co2_percapita.xlsx')

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total
0,Afganist√°n,AFG,1750,0.000000e+00
1,Afganist√°n,AFG,1751,0.000000e+00
2,Afganist√°n,AFG,1752,0.000000e+00
3,Afganist√°n,AFG,1753,0.000000e+00
4,Afganist√°n,AFG,1754,0.000000e+00
...,...,...,...,...
63099,Global,WLD,2017,3.609674e+10
63100,Global,WLD,2018,3.682651e+10
63101,Global,WLD,2019,3.708256e+10
63102,Global,WLD,2020,3.526409e+10


### üì§ Exportaci√≥n a Excel (`to_excel`)

**Concepto de Negocio:**
La entrega final de valor en muchos proyectos de datos corporativos es un reporte en Excel. Al igual que en los archivos CSV, la consistencia de la API de Pandas nos permite usar una sintaxis casi id√©ntica para exportar.

**Buenas Pr√°cticas (Clean Code):**
1. **`index=False`:** Regla de oro para evitar que el √≠ndice interno del sistema se imprima como una columna de basura en el reporte gerencial.
2. **`sheet_name`:** Aunque no es obligatorio, es una excelente pr√°ctica nombrar la hoja interna del Excel resultante (ej. 'Reporte_Mensual') en lugar del nombre gen√©rico 'Sheet1' que pone Pandas por defecto. Esto da un acabado profesional al documento entregable.

In [21]:
import pandas as pd

# 1. Definici√≥n de Rutas (Tu Google Drive)
RUTA_EXPORTACION_EXCEL = '/content/drive/MyDrive/Pandas/reporte_co2_gerencial.xlsx'

# 2. Exportaci√≥n de Datos
# Asumimos que usamos df_emisiones_resumen (el que filtramos por columnas A:D)
df_emisiones_resumen.to_excel(
    RUTA_EXPORTACION_EXCEL,
    index=False,
    sheet_name='Resumen_Directorio' # Nombrada profesionalmente
)

print(f"‚úÖ Reporte Excel generado exitosamente en: {RUTA_EXPORTACION_EXCEL}")

# 3. Auditor√≠a de Verificaci√≥n (Leer lo que acabamos de escribir)
df_verificacion_excel = pd.read_excel(RUTA_EXPORTACION_EXCEL)
print("\n--- Vista previa del reporte final exportado ---")
display(df_verificacion_excel.head())

‚úÖ Reporte Excel generado exitosamente en: /content/drive/MyDrive/Pandas/reporte_co2_gerencial.xlsx

--- Vista previa del reporte final exportado ---


Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total
0,Afganist√°n,AFG,1750,0
1,Afganist√°n,AFG,1751,0
2,Afganist√°n,AFG,1752,0
3,Afganist√°n,AFG,1753,0
4,Afganist√°n,AFG,1754,0


### ‚ö†Ô∏è Peligro de Sobrescritura: Agregando m√∫ltiples hojas a un Excel

**Concepto de Negocio:**
Si utilizamos `df.to_excel('archivo.xlsx')` de forma repetida sobre el mismo archivo, Pandas sobrescribir√° el documento entero perdiendo las hojas anteriores.

**Estrategia de Soluci√≥n (ExcelWriter):**
Para crear reportes gerenciales con m√∫ltiples pesta√±as (ej. "Ventas 2024" y "Ventas 2025" en el mismo libro), debemos utilizar el motor `pd.ExcelWriter` en modo "anexar" (`mode='a'`). Esto abre el archivo de forma segura, agrega la nueva hoja y lo vuelve a cerrar sin destruir la informaci√≥n previa.

In [24]:
# 1. Usamos el bloque 'with' (Gestor de contexto) para abrir y cerrar el archivo de forma segura.
# mode='a' significa "Append" (Anexar). engine='openpyxl' es el motor que permite esta acci√≥n.

with pd.ExcelWriter(RUTA_EXPORTACION_EXCEL, mode='a', engine='openpyxl') as gestor_excel:

    # 2. En lugar de pasarle la RUTA al to_excel, le pasamos el 'gestor_excel'
    datos_primeras_lineas.to_excel(
        gestor_excel,
        index=False,
        sheet_name='Primeras_lineas'
    )

print("‚úÖ Nueva hoja agregada exitosamente sin borrar las anteriores.")

‚úÖ Nueva hoja agregada exitosamente sin borrar las anteriores.


### ‚è±Ô∏è Auditor√≠a de Rendimiento Avanzada: El costo del modo Anexar (`mode='a'`)

**Observaci√≥n Emp√≠rica:**
Al agregar una hoja con apenas 5 registros a un libro de Excel existente, el proceso demor√≥ entre 10 y 12 segundos, casi lo mismo que exportar un DataFrame masivo.

**Concepto Arquitect√≥nico (Overhead de I/O):**
Los archivos `.xlsx` son estructuralmente carpetas comprimidas (`.zip`) de c√≥digo XML. Cuando usamos `ExcelWriter` en modo `append`, el motor (`openpyxl`) no puede simplemente "pegar" datos al final del archivo f√≠sico.
Debe ejecutar un proceso costoso:
1. Cargar y descomprimir el libro original completo en la RAM.
2. Mapear todo el XML existente.
3. Inyectar la nueva hoja (operaci√≥n casi instant√°nea).
4. Volver a compilar, comprimir y guardar el archivo masivo resultante.

**Conclusi√≥n de Clean Code:**
El tiempo consumido es el "overhead" de manipular el archivo pesado preexistente, no el volumen de los datos nuevos. En sistemas de alta transaccionalidad (ej. logs en tiempo real), Excel es ineficiente; se prefieren bases de datos relacionales o archivos de adici√≥n continua (CSV/JSON).

##**Leyendo datos de Google Sheets**

link: https://docs.google.com/spreadsheets/d/1MqAPByeMc27nwIsnPjb6HnPbR8JVrli6egEvOzJCOVc/edit?usp=sharing

De aqui tenemos que sacar el ID de nyuestra hoja compartida, es decir desde la barra despues de la d/ , hasta la siguiente slash

```
1MqAPByeMc27nwIsnPjb6HnPbR8JVrli6egEvOzJCOVc
```



In [33]:
sheet_id = '1MqAPByeMc27nwIsnPjb6HnPbR8JVrli6egEvOzJCOVc'
#Tambien guardaremos el URL original completo
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/edit?usp=sharing'
# pero debemos ademas cambiar la parte de edit sharing por la api de google
# sheets (/gviz)para indicar que conectamos la planilla de google colab con el
# google sheets
url = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet'



In [34]:
datos_co2_sheets = pd.read_csv(url)

In [28]:
display(datos_co2_sheets)

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros,Per Capita
0,Afganist√°n,AFG,1750,0,,,,,,,
1,Afganist√°n,AFG,1751,0,,,,,,,
2,Afganist√°n,AFG,1752,0,,,,,,,
3,Afganist√°n,AFG,1753,0,,,,,,,
4,Afganist√°n,AFG,1754,0,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,36.096.739.276,14.506.973.805,12.242.627.935,7.144.928.128,1.507.923.185,391.992.176,302.294.047,4.749.682
63100,Global,WLD,2018,36.826.506.600,14.746.830.688,12.266.016.285,7.529.846.784,1.569.218.392,412.115.746,302.478.706,4.792.753
63101,Global,WLD,2019,37.082.558.969,14.725.978.025,12.345.653.374,7.647.528.220,1.617.506.786,439.253.991,306.638.573,4.775.633
63102,Global,WLD,2020,35.264.085.734,14.174.564.010,11.191.808.551,7.556.290.283,1.637.537.532,407.583.673,296.301.685,4.497.423


In [32]:
#aqui agregaremos a nuestro link , el parametro de sheetname
sheet_id = '1MqAPByeMc27nwIsnPjb6HnPbR8JVrli6egEvOzJCOVc'
sheet_name = 'emisiones_percapita'
#entonces ahora tenemos parametrizada la extraccion de cada hoja
url_percapita = f'https://docs.google.com/spreadsheets/d/{sheet_id}/gviz/tq?tqx=out:csv&sheet={sheet_name}'
#procedemos a leer
percapita_sheets = pd.read_csv(url_percapita)
#mostramos
display(percapita_sheets)

Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros
0,Afganist√°n,AFG,1750,,,,,,,
1,Afganist√°n,AFG,1751,,,,,,,
2,Afganist√°n,AFG,1752,,,,,,,
3,Afganist√°n,AFG,1753,,,,,,,
4,Afganist√°n,AFG,1754,,,,,,,
...,...,...,...,...,...,...,...,...,...,...
63099,Global,WLD,2017,4.749.682,1.908.857,1.610.910,940.144,198.416,51.579,39.776
63100,Global,WLD,2018,4.792.753,1.919.213,1.596.350,979.965,204.225,53.634,39.366
63101,Global,WLD,2019,4.775.633,1.896.468,1.589.920,984.878,208.309,56.569,39.490
63102,Global,WLD,2020,4.497.423,1.807.760,1.427.353,963.695,208.844,51.981,37.789


### ‚òÅÔ∏è Ingesta desde la Nube: Google Sheets API

**Concepto de Negocio:**
Para automatizar la lectura de un Google Sheet en Pandas sin usar complejas librer√≠as de autenticaci√≥n (OAuth), podemos utilizar el punto de conexi√≥n p√∫blico de *Google Visualization API*.

**El Truco de Arquitectura:**
1. El documento debe estar configurado como "Cualquier usuario que tenga el v√≠nculo puede leer".
2. No usamos `read_excel`. Construimos una URL especial que le pide a Google que exporte la pesta√±a espec√≠fica a un formato texto en tiempo real (`out:csv`) y la leemos directamente con `pd.read_csv`.

**Buenas Pr√°cticas (Clean Code):**
En lugar de copiar y pegar URLs gigantes por cada pesta√±a (lo cual viola el principio DRY: *Don't Repeat Yourself*), encapsularemos la l√≥gica de la URL en una funci√≥n en Python.

In [29]:
import pandas as pd

# 1. El "DNI" de tu documento (Lo sacas de tu propia URL de Google Sheets)
# Nota: Reemplaza esto con el ID real de TU archivo si creaste uno.
ID_DOCUMENTO = '1MqAPByeMc27nwIsnPjb6HnPbR8JVrli6egEvOzJCOVc'

# 2. Funci√≥n Generadora de URLs (Clean Code)
def obtener_url_google_sheet(id_doc, nombre_hoja):
    """
    Construye la URL de la API de Google para descargar una pesta√±a como CSV.
    """
    url_base = f'https://docs.google.com/spreadsheets/d/{id_doc}/gviz/tq'
    parametros = f'?tqx=out:csv&sheet={nombre_hoja}'
    return url_base + parametros

# -------------------------------------------------------------------
# 3. Ingesta Elegante (Una sola l√≠nea por pesta√±a)
# -------------------------------------------------------------------

# Descargar Hoja 1
url_hoja1 = obtener_url_google_sheet(ID_DOCUMENTO, 'emisiones_CO2')
df_emisiones_nube = pd.read_csv(url_hoja1)

# Descargar Hoja 2
url_hoja2 = obtener_url_google_sheet(ID_DOCUMENTO, 'emisiones_percapita')
df_percapita_nube = pd.read_csv(url_hoja2)

# 4. Auditor√≠a
print("‚úÖ Datos descargados exitosamente desde la nube.")
print("\n--- Vista previa de Emisiones Per C√°pita ---")
display(df_percapita_nube.head(3))

‚úÖ Datos descargados exitosamente desde la nube.

--- Vista previa de Emisiones Per C√°pita ---


Unnamed: 0,Pa√≠s,ISO 3166-1 alpha-3,A√±o,Total,Carb√≥n,Aceite,Gas,Cemento,Quema,Otros
0,Afganist√°n,AFG,1750,,,,,,,
1,Afganist√°n,AFG,1751,,,,,,,
2,Afganist√°n,AFG,1752,,,,,,,


# Apuntes Adicionales

## Ejercicio Aula -2



### üèãÔ∏è‚Äç‚ôÇÔ∏è Desaf√≠o Pr√°ctico: Ingesta desde URL y Exportaci√≥n a CSV

**Contexto del Negocio:**
Para expandir nuestro an√°lisis de sostenibilidad global, necesitamos procesar un nuevo conjunto de datos. Este dataset documenta las emisiones de CO2 per c√°pita de todos los pa√≠ses del mundo durante el periodo 1990 - 2019 (fuente original: Kaggle).

**Objetivo:**
1. **Extracci√≥n (Extract):** Leer los datos directamente desde el enlace web proporcionado.
2. **Carga (Load):** Guardar el DataFrame obtenido en nuestro sistema (Google Drive) en formato de texto plano (`.csv`).

**Recursos:**
* **Enlace de los Datos:** [Emisiones de Carbono Mundo](https://cdn3.gnarususercontent.com.br/1980-pandas-e-s/emisiones_carbono_mundo.xlsx)

### üõ°Ô∏è Superando Bloqueos de Seguridad (Error 403 Forbidden)

**El Problema:**
Al intentar leer un archivo directamente desde una URL externa, es com√∫n recibir un `HTTP Error 403`. Esto ocurre porque los servidores modernos tienen firewalls que bloquean solicitudes automatizadas (bots) que provienen de lenguajes de programaci√≥n en lugar de navegadores web est√°ndar.

**La Soluci√≥n (Modificaci√≥n del User-Agent):**
Utilizamos el par√°metro `storage_options` de la funci√≥n `read_excel` para inyectar una cabecera HTTP falsa (`User-Agent: Mozilla/5.0`). Esto enga√±a al servidor, haci√©ndole creer que la petici√≥n de descarga proviene de un navegador web humano normal, permitiendo que la descarga fluya hacia nuestro DataFrame.

In [36]:
import pandas as pd

# 1. Definici√≥n de Rutas y Constantes
RUTA_ARCHIVO = 'https://cdn3.gnarususercontent.com.br/1980-pandas-e-s/emisiones_carbono_mundo.xlsx'
RUTA_EXPORTACION_CSV = '/content/drive/MyDrive/Pandas/emisiones_co2_mundo.csv'

# 2. Configuraci√≥n de Seguridad (El "Disfraz" de Navegador)
# Diccionario con las cabeceras HTTP que inyectaremos
opciones_conexion = {'User-Agent': 'Mozilla/5.0'}

# 3. Ingesta de Datos (Superando el firewall)
df_co2_mundo = pd.read_excel(
    RUTA_ARCHIVO,
    storage_options=opciones_conexion  # Pasamos nuestro diccionario aqu√≠
)

# 4. Transformaci√≥n y Carga (Guardado local)
df_co2_mundo.to_csv(RUTA_EXPORTACION_CSV, index=False)

# 5. Inspecci√≥n de Calidad
print(f"‚úÖ √âxito: Firewall superado. Archivo guardado en {RUTA_EXPORTACION_CSV}")
print("\n--- Auditor√≠a QA: Emisiones de CO2 en el Mundo ---")
display(df_co2_mundo.head())

‚úÖ √âxito: Firewall superado. Archivo guardado en /content/drive/MyDrive/Pandas/emisiones_co2_mundo.csv

--- Auditor√≠a QA: Emisiones de CO2 en el Mundo ---


Unnamed: 0,Country Name,country_code,Region,Indicator Name,1990,1991,1992,1993,1994,1995,...,2011,2012,2013,2014,2015,2016,2017,2018,2019,2019.1
0,Aruba,ABW,Latin America & Caribbean,CO2 emissions (metric tons per capita),,,,,,,...,,,,,,,,,,
1,Afghanistan,AFG,South Asia,CO2 emissions (metric tons per capita),191745100.0,167681579.0,95957742.0,8472111.0,75545830.0,68467960.0,...,29650620.0,259295300.0,18562370.0,146235600.0,172896700.0,149789300.0,131694600.0,1632953.0,159824400.0,159824400.0
2,Angola,AGO,Sub-Saharan Africa,CO2 emissions (metric tons per capita),553662000.0,544538649.0,543557223.0,70898420.0,836804400.0,912141500.0,...,985522300.0,950695900.0,1036294000.0,1099779000.0,113504400.0,1031811000.0,81330070.0,777674900.0,792137100.0,792137100.0
3,Albania,ALB,Europe & Central Asia,CO2 emissions (metric tons per capita),1819542000.0,124281022.0,683699826.0,638307000.0,645355200.0,605436300.0,...,166942300.0,150324000.0,1533630000.0,1668337000.0,160377500.0,1557664000.0,1788786000.0,1782739000.0,169224800.0,169224800.0
4,Andorra,AND,Europe & Central Asia,CO2 emissions (metric tons per capita),7521832000.0,723537924.0,69630787.0,6724178000.0,6541579000.0,6733479000.0,...,5850886000.0,5944654000.0,5942800000.0,5807128000.0,6026182000.0,6080600000.0,6104134000.0,6362975000.0,6481217000.0,6481217000.0
