#Cargar y visualizar datos con Pandas (Archivos de Excel)

Además de CSV y Google Sheets, Pandas puede leer directamente archivos de Excel.

Pasos:
1. Subimos el archivo **prueba.xlsx** a la carpeta de trabajo de Colab (normalmente `/content`).
2. Con `pd.ExcelFile()` vemos las hojas disponibles dentro del archivo.
3. Elegimos una hoja y la cargamos en un `DataFrame` con `pd.read_excel()`.
4. Usamos `.head()` para ver las primeras filas.

## Preparación del entorno

Antes de trabajar con archivos de datos, vamos a importar las librerías que usaremos en este cuaderno:

- **Pandas**: para cargar, manipular y visualizar datos en tablas (DataFrames).
- **Matplotlib**: para realizar gráficos sencillos.
- **Pathlib**: para manejar rutas de archivos de forma más clara.

Además, configuramos algunas opciones para que las tablas se vean completas en Colab.


In [2]:
import pandas as pd
from pathlib import Path

# Opciones de display para que se vea cómodo en Colab
pd.set_option("display.max_rows", 20)
pd.set_option("display.max_columns", 50)
pd.set_option("display.width", 120)

print("Pandas versión:", pd.__version__)

Pandas versión: 2.2.2


## Cargar un archivo CSV y ver sus primeras filas

Ahora vamos a cargar el archivo **ventas.csv**, que ya subimos manualmente a la carpeta del entorno de Google Colab (normalmente `/content`).

Con el método `pd.read_csv()` de Pandas podemos leer el archivo y guardarlo en un `DataFrame`, que es como una tabla en memoria.

Después, usamos:
- `.shape` para conocer la cantidad de filas y columnas.
- `.head()` para ver las primeras 5 filas de la tabla.


In [3]:
# Definimos la ruta del archivo Excel
ruta_xlsx = Path("ventas.xlsx")

# Si no existe, pedimos al usuario subirlo manualmente
if not ruta_xlsx.exists():
    from google.colab import files
    print("Subí el archivo ventas.xlsx…")
    archivos = files.upload()  # Seleccioná prueba.xlsx

# Ver hojas disponibles en el archivo
xls = pd.ExcelFile("ventas.xlsx")
print("Hojas encontradas:", xls.sheet_names)

# Elegimos una hoja: por defecto la primera
nombre_hoja = xls.sheet_names[0]

# Leemos la hoja seleccionada
df_excel = pd.read_excel("ventas.xlsx", sheet_name=nombre_hoja)

# Mostramos resultados
print(f"Tamaño de la hoja '{nombre_hoja}':", df_excel.shape)
display(df_excel.head())



Hojas encontradas: ['Hoja 1']
Tamaño de la hoja 'Hoja 1': (954, 5)


Unnamed: 0,Fecha,Vendedor,Sede Entrega,Producto,Importe
0,2020-11-06,Vendedor 10,Sede D,Producto Z,$75880.72
1,2021-10-01,Vendedor 10,Sede D,Producto Y,$279412.05
2,2021-05-09,Vendedor 4,Sede A,Producto W,
3,2021-10-07,Vendedor 3,Sede D,Producto U,$33830.98
4,2021-08-02,Vendedor 3,Sede C,Producto U,$205706.84


**Observaciones:**
- El DataFrame tiene 954 filas y 5 columnas.
- La columna **Importe** contiene el símbolo `$`. Esto hace que Pandas la lea como texto.
- En algunos casos aparecen valores `NaN`, que indican datos faltantes.

### Explicación del código para leer un archivo Excel

- `Path("prueba.xlsx")`  
  Crea un objeto que representa la ruta del archivo en el sistema.  
  En Colab, si subimos `prueba.xlsx`, queda en la carpeta principal `/content`.

- `if not ruta_xlsx.exists(): ... files.upload()`  
  Verifica si el archivo ya existe en el entorno.  
  Si no está, abre un cuadro de diálogo para que el usuario lo suba manualmente.

- `pd.ExcelFile("prueba.xlsx")`  
  Permite abrir el archivo y consultar las **hojas** que contiene.  
  Un archivo Excel puede tener varias hojas (pestañas).

- `xls.sheet_names`  
  Lista con los nombres de todas las hojas disponibles en el archivo.

- `pd.read_excel("prueba.xlsx", sheet_name=nombre_hoja)`  
  Carga la hoja seleccionada dentro de un **DataFrame** de Pandas.  
  - `sheet_name` indica cuál hoja leer (por nombre o por índice).  
  - El resultado es un DataFrame, que funciona como una **tabla en memoria**.

- `.shape`  
  Devuelve una tupla `(filas, columnas)` con el tamaño de la tabla.

- `.head()`  
  Muestra las primeras 5 filas del DataFrame.  
  Sirve para inspeccionar rápidamente cómo se ven los datos.
