## Unidad de Trabajo 2: Lectura y Exportación de Datos Estructurados

### Objetivos de la Unidad

Esta unidad sigue contribuyendo al **Resultado de Aprendizaje 1 (RA 1)**: *Manejo, limpieza y normalización de distintos tipos de datos en función del problema a resolver*. Al finalizar esta unidad, seréis capaces de:

* Escribir código que permita leer datos de distintos orígenes (CSV, XLSX, entre otros).
* Escribir código que permita exportar datos previamente leídos en ficheros de distinto formato (CSV, XLSX, entre otros).

### 1. Métodos para Leer Datos de Diversos Orígenes

Pandas dispone de un conjunto de funciones, cuyo nombre suele empezar por `read_*`, para leer datos tabulares y cargarlos en un `DataFrame`. Nos centraremos en las más comunes para datos estructurados: `read_csv` y `read_excel`.

#### 1.1. Lectura de archivos CSV

El formato **CSV (Comma-Separated Values)** es, posiblemente, el formato de archivo de texto más extendido para datos tabulares. Es un formato de texto plano, lo que lo hace muy ligero y compatible. La función principal para leer estos archivos es `pd.read_csv().

Para nuestros ejemplos, crearemos un archivo `ejemplo_ventas.csv` en la misma carpeta que nuestro notebook. Podéis crearlo con un editor de texto plano (como el bloc de notas o VS Code) y guardar el siguiente contenido:

```csv
ID_Producto,Producto,Categoria,Precio,Unidades_Vendidas
101,Portátil,Electrónica,1200,50
102,Smartphone,Electrónica,800,150
201,Silla Oficina,Mobiliario,150,300
202,Mesa Escritorio,Mobiliario,200,100
301,Teclado,Accesorios,75,500
```

**Ejemplo 1: Lectura básica de un CSV**

In [1]:
import pandas as pd

# Leemos el archivo CSV y lo cargamos en un DataFrame
# Pandas infiere automáticamente la cabecera (los nombres de las columnas)
df_ventas = pd.read_csv('ejemplo_ventas.csv')

print("DataFrame cargado desde CSV:")
df_ventas

DataFrame cargado desde CSV:


Unnamed: 0,ID_Producto,Producto,Categoria,Precio,Unidades_Vendidas
0,101,Portátil,Electrónica,1200,50
1,102,Smartphone,Electrónica,800,150
2,201,Silla Oficina,Mobiliario,150,300
3,202,Mesa Escritorio,Mobiliario,200,100
4,301,Teclado,Accesorios,75,500


La función `read_csv` es muy potente y tiene muchos parámetros para adaptarse a archivos CSV con formatos no estándar. Veamos algunos de los más útiles:

* `sep`: Para especificar el delimitador si no es una coma. Por ejemplo, `sep=';'` para archivos delimitados por punto y coma.
* `header`: Para indicar qué fila del archivo contiene los nombres de las columnas. Si no hay cabecera, se usa `header=None`.
* `names`: Para proporcionar una lista con los nombres de las columnas, muy útil si el archivo no tiene cabecera.
* `index_col`: Para especificar qué columna (o columnas) debe usarse como índice del DataFrame.

**Ejemplo 2: Lectura de un CSV sin cabecera y especificando un índice**

Imaginemos que nuestro archivo, `ventas_sin_header.csv`, no tiene la fila de nombres de columna:
```csv
101,Portátil,Electrónica,1200,50
102,Smartphone,Electrónica,800,150
201,Silla Oficina,Mobiliario,150,300
```

In [2]:
# Creamos el archivo para el ejemplo
#csv_data = """101,Portátil,Electrónica,1200,50
#102,Smartphone,Electrónica,800,150
#201,Silla Oficina,Mobiliario,150,300"""
#with open('ventas_sin_header.csv', 'w') as f:
#    f.write(csv_data)

# Definimos los nombres de las columnas
nombres_col = ['ID_Producto', 'Producto', 'Categoria', 'Precio', 'Unidades_Vendidas']

# Leemos el archivo, indicando que no hay cabecera, 
# proporcionando los nombres y usando ID_Producto como índice
df_ventas_2 = pd.read_csv('ventas_sin_header.csv', header=None, names=nombres_col, index_col='ID_Producto')

print("DataFrame con cabecera e índice personalizados:")
df_ventas_2

DataFrame con cabecera e índice personalizados:


Unnamed: 0_level_0,Producto,Categoria,Precio,Unidades_Vendidas
ID_Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
101,Portátil,Electrónica,1200,50
102,Smartphone,Electrónica,800,150
201,Silla Oficina,Mobiliario,150,300


In [3]:
df_ventas_3 = pd.read_csv('ventas_sin_header.csv', header=None)
df_ventas_3

Unnamed: 0,0,1,2,3,4
0,101,Portátil,Electrónica,1200,50
1,102,Smartphone,Electrónica,800,150
2,201,Silla Oficina,Mobiliario,150,300


#### 1.2. Lectura de archivos Excel

Pandas también puede leer y escribir archivos en formato Microsoft Excel (`.xls` y `.xlsx`). Para ello, utiliza librerías externas como `openpyxl` y `xlrd`. Si no las instalaste en la unidad anterior, puedes hacerlo ahora:

```bash
pip install openpyxl xlrd
```

La función principal es `pd.read_excel()`.

**Ejemplo 3: Lectura de un archivo Excel**

Primero, vamos a crear un archivo de Excel usando el DataFrame que ya teníamos.

In [4]:
# Usaremos el primer DataFrame que creamos
df_ventas.to_excel('ejemplo_ventas.xlsx', sheet_name='Ventas_2024', index=False)
print("Archivo 'ejemplo_ventas.xlsx' creado con éxito.")

Archivo 'ejemplo_ventas.xlsx' creado con éxito.


In [5]:
# Ahora leemos el archivo de Excel que acabamos de crear
df_excel = pd.read_excel('ejemplo_ventas.xlsx', sheet_name='Ventas_2024')

print("DataFrame cargado desde Excel:")
df_excel

DataFrame cargado desde Excel:


Unnamed: 0,ID_Producto,Producto,Categoria,Precio,Unidades_Vendidas
0,101,Portátil,Electrónica,1200,50
1,102,Smartphone,Electrónica,800,150
2,201,Silla Oficina,Mobiliario,150,300
3,202,Mesa Escritorio,Mobiliario,200,100
4,301,Teclado,Accesorios,75,500


#### 1.3. Ejercicio Dataset Pokemon

In [6]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("abcsds/pokemon")

print("Path to dataset files:", path)

  from .autonotebook import tqdm as notebook_tqdm


Path to dataset files: C:\Users\andreia.triant\.cache\kagglehub\datasets\abcsds\pokemon\versions\2


In [7]:
# Cargar el archivo en un DataFrame
dataset_pokemon=path + "/pokemon.csv"
read_pokemon = pd.read_csv(dataset_pokemon)

# Mostrar las primeras 5 líneas
#print(read_pokemon.head(16))
read_pokemon.head(16)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,634,78,104,78,159,115,100,1,False
9,7,Squirtle,Water,,314,44,48,65,50,64,43,1,False


La función `read_excel` comparte muchos parámetros con `read_csv`, pero tiene algunos específicos para Excel, como `sheet_name`, que permite especificar qué hoja del libro de trabajo queremos leer. Si no se especifica, lee la primera hoja por defecto.

### 2. Técnicas para Exportar Datos Procesados

Tan importante como leer datos es saber exportarlos. Después de limpiar, transformar o analizar nuestros datos, querremos guardar los resultados. Pandas ofrece métodos `to_*` para exportar DataFrames a una gran variedad de formatos.

#### 2.1. Exportación a CSV

In [8]:
# Vamos a añadir una nueva columna a nuestro DataFrame
df_ventas['Ingresos_Totales'] = df_ventas['Precio'] * df_ventas['Unidades_Vendidas']

print("DataFrame con nueva columna de ingresos:")
print(df_ventas)

# Exportamos el DataFrame modificado a un nuevo archivo CSV
# Con index=False evitamos que Pandas escriba el índice del DataFrame en el archivo
df_ventas.to_csv('ventas_con_ingresos.csv', index=False)

print("\nDataFrame exportado a 'ventas_con_ingresos.csv'")

DataFrame con nueva columna de ingresos:
   ID_Producto         Producto    Categoria  Precio  Unidades_Vendidas  \
0          101         Portátil  Electrónica    1200                 50   
1          102       Smartphone  Electrónica     800                150   
2          201    Silla Oficina   Mobiliario     150                300   
3          202  Mesa Escritorio   Mobiliario     200                100   
4          301          Teclado   Accesorios      75                500   

   Ingresos_Totales  
0             60000  
1            120000  
2             45000  
3             20000  
4             37500  

DataFrame exportado a 'ventas_con_ingresos.csv'


#### 2.2. Exportación a Excel

In [9]:
# Exportamos el mismo DataFrame a un archivo Excel
df_ventas.to_excel('ventas_con_ingresos.xlsx', 
                  sheet_name='Resultados', 
                  index=False)

print("DataFrame exportado a 'ventas_con_ingresos.xlsx' en la hoja 'Resultados'")

DataFrame exportado a 'ventas_con_ingresos.xlsx' en la hoja 'Resultados'


### Propuesta de Ejercicios

**Ejercicio 1: Lectura de Datos de Múltiples Fuentes**

1.  Busca en internet un conjunto de datos público en formato CSV que te interese (por ejemplo, de deportes, cine, demografía...). Una buena fuente es [Kaggle](https://www.kaggle.com/datasets).
2.  Descarga el archivo CSV y cárgalo en un DataFrame de Pandas en tu notebook.
3.  Muestra las 10 primeras filas y la información general del DataFrame con `.info()`.
4.  Exporta ese mismo DataFrame a un archivo Excel llamado `mi_dataset.xlsx`.

**Ejercicio 2: Manejo de Parámetros de Lectura**

1.  Crea un archivo de texto llamado `datos_especiales.txt` con el siguiente contenido, usando punto y coma como separador:
    ```
    # Datos de sensores
    sensor_id;medida;unidad
    A01;23.5;C
    A02;24.1;C
    B01;68.0;%
    ```
2.  Utiliza `pd.read_csv()` para leer el archivo. Deberás usar los parámetros `sep` para indicar el separador y `comment` para ignorar las líneas que empiezan con `#`.
3.  Muestra el DataFrame resultante.

**Ejercicio 3: Exportación Selectiva**

1.  Usando el DataFrame del **Ejercicio 1**, selecciona solo las 3 primeras columnas.
2.  Exporta este subconjunto de datos a un nuevo archivo CSV llamado `dataset_reducido.csv`.
3.  Asegúrate de que el archivo exportado no contenga la columna de índice de Pandas.

In [14]:
#Ejercicio 1
read_pokemon.head(10)

Unnamed: 0,#,Name,Type 1,Type 2,Total,HP,Attack,Defense,Sp. Atk,Sp. Def,Speed,Generation,Legendary
0,1,Bulbasaur,Grass,Poison,318,45,49,49,65,65,45,1,False
1,2,Ivysaur,Grass,Poison,405,60,62,63,80,80,60,1,False
2,3,Venusaur,Grass,Poison,525,80,82,83,100,100,80,1,False
3,3,VenusaurMega Venusaur,Grass,Poison,625,80,100,123,122,120,80,1,False
4,4,Charmander,Fire,,309,39,52,43,60,50,65,1,False
5,5,Charmeleon,Fire,,405,58,64,58,80,65,80,1,False
6,6,Charizard,Fire,Flying,534,78,84,78,109,85,100,1,False
7,6,CharizardMega Charizard X,Fire,Dragon,634,78,130,111,130,85,100,1,False
8,6,CharizardMega Charizard Y,Fire,Flying,634,78,104,78,159,115,100,1,False
9,7,Squirtle,Water,,314,44,48,65,50,64,43,1,False


In [15]:
#Ejercicio 1: Info
read_pokemon.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 800 entries, 0 to 799
Data columns (total 13 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   #           800 non-null    int64 
 1   Name        800 non-null    object
 2   Type 1      800 non-null    object
 3   Type 2      414 non-null    object
 4   Total       800 non-null    int64 
 5   HP          800 non-null    int64 
 6   Attack      800 non-null    int64 
 7   Defense     800 non-null    int64 
 8   Sp. Atk     800 non-null    int64 
 9   Sp. Def     800 non-null    int64 
 10  Speed       800 non-null    int64 
 11  Generation  800 non-null    int64 
 12  Legendary   800 non-null    bool  
dtypes: bool(1), int64(9), object(3)
memory usage: 75.9+ KB


In [16]:
#Ejercicio 1: Exportal a excel
read_pokemon.to_excel('mi_dataset.xlsx', index=False)

In [10]:
#Ejercicio 2

# Leer el archivo usando punto y coma como separador y saltando líneas que empiezan con #
df_sensores = pd.read_csv('datos_especiales.txt', sep=';', comment='#')

# Mostrar el DataFrame resultante
print(df_sensores)
df_sensores

      sensor_id  medida unidad
0           A01    23.5      C
1           A02    24.1      C
2           B01    68.0      %


Unnamed: 0,sensor_id,medida,unidad
0,A01,23.5,C
1,A02,24.1,C
2,B01,68.0,%


In [None]:
#Ejercicio 3
# Seleccionar solo las 10 primeras filas y las 3 primeras columnas del DataFrame
subset = read_pokemon.iloc[:10, :3]

# Exportar el subconjunto a un nuevo archivo CSV sin el índice de Pandas
subset.to_csv('dataset_reducido.csv', index=False)

# Lo mismo pero para las 3 primeras filas
primeras_filas = read_pokemon.head(3)
primeras_filas.to_csv('primeras_filas.csv', index=False)