<a href="https://colab.research.google.com/github/yshungria-uniandes/Data-Science-Fundamentals-/blob/main/Exportaci%C3%B3n_y_conversi%C3%B3n_de_dataframes_en_Pandas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exportación y conversión de dataframes en Pandas

En este capítulo, exploraremos diversas técnicas y formatos para convertir y guardar DataFrames en Pandas. Estos métodos son esenciales para compartir, almacenar y procesar datos de manera eficiente. Los formatos que discutiremos incluyen diccionarios, arrays, CSV, JSON, Excel, y otros. También veremos cómo importar y exportar datos utilizando estos formatos.

## Conversión de DataFrames a Diferentes Formatos

### 1. Convertir DataFrames a Diccionarios:

Convertir un DataFrame a un diccionario puede ser útil cuando necesitas manipular los datos en un formato más flexible o integrarlos en aplicaciones que manejan datos en forma de diccionario.

In [1]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    'Producto': ['Manzanas', 'Naranjas', 'Bananas'],
    'Ventas': [50, 30, 20],
    'Precio': [0.5, 0.75, 0.3]
}
df = pd.DataFrame(data)

# Convertir a un diccionario
dict_data = df.to_dict()
print("DataFrame convertido a diccionario:")
print(dict_data)

DataFrame convertido a diccionario:
{'Producto': {0: 'Manzanas', 1: 'Naranjas', 2: 'Bananas'}, 'Ventas': {0: 50, 1: 30, 2: 20}, 'Precio': {0: 0.5, 1: 0.75, 2: 0.3}}


### 2. Convertir DataFrames a Arrays de NumPy:

Los arrays de NumPy son útiles para realizar operaciones matemáticas y estadísticas avanzadas que pueden ser más eficientes en NumPy.

In [3]:
import numpy as np

# Convertir a un array de NumPy
array_data = df.to_numpy()
print("DataFrame convertido a array de NumPy:")
print(array_data)

DataFrame convertido a array de NumPy:
[['Manzanas' 50 0.5]
 ['Naranjas' 30 0.75]
 ['Bananas' 20 0.3]]



### 3. Convertir DataFrames a CSV:

CSV (Comma Separated Values) es uno de los formatos más comunes para almacenar y compartir datos tabulares.


In [4]:
# Guardar el DataFrame en un archivo CSV
df.to_csv('ventas.csv', index=False)
print("DataFrame guardado como archivo CSV")

DataFrame guardado como archivo CSV


### 4. Convertir DataFrames a JSON:

JSON (JavaScript Object Notation) es un formato ampliamente utilizado para el intercambio de datos, especialmente en aplicaciones web y APIs.

In [5]:
# Convertir a JSON
json_data = df.to_json()
print("DataFrame convertido a JSON:")
print(json_data)

# Guardar el DataFrame en un archivo JSON
df.to_json('ventas.json', orient='records', lines=True)
print("DataFrame guardado como archivo JSON")

DataFrame convertido a JSON:
{"Producto":{"0":"Manzanas","1":"Naranjas","2":"Bananas"},"Ventas":{"0":50,"1":30,"2":20},"Precio":{"0":0.5,"1":0.75,"2":0.3}}
DataFrame guardado como archivo JSON


### 5. Convertir DataFrames a Excel:

Excel es un formato muy popular para almacenar y compartir datos en entornos empresariales y académicos.


In [6]:
# Guardar el DataFrame en un archivo Excel
df.to_excel('ventas.xlsx', index=False)
print("DataFrame guardado como archivo Excel")

DataFrame guardado como archivo Excel


### Consideraciones y Mejores Prácticas

1. Elegir el Formato Adecuado: Seleccionar el formato adecuado para almacenar o compartir datos depende del contexto y los requisitos específicos.

Por ejemplo:

CSV: Ideal para datos tabulares simples y para interoperabilidad con muchas aplicaciones.

JSON: Adecuado para datos estructurados y semi-estructurados, especialmente en aplicaciones web y APIs.

Excel: Útil para datos que requieren análisis manual o presentación en entornos empresariales.

NumPy Arrays: Mejor para operaciones matemáticas y estadísticas intensivas.

2. Manejar la Codificación de Caracteres: Cuando trabajes con datos que contienen caracteres especiales o no latinos, asegúrate de manejar correctamente la codificación de caracteres.


In [7]:
# Guardar un archivo CSV con codificación UTF-8
df.to_csv('ventas_utf8.csv', index=False, encoding='utf-8')

# Leer un archivo CSV con codificación UTF-8
df_from_csv_utf8 = pd.read_csv('ventas_utf8.csv', encoding='utf-8')

3. Gestión de Archivos Grandes: Para datasets muy grandes, considera usar compresión para ahorrar espacio y mejorar la eficiencia.

In [9]:
# Guardar un archivo CSV comprimido
df.to_csv('ventas_comprimido.csv.gz', index=False, compression='gzip')

# Leer un archivo CSV comprimido
df_from_compressed_csv = pd.read_csv('ventas_comprimido.csv.gz', compression='gzip')

df_from_compressed_csv

Unnamed: 0,Producto,Ventas,Precio
0,Manzanas,50,0.5
1,Naranjas,30,0.75
2,Bananas,20,0.3


4. Documentación y Reproducibilidad: Documenta todos los pasos y parámetros utilizados en la conversión y exportación de datos. Esto es crucial para la reproducibilidad y la transparencia del análisis.


In [10]:
# Ejemplo de documentación en el código
"""
Este script convierte un DataFrame a diferentes formatos y guarda los resultados en archivos.
- DataFrame original: df
- Formatos: diccionario, NumPy array, CSV, JSON, Excel
- Fecha: 01/01/2023
- Autor: Jesús Ortiz
"""

'\nEste script convierte un DataFrame a diferentes formatos y guarda los resultados en archivos.\n- DataFrame original: df\n- Formatos: diccionario, NumPy array, CSV, JSON, Excel\n- Fecha: 01/01/2023\n- Autor: Jesús Ortiz\n'