
# Leer archivos de distintos formatos <br>
Una de las grandes ventajas de Pandas es su capacidad para leer distintos tipos de archivos.<BR>
Estructura para leer archivos de distintos formatos: <BR>
#### <span style="color:aqua">df = pd.read_</span>FORMATO<span style="color:aqua"> ('ruta/del/archivo.</span>FORMATO')


In [1]:
# Importamos la librería de Pandas
import pandas as pd

<span style="color:aqua"> 1. Archivos CSV (Comma Separated Values) </span> <br>
Los archivos CSV son uno de los formatos de datos más comunes. Pandas puede leer estos archivos con la función read_csv.

In [2]:
# Cargar archivo CSV en un DataFrame
df = pd.read_csv('archivo.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'archivo.csv'

Parámetros útiles:
* sep: Si el archivo usa un delimitador diferente al coma (,), puedes especificarlo. Ejemplo: sep=';'.
* header: Define si el archivo tiene una fila de encabezado con los nombres de las columnas. Si no tiene, usa header=None.
* index_col: Indica qué columna se usará como índice del DataFrame.

In [None]:
# Ejemplo con separador personalizado:
df = pd.read_csv('archivo.csv', sep=';', header=0, index_col=0)

<span style="color:aqua"> 2. Archivos Excel (XLS, XLSX) </span> <br>
Pandas puede leer archivos de Excel con la función read_excel. Este formato es ideal cuando los datos tienen varias hojas o una estructura más compleja. <br>
Parámetros útiles:
- sheet_name: Define la hoja que se quiere cargar. Si es una lista de nombres, cargará varias hojas.
- usecols: Permite seleccionar qué columnas cargar. Ejemplo: usecols="A:C" carga solo las columnas A, B y C.

In [None]:
# Cargar archivo Excel en un DataFrame
df = pd.read_excel('archivo.xlsx', sheet_name='Hoja1')

<span style="color:aqua"> 3. Archivos JSON (JavaScript Object Notation) </span> <br>
El formato JSON es muy utilizado en el intercambio de datos entre aplicaciones. Pandas puede cargar estos archivos con read_json. <br>
Parámetros útiles: <br>
orient: Especifica la estructura del archivo JSON (e.g., 'records', 'index'). Esto es necesario si el formato es complejo.

In [None]:
# Cargar archivo JSON en un DataFrame
df = pd.read_json('archivo.json')

<span style="color:aqua"> 4. Archivos de Texto (TXT)  </span><br>
Pandas también puede leer archivos de texto que no necesariamente están separados por comas. Para estos casos se utiliza read_table.

In [None]:
# Cargar archivo de texto con separador personalizado
df = pd.read_table('archivo.txt', sep='\t')

<span style="color:aqua"> 5. Archivos HTML  </span><br>
Pandas puede extraer tablas de una página web o un archivo HTML utilizando read_html.

In [None]:
# Cargar tablas desde una URL o archivo HTML

dfs = pd.read_html('https://ejemplo.com')
# Esta función devolverá una lista de DataFrames si hay varias tablas en la página o archivo.

<span style="color:aqua"> 6. Bases de Datos SQL  </span><br>
Pandas puede interactuar con bases de datos SQL (como MySQL, SQLite, PostgreSQL). Puedes cargar los datos ejecutando una consulta SQL directamente en un DataFrame usando read_sql.

In [None]:
import sqlite3

# Conectar a la base de datos
conn = sqlite3.connect('base_datos.db')

In [None]:
# Cargar datos desde una consulta SQL en un DataFrame
df = pd.read_sql('SELECT * FROM tabla', conn)

<span style="color:aqua"> 7. Archivos Parquet </span> <br>
El formato Parquet es eficiente para almacenar grandes volúmenes de datos. Pandas permite leer archivos en este formato con read_parquet.<br>
Nota <br>
Formato de almacenamiento en columnas optimizado para el procesamiento distribuido de grandes conjuntos de datos

In [None]:
# Cargar archivo Parquet en un DataFrame
df = pd.read_parquet('archivo.parquet')

<span style="color:aqua"> 8. Archivos Pickle  </span><br>
El formato Pickle es específico de Python y se usa para serializar objetos, incluido un DataFrame. Puedes cargar archivos Pickle en Pandas con read_pickle.<br>
Nota:<br>
Formato utilizado para serializar y deserializar tipos de datos. Este formato es nativo de Python, lo que significa que los objetos Pickle no pueden cargarse utilizando ningún otro lenguaje de programación.

In [None]:
# Cargar archivo pickle en un DataFrame
df = pd.read_pickle('archivo.pkl')

### Resumen de funciones para cargar archivos:

| 	Tipo de archivo	| Función de Pandas	| 
| 	---------------	| -----------------	| 
| 		CSV			| pd.read_csv()		| 
| 		Excel		| pd.read_excel()	| 
| 		JSON		| pd.read_json()	| 
| 		TXT			| pd.read_table()	| 
| 		HTML		| pd.read_html()	| 
| 		SQL			| pd.read_sql()		| 
| 		Parquet		| pd.read_parquet()	| 
| 		Pickle		| pd.read_pickle()	| 


Pandas es una herramienta muy flexible para manejar datos de diferentes fuentes y formatos, lo que facilita la importación de información para su análisis y manipulación.