# EL FORMATO CSV

# Que es?
Las siglas CSV vienen del inglés "Comma Separated Values" y significan valores separados por comas. Dicho esto, un archivo CSV es cualquier archivo de texto en el cual los caracteres están separados por comas, haciendo una especie de tabla en filas y columnas. Las columnas quedan definidas coma, mientras que cada fila se define mediante un espacio. 

# Para que sirve?
1. Almacenamiento de datos tabulares: Los archivos CSV permiten almacenar datos en una estructura tabular, donde cada línea representa una fila y los valores se separan por comas o algún otro delimitador. Este formato es especialmente útil cuando necesitas almacenar grandes cantidades de datos en una estructura organizada y fácilmente legible.

2. Importación y exportación de datos: Los archivos CSV son ampliamente utilizados para importar y exportar datos en aplicaciones como hojas de cálculo, bases de datos y programas estadísticos. Muchas aplicaciones y plataformas admiten la lectura y escritura de archivos CSV, lo que facilita el intercambio de datos entre diferentes sistemas.

3. Integración con lenguajes de programación: Los archivos CSV son compatibles con la mayoría de los lenguajes de programación, lo que los convierte en un formato comúnmente utilizado para la manipulación y procesamiento de datos en programas. Puedes leer y escribir archivos CSV en lenguajes como Python, R, Java, entre otros, utilizando bibliotecas y funciones incorporadas.

4. Análisis y visualización de datos: Los archivos CSV se utilizan ampliamente en análisis de datos y visualización. Puedes importar un archivo CSV en herramientas como Excel, Google Sheets, pandas en Python o RStudio para realizar cálculos, filtrar datos, realizar gráficos y obtener información útil a partir de los datos almacenados en el archivo.

5. Interoperabilidad de datos: Los archivos CSV son un formato ampliamente aceptado y compatible. Esto significa que puedes compartir fácilmente datos en formato CSV con otros usuarios o sistemas, independientemente de la plataforma o la aplicación que utilicen. Esto facilita la colaboración y el intercambio de datos entre diferentes entornos.

# Capacidad
La capacidad de un archivo CSV se refiere a la cantidad de datos que puede almacenar. Como formato de texto plano, no hay restricciones estrictas en términos de tamaño de archivo o límites de capacidad predefinidos. La capacidad está más determinada por los recursos de almacenamiento disponibles en el sistema donde se guarda el archivo.

# Estructura
La estructura de un archivo CSV es relativamente simple. Los datos se organizan en filas y columnas, donde cada fila representa un registro o una entrada de datos y cada columna representa un campo o atributo específico. Los valores en cada campo se separan mediante un delimitador, comúnmente una coma (,), aunque también se utilizan otros delimitadores como punto y coma (;) o tabulaciones. La primera fila a menudo se utiliza para definir los encabezados de columna, que proporcionan nombres descriptivos para cada campo.
# Seguridad
El formato CSV en sí mismo no proporciona características de seguridad incorporadas. Los archivos CSV son archivos de texto plano, lo que significa que no ofrecen métodos de cifrado o protección automática de los datos. La seguridad de los archivos CSV depende de las medidas de seguridad aplicadas en el sistema de almacenamiento y en la forma en que se gestionan y se accede a los archivos. Para proteger la seguridad de los datos en un archivo CSV, se recomienda aplicar buenas prácticas de gestión de archivos, como establecer permisos de acceso adecuados, utilizar medidas de cifrado en caso necesario y seguir las políticas de seguridad establecidas en el entorno donde se almacenan los archivos.

# Ventajas
Simplicidad: El formato CSV es extremadamente simple y fácil de entender. Consiste en valores separados por comas en un archivo de texto plano, lo que facilita la creación y lectura de datos sin la necesidad de software o herramientas especializadas.

Compatibilidad: Los archivos CSV son ampliamente compatibles con una amplia gama de aplicaciones, plataformas y lenguajes de programación. La mayoría de las herramientas y bibliotecas de programación admiten la importación y exportación de archivos CSV, lo que permite intercambiar datos entre diferentes sistemas de manera sencilla.

Tamaño reducido: El formato CSV tiende a tener un tamaño de archivo más pequeño en comparación con otros formatos de almacenamiento de datos estructurados, como hojas de cálculo o bases de datos. Esto puede ser beneficioso para el almacenamiento y la transferencia de datos, especialmente cuando se trabaja con grandes conjuntos de datos.

Flexibilidad: Los archivos CSV permiten almacenar una amplia variedad de tipos de datos, como números, texto, fechas y valores booleanos. También es posible anidar estructuras de datos más complejas, como listas o diccionarios, dentro de los valores separados por comas.

# Desventajas
Falta de tipificación de datos: A diferencia de los formatos de bases de datos o hojas de cálculo, los archivos CSV no tienen información de tipo de datos incorporada. Esto puede conducir a problemas de interpretación de datos si no se tiene en cuenta correctamente el tipo de cada valor.

Limitaciones de formato: El formato CSV no es adecuado para representar estructuras de datos más complejas, como relaciones entre tablas o datos jerárquicos. Si se requiere una representación más sofisticada, puede ser necesario utilizar otros formatos, como JSON o XML.

Ausencia de validación de datos: Los archivos CSV no tienen mecanismos integrados para validar la integridad o consistencia de los datos. Esto significa que los errores de formato o inconsistencias en los datos pueden pasar desapercibidos, lo que requiere una mayor atención al asegurar la calidad de los datos almacenados en el archivo.

Limitaciones en el manejo de caracteres especiales: Los archivos CSV pueden presentar dificultades al manejar caracteres especiales, como comas o comillas, que podrían interferir con la estructura de los datos. Se requiere un cuidado adicional al procesar y escapar adecuadamente estos caracteres para garantizar la integridad de los datos.

# Mantenimiento
Gracias a la versátilidad de este formato es posible realizar mantenimiento a las bases de datos. Para esto se pueden usar distintas tçnicas cómo: respaldo y restauración; limpieza y normalización; optimización del rendimiento; actualizaciones y modificaciones de la estructura de datos.

# Librerías para manipular datos en este formato (Python)
1. csv: Esta es una biblioteca incorporada en Python que proporciona funciones para leer y escribir archivos CSV. Proporciona métodos simples para trabajar con datos tabulares en formato CSV.

2. pandas: Pandas es una biblioteca de análisis de datos que también ofrece funcionalidades para leer y escribir archivos CSV. Proporciona estructuras de datos flexibles y eficientes para manipular y analizar datos tabulares.

3. numpy: Numpy es una biblioteca popular para cálculos numéricos en Python. Aunque no está específicamente diseñada para el manejo de archivos CSV, puede ser utilizada junto con otras bibliotecas para trabajar con datos tabulares en formato CSV.

# Cómo abrir un CSV desde Python?
Esto se puede hacer usando diferentes librerías, a continucaión veremos como hacer usando las librerías csv y pandas:


# CSV


In [1]:
import csv
with open('datos.csv', 'r') as archivo_csv:
    # Crea un objeto lector CSV
    lector_csv = csv.reader(archivo_csv)
    # Lee los datos línea por línea
    for linea in lector_csv:
        # Accede a los datos de cada columna
        columna1 = linea[0]
        columna2 = linea[1]
        # Realiza alguna operación con los datos
        print(columna1, columna2)


FileNotFoundError: [Errno 2] No such file or directory: 'datos.csv'

# Pandas

In [None]:
import pandas as pd

# Lee el archivo CSV y carga los datos en un DataFrame
df = pd.read_csv('datos.csv')

# Accede a los datos en el DataFrame
columna1 = df['columna1']
columna2 = df['columna2']

# Imprime los datos
print(columna1)
print(columna2)


# Dónde encontrar bases de datos en formato CSV?
Debido a su amplio uso hay muchos lugares donde se pueden descargar bases de datos en formato csv, entre ellas encontramos:

1. Kaggle:  https://www.kaggle.com/datasets
2. Data.gov:  https://www.data.gov/
3. UCI Machine Learning Repository:  https://archive.ics.uci.edu/ml/index.php
4. Google Dataset Search: https://datasetsearch.research.google.com/

Gracias por su atención ;)
Presentado por: Andrés Melgarejo 