# 3. INTRODUCCIÓN A FORMATOS DE DATOS: CSV, JSON, PARQUET, AVRO
## 3.1 Introducción
La programación básica en Python constituye el fundamento sobre el cual se construyen aplicaciones industriales y científicas. En el análisis y manipulación de datos, es común trabajar con diferentes formatos de archivos que almacenan información de manera estructurada. Cada formato tiene sus propias características, ventajas y casos de uso. En esta sección, exploraremos los formatos de datos más utilizados: CSV, JSON, Parquet y Avro, y aprenderemos cómo trabajar con ellos en Python.

## 3.2 Tipos de Datos
En el análisis de datos, es esencial identificar el tipo de datos con los que se está trabajando para seleccionar las herramientas y métodos más adecuados. Hay tres tipos de datos:
- **Estructurados**: Organizados en formatos rígidos como tablas con filas y columnas, facilitando el almacenamiento y la consulta.
- **Semi-estructurados**: Parcialmente organizados utilizando etiquetas o esquemas flexibles, lo que permite una mayor adaptabilidad al integrar información diversa.
- **No estructurados**: No siguen un esquema predefinido y abarcan una amplia variedad de formatos, lo que los hace más complejos de gestionar pero altamente versátiles para capturar información rica y detallada.

## 3.3 CSV (Valores Separados por Comas)
El formato CSV se caracteriza por su simplicidad y se utiliza ampliamente para almacenar datos tabulares en texto plano. En un archivo CSV, cada línea representa un registro y los campos están separados por comas (u otro delimitador). Es compatible con la mayoría de las aplicaciones y lenguajes de programación.
Es un formato de datos estructurados que almacena información en tablas con filas y columnas, utilizando comas como delimitadores.
Un ejemplo de un archivo CSV podría ser:

```csv
id,firstname,lastname,email,birthdate
1,Kerry,O'Connell,Kerry16@gmail.com,1990-01-01
2,Ethel,Miller,Ethel14@hotmail.com,1985-05-12
3,Willie,Barton,Willie.Barton@gmail.com,1992-07-23
4,Ellis,Lowe,Ellis.Lowe@gmail.com,1988-11-30
5,Raymond,Miller,Raymond.Miller@gmail.com,1991-03-15
6,Ellen,Thompson,Ellen92@hotmail.com,1987-09-25
7,Joe,Rice,Joe55@gmail.com,1993-12-05
8,Nathaniel,Legros,Nathaniel40@hotmail.com,1986-04-18
9,Maxine,Schinner,Maxine93@hotmail.com,1990-08-22
10,Tim,Jacobson,Tim92@hotmail.com,1989-10-10
```

Para trabajar con archivos CSV, utilizaremos Pandas y el concepto de DataFrames, que se explicará en detalle en la siguiente sección de esta unidad.

Primero, debemos asegurarnos de tener instalados los paquetes necesarios.

```bash
pip install pandas # En Windows
pip3 install pandas # En macOS y Linux
```

Una vez instalados, podemos importarlos y utilizarlos para leer un archivo CSV utilizando la función `.read_csv()`:

In [None]:
# Lectura con pandas
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

df

De manera similar, para escribir un archivo CSV, utilizaremos el DataFrame:

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

# Escritura
df.to_csv('datos_salida_pandas.csv')

Para CSV, hay numerosas opciones como elegir el delimitador, la codificación e incluso los índices que se pueden excluir al trabajar con Pandas. Además, puedes trabajar con archivos CSV utilizando el módulo nativo CSV en Python. Sin embargo, no es tan comúnmente utilizado y puede ser algo complejo.

## 3.4 JSON (Notación de Objetos de JavaScript)
JSON es un formato ligero de intercambio de datos que es fácil de leer y escribir. Es ideal para representar estructuras de datos complejas y anidadas, como objetos y arrays.
Representa datos semi-estructurados utilizando una estructura de pares clave-valor, lo que permite una mayor flexibilidad en la organización de la información.
Un ejemplo de JSON:

```json
{"index": {"0": 0, "1": 1},
"a": {"0": 1, "1": null},
"b": {"0": 2.5, "1": 4.5},
"c": {"0": true, "1": false},
"d": {"0": "a", "1": "b"},
"e": {"0": 1577.2, "1": 1577.1}}
```

In [None]:
import pandas as pd

# Lectura
df = pd.read_json('data.json')
display(df)
# Escritura
df.to_json('datos_salida_pandas.json')

Además, podemos trabajar directamente con el módulo nativo JSON en Python:

In [None]:
# Uso del módulo JSON
import json

# Lectura
with open('data.json') as f:
    data = json.load(f)
    print(data)

# Escritura
with open('datos_salida.json', 'w') as f:
    json.dump(data, f)

## 3.5 Parquet
Parquet es un formato de almacenamiento basado en columnas, diseñado para el procesamiento eficiente de grandes conjuntos de datos. Es especialmente útil en entornos de Big Data y cuando se trabaja con sistemas distribuidos como Hadoop o Spark.
Soporta compresión y codificación eficientes, reduciendo el espacio de almacenamiento y mejorando el rendimiento de lectura. Esto lo hace ideal cuando se trabaja en entornos de Big Data.
Además, tanto Parquet como Avro forman parte del ecosistema de Apache, facilitando la integración y compartiendo beneficios con otras tecnologías como Kafka, Hive o Spark.
Para generar archivos Parquet visualmente para ejemplos, utilizaremos: [https://konbert.com/generator/parquet
Para trabajar con ellos utilizando Pandas, necesitamos instalar el paquete `pyarrow`:

```bash
pip install pyarrow
```

Una vez instalada la dependencia, podemos trabajar con estos archivos de la siguiente manera:

In [None]:
! conda install pyarrow

In [None]:
import pandas as pd

# Lectura
df = pd.read_parquet('datos.parquet')
display(df)

# Escritura
df.to_parquet('datos_salida_pandas.parquet')

## 3.6 Avro
Avro es un sistema de serialización de datos que utiliza esquemas definidos en JSON para representar estructuras de datos complejas en formato binario. Es ampliamente utilizado en sistemas de Big Data y streaming, como Apache Kafka. Avro facilita la interoperabilidad entre diferentes sistemas y lenguajes de programación.
Se considera semi-estructurado debido a su capacidad de incluir un esquema que define la estructura de los datos, facilitando la serialización y deserialización eficiente.
Un ejemplo de esquema podría ser:

```python
schema = {
    'doc': 'documento Avro',
    'name': 'Usuario',
    'namespace': 'ejemplo.avro',
    'type': 'record',
    'fields': [
        {'name': 'name', 'type': 'string'},
        {'name': 'age', 'type': 'int'},
        {'name': 'city', 'type': 'string'},
    ],
}
```

Al igual que Parquet, forma parte del ecosistema de Apache, facilitando la integración y compartiendo beneficios con otras tecnologías como Kafka.
Para generar archivos Avro visualmente para ejemplos, utilizaremos: https://konbert.com/generator/avro
De manera similar a Parquet, para manejar Avro con Pandas, necesitamos instalar el paquete `fastavro`:

```bash
pip install fastavro
```

Una vez instalada la dependencia, podemos trabajar con estos archivos de la siguiente manera:

In [None]:
import fastavro
import pandas as pd

# Lectura
with open('datos.avro', 'rb') as f:
    avro_reader = fastavro.reader(f)
    schema = avro_reader.writer_schema
    df_avro = pd.DataFrame(avro_reader)

# Escritura
with open('datos_salida_pandas.avro', 'wb') as f:
    data = df_avro.to_dict('records')
    fastavro.writer(f, schema, data)

En resumen, dependiendo del caso de uso, será necesario utilizar un tipo de archivo u otro.

## 3.7 Enlaces de Interés
- Trabajar con CSV utilizando el módulo nativo de Python: https://docs.python.org/3/library/csv.html
- Trabajar con JSON utilizando el módulo nativo de Python: https://docs.python.org/3/library/json.html
- Parquet VS Avro: [https://airbyte.com/data-engineering-resources/parquet-vs-avro

# 4. MANIPULACIÓN Y ANÁLISIS DE DATOS CON PANDAS
## 4.1 Introducción
La manipulación y análisis de datos son componentes centrales en la ciencia e ingeniería de datos. Python ofrece poderosas librerías para estas tareas, siendo Pandas la más popular y ampliamente utilizada. En esta sección, exploraremos cómo utilizar Pandas para manipular y analizar datos de manera efectiva.
El elemento principal en Pandas es el DataFrame. Esta es una estructura bidimensional (tabular) con columnas de diferentes tipos, similar a una hoja de cálculo o una tabla SQL.

## 4.2 Carga e Inspección de Datos
La primera etapa en el análisis de datos es la carga de estos desde diversas fuentes tales como CSV, JSON, Parquet o Avro. En este caso, veremos cómo leer archivos CSV.
Como vimos en la sección anterior, la manera de cargar datos desde un CSV es simple.

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

Además, podemos obtener cierta información de nuestro DataFrame, por ejemplo, podemos extraer las primeras N filas:

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

print(df.head(10)) # Por defecto, las primeras 5 filas

Adicionalmente, podemos obtener más información que nos ayudará a describir nuestro DataFrame de la siguiente manera:

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

print(df.info()) # Información del DataFrame
print(df.describe(include='all')) # Información descriptiva

## 4.3 Selección, Filtrado y Creación
La capacidad de seleccionar y filtrar es fundamental en el análisis e ingeniería de datos. En este caso, Pandas ofrece una solución sencilla.

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

columna_firstname = df['firstname']
print(columna_firstname)

columnas_multiples = df[['firstname', 'lastname']]
print(columnas_multiples)

Para filtrar, la sintaxis es sencilla; simplemente debemos extender la utilizada previamente para seleccionar columnas. Por ejemplo, en Pandas, bastará con igualar el valor de la columna:

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

columna_filtrada = df[df['firstname'] == 'Kerry']
print(columna_filtrada)

# Output
# id firstname   lastname              email
# 0   1     Kerry  O'Connell  Kerry16@gmail.com

También podemos crear nuevas columnas a la vez que las completamos con valores:

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

df['full_name'] = df['firstname'] + ' ' + df['lastname']
df['full_name']

# Output
# 0     Kerry O'Connell
# 1        Ethel Miller
# 2       Willie Barton
# 3          Ellis Lowe
# 4      Raymond Miller
# 5      Ellen Thompson
# 6            Joe Rice
# 7    Nathaniel Legros
# 8     Maxine Schinner
# 9        Tim Jacobson

Para modificar columnas, podemos operar sobre ellas de la siguiente forma:

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

df['full_name'] = df['firstname'] + ' ' + df['lastname']
df['full_name'] = df['full_name'] + ' ' + df['email']
df['full_name']

# Output
# 0           Kerry O'Connell Kerry16@gmail.com
# 1            Ethel Miller Ethel14@hotmail.com
# 2       Willie Barton Willie.Barton@gmail.com
# 3             Ellis Lowe Ellis.Lowe@gmail.com
# 4     Raymond Miller Raymond.Miller@gmail.com
# 5          Ellen Thompson Ellen92@hotmail.com
# 6                    Joe Rice Joe55@gmail.com
# 7    Nathaniel Legros Nathaniel40@hotmail.com
# 8        Maxine Schinner Maxine93@hotmail.com
# 9              Tim Jacobson Tim92@hotmail.com

## 4.4 Agrupación, Ordenación y Unión
En cualquier tarea de procesamiento de datos, será necesario agrupar datos según sea necesario, así como ordenar e incluso combinar esos datos con otros utilizando técnicas de unión similares a los JOIN de SQL.
Para agrupar, podemos referirnos a los clásicos `groupby` también presentes en SQL:

In [None]:
import pandas as pd
import random

# Lectura
df = pd.read_csv('datos.csv')

random_age = [random.randrange(25, 28, 1) for x in range(len(df))]

df['age'] = random_age
agrupado_edad = df.groupby('age')['firstname'].apply(list)
print(agrupado_edad)

# Output
# age
# 25              [Ethel, Ellen, Tim]
# 26       [Kerry, Nathaniel, Maxine]
# 27    [Willie, Ellis, Raymond, Joe]
# Name: firstname, dtype: object

Ordenar columnas es algo más sencillo:

In [None]:
import pandas as pd

# Lectura
df = pd.read_csv('datos.csv')

df_ordenado = df.sort_values(by='firstname', ascending=True)
df_ordenado

Finalmente, tenemos las operaciones de unión mediante concatenación o join:

In [None]:
# Concatenación vertical
import pandas as pd

df_1 = pd.read_csv('datos.csv')
df_2 = pd.read_csv('datos.csv')

df_concatenado = pd.concat([df_1, df_2])
df_concatenado

In [None]:
# Unión de dos dataframes utilizando una clave
df_unido = pd.merge(df_1, df_2, on='id', how='inner')
df_unido

Como se puede observar, en cuanto a sintaxis, ambos paquetes tienen operaciones similares y diferentes. Algunas con mejor legibilidad que otras, pero generalmente, es una sintaxis similar.
En cuanto a características más relevantes, en Pandas, los DataFrames son mutables, lo que significa que cada operación modifica el DataFrame existente. Pandas es el estándar en la industria y tiene muchos más años y comunidad detrás, lo que lo convierte en una solución más fiable para proyectos en producción.
La decisión de utilizar uno u otro dependerá del caso de uso, pero en última instancia del desarrollador.