# **Módulo 2: Estructuración y manipulación de datos con Python**

El manejo de datos es el corazón de cualquier proyecto de análisis, y Python se ha consolidado como uno de los lenguajes más poderosos y versátiles para este propósito. En este módulo, nos sumergiremos en las técnicas fundamentales para la estructuración y manipulación de datos utilizando Python, proporcionando las bases necesarias para transformar datos crudos en información útil y procesable.

Comenzaremos explorando las estructuras de datos disponibles en Python, como listas, dataframes, pilas, colas, árboles y grafos. Estas estructuras permiten organizar y acceder a la información de manera eficiente, lo que es crucial cuando se trabaja con grandes volúmenes de datos o datos complejos. Además, abordaremos cómo manipular y transformar datos no estructurados, como textos, imágenes y datos provenientes de redes sociales, que requieren enfoques y herramientas específicas para su análisis.

El módulo también se centrará en el uso de librerías especializadas como NumPy y Pandas, que son esenciales para el análisis de datos en Python. Estas librerías ofrecen potentes funciones para la manipulación y el análisis de datos estructurados, permitiendo realizar operaciones avanzadas con facilidad y eficiencia.

Además, aprenderemos a trabajar con secuencias de datos utilizando herramientas como `re`, `string` e `itertools`, que son fundamentales para el procesamiento y análisis de cadenas de texto y otras secuencias de información. La habilidad para manipular secuencias es clave en tareas como la limpieza de datos y la preparación de datos para modelos de machine learning.

Finalmente, exploraremos las bases de la visualización de datos para representar de manera gráfica los resultados del análisis, facilitando la interpretación y comunicación de los hallazgos. Este módulo también incluirá casos prácticos que permitirán a los participantes aplicar las técnicas aprendidas en escenarios reales, consolidando así los conceptos y habilidades adquiridos.

## **Archivos planos con Numpy y Pandas**

En esta sección aprenderás a importar datos a Python desde todo tipo de archivos planos, que son una forma sencilla y frecuente de almacenamiento de datos. Ya has aprendido a utilizar NumPy y Pandas: aprenderás a utilizar estos paquetes para importar archivos planos y personalizar tus importaciones.

### **Archivos planos**

Los archivos de texto plano se pueden clasificar en dos grandes tipos:

1. **Archivos que contienen texto sin formato** . Por ejemplo:

  ![no estructurado](_image/noestructurado.png)

2.  **Archivos que contienen registros estructurados**. Un ejemplo es el conjunto de datos del Titanic 

  ![estructurado](_image/estructurado.png)

  En este archivo, cada columna representa una característica o rasgo, como el género, la cabina o si la persona sobrevivió, mientras que cada fila corresponde a una persona que estaba a bordo del Titanic.

Es fundamental que cualquier científico de datos comprenda el concepto de **archivo plano**. Estos son archivos de texto simples que contienen datos organizados en tablas, pero sin relaciones estructuradas complejas.

Es probable que hayas notado que la extensión del archivo es `.csv`. Tal vez te preguntes qué significa:

* `.csv` (Comma-Separated Values): Archivo en el que los valores están separados por comas.
* `.txt`: Archivo de texto simple.
* `.tsv` (Tab-Separated Values): Archivo en el que los valores están separados por tabulaciones.

Los valores en archivos planos pueden estar separados por diferentes caracteres, como comas o tabulaciones, conocidos como **delimitadores**. Estos delimitadores permiten organizar y estructurar los datos de manera sencilla y efectiva.

Ahora, para consultar cualquier archivo de texto sin formato, que debemos hacer:
* Asignar el nombre del archivo a una variable como una cadena.
* Usamos la función básica `open` de Python para abrir una conexión al archivo y le pasamos el argumento `mode='r'`, lo que garantiza que solo podamos leerlo.
*  Despues le asignamos el texto del archivo a una variable `text` aplicando el método `read` a la conexión al archivo. 
* Después asegúrese de cerrar la conexión al archivo usando el comando `file.close`.

Miremos un ejemplo:

In [26]:
filename = '_data/elprincipito.txt'
file = open(filename, mode='r') # 'r' es de lectura
text = file.read()
file.close()

In [None]:
# Imprimir el texto
print(text)

:::{admonition} **Observación**
:class: attention

- Para abrir un archivo en modo de escritura, debes usar `mode='w'`

```python
filename = '_data/escritura.txt'
file = open(filename, mode='w')  # 'w' es para escritura


# Escribir texto en el archivo
file.write("Era un pequeño príncipe que vivía en un planeta apenas más grande que él.")

# Cerrar el archivo después de escribir
file.close()
```

- Para verificar el contenido escrito en `escritura.txt`, primero debes abrir el archivo en modo de escritura como se muestra arriba. Luego, abre el archivo en modo de lectura para ver el contenido:

```python
# Abrir el archivo en modo lectura
file = open(filename, mode='r')  # 'r' es para lectura

# Leer el contenido del archivo
content = file.read()

# Imprimir el contenido
print(content)

# Cerrar el archivo después de leer
file.close()
```
:::

Puedes evitar tener que cerrar la conexión al archivo utilizando una declaración `with`. Esto le permite crear un contexto en el que puede ejecutar comandos con el archivo abierto. Una vez fuera de esta cláusula o contexto, el archivo ya no está abierto y, por esta razón, `with` se denomina **administrador de contexto**. Realmente asegura que el archivo se cierre correctamente, incluso si ocurre un error durante la escritura. Por ejemplo:

In [None]:
with open('_data/elprincipito.txt',mode ='r') as file:
    print(file.read())

:::{admonition} **Ejercicios**
:class: tip

1.  Abre el archivo de texto `GabrielGarciaMarquez.txt` e imprimelo. Utiliza el administrador de contexto `with`.
2.  En el caso de archivos grandes, puede que no queramos imprimir todo su contenido en el shell: tal vez quieras imprimir sólo las primeras líneas. Use el archivo de texto `GabrielGarciaMarquez.txt` e imprima las 3 primeras líneas. **Sugerencia**: use el método `readline()`.
:::

### **Archivos planos con Numpy**

Ahora que sabes cómo usar la función incorporada `open` de Python para abrir archivos de texto, veamos cómo importar un archivo plano y asignarlo a una variable. Si todos los datos son numéricos, puedes usar el paquete NumPy para importarlos como una matriz NumPy. ¿Por qué querríamos hacer esto?

:::{admonition} **Características de las matrices NumPy**
:class: note

1. **Eficiencia y velocidad**:  
   - Las matrices NumPy son el estándar de Python para almacenar datos numéricos debido a su eficiencia y rapidez.  
   - Son ideales para manejar grandes volúmenes de datos de manera limpia y ordenada.

   ```{figure} /_image/NumPy.png
   :align: center
   :name: Imagen de numpy
   :scale: 10
   ```
   

2.  **Compatibilidad con otros paquetes**:
    - NumPy es esencial para muchos otros paquetes en Python, como `scikit-learn`, un popular paquete de aprendizaje automático.

    ```{figure} /_image/scikitlearn.png
    :align: center
    :name: Imagen de ScikitLearn
    :scale: 40
    ```
    
    - Al trabajar con scikit-learn, es común que los datos estén en formato de matriz NumPy.
:::

`NumPy` tiene varias funciones integradas que nos permiten importar datos como matrices de forma mucho más sencilla y eficiente. Aquí se encuentran las funciones `loadtxt` y `genfromtxt`.

1. **loadtxt**: Importa datos de un archivo de texto como una matriz NumPy. Por ejemplo

In [None]:
import numpy as np

# dataset
# mnist es una colección de dígitos manuscritos del 0 al 9

filename = '_data/mnist.csv'
dataset = np.loadtxt(filename,delimiter=',')

dataset

Algunos argumentos adicionales de `loadtxt`

* `skiprows`: Si deseas omitir la primera fila (por ejemplo, un encabezado), puedes usar `skiprows=1`.

In [None]:
dataset = np.loadtxt('_data/babosa.txt', delimiter='\t', skiprows=1)
dataset

* `usecols`: Si solo quieres importar columnas específicas, usa `usecols` con una lista de los índices de las columnas.

In [None]:
dataset = np.loadtxt('_data/50_Startups.csv', delimiter=',',usecols=[0,1,2,4], skiprows=1)
dataset

* `dtype`: Te ayuda a importar diferentes tipos de datos en matrices. `dtype=str` garantiza que todas las entradas se importen como cadenas

In [None]:
dataset = np.loadtxt('_data/50_Startups.csv', delimiter=',',dtype=str)
dataset

:::{admonition} **Observación**
:class: warning

Aunque `loadtxt` es útil para casos básicos. Si encuentra datos que no se pueden convertir al tipo especificado (por defecto, flotantes), generará un error, lo que puede detener el proceso de carga de datos.
:::

2. **genfromtxt**: Similar a `loadtxt`, pero más flexible para manejar datos mixtos. Además, cuando usamos `dtype=None` permite que NumPy adivine el tipo de datos para cada columna. Por ejemplo:

In [None]:
data = np.genfromtxt('_data/mnist.csv', delimiter=',', dtype=None)
data

:::{admonition} **Ejercicios**
:class: tip

Del archivo `digitos.txt`, que tiene la primera fila con los nombres de las variables y está delimitado por tabulaciones. Importe solo las 3 primeras columnas del archivo plano. Imprime la primera fila

:::

### **Archivos planos con Pandas**

En la ciencia de datos, se requiere manejar *estructuras de datos etiquetadas bidimensionales con columnas de tipos potencialmente diferentes*, algo que las matrices `NumPy` no pueden satisfacer completamente. Esta necesidad impulsó a **Wes McKinney** a desarrollar la biblioteca `Pandas` para `Python`, que se ha convertido en una herramienta esencial para los científicos de datos.

`Pandas` es una biblioteca de `Python` que permite llevar a cabo todo el flujo de trabajo de análisis de datos sin cambiar a otro lenguaje específico como `R`. La estructura de datos más relevante en `Pandas` es el DataFrame, que es el análogo Pythonic del marco de datos en `R`.


:::{admonition} **Características claves de Pandas**
:class: note

- **Importación de datos**: `Pandas` facilita la importación de archivos planos, bases de datos, archivos Excel, entre otros, como DataFrames.

- **Estructuras de datos etiquetadas**: Los DataFrames permiten manipular y analizar datos con etiquetas en filas y columnas, lo que facilita el manejo de diferentes tipos de datos en un solo lugar.

- **Manipulación de datos**: `Pandas` ofrece funciones para cortar, remodelar, agrupar, unir y fusionar datos de manera eficiente.

- **Estadísticas y manejo de valores faltantes**: Realiza cálculos estadísticos sin afectar los valores faltantes y proporciona herramientas para manejar series temporales.

:::

Ahora importemos un archivo plano con `Pandas`:

In [None]:
import pandas as pd

# Importar un archivo CSV como DataFrame
filename = '_data/winequality-red.csv'
data = pd.read_csv(filename)

# Ver las primeras 5 filas del DataFrame
data.head()


También podemos convertir fácilmente el DataFrame en una matriz `numpy`. 

In [None]:
data_array = data.to_numpy()
data_array

:::{admonition} **Observación**
:class: warning

1. `Pandas` simplifica la manipulación y análisis de datos, permitiendo realizar operaciones complejas con un código conciso y legible.

2. Es compatible con muchas fuentes de datos, lo que lo convierte en una herramienta versátil para diferentes flujos de trabajo.

3. `Pandas` tiene una comunidad activa y una documentación extensa, lo que facilita el aprendizaje y la resolución de problemas. 
:::

Para familiarizarte más con `Pandas`, es recomendable experimentar importando archivos planos que presenten desafíos, como comentarios incrustados y cadenas que deben interpretarse como valores faltantes. Esto te permitirá dominar las herramientas de limpieza y preparación de datos que ofrece Pandas.