<img src="img/Recurso-26.png" width="200"/>

# Whitepapers: Procesamiento de Datos en Python
![logo](img/python_logo.png) <br>
**Nombre:** Kevin Jaramillo <br>
*Fecha:* 1/10/2025 <br>
**Github:** 

## Introducción

Para desarrollar un proyecto de Inteligencia Artificial es fundamental conocer tanto la teoría como la práctica sobre el manejo de datos. Antes de trabajar con código, es necesario investigar sobre el tema y entender qué se ha hecho antes. Los artículos científicos son una buena referencia, porque pasan por un proceso de revisión por expertos que garantiza la calidad de la información.

En esta actividad, exploramos cómo Python y sus librerías, especialmente **NumPy** y **Pandas**, se usan para procesar datos de manera eficiente.


## Objetivos

- Investigar el estado actual del conocimiento sobre procesamiento de datos en proyectos de Inteligencia Artificial.
- Analizar cómo las librerías **NumPy** y **Pandas** ayudan a procesar datos de manera eficiente.
- Presentar un ejemplo práctico en Python que muestre las capacidades básicas de estas librerías.

# Artículo 1: NumPy

**Referencia:**  
Van Der Walt, S., Colbert, S. C., Varoquaux, G. (2011). *The NumPy array: A structure for efficient numerical computation.* Computing in Science and Engineering, 13(2), 22-30.  
[Link al artículo](https://www.researchgate.net/publication/224223550_The_NumPy_Array_A_Structure_for_Efficient_Numerical_Computation)

**Resumen:**  
NumPy es una librería de Python que permite trabajar con **arrays multidimensionales** (`ndarray`) y hacer operaciones matemáticas de forma rápida. Esto lo hace mucho más eficiente que usar listas de Python cuando se trabaja con cálculos grandes o matrices.  

**Puntos importantes:**  
- **Broadcasting:** permite realizar operaciones entre arrays de diferentes tamaños sin tener que crear copias ni bucles.  
- **Memoria mapeada:** permite trabajar con archivos grandes sin cargar todo en memoria, mejorando el rendimiento.  

**Ejemplo sencillo:**

In [3]:
import numpy as np

# Crear un array de 3x3
a = np.array([[1, 2, 3],
              [4, 5, 6],
              [7, 8, 9]])

# Sumar 10 a cada elemento usando broadcasting
b = a + 10

print("Array original:\n", a)
print("\nArray después de sumar 10:\n", b)

Array original:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]

Array después de sumar 10:
 [[11 12 13]
 [14 15 16]
 [17 18 19]]


**Explicación rápida:**  
Aquí **b** suma 10 a cada elemento de **a** sin usar bucles. Este tipo de operaciones hace que NumPy sea mucho más rápido que Python puro para cálculos numéricos.

# Artículo 2: Pandas

**Referencia:**  
McKinney, W. (2010). *Data Structures for Statistical Computing in Python.* Proceedings of the 9th Python in Science Conference, 56-61.  
[Link al artículo](https://www.researchgate.net/publication/265001241_Data_Structures_for_Statistical_Computing_in_Python)

**Resumen:**  
Pandas permite manejar **datos tabulares**, similares a Excel, usando **DataFrames**. Esto facilita analizar, limpiar y transformar datos de manera rápida. A diferencia de R, Pandas se integra fácilmente con Python y otras librerías, haciendo más sencillo combinar análisis y programación avanzada.

**Ejemplo sencillo:**

In [4]:
import pandas as pd

# Crear un DataFrame simple
datos = {'Nombre': ['Ana', 'Luis', 'Carlos'],
         'Edad': [23, 35, 19],
         'Ciudad': ['Quito', 'Guayaquil', 'Cuenca']}

df = pd.DataFrame(datos)

# Mostrar el DataFrame completo
print("DataFrame completo:\n", df)

# Filtrar personas mayores de 25 años
mayores_25 = df[df['Edad'] > 25]
print("\nPersonas mayores de 25 años:\n", mayores_25)

DataFrame completo:
    Nombre  Edad     Ciudad
0     Ana    23      Quito
1    Luis    35  Guayaquil
2  Carlos    19     Cuenca

Personas mayores de 25 años:
   Nombre  Edad     Ciudad
1   Luis    35  Guayaquil


**Explicación rápida:**  
Pandas hace que trabajar con tablas y filtrar información sea muy fácil. Además, se puede combinar con NumPy para operaciones más complejas o cálculos numéricos sobre columnas específicas.

## Conclusión

En general, **NumPy** y **Pandas** son herramientas muy importantes para trabajar con datos en Python, sobre todo cuando hacemos proyectos de Inteligencia Artificial o análisis de información. **NumPy** nos ayuda a manejar arrays multidimensionales y hacer operaciones matemáticas rápido, usando cosas como *broadcasting* y memoria mapeada. Por otro lado, **Pandas** nos facilita trabajar con tablas de datos, limpiar información, filtrar y analizar datos de forma sencilla con sus *DataFrames*.

Usar estas librerías juntas hace que podamos procesar grandes cantidades de datos mucho más rápido que solo con las listas y estructuras normales de Python. Además, se pueden combinar fácilmente con otras herramientas de análisis y de inteligencia artificial. Aprender a usarlas bien nos ayuda a hacer proyectos de IA de forma más práctica, rápida y organizada, incluso cuando los datos son muy grandes o complejos.