[![img/pythonista.png](img/pythonista.png)](https://www.pythonista.io)

# El proyecto *Scipy*.

Existen herramientas y lenguajes de programación diseñados específicamente para el cómputo científico y el análisis de datos tales como:

* [*Matlab*](https://la.mathworks.com/products/matlab.html).
* [*SPSS* ](https://www.ibm.com/analytics/spss-statistics-software).
* [*Mathematica*](https://www.wolfram.com/mathematica/).

Algunos de ellos incluso ha sido publicado bajo los términos de licencias libres, como:

* [*GNU Octave*](https://www.gnu.org/software/octave/).
* [*R*](https://www.r-project.org/).
* [*Julia*](https://julialang.org/).

A diferencia de estas herramientas  y lenguajes altamente especializadas en temas estadísticos y de análisis de datos, *Python* es un lenguaje de programación de propósito general. 

Sin embargo, debido a las características de *Python* se han creado diversos proyectos enfocados a ofrecer herramientas altamente competitivas en el tema de análisis de datos, estadística y cómputo científico.

## Proyectos más relevantes para análisis de datos.

### El proyecto *Scipy*.

El proyecto [*Scipy*](https://www.scipy.org) consta de una serie de herramientas y bibliotecas especializadas en cómputo científico y  análisis de datos. Los [componentes más importantes](https://projects.scipy.org/stackspec.html) del proyecto son: 

* [*Numpy*](https://numpy.org), una biblioteca que ofrece:
    * Gestión de arreglos multidimensionales (```np.array```).
    * Tipos de datos optimizados para operaciones con arreglos.
    * Poderosos componentes de cálculo vectorial y de álgebra lineal.
* [*Pandas*](https://pandas.pydata.org/), una herramienta especializada en:
    * Obtención y almacenamientos de datos de diversas fuentes y con diversos formatos.
    * Tratamiento de los datos.
    * Análisis de los datos.   
* [*Matplotlib*](https://matplotlib.org/), una biblioteca especializada en el despliegue y visualización con una sintaxis similar a la de *Matlab*.
* [*iPython*](https://ipython.org/), un intérprete de *Python* especializado en temas de análisis de datos y cómputo científico, el cual fue el origen del proyecto [*Jupyter*](https://jupyter.org/).
* [Sympy](https://www.sympy.org), una herramienta que permite realizar operaciones con expresiones de álgebra simbólica.

Estos componentes principales son proyectos muy maduros, cuentan con extensa documentación y soporte tanto de la comunidad como comercial.

### Los *scikits*.

Los [*scikits*](https://projects.scipy.org/scikits.html) son un compendio de proyectos basados en *Scipy* que ofrecen herramientas puntuales para temas muy específicos tales como:

* Machine Learning.
* Redes neuronales.
* Análisis de imágenes.
* Cómputo paralelo.
* Supercómputo usando GPU.
* Series de tiempo, etc.

Estos proyectos no son mantenidos ni soportados por *Scipy* y su documentación y madurez no es homogenea.

### *Apache Arrow*.

[*Apache Arrow*](https://arrow.apache.org) es un proyecto de la [Fundación Apache](https://www.apache.org) que ofrece una serie de herramientas y bibliotecas para el manejo y análisis de datos en memoria.
El proyecto ofrece:
* Un formato de datos en memoria optimizado para el análisis de datos.
* Herramientas para la serialización y deserialización de datos.
* Herramientas para la comunicación de datos entre procesos y sistemas.
* Herramientas para el manejo de datos en sistemas distribuidos.
* Herramientas para el manejo de datos en sistemas de almacenamiento en la nube.
* Herramientas para el manejo de datos en sistemas de bases de datos.
* Herramientas para el manejo de datos en sistemas de big data.

### *Polars*.

[*Polars*](https://www.pola.rs) es una biblioteca de análisis de datos en memoria basada en *Apache Arrow* y programada en *Rust* que ofrece:

* Compatibilidad con *Pandas*.
* Operaciones con *DataFrames* optimizadas para el cómputo en paralelo.
* Operaciones con *DataFrames* optimizadas para el cómputo en GPU.
* Operaciones con *DataFrames* optimizadas para el cómputo en sistemas distribuidos.
* Operaciones con *DataFrames* optimizadas para el cómputo en sistemas de almacenamiento en la nube.

#### *Apache Spark*.

[*Apache Spark*](https://spark.apache.org) es un proyecto de la [Fundación Apache](https://www.apache.org) que ofrece una serie de herramientas y bibliotecas para el manejo y análisis de datos en sistemas distribuidos. 
Características principales de *Apache Spark*:
* Un motor de procesamiento de datos en memoria optimizado para el análisis de datos.
* Herramientas para el manejo de datos en sistemas distribuidos y clústeres de computadoras on-premise y en la nube.
* Herramientas para la serialización y deserialización de datos.
* Herramientas para la comunicación de datos entre procesos y sistemas.
* Herramientas para el manejo de datos en sistemas de almacenamiento en la nube.
* Herramientas para el manejo de datos en sistemas de bases de datos.
* Herramientas para el manejo de datos en sistemas de big data.

Múltiples plartaformas y proveedores de la nube ofrecen servicios basados en *Apache Spark*tales como:
* [*Amazon EMR*](https://aws.amazon.com/emr/).
* [*Google Cloud Dataproc*](https://cloud.google.com/dataproc).
* [*Azure Synapse Analytics*](https://azure.microsoft.com/en-us/services/synapse-analytics/).
* [*Databricks*](https://databricks.com/product/overview).

### Otras herramientas.
Existen otras herramientas y bibliotecas que ofrecen funcionalidades similares a las de *Scipy* y sus componentes principales tales como:
* [*Dask*](https://dask.org/), una biblioteca de análisis de datos en memoria optimizada para el manejo de grandes volúmenes de datos y el cómputo paralelo.
* [*Modin*](https://modin.readthedocs.io/en/latest/), una biblioteca de análisis de datos en memoria optimizada para el manejo de grandes volúmenes de datos y el cómputo paralelo y compatible con *Pandas*.
* [*Datatable*](https://datatable.readthedocs.io/en/latest/), una biblioteca de análisis de datos tabulares en memoria optimizada para el manejo de grandes volúmenes de datos y el cómputo paralelo y compatible con *Pandas*.
* [*RAPIDS*](https://rapids.ai/), una biblioteca de análisis de datos en memoria optimizada para el manejo de grandes volúmenes de datos y el cómputo en GPU que cuenta con una implementación de *Pandas* llamada [*cuDF*](https://docs.rapids.ai/api/cudf/stable/).

## Instalación de los componentes.

In [None]:
!pip install numpy scipy pandas matplotlib

### <p style="text-align: center"><a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Licencia Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />Esta obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Licencia Creative Commons Atribución 4.0 Internacional</a>.</p>
<p style="text-align: center">&copy; José Luis Chiquete Valdivieso. 2025.</p>