# Herramientas y ecosistema de ciencia de datos

En este cuaderno, se resumen las herramientas de ciencia de datos y el ecosistema.

Algunos de los lenguajes más populares que utilizan los científicos de datos son:

1. **Python**: Un lenguaje versátil y fácil de aprender, ideal para análisis de datos, visualización y aprendizaje automático. Tiene bibliotecas como Pandas, NumPy y scikit-learn.
  
2. **R**: Diseñado específicamente para la estadística y el análisis de datos. Es muy utilizado en investigación y academia, con potentes paquetes como ggplot2 para visualización.
  
3. **SQL**: Un lenguaje de consulta estructurado utilizado para gestionar y manipular bases de datos. Permite a los científicos de datos extraer y gestionar datos de manera eficiente.

4. **Julia**: Un lenguaje de alto rendimiento para la computación técnica y científica. Es particularmente fuerte en el procesamiento numérico y es ideal para tareas que requieren velocidad.

5. **Scala**: Un lenguaje que combina programación funcional y orientada a objetos, utilizado principalmente en entornos de big data con Apache Spark para el procesamiento de datos.

6. **MATLAB**: Utilizado principalmente en entornos académicos y de ingeniería, MATLAB es potente para el análisis numérico y la visualización de datos.

7. **SAS**: Un software de análisis avanzado que es ampliamente utilizado en el sector empresarial para análisis estadístico y gestión de datos.

8. **Java**: Aunque no es específico para ciencia de datos, Java se utiliza en el desarrollo de aplicaciones y sistemas que manejan grandes volúmenes de datos.

9. **Go**: Un lenguaje de programación que ha ganado popularidad por su eficiencia y facilidad para trabajar con aplicaciones concurrentes, ideal para sistemas de datos en tiempo real.

Algunas de las bibliotecas más utilizadas por los científicos de datos son:

1. **Pandas**: Una biblioteca esencial para la manipulación y el análisis de datos en Python. Proporciona estructuras de datos flexibles como DataFrames, lo que facilita el manejo de datos tabulares.

2. **NumPy**: Una biblioteca fundamental para la computación científica en Python. Ofrece soporte para arreglos y matrices, junto con funciones matemáticas de alto rendimiento.

3. **Matplotlib**: Una biblioteca de visualización de datos en Python que permite crear gráficos estáticos, animados e interactivos de manera sencilla. Es especialmente útil para visualizaciones personalizadas.

4. **Scikit-learn**: Una biblioteca poderosa para el aprendizaje automático en Python. Proporciona herramientas simples y eficientes para la minería de datos y el análisis de datos, con algoritmos para clasificación, regresión y agrupación.

5. **TensorFlow**: Una biblioteca de código abierto para el aprendizaje profundo y la inteligencia artificial. Desarrollada por Google, es utilizada para construir y entrenar modelos de aprendizaje profundo de alta complejidad.

6. **Keras**: Una API de alto nivel para construir y entrenar modelos de aprendizaje profundo. Se integra bien con TensorFlow y es ideal para prototipado rápido de redes neuronales.

7. **Seaborn**: Basada en Matplotlib, esta biblioteca se utiliza para realizar visualizaciones estadísticas más atractivas y informativas, facilitando la exploración de datos.

| Herramientas de ciencia de datos |
|----------------------------------|
| Jupyter Notebook                 |
| RStudio                          |
| Apache Zeppelin                  |
| Orange                           |
| Knime                            |
| Apache Spark                     |
| TensorFlow                       |
| Scikit-learn                     |

### A continuación se muestran algunos ejemplos de evaluación de expresiones aritméticas en Python.

1. Suma: `3 + 5`  → Resultado: `8`
2. Resta: `10 - 4`  → Resultado: `6`
3. Multiplicación: `7 * 6`  → Resultado: `42`
4. División: `20 / 4`  → Resultado: `5.0`
5. Potenciación: `2 ** 3`  → Resultado: `8`
6. Módulo: `10 % 3`  → Resultado: `1`
7. Suma con flotantes: `2.5 + 3.5`  → Resultado: `6.0`
8. División entera: `10 // 3`  → Resultado: `3`
9. Raíz cuadrada: `16 ** 0.5`  → Resultado: `4.0`
10. Incremento: `x = 5; x += 2`  → Resultado: `7` (donde x es 5 antes de la operación)
11. Decremento: `y = 10; y -= 3`  → Resultado: `7` (donde y es 10 antes de la operación)
12. Producto de suma: `4 * (3 + 2)`  → Resultado: `20`

In [1]:
# Esta es una expresión aritmética simple para multiplicar y luego sumar números enteros.
resultado = (3 * 4) + 5
resultado

17

In [2]:
# Esto convertirá 200 minutos en horas al dividir entre 60.
minutos = 200
horas = minutos / 60
horas

3.3333333333333335

**Objetivos:**

- Introducción a la ciencia de datos y su importancia.
- Lista de lenguajes populares para la ciencia de datos.
- Evaluación de expresiones aritméticas en Python.
- Conversión de unidades, como minutos a horas.
- Uso de herramientas de código abierto para ciencia de datos.
- Comprensión de la manipulación de datos con bibliotecas como Pandas.
- Visualización de datos utilizando herramientas como Matplotlib y Seaborn.
- Aplicación de técnicas de machine learning básicas.

## Autor

Irma Marisol Correa Barrera