# Data Science Tools and Ecosystem

## In this notebook, Data Science Tools and Ecosystem are summarized

## Lenguajes de Programación en Ciencia de Datos

A continuación se enumeran algunos de los lenguajes más utilizados en el campo de la ciencia de datos:

1. **Python** 🐍 – El rey actual. Versátil, con una gran comunidad y toneladas de bibliotecas como NumPy, pandas, scikit-learn, TensorFlow, etc.
2. **R** 📊 – Especializado en estadísticas y visualización de datos. Ideal para análisis exploratorio y reportes.
3. **SQL** 🗃️ – Lenguaje esencial para manejar bases de datos y realizar consultas eficientes.
4. **Julia** ⚡ – Rápido y con sintaxis matemática. Gana terreno en computación científica y aprendizaje automático.
5. **Scala** 🚀 – Utilizado especialmente junto a Apache Spark para big data.
6. **Java** ☕ – Aunque no es tan común para análisis puro, es útil en producción y procesamiento de datos a gran escala.
7. **MATLAB** 🧠 – Potente para cálculos numéricos, aunque más usado en entornos académicos e ingenieriles.


## Bibliotecas Populares en Ciencia de Datos

Estas son algunas de las bibliotecas más utilizadas en ciencia de datos, organizadas por categoría:

### Manipulación y Análisis de Datos
- **pandas** – Estructuras de datos como DataFrame para análisis tabular.
- **NumPy** – Operaciones numéricas de bajo nivel y manejo de arrays multidimensionales.

###  Visualización de Datos
- **Matplotlib** – Visualización básica en 2D.
- **Seaborn** – Gráficos estadísticos bonitos y fáciles de usar (basado en Matplotlib).
- **Plotly** – Visualizaciones interactivas y dinámicas.
- **Altair** – Visualización declarativa basada en Vega-Lite.

### Aprendizaje Automático
- **scikit-learn** – Algoritmos clásicos de machine learning (regresión, clasificación, clustering, etc.).
- **XGBoost** – Modelos de boosting altamente eficientes.
- **LightGBM** – Boosting rápido y con buena precisión, ideal para grandes conjuntos de datos.
- **CatBoost** – Optimizado para variables categóricas.

### Deep Learning
- **TensorFlow** – Biblioteca de Google para modelos de aprendizaje profundo.
- **Keras** – API de alto nivel para TensorFlow, más amigable.
- **PyTorch** – Alternativa popular de Facebook, flexible y dinámica.

### Limpieza y Preprocesamiento
- **OpenRefine** – Limpieza de datos semi-automatizada.
- **missingno** – Visualización de valores faltantes.

###  Ciencia y Estadística
- **SciPy** – Herramientas científicas y estadísticas.
- **statsmodels** – Modelos estadísticos clásicos (regresiones, tests, etc.).



## Herramientas Comunes en Ciencia de Datos

| Herramienta         | Descripción breve                                               | Categoría Principal         |
|---------------------|------------------------------------------------------------------|-----------------------------|
| **Jupyter Notebook**| Entorno interactivo para escribir y ejecutar código en bloques  | Desarrollo / Análisis       |
| **Google Colab**    | Jupyter en la nube con soporte para GPU gratuito                 | Desarrollo / Aprendizaje    |
| **RStudio**         | IDE dedicado al lenguaje R para análisis estadístico            | Desarrollo / Estadística    |
| **Tableau**         | Plataforma de visualización de datos intuitiva                  | Visualización               |
| **Power BI**        | Herramienta de análisis de datos e inteligencia empresarial     | Visualización / BI          |
| **Apache Spark**    | Procesamiento distribuido de grandes volúmenes de datos         | Big Data / Procesamiento    |
| **Docker**          | Contenerización para entornos reproducibles                      | DevOps / Reproducibilidad   |
| **Airflow**         | Orquestación de flujos de trabajo de datos                      | Automatización / Pipelines  |
| **Git**             | Control de versiones para proyectos de ciencia de datos         | Colaboración / Gestión      |
| **VS Code**         | Editor de código ligero pero potente con extensiones útiles

## ➕ Ejemplos de Expresiones Aritméticas


| Expresión           | Significado                            | Resultado |
|---------------------|-----------------------------------------|-----------|
| `3 + 5`             | Suma de 3 y 5                           | `8`       |
| `10 - 4`            | Resta de 10 menos 4                     | `6`       |
| `7 * 2`             | Multiplicación de 7 por 2               | `14`      |
| `8 / 4`             | División de 8 entre 4                   | `2.0`     |
| `2 ** 3`            | 2 elevado a la potencia 3               | `8`       |
| `10 % 3`            | Módulo: el residuo de 10 dividido por 3| `1`       |
| `(4 + 5) * 2`       | Paréntesis primero, luego multiplicación| `18`      |

In [2]:
# Multiplicación y suma de dos números

# Definir los números
a = 6
b = 4

# Realizar las operaciones
multiplicacion = a * b
suma = a + b

# Mostrar los resultados
print("Multiplicación:", multiplicacion)
print("Suma:", suma)

Multiplicación: 24
Suma: 10


In [3]:
# Conversión de minutos a horas

# Definir la cantidad de minutos
minutos = 150

# Calcular horas y minutos restantes
horas = minutos // 60
resto_minutos = minutos % 60

# Mostrar el resultado
print(f"{minutos} minutos equivalen a {horas} hora(s) y {resto_minutos} minuto(s).")

150 minutos equivalen a 2 hora(s) y 30 minuto(s).


In [4]:
# Lista de objetivos

objetivos = [
    "Aprender Python básico",
    "Dominar análisis de datos con pandas",
    "Entender visualización con matplotlib y seaborn",
    "Practicar modelos de machine learning",
    "Completar un proyecto de ciencia de datos"
]

# Mostrar los objetivos
print("📌 Lista de Objetivos:")
for i, objetivo in enumerate(objetivos, start=1):
    print(f"{i}. {objetivo}")

📌 Lista de Objetivos:
1. Aprender Python básico
2. Dominar análisis de datos con pandas
3. Entender visualización con matplotlib y seaborn
4. Practicar modelos de machine learning
5. Completar un proyecto de ciencia de datos


### ✍️ Autor: Andrés Figueroa