# Transición al siguiente tema (introducción a librerías)

### Ahora que refrescamos lo básico de Python, vamos a dar un paso más: empezar a trabajar con librerías.

***En programación, una librería es un conjunto de funciones y herramientas ya creadas que podemos importar en nuestros programas***

***para resolver problemas sin tener que inventar todo desde cero.***

**Analogia:** Caja de herramientas 🔧

Una librería es como una caja llena de herramientas listas. Vos podrías fabricar un martillo desde cero, 

pero es mucho más práctico usar uno que ya está hecho.

---
*Podemos pensarlo así:*

- Python trae de base muchas funciones (sumar, contar, manejar listas).

- Pero cuando queremos trabajar con datos grandes y complejos, esas funciones ya no son suficientes.

Ahí es donde entran las librerías, que son como “cajas de herramientas” diseñadas para tareas específicas.

---

# ¿Por qué usar librerías en análisis de datos?

Las librerías en análisis de datos se utilizan porque concentran funciones y herramientas ya desarrolladas que permiten trabajar de forma más eficiente.

En lugar de programar desde cero operaciones complejas como cálculos, transformaciones o visualizaciones, las librerías ofrecen soluciones probadas y 

optimizadas. Esto reduce el tiempo de desarrollo, disminuye errores y facilita enfocarse en el análisis y la interpretación de los datos en lugar de en 

la programación básica.

- Porque los datasets reales pueden tener miles o millones de registros.

- Necesitamos operaciones rápidas (sumas, promedios, filtrados) que con listas de Python serían muy lentas.

- Además, queremos que el código sea más simple de escribir y de leer.

# ¿Que es un dataset?

Un **dataset** es simplemente un **conjunto de datos organizados**.

 Podés pensarlo como una **tabla** con filas y columnas:

* **Filas** → cada fila representa un registro (un cliente, una venta, un préstamo).
* **Columnas** → cada columna representa una característica o variable (edad, monto, fecha, región).

En análisis de datos, los datasets son la **materia prima** con la que trabajamos:

* A veces vienen en archivos como **CSV o Excel**.
* Pueden ser grandes (miles de filas) o pequeños (unas pocas filas).
* El objetivo es **explorarlos, limpiarlos y analizarlos** para obtener información útil.

 Analogía: un dataset es como una **planilla de Excel** llena de registros, solo que en Python lo manejamos con librerías como **Pandas**.



# Librerias con las que vamos a trabajar

# NumPy

**NumPy** es una librería de Python especializada en trabajar con **arreglos numéricos grandes**.

---

Un **arreglo numérico** es una colección de números guardados uno al lado del otro en memoria, todos del mismo tipo (por ejemplo, todos enteros o todos decimales).

Podés pensarlo como una **fila de casilleros** donde cada casillero guarda un número:

```
[ 10 , 20 , 30 , 40 ]
```

Cada número está en una posición fija, y se accede indicando el lugar (posición 0, 1, 2, etc.).

La diferencia con una lista común de Python es que el arreglo está diseñado especialmente para hacer **cálculos rápidos y en bloque** sobre todos esos números.


Un **arreglo (array)** es parecido a una lista de Python, pero mucho más potente y rápido cuando hablamos de cientos o miles de datos.

La gran ventaja de NumPy es que permite hacer **operaciones matemáticas y estadísticas** directamente sobre todos los elementos del arreglo, sin necesidad de usar bucles `for` o `while`.
Esto se debe a su capacidad **vectorizada**: el cálculo se aplica a todo el conjunto de datos de una sola vez.

---

### ¿Qué es vectorización en NumPy?

La vectorización es la capacidad de aplicar una operación a todos los elementos de un array al mismo tiempo, sin necesidad de recorrerlos con un bucle for.

Ejemplo en palabras:

Imaginá que tenés 1.000 números en una lista.

Con Python puro, deberías usar un bucle for e ir sumando uno por uno.

Con NumPy, le pedís al array directamente que saque la suma, y lo hace de una sola vez, mucho más rápido.

---

## 📌 ¿Cómo se diferencia de una lista en Python?

* Una **lista** de Python puede mezclar distintos tipos de datos (números, texto, booleanos).
* Un **array de NumPy** solo admite datos del mismo tipo (por ejemplo, todos enteros o todos decimales).

Esa “rigidez” es la que hace que NumPy sea **mucho más rápido y eficiente** cuando trabajamos con grandes volúmenes de números.

---

NumPy no fue creada oficialmente por Python, sino por la comunidad científica 

y de programación que necesitaba trabajar con datos numéricos grandes.

---

## Dataset en NumPy

En NumPy los datos se guardan en **arrays**.

* Son **numéricos y homogéneos**: todos los elementos tienen el mismo tipo.
* Están pensados para **cálculos matemáticos y estadísticos**.
* Ejemplo: un array con 365 valores de temperatura (uno por cada día del año) o un array con las ventas diarias de un negocio.

Con un solo comando podemos calcular la suma, el promedio o transformar todos los valores a la vez.

---

## Ventajas de NumPy

* **Velocidad**: mucho más rápido que recorrer listas con bucles.
* **Vectorización**: permite aplicar operaciones a todos los elementos de una sola vez.
* **Eficiencia**: consume menos memoria que las listas de Python cuando manejamos grandes volúmenes de datos.
* **Fundamental**: es la base sobre la que se apoyan otras librerías como **Pandas**, **SciPy** o **Scikit-Learn**.

---

## En otras palabras…

Con NumPy podemos sumar, promediar o transformar grandes volúmenes de datos en una sola instrucción, de forma clara y eficiente.

* Está enfocado en **arreglos numéricos grandes**.
* Nos permite hacer **operaciones matemáticas y estadísticas** de forma muy eficiente.
* Reemplaza el uso de **bucles manuales** gracias a su capacidad *vectorizada*.

---

NumPy es el punto de partida para trabajar con datos numéricos en Python y es la base de todo el ecosistema de análisis y ciencia de datos.

---



### Pandas

Pandas es una librería de Python especializada en trabajar con datos tabulares, es decir, 

información organizada en filas y columnas, muy parecido a lo que vemos en Excel.

---

### ¿Qué son datos tabulares?

Son datos organizados en forma de **tabla**, con **filas** y **columnas**, muy parecido a una hoja de cálculo en Excel.

* Cada **fila** representa un registro (ejemplo: un cliente, una venta, un préstamo).
* Cada **columna** representa una característica o variable de ese registro (ejemplo: edad, fecha, monto, región).

---

### ¿En qué se diferencia de un dataset?

* Un **dataset** es cualquier conjunto de datos (puede ser texto, imágenes, señales de sensores, audio, etc.).
* Los **datos tabulares** son un **tipo específico de dataset**, el que está organizado en formato de tabla.

📌 En este **Módulo 1** vamos a trabajar principalmente con **datasets tabulares**, porque son los más comunes 

en análisis financiero, empresarial y educativo.

---

---


## Dataset en Pandas

En Pandas los datos se guardan en DataFrames (tablas con filas y columnas).

Son heterogéneos: cada columna puede tener un tipo distinto (números, texto, fechas).

Se usan principalmente para organizar, limpiar y analizar información tabular.

Ejemplo: una tabla de clientes con columnas: nombre (texto), edad (número), fecha de registro (fecha).

### La diferencia clave 

- NumPy está pensado para arrays numéricos grandes y cálculos matemáticos rápidos.

En NumPy, el “dataset” es solo un array → números sin etiquetas.

- Pandas está pensado para tablas de datos (datasets tabulares), que combinan distintos tipos de información.

En Pandas, el “dataset” aparece cuando lo metés en un DataFrame → ahí sí se vuelve tabla con filas, columnas y nombres.

---

###  Ventajas de Pandas

La gran ventaja de Pandas es que nos permite **cargar, limpiar, transformar y analizar datasets** de forma rápida y sencilla, sin tener que programar todo desde cero.

Su estructura principal es el **DataFrame**, que es básicamente una **tabla dentro de Python**:

* Está formada por varias **Series** (cada columna es una Serie).
* Cada columna puede contener diferentes tipos de datos (números, texto, fechas, booleanos).

Con Pandas podemos leer información desde múltiples fuentes como **CSV, Excel o bases de datos**, y aplicar operaciones como:

* **Filtrar** registros.
* **Ordenar** información.
* **Agrupar** datos por categorías.
* **Calcular estadísticas** de manera muy simple.

---

###  En otras palabras…

Con Pandas podemos manejar datos como si estuviéramos en **Excel**, pero con la **potencia de Python**:

* Está enfocada en trabajar con **tablas de datos** (filas y columnas).
* Permite **cargar, explorar, limpiar y transformar datasets** de manera eficiente.
* Facilita cálculos y análisis con métodos básicos (`head()`, `info()`, `describe()`, `groupby()`, etc.).

---

 **Pandas** es la librería más usada en análisis de datos con Python, porque convierte a Python en una herramienta práctica para trabajar con información real.

---
