# Transici√≥n al siguiente tema (introducci√≥n a librer√≠as)

### Ahora que refrescamos lo b√°sico de Python, vamos a dar un paso m√°s: empezar a trabajar con librer√≠as.

***En programaci√≥n, una librer√≠a es un conjunto de funciones y herramientas ya creadas que podemos importar en nuestros programas***

***para resolver problemas sin tener que inventar todo desde cero.***

**Analogia:** Caja de herramientas üîß

Una librer√≠a es como una caja llena de herramientas listas. Vos podr√≠as fabricar un martillo desde cero, 

pero es mucho m√°s pr√°ctico usar uno que ya est√° hecho.

---
*Podemos pensarlo as√≠:*

- Python trae de base muchas funciones (sumar, contar, manejar listas).

- Pero cuando queremos trabajar con datos grandes y complejos, esas funciones ya no son suficientes.

Ah√≠ es donde entran las librer√≠as, que son como ‚Äúcajas de herramientas‚Äù dise√±adas para tareas espec√≠ficas.

---

# ¬øPor qu√© usar librer√≠as en an√°lisis de datos?

Las librer√≠as en an√°lisis de datos se utilizan porque concentran funciones y herramientas ya desarrolladas que permiten trabajar de forma m√°s eficiente.

En lugar de programar desde cero operaciones complejas como c√°lculos, transformaciones o visualizaciones, las librer√≠as ofrecen soluciones probadas y 

optimizadas. Esto reduce el tiempo de desarrollo, disminuye errores y facilita enfocarse en el an√°lisis y la interpretaci√≥n de los datos en lugar de en 

la programaci√≥n b√°sica.

- Porque los datasets reales pueden tener miles o millones de registros.

- Necesitamos operaciones r√°pidas (sumas, promedios, filtrados) que con listas de Python ser√≠an muy lentas.

- Adem√°s, queremos que el c√≥digo sea m√°s simple de escribir y de leer.

# ¬øQue es un dataset?

Un **dataset** es simplemente un **conjunto de datos organizados**.

 Pod√©s pensarlo como una **tabla** con filas y columnas:

* **Filas** ‚Üí cada fila representa un registro (un cliente, una venta, un pr√©stamo).
* **Columnas** ‚Üí cada columna representa una caracter√≠stica o variable (edad, monto, fecha, regi√≥n).

En an√°lisis de datos, los datasets son la **materia prima** con la que trabajamos:

* A veces vienen en archivos como **CSV o Excel**.
* Pueden ser grandes (miles de filas) o peque√±os (unas pocas filas).
* El objetivo es **explorarlos, limpiarlos y analizarlos** para obtener informaci√≥n √∫til.

 Analog√≠a: un dataset es como una **planilla de Excel** llena de registros, solo que en Python lo manejamos con librer√≠as como **Pandas**.



# Librerias con las que vamos a trabajar

# NumPy

**NumPy** es una librer√≠a de Python especializada en trabajar con **arreglos num√©ricos grandes**.

---

Un **arreglo num√©rico** es una colecci√≥n de n√∫meros guardados uno al lado del otro en memoria, todos del mismo tipo (por ejemplo, todos enteros o todos decimales).

Pod√©s pensarlo como una **fila de casilleros** donde cada casillero guarda un n√∫mero:

```
[ 10 , 20 , 30 , 40 ]
```

Cada n√∫mero est√° en una posici√≥n fija, y se accede indicando el lugar (posici√≥n 0, 1, 2, etc.).

La diferencia con una lista com√∫n de Python es que el arreglo est√° dise√±ado especialmente para hacer **c√°lculos r√°pidos y en bloque** sobre todos esos n√∫meros.


Un **arreglo (array)** es parecido a una lista de Python, pero mucho m√°s potente y r√°pido cuando hablamos de cientos o miles de datos.

La gran ventaja de NumPy es que permite hacer **operaciones matem√°ticas y estad√≠sticas** directamente sobre todos los elementos del arreglo, sin necesidad de usar bucles `for` o `while`.
Esto se debe a su capacidad **vectorizada**: el c√°lculo se aplica a todo el conjunto de datos de una sola vez.

---

### ¬øQu√© es vectorizaci√≥n en NumPy?

La vectorizaci√≥n es la capacidad de aplicar una operaci√≥n a todos los elementos de un array al mismo tiempo, sin necesidad de recorrerlos con un bucle for.

Ejemplo en palabras:

Imagin√° que ten√©s 1.000 n√∫meros en una lista.

Con Python puro, deber√≠as usar un bucle for e ir sumando uno por uno.

Con NumPy, le ped√≠s al array directamente que saque la suma, y lo hace de una sola vez, mucho m√°s r√°pido.

---

## üìå ¬øC√≥mo se diferencia de una lista en Python?

* Una **lista** de Python puede mezclar distintos tipos de datos (n√∫meros, texto, booleanos).
* Un **array de NumPy** solo admite datos del mismo tipo (por ejemplo, todos enteros o todos decimales).

Esa ‚Äúrigidez‚Äù es la que hace que NumPy sea **mucho m√°s r√°pido y eficiente** cuando trabajamos con grandes vol√∫menes de n√∫meros.

---

NumPy no fue creada oficialmente por Python, sino por la comunidad cient√≠fica 

y de programaci√≥n que necesitaba trabajar con datos num√©ricos grandes.

---

## Dataset en NumPy

En NumPy los datos se guardan en **arrays**.

* Son **num√©ricos y homog√©neos**: todos los elementos tienen el mismo tipo.
* Est√°n pensados para **c√°lculos matem√°ticos y estad√≠sticos**.
* Ejemplo: un array con 365 valores de temperatura (uno por cada d√≠a del a√±o) o un array con las ventas diarias de un negocio.

Con un solo comando podemos calcular la suma, el promedio o transformar todos los valores a la vez.

---

## Ventajas de NumPy

* **Velocidad**: mucho m√°s r√°pido que recorrer listas con bucles.
* **Vectorizaci√≥n**: permite aplicar operaciones a todos los elementos de una sola vez.
* **Eficiencia**: consume menos memoria que las listas de Python cuando manejamos grandes vol√∫menes de datos.
* **Fundamental**: es la base sobre la que se apoyan otras librer√≠as como **Pandas**, **SciPy** o **Scikit-Learn**.

---

## En otras palabras‚Ä¶

Con NumPy podemos sumar, promediar o transformar grandes vol√∫menes de datos en una sola instrucci√≥n, de forma clara y eficiente.

* Est√° enfocado en **arreglos num√©ricos grandes**.
* Nos permite hacer **operaciones matem√°ticas y estad√≠sticas** de forma muy eficiente.
* Reemplaza el uso de **bucles manuales** gracias a su capacidad *vectorizada*.

---

NumPy es el punto de partida para trabajar con datos num√©ricos en Python y es la base de todo el ecosistema de an√°lisis y ciencia de datos.

---



### Pandas

Pandas es una librer√≠a de Python especializada en trabajar con datos tabulares, es decir, 

informaci√≥n organizada en filas y columnas, muy parecido a lo que vemos en Excel.

---

### ¬øQu√© son datos tabulares?

Son datos organizados en forma de **tabla**, con **filas** y **columnas**, muy parecido a una hoja de c√°lculo en Excel.

* Cada **fila** representa un registro (ejemplo: un cliente, una venta, un pr√©stamo).
* Cada **columna** representa una caracter√≠stica o variable de ese registro (ejemplo: edad, fecha, monto, regi√≥n).

---

### ¬øEn qu√© se diferencia de un dataset?

* Un **dataset** es cualquier conjunto de datos (puede ser texto, im√°genes, se√±ales de sensores, audio, etc.).
* Los **datos tabulares** son un **tipo espec√≠fico de dataset**, el que est√° organizado en formato de tabla.

üìå En este **M√≥dulo 1** vamos a trabajar principalmente con **datasets tabulares**, porque son los m√°s comunes 

en an√°lisis financiero, empresarial y educativo.

---

---


## Dataset en Pandas

En Pandas los datos se guardan en DataFrames (tablas con filas y columnas).

Son heterog√©neos: cada columna puede tener un tipo distinto (n√∫meros, texto, fechas).

Se usan principalmente para organizar, limpiar y analizar informaci√≥n tabular.

Ejemplo: una tabla de clientes con columnas: nombre (texto), edad (n√∫mero), fecha de registro (fecha).

### La diferencia clave 

- NumPy est√° pensado para arrays num√©ricos grandes y c√°lculos matem√°ticos r√°pidos.

En NumPy, el ‚Äúdataset‚Äù es solo un array ‚Üí n√∫meros sin etiquetas.

- Pandas est√° pensado para tablas de datos (datasets tabulares), que combinan distintos tipos de informaci√≥n.

En Pandas, el ‚Äúdataset‚Äù aparece cuando lo met√©s en un DataFrame ‚Üí ah√≠ s√≠ se vuelve tabla con filas, columnas y nombres.

---

###  Ventajas de Pandas

La gran ventaja de Pandas es que nos permite **cargar, limpiar, transformar y analizar datasets** de forma r√°pida y sencilla, sin tener que programar todo desde cero.

Su estructura principal es el **DataFrame**, que es b√°sicamente una **tabla dentro de Python**:

* Est√° formada por varias **Series** (cada columna es una Serie).
* Cada columna puede contener diferentes tipos de datos (n√∫meros, texto, fechas, booleanos).

Con Pandas podemos leer informaci√≥n desde m√∫ltiples fuentes como **CSV, Excel o bases de datos**, y aplicar operaciones como:

* **Filtrar** registros.
* **Ordenar** informaci√≥n.
* **Agrupar** datos por categor√≠as.
* **Calcular estad√≠sticas** de manera muy simple.

---

###  En otras palabras‚Ä¶

Con Pandas podemos manejar datos como si estuvi√©ramos en **Excel**, pero con la **potencia de Python**:

* Est√° enfocada en trabajar con **tablas de datos** (filas y columnas).
* Permite **cargar, explorar, limpiar y transformar datasets** de manera eficiente.
* Facilita c√°lculos y an√°lisis con m√©todos b√°sicos (`head()`, `info()`, `describe()`, `groupby()`, etc.).

---

 **Pandas** es la librer√≠a m√°s usada en an√°lisis de datos con Python, porque convierte a Python en una herramienta pr√°ctica para trabajar con informaci√≥n real.

---
