# üìö M√≥dulo 1.2: Librer√≠as Fundamentales para Machine Learning
### Curso: **Machine Learning con Python** (IFCD093PO)
**Duraci√≥n estimada:** 12 horas

---

## üéØ Objetivos del M√≥dulo

En este m√≥dulo, dominar√°s las tres librer√≠as que forman la base de casi cualquier proyecto de Data Science y Machine Learning en Python. Al finalizar, ser√°s capaz de:

- ‚úÖ **NumPy**: Realizar c√°lculos num√©ricos eficientes con arrays multidimensionales.
- ‚úÖ **Pandas**: Cargar, limpiar, manipular y analizar datos tabulares con DataFrames.
- ‚úÖ **Matplotlib y Seaborn**: Crear visualizaciones de datos informativas y est√©ticamente agradables.

**Estas herramientas son el pan de cada d√≠a de un cient√≠fico de datos. ¬°Vamos a dominarlas!**

---

## üìö Tabla de Contenidos

1. [**NumPy**: Computaci√≥n Num√©rica](#1-numpy)
   - [¬øQu√© es NumPy y por qu√© es tan r√°pido?](#1.1-intro-numpy)
   - [Creaci√≥n de Arrays](#1.2-creacion-arrays)
   - [Operaciones y Broadcasting](#1.3-operaciones)
   - [Indexaci√≥n y Slicing](#1.4-indexacion)
   - [Estad√≠sticas y √Ålgebra Lineal](#1.5-estadisticas)

2. [**Pandas**: Manipulaci√≥n de Datos](#2-pandas)
   - [Series y DataFrames](#2.1-series-dataframes)
   - [Lectura y Escritura de Datos (CSV)](#2.2-lectura-datos)
   - [Selecci√≥n y Filtrado (loc, iloc)](#2.3-seleccion)
   - [Agrupaci√≥n (GroupBy)](#2.4-groupby)
   - [Manejo de Datos Faltantes](#2.5-nulos)

3. [**Visualizaci√≥n**: Matplotlib y Seaborn](#3-visualizacion)
   - [Anatom√≠a de un Gr√°fico con Matplotlib](#3.1-matplotlib)
   - [Gr√°ficos Estad√≠sticos con Seaborn](#3.2-seaborn)

4. [Resumen y Pr√≥ximos Pasos](#4-resumen)

---

## ‚öôÔ∏è Preparaci√≥n: Importar las librer√≠as

Por convenci√≥n, siempre importamos estas librer√≠as con alias espec√≠ficos. Esto hace el c√≥digo m√°s corto y legible.

In [2]:
# Importar las librer√≠as
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraciones recomendadas para una mejor visualizaci√≥n
sns.set_style("whitegrid") # Estilo de los gr√°ficos de Seaborn
plt.rcParams["figure.figsize"] = (10, 6) # Tama√±o por defecto de los gr√°ficos

---

## üî¢ 1. NumPy: Computaci√≥n Num√©rica <a id='1-numpy'></a>

### 1.1 ¬øQu√© es NumPy y por qu√© es tan r√°pido? <a id='1.1-intro-numpy'></a>

**NumPy** (Numerical Python) es la librer√≠a fundamental para la computaci√≥n cient√≠fica en Python. Su objeto principal es el **array multidimensional** (`ndarray`).

**¬øPor qu√© es m√°s r√°pido que las listas de Python?**
- **Memoria Contigua**: Los elementos de un array de NumPy se guardan uno al lado del otro en la memoria, permitiendo un acceso mucho m√°s r√°pido.
- **C√≥digo Optimizado**: Muchas de sus operaciones est√°n escritas en C o Fortran, lenguajes de bajo nivel mucho m√°s r√°pidos que Python.
- **Vectorizaci√≥n**: Permite aplicar una operaci√≥n a todo un array a la vez, sin necesidad de bucles `for` expl√≠citos en Python.

In [3]:
# Comparaci√≥n de velocidad: NumPy vs Listas
lista_py = list(range(1_000_000)) # Lista de Python con 1 mill√≥n de n√∫meros
array_np = np.arange(1_000_000) # Array de NumPy con 1 mill√≥n de n√∫meros

print("Calculando el cuadrado de 1 mill√≥n de n√∫meros:")

# Con listas de Python (usando un bucle)
print("\nCon listas de Python:")
%timeit [x**2 for x in lista_py] # Usando comprensi√≥n de listas

# Con NumPy (vectorizado)
print("\nCon NumPy:")
%timeit array_np**2 # Operaci√≥n vectorizada

Calculando el cuadrado de 1 mill√≥n de n√∫meros:

Con listas de Python:
127 ms ¬± 19.1 ms per loop (mean ¬± std. dev. of 7 runs, 10 loops each)

Con NumPy:
2.98 ms ¬± 287 Œºs per loop (mean ¬± std. dev. of 7 runs, 100 loops each)


### 1.2 Creaci√≥n de Arrays <a id='1.2-creacion-arrays'></a>

Hay muchas formas de crear arrays en NumPy.

In [4]:
# Desde una lista de Python
array_1d = np.array([1, 2, 3, 4, 5])
print("Array 1D:", array_1d)

array_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("\nArray 2D (matriz):\n", array_2d)

# Con funciones de NumPy
array_zeros = np.zeros((2, 3)) # Array de ceros
print("\nArray de ceros:\n", array_zeros)

array_ones = np.ones((3, 2)) # Array de unos
print("\nArray de unos:\n", array_ones)

array_range = np.arange(0, 10, 2) # Similar a range() de Python
print("\nArray con arange(0, 10, 2):", array_range)

array_linspace = np.linspace(0, 1, 5) # 5 n√∫meros espaciados igualmente entre 0 y 1
print("\nArray con linspace(0, 1, 5):", array_linspace)

array_random = np.random.rand(2, 3) # N√∫meros aleatorios entre 0 y 1
print("\nArray aleatorio:\n", array_random) 

Array 1D: [1 2 3 4 5]

Array 2D (matriz):
 [[1 2 3]
 [4 5 6]]

Array de ceros:
 [[0. 0. 0.]
 [0. 0. 0.]]

Array de unos:
 [[1. 1.]
 [1. 1.]
 [1. 1.]]

Array con arange(0, 10, 2): [0 2 4 6 8]

Array con linspace(0, 1, 5): [0.   0.25 0.5  0.75 1.  ]

Array aleatorio:
 [[0.59947817 0.81950035 0.43632858]
 [0.5109675  0.36126439 0.78871592]]


### 1.3 Operaciones y Broadcasting <a id='1.3-operaciones'></a>

Las operaciones se aplican elemento a elemento. **Broadcasting** es la habilidad de NumPy de tratar con arrays de diferentes formas durante las operaciones aritm√©ticas.

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Operaciones elemento a elemento
print("Suma:", a + b)
print("Multiplicaci√≥n:", a * b)

# Broadcasting: operando un array con un escalar
print("\nBroadcasting:")
print("Array + 10:", a + 10)
print("Array * 2:", a * 2)

# Ejemplo m√°s complejo de broadcasting
matriz = np.array([[1, 2, 3], [4, 5, 6]])
vector = np.array([10, 20, 30])
print("\nMatriz + Vector:")
print(matriz + vector) # El vector se "estira" para sumarse a cada fila

### 1.4 Indexaci√≥n y Slicing <a id='1.4-indexacion'></a>

Funciona de forma similar a las listas, pero con m√°s dimensiones.

In [None]:
data = np.arange(1, 13).reshape(3, 4) # Crea un array de 1 a 12 y lo remodela a 3x4
print("Matriz de datos:\n", data)

# Acceder a un elemento: data[fila, columna]
print("\nElemento en la fila 1, columna 2:", data[1, 2]) # Es 7

# Slicing
print("\nPrimera fila completa:", data[0, :])
print("Segunda columna completa:", data[:, 1])
print("\nSubmatriz (primeras 2 filas, columnas 1 y 2):\n", data[0:2, 1:3])

# Indexaci√≥n booleana (muy potente)
mayores_que_5 = data > 5
print("\nM√°scara booleana (elementos > 5):\n", mayores_que_5)
print("\nElementos mayores que 5:", data[mayores_que_5])

### ‚úÖ Ejercicio 1 (NumPy): Normalizaci√≥n de Datos

La normalizaci√≥n Z-score es una t√©cnica muy com√∫n en ML. La f√≥rmula es: `(x - media) / desv_estandar`.

1. Crea un array de NumPy con 10 n√∫meros aleatorios (ej: `np.random.randint(50, 100, 10)`).
2. Calcula la media (`.mean()`) y la desviaci√≥n est√°ndar (`.std()`) del array.
3. Aplica la f√≥rmula de Z-score para normalizar los datos.
4. Imprime el array original y el normalizado.

In [None]:
# Tu c√≥digo aqu√≠

<details>
<summary>üí° <b>Soluci√≥n</b></summary>

```python
np.random.seed(42) # Para que los resultados sean reproducibles
datos_originales = np.random.randint(50, 100, 10)

media = datos_originales.mean()
desv_estandar = datos_originales.std()

datos_normalizados = (datos_originales - media) / desv_estandar

print(f"Datos originales: {datos_originales}")
print(f"Media: {media:.2f}, Desv. Est√°ndar: {desv_estandar:.2f}")
print(f"\nDatos normalizados (Z-score):\n{datos_normalizados}")

# Comprobaci√≥n: la media de los datos normalizados debe ser cercana a 0 y la desv. est√°ndar a 1
print(f"\nMedia de datos normalizados: {datos_normalizados.mean():.2f}")
print(f"Desv. Est√°ndar de datos normalizados: {datos_normalizados.std():.2f}")
```
</details>

---

## üêº 2. Pandas: Manipulaci√≥n de Datos <a id='2-pandas'></a>

**Pandas** es la librer√≠a esencial para trabajar con datos "estructurados" (tablas, como en Excel o SQL). Se construye sobre NumPy.

### 2.1 Series y DataFrames <a id='2.1-series-dataframes'></a>

- **Serie**: Un array unidimensional etiquetado (como una columna de una tabla). Puede contener cualquier tipo de dato.
- **DataFrame**: Una tabla bidimensional etiquetada (como una hoja de c√°lculo). Es la estructura de datos principal de Pandas.

In [None]:
# Creaci√≥n de una Serie
serie_poblacion = pd.Series([8_000_000, 3_200_000, 1_600_000], 
                              index=["Nueva York", "Madrid", "Barcelona"])
print("Serie de poblaci√≥n:\n", serie_poblacion)

# Creaci√≥n de un DataFrame desde un diccionario
datos = {
    'Pa√≠s': ['Espa√±a', 'Francia', 'Alemania', 'Italia'],
    'Capital': ['Madrid', 'Par√≠s', 'Berl√≠n', 'Roma'],
    'Poblaci√≥n (millones)': [47, 65, 83, 60]
}
df = pd.DataFrame(datos)

print("\nDataFrame de pa√≠ses:")
display(df) # display() es mejor que print() para DataFrames en notebooks

### 2.2 Lectura y Escritura de Datos (CSV) <a id='2.2-lectura-datos'></a>

Una de las tareas m√°s comunes es cargar datos desde un archivo. Pandas lo hace muy f√°cil, especialmente con archivos CSV (Comma-Separated Values).

In [None]:
# Vamos a crear un archivo CSV de ejemplo para poder leerlo
contenido_csv = """ID,Nombre,Edad,Salario
1,Ana,28,50000
2,Luis,34,62000
3,Marta,45,75000
4,Javier,22,45000
5,Sof√≠a,39,
"""
with open("empleados.csv", "w") as f:
    f.write(contenido_csv)

# Leer el archivo CSV en un DataFrame
df_empleados = pd.read_csv("empleados.csv")

print("DataFrame cargado desde 'empleados.csv':")
display(df_empleados)

# M√©todos b√°sicos para explorar un DataFrame
print("\nPrimeras 3 filas (.head(3)):") # Muestra las primeras 3 filas
display(df_empleados.head(3))

print("\nInformaci√≥n del DataFrame (.info()):") # Tipos de datos y valores nulos
df_empleados.info()

print("\nEstad√≠sticas descriptivas (.describe()):") # Estad√≠sticas para columnas num√©ricas
display(df_empleados.describe())

### 2.3 Selecci√≥n y Filtrado (loc, iloc) <a id='2.3-seleccion'></a>

Hay dos formas principales de seleccionar datos:
- **`.loc`**: Selecciona por **etiquetas** (nombres de filas/columnas).
- **`.iloc`**: Selecciona por **posici√≥n** entera (√≠ndices num√©ricos).

In [None]:
# Seleccionar una columna
nombres = df_empleados['Nombre']
print("Columna 'Nombre':\n", nombres)

# Seleccionar m√∫ltiples columnas
nombre_y_salario = df_empleados[['Nombre', 'Salario']]
print("\nColumnas 'Nombre' y 'Salario':")
display(nombre_y_salario)

# .iloc: seleccionar la primera fila (posici√≥n 0)
primera_fila = df_empleados.iloc[0]
print("\nPrimera fila (iloc[0]):\n", primera_fila)

# .loc: seleccionar la fila con √≠ndice 2
fila_indice_2 = df_empleados.loc[2]
print("\nFila con √≠ndice 2 (loc[2]):\n", fila_indice_2)

# Filtrado booleano: empleados que ganan m√°s de 60000
salarios_altos = df_empleados[df_empleados['Salario'] > 60000]
print("\nEmpleados con salario > 60000:")
display(salarios_altos)

### 2.4 Agrupaci√≥n (GroupBy) <a id='2.4-groupby'></a>

El `groupby` es una operaci√≥n extremadamente potente que implica:
1. **Dividir** los datos en grupos basados en alg√∫n criterio.
2. **Aplicar** una funci√≥n a cada grupo de forma independiente.
3. **Combinar** los resultados en una estructura de datos.

In [None]:
# Creemos un DataFrame m√°s complejo
data_ventas = {
    'Departamento': ['Deportes', 'Hogar', 'Deportes', 'Tecnolog√≠a', 'Hogar', 'Tecnolog√≠a'],
    'Vendedor': ['Ana', 'Luis', 'Ana', 'Marta', 'Luis', 'Marta'],
    'Ventas': [200, 150, 250, 300, 180, 320]
}
df_ventas = pd.DataFrame(data_ventas)
print("DataFrame de ventas:")
display(df_ventas)

# Agrupar por 'Departamento' y calcular la suma de ventas
ventas_por_depto = df_ventas.groupby('Departamento')['Ventas'].sum()
print("\nSuma de ventas por departamento:")
print(ventas_por_depto)

# Agrupar por 'Vendedor' y calcular la media y el total de ventas
stats_vendedor = df_ventas.groupby('Vendedor')['Ventas'].agg(['mean', 'sum'])
print("\nEstad√≠sticas por vendedor:")
display(stats_vendedor)

### ‚úÖ Ejercicio 2 (Pandas): An√°lisis de Datos de Pel√≠culas

1. Crea un DataFrame con datos de pel√≠culas: `Titulo`, `Director`, `A√±o`, `Puntuacion` (de 1 a 10).
2. Filtra y muestra solo las pel√≠culas con una puntuaci√≥n mayor o igual a 8.
3. Agrupa por `Director` y calcula la puntuaci√≥n media de sus pel√≠culas.

In [None]:
# Tu c√≥digo aqu√≠
datos_peliculas = {
    'Titulo': ['Pulp Fiction', 'The Dark Knight', 'Forrest Gump', 'The Dark Knight Rises', 'Inception'],
    'Director': ['Tarantino', 'Nolan', 'Zemeckis', 'Nolan', 'Nolan'],
    'A√±o': [1994, 2008, 1994, 2012, 2010],
    'Puntuacion': [8.9, 9.0, 8.8, 8.4, 8.8]
}
df_peliculas = pd.DataFrame(datos_peliculas)

# 1. Filtra las mejores pel√≠culas

# 2. Agrupa por director

<details>
<summary>üí° <b>Soluci√≥n</b></summary>

```python
mejores_peliculas = df_peliculas[df_peliculas['Puntuacion'] >= 8.8]
print("Pel√≠culas con puntuaci√≥n >= 8.8:")
display(mejores_peliculas)

puntuacion_media_director = df_peliculas.groupby('Director')['Puntuacion'].mean().sort_values(ascending=False)
print("\nPuntuaci√≥n media por director:")
print(puntuacion_media_director)
```
</details>

---

## üìä 3. Visualizaci√≥n: Matplotlib y Seaborn <a id='3-visualizacion'></a>

Una imagen vale m√°s que mil palabras (o mil filas de datos). La visualizaci√≥n es clave para entender patrones, tendencias y outliers.

- **Matplotlib**: Es la librer√≠a base. Potente y altamente personalizable, pero a veces verbosa.
- **Seaborn**: Construida sobre Matplotlib. Ofrece una interfaz de m√°s alto nivel para crear gr√°ficos estad√≠sticos atractivos con menos c√≥digo.

### 3.1 Anatom√≠a de un Gr√°fico con Matplotlib <a id='3.1-matplotlib'></a>

In [None]:
# Datos de ejemplo
x = np.linspace(0, 10, 100)
y_seno = np.sin(x)
y_coseno = np.cos(x)

# Crear el gr√°fico
plt.plot(x, y_seno, label='Seno(x)', color='blue', linestyle='-')
plt.plot(x, y_coseno, label='Coseno(x)', color='red', linestyle='--')

# A√±adir t√≠tulos y etiquetas
plt.title('Funciones Seno y Coseno', fontsize=16, fontweight='bold')
plt.xlabel('Eje X', fontsize=12)
plt.ylabel('Eje Y', fontsize=12)

# A√±adir leyenda
plt.legend()

# Mostrar el gr√°fico
plt.show()

### 3.2 Gr√°ficos Estad√≠sticos con Seaborn <a id='3.2-seaborn'></a>

Seaborn simplifica la creaci√≥n de gr√°ficos comunes en el an√°lisis de datos.

In [None]:
# Usaremos el DataFrame de empleados que creamos antes
print("Recordatorio del DataFrame de empleados:")
display(df_empleados)

# Gr√°fico de dispersi√≥n (scatterplot) para ver la relaci√≥n entre edad y salario
plt.figure()
sns.scatterplot(data=df_empleados, x='Edad', y='Salario', hue='Nombre', s=200)
plt.title('Relaci√≥n entre Edad y Salario', fontsize=16)
plt.show()

# Gr√°fico de barras (barplot) para comparar salarios
plt.figure()
sns.barplot(data=df_empleados, x='Nombre', y='Salario')
plt.title('Salario por Empleado', fontsize=16)
plt.show()

# Histograma para ver la distribuci√≥n de una variable
plt.figure()
sns.histplot(data=df_empleados, x='Salario', kde=True) # kde=True a√±ade una curva de densidad
plt.title('Distribuci√≥n de Salarios', fontsize=16)
plt.show()

### ‚úÖ Ejercicio 3 (Visualizaci√≥n): Gr√°fico de Pel√≠culas

Usando el DataFrame de pel√≠culas del ejercicio anterior:

1. Crea un **gr√°fico de barras** que muestre la puntuaci√≥n de cada pel√≠cula.
2. Crea un **gr√°fico de conteo** (`countplot`) que muestre cu√°ntas pel√≠culas ha dirigido cada director en el dataset.

In [None]:
# Tu c√≥digo aqu√≠
# 1. Gr√°fico de barras de puntuaciones

# 2. Gr√°fico de conteo de directores

<details>
<summary>üí° <b>Soluci√≥n</b></summary>

```python
# 1. Gr√°fico de barras de puntuaciones
plt.figure(figsize=(12, 6))
sns.barplot(data=df_peliculas, x='Titulo', y='Puntuacion', hue='Director')
plt.title('Puntuaci√≥n por Pel√≠cula', fontsize=16)
plt.xticks(rotation=45, ha='right') # Rotar etiquetas para que no se solapen
plt.ylim(8, 9.2) # Ajustar el l√≠mite del eje Y para ver mejor las diferencias
plt.show()

# 2. Gr√°fico de conteo de directores
plt.figure(figsize=(10, 6))
sns.countplot(data=df_peliculas, x='Director', order=df_peliculas['Director'].value_counts().index)
plt.title('N√∫mero de Pel√≠culas por Director en el Dataset', fontsize=16)
plt.show()
```
</details>

---

## üìù 4. Resumen y Pr√≥ximos Pasos <a id='4-resumen'></a>

### üéâ ¬°Felicidades! Has dominado las librer√≠as fundamentales

#### ‚úÖ Lo que has aprendido:

1. **NumPy**
   - Crear y manipular arrays multidimensionales.
   - Realizar operaciones matem√°ticas vectorizadas y usar broadcasting.
   - Seleccionar datos con slicing e indexaci√≥n booleana.

2. **Pandas**
   - Trabajar con Series y DataFrames.
   - Cargar datos desde archivos CSV y explorarlos.
   - Filtrar y seleccionar datos de manera precisa con `.loc`, `.iloc` y condiciones booleanas.
   - Agrupar datos y calcular estad√≠sticas con `groupby`.

3. **Matplotlib y Seaborn**
   - Entender la estructura b√°sica de un gr√°fico.
   - Crear gr√°ficos de l√≠neas, barras, dispersi√≥n e histogramas.
   - Usar Seaborn para crear visualizaciones estad√≠sticas atractivas con poco c√≥digo.

---

### üöÄ Pr√≥ximo M√≥dulo: Introducci√≥n al Machine Learning

Ahora que sabes c√≥mo manejar y visualizar datos, est√°s listo para el siguiente gran paso: **¬°entrenar tu primer modelo de Machine Learning!**

En el pr√≥ximo m√≥dulo aprender√°s:
- ¬øQu√© es realmente el Machine Learning?
- Los diferentes tipos de aprendizaje (supervisado, no supervisado).
- El flujo de trabajo completo de un proyecto de ML, desde la carga de datos hasta la evaluaci√≥n del modelo.
- Conceptos clave como *overfitting*, *underfitting* y *validaci√≥n cruzada*.

**¬°Aqu√≠ es donde todo lo que has aprendido se une para crear algo incre√≠ble!**