# Librerías de machine learning más usadas:

[librerías más usadas](../docs/01_librerías_ml.md)

# 1) Preprocesamiento y manipulación de datos

## NumPy

### 1. Creación de Arrays

In [1]:
import numpy as np

In [2]:
# Array desde lista
np.array([1, 2, 3])

array([1, 2, 3])

In [3]:
# Matriz 2D
np.array([[1, 2, 3], [4, 5, 6]])

array([[1, 2, 3],
       [4, 5, 6]])

In [4]:
# Rango de valores
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

In [7]:
# Números igualmente espaciados
np.linspace(0, 1, 5)    # genera un array de 5 números igualmente espaciados entre 0 y 1 (incluyendo ambos extremos).

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [9]:
# Matrices especiales
np.zeros((3, 4))        # Matriz de ceros de 3 filas y 4 columnas

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [10]:
np.ones((2, 5))         # Matriz de unos de 2 filas y 5 columnas

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [11]:
np.eye(4)            # Matriz identidad de 4x4

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [12]:
np.random.rand(2, 2)     # Matriz 2x2 con valores aleatorios entre 0 y 1

array([[0.50965492, 0.54660297],
       [0.76991376, 0.94257998]])

In [14]:
np.random.randn(2, 2)   # Matriz 2x2 con valores aleatorios de una distribución normal (media 0, desviación estándar 1)
# Se usa para simular datos con comportamiento normal (gaussiano).

array([[ 0.45370808, -0.20677835],
       [-0.81017375,  0.14216766]])

In [15]:
np.random.randint(0, 10, (3, 3))  # Matriz 3x3 con enteros aleatorios entre 0 y 10

array([[0, 5, 0],
       [1, 8, 4],
       [8, 0, 5]])

In [16]:
np.random.randint(0, 10, 5)  # Array de 5 enteros aleatorios entre 0 y 10

array([6, 1, 2, 2, 6])

### 2. Inspección

In [17]:
a = np.array([[1,2,3],[4,5,6]])

In [18]:
a.shape       # Dimensiones del array (filas, columnas)

(2, 3)

In [19]:
a.ndim        # Número de dimensiones

2

In [20]:
a.size        # Número total de elementos

6

In [21]:
a.dtype       # Tipo de datos de los elementos

dtype('int64')

### 3. Operaciones Básicas

In [22]:
x = np.array([1, 2, 3])
y = np.array([10, 20, 30])

In [23]:
x + y       # Suma elemento a elemento

array([11, 22, 33])

In [24]:
x - y       # Resta elemento a elemento

array([ -9, -18, -27])

In [25]:
x * y       # Multiplicación elemento a elemento

array([10, 40, 90])

In [26]:
x / y       # División elemento a elemento

array([0.1, 0.1, 0.1])

In [27]:
x ** y      # Potenciación elemento a elemento

array([              1,         1048576, 205891132094649])

#### Operaciones escalares

In [28]:
x + 5

array([6, 7, 8])

In [29]:
y * 2

array([20, 40, 60])

### 4. Indexado y slicing

#### Arrays

In [30]:
a = np.array([10, 20, 30, 40, 50])

In [31]:
a[0]        # Primer elemento

np.int64(10)

In [32]:
a[-1]       # Último elemento

np.int64(50)

In [33]:
a[1:4]      # Elementos desde el índice 1 hasta el 3 (excluyendo el 4)

array([20, 30, 40])

In [34]:
a[::2]     # Elementos desde el inicio hasta el final, con paso 2

array([10, 30, 50])

#### Matrices

In [36]:
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [37]:
b[0, 2]      # Elemento en la primera fila, tercera columna

np.int64(3)

In [39]:
b[1, :]      # Todos los elementos de la segunda fila

array([4, 5, 6])

In [38]:
b[:, 1]      # Todos los elementos de la segunda columna

array([2, 5, 8])

### 5. Funciones estadísticas

In [40]:
data = np.array([1, 2, 3, 4, 5])

In [41]:
np.mean(data)      # Media

np.float64(3.0)

In [42]:
np.median(data)    # Mediana

np.float64(3.0)

In [43]:
np.std(data)       # Desviación estándar

np.float64(1.4142135623730951)

In [44]:
np.var(data)       # Varianza

np.float64(2.0)

In [45]:
np.min(data)       # Valor mínimo

np.int64(1)

In [46]:
np.max(data)       # Valor máximo

np.int64(5)

In [47]:
np.sum(data)       # Suma de todos los elementos

np.int64(15)

In [48]:
np.cumsum(data)    # Suma acumulativa

array([ 1,  3,  6, 10, 15])

## Pandas

## Scikit-learn