# Librerías útiles para el análisis de datos
La idea es mostrar las librerías que son necesarias para el análisis de series temporales y espaciales.

## 1. Instalación de las librerías

In [1]:
pip install pandas numpy

Collecting pandas
  Downloading pandas-2.3.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy
  Downloading numpy-2.3.4-cp312-cp312-win_amd64.whl.metadata (60 kB)
Collecting pytz>=2020.1 (from pandas)
  Using cached pytz-2025.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Using cached tzdata-2025.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.3.3-cp312-cp312-win_amd64.whl (11.0 MB)
   ---------------------------------------- 0.0/11.0 MB ? eta -:--:--
   ------ --------------------------------- 1.8/11.0 MB 11.2 MB/s eta 0:00:01
   ------------- -------------------------- 3.7/11.0 MB 8.7 MB/s eta 0:00:01
   ------------------ --------------------- 5.0/11.0 MB 8.2 MB/s eta 0:00:01
   -------------------------- ------------- 7.3/11.0 MB 8.7 MB/s eta 0:00:01
   ----------------------------------- ---- 9.7/11.0 MB 9.3 MB/s eta 0:00:01
   ---------------------------------------- 11.0/11.0 MB 9.3 MB/s  0:00:01
Downloading numpy-2.3.4

## 2. Importar las librerías
Para importar una librería utilizamos la palabra reservada "import" seguida del nombre de la librería. Podemos asignarle una abreviación a la librería, por ejemplo, "import pandas as pd".

## 3. Numpy

NumPy es una librería fundamental para el análisis de datos en Python. Proporciona arreglos multidimensionales (arrays) y funciones matemáticas optimizadas para trabajar con datos numéricos. Es la base para otras librerías como Pandas y Matplotlib.

In [2]:
import numpy as np

print("Versión de NumPy:", np.__version__)

Versión de NumPy: 2.3.4


### Creando Arreglos en NumPy

Los arreglos de NumPy (`ndarray`) son similares a las listas de Python, pero más eficientes para cálculos numéricos. Podemos crear arreglos de varias formas:
- A partir de una lista.
- Con funciones integradas como `zeros`, `ones`, o `arange`.

In [3]:
# Crear un arreglo desde una lista
lista = [1, 2, 3, 4]
arreglo = np.array(lista)
print("Arreglo desde lista:", arreglo)

# Arreglo de ceros (3 elementos)
ceros = np.zeros(3)
print("\nArreglo de ceros:", ceros)

# Arreglo de unos (2x3)
unos = np.ones((2, 3))
print("\nMatriz de unos (2x3):\n", unos)

# Arreglo con rango de valores
rango = np.arange(0, 10, 2)  # de 0 a 9, paso de 2
print("\nArreglo con rango:", rango)

# Arreglo con valores espaciados uniformemente
lineal = np.linspace(0, 1, 5)  # 5 valores entre 0 y 1
print("\nValores espaciados:", lineal)

Arreglo desde lista: [1 2 3 4]

Arreglo de ceros: [0. 0. 0.]

Matriz de unos (2x3):
 [[1. 1. 1.]
 [1. 1. 1.]]

Arreglo con rango: [0 2 4 6 8]

Valores espaciados: [0.   0.25 0.5  0.75 1.  ]


### Propiedades de los Arreglos

Los arreglos de NumPy tienen propiedades útiles:
- `shape`: Forma del arreglo (dimensiones).
- `size`: Número total de elementos.
- `dtype`: Tipo de datos de los elementos.

In [4]:
# Crear un arreglo 2D
matriz = np.array([[1, 2, 3], [4, 5, 6]])
print("Matriz:\n", matriz)

# Propiedades
print("Forma (shape):", matriz.shape)
print("Tamaño (size):", matriz.size)
print("Tipo de datos (dtype):", matriz.dtype)

Matriz:
 [[1 2 3]
 [4 5 6]]
Forma (shape): (2, 3)
Tamaño (size): 6
Tipo de datos (dtype): int64


### Operaciones Básicas con Arreglos

NumPy permite realizar operaciones matemáticas elemento a elemento de manera eficiente, sin necesidad de bucles explícitos. Esto es ideal para análisis de datos.

In [6]:
# Crear dos arreglos
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Operaciones elemento a elemento
suma = a + b
print("Suma:", suma)

resta = a - b
print("\nResta:", resta)

multiplicacion = a * b
print("\nMultiplicación:", multiplicacion)

division = a / b
print("\nDivisión:", division)

# Operaciones con escalares
escalar = a * 2
print("\nMultiplicación por escalar:", escalar)

# Funciones matemáticas
cuadrado = np.square(a)
print("\nCuadrado de a:", cuadrado)

Suma: [5 7 9]

Resta: [-3 -3 -3]

Multiplicación: [ 4 10 18]

División: [0.25 0.4  0.5 ]

Multiplicación por escalar: [2 4 6]

Cuadrado de a: [1 4 9]


In [7]:
# Operaciones lógicas
arr_1 = np.array([1, 2, 3, 4])
arr_2 = np.array([0, 1, 3, 5])
print("\nElementos mayores que 2:", arr_1 > 2)
print('\nMulti vs Suma:', arr_1 == arr_2)

arr_1 = np.array([True, False, False, True])
arr_2 = np.array([True, True, False, False])
print('\narr_1 =', arr_1)
print('arr_2 =', arr_2)
print('\n\tAnd:', arr_1 & arr_2)
print('\n\tOr:', arr_1 | arr_2)
print('\n\tNot arr_1:', ~arr_1)
print('\n\tAll:', np.all(arr_1))
print('\n\tAny:', np.any(arr_1))


Elementos mayores que 2: [False False  True  True]

Multi vs Suma: [False False  True False]

arr_1 = [ True False False  True]
arr_2 = [ True  True False False]

	And: [ True False False False]

	Or: [ True  True False  True]

	Not arr_1: [False  True  True False]

	All: False

	Any: True


### Indexación y Segmentación

Podemos acceder a elementos específicos de un arreglo o extraer subarreglos usando índices y segmentación, similar a las listas de Python.

In [8]:
# Arreglo 1D
arr = np.array([10, 20, 30, 40, 50])
print("Arreglo:", arr)

# Acceder a un elemento
print("\nElemento en índice 2:", arr[2])

# Segmentación
print("\nElementos del índice 1 al 3:", arr[1:4])

# Arreglo 2D
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("\nMatriz:\n", matriz)

# Acceder a un elemento (fila 1, columna 2)
print("\nElemento [1,2]:", matriz[1, 2])

# Extraer una fila
print("\nFila 1:", matriz[1, :])

# Extraer una columna
print("\nColumna 0:", matriz[:, 0])

Arreglo: [10 20 30 40 50]

Elemento en índice 2: 30

Elementos del índice 1 al 3: [20 30 40]

Matriz:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]

Elemento [1,2]: 6

Fila 1: [4 5 6]

Columna 0: [1 4 7]


### Operaciones Estadísticas

NumPy ofrece funciones para cálculos estadísticos, esenciales para el análisis de datos.

In [9]:
# Podríamos preguntarle a la IA: ¿Cómo se calculan los estadísticos básicos de un ndarray?



import numpy as np
from typing import Union, Tuple

def calculate_basic_statistics(arr: np.ndarray) -> dict[str, Union[float, int]]:
    """
    Calcula estadísticos básicos de un ndarray de NumPy.

    Args:
        arr (np.ndarray): Arreglo de NumPy del cual calcular estadísticos.

    Returns:
        dict[str, Union[float, int]]: Diccionario con los estadísticos calculados.

    Raises:
        ValueError: Si el arreglo está vacío o contiene solo valores NaN.
    """
    # Validar que el arreglo no esté vacío
    if arr.size == 0:
        raise ValueError("El arreglo está vacío")

    # Crear diccionario para almacenar resultados
    stats = {}

    # Calcular estadísticos básicos
    stats["count"] = np.count_nonzero(~np.isnan(arr))  # Conteo de elementos no nulos
    stats["mean"] = np.nanmean(arr)  # Media, ignorando NaN
    stats["median"] = np.nanmedian(arr)  # Mediana, ignorando NaN
    stats["std"] = np.nanstd(arr)  # Desviación estándar, ignorando NaN
    stats["var"] = np.nanvar(arr)  # Varianza, ignorando NaN
    stats["min"] = np.nanmin(arr)  # Mínimo, ignorando NaN
    stats["max"] = np.nanmax(arr)  # Máximo, ignorando NaN
    stats["sum"] = np.nansum(arr)  # Suma, ignorando NaN
    stats["prod"] = np.nanprod(arr)  # Producto, ignorando NaN
    stats["percentile_25"] = np.nanpercentile(arr, 25)  # Percentil 25
    stats["percentile_75"] = np.nanpercentile(arr, 75)  # Percentil 75

    return stats

def print_statistics(stats: dict[str, Union[float, int]]) -> None:
    """
    Imprime los estadísticos calculados de forma formateada.

    Args:
        stats (dict[str, Union[float, int]]): Diccionario con estadísticos.
    """
    print("Estadísticos básicos:")
    print("-" * 20)
    for key, value in stats.items():
        print(f"{key.replace('_', ' ').title():<15}: {value:.4f}")

def main():
    """Función principal para demostrar el cálculo de estadísticos."""
    # Crear un arreglo de ejemplo con algunos NaN
    data = np.array([1.5, 2.3, np.nan, 4.7, 3.2, 5.9, 2.1, np.nan, 6.4])

    try:
        # Calcular estadísticos
        stats = calculate_basic_statistics(data)
        
        # Imprimir resultados
        print_statistics(stats)
        
    except ValueError as e:
        print(f"Error: {e}")

if __name__ == "__main__":
    main()

Estadísticos básicos:
--------------------
Count          : 7.0000
Mean           : 3.7286
Median         : 3.2000
Std            : 1.8022
Var            : 3.2478
Min            : 1.5000
Max            : 6.4000
Sum            : 26.1000
Prod           : 4114.5108
Percentile 25  : 2.2000
Percentile 75  : 5.3000


In [None]:
pip install scipy

### Reshape y Concatenación

Podemos cambiar la forma de un arreglo (`reshape`) o combinar múltiples arreglos, lo cual es útil para preparar datos para análisis.

In [None]:
# Podríamos preguntarle a la IA: ¿Cómo cambiamos la forma de un ndarray y cómo podemos unir varios ndarray?





## 4. Scipy

SciPy es una librería de Python que extiende las capacidades de NumPy para cálculos científicos y análisis de datos. Proporciona herramientas para estadística, optimización, integración numérica, álgebra lineal, entre otros.

In [None]:
import scipy

import numpy as np

from scipy import stats, optimize, integrate

print("Versión de SciPy:", scipy.__version__)

El módulo scipy.stats ofrece herramientas para análisis estadístico, como pruebas de hipótesis, distribuciones y cálculos de probabilidad.

In [None]:
# Generar datos de ejemplo (notas de estudiantes)
notas = np.array([85, 90, 78, 92, 88, 76, 95, 89])

# Estadísticas descriptivas
media = stats.describe(notas).mean
varianza = stats.describe(notas).variance
print("Media de las notas:", media)
print("Varianza de las notas:", varianza)

# Prueba de normalidad (Shapiro-Wilk)
# ¿Son las notas normalmente distribuidas?
stat, p_valor = stats.shapiro(notas)
print("Prueba de normalidad (p-valor):", p_valor)
print("Si p > 0.05, los datos parecen normales.")

El módulo scipy.optimize permite encontrar mínimos o raíces de funciones.

In [None]:
# Definir una función cuadrática: f(x) = x^2 + 2x + 1
def funcion_cuadratica(x):
    return x**2 + 2*x + 1

# Encontrar el mínimo
resultado = optimize.minimize_scalar(funcion_cuadratica)
print("Mínimo de la función en x =", resultado.x)
print("Valor de la función en el mínimo:", resultado.fun)

# Ejemplo: Ajuste de una curva
# Datos de ejemplo
x_datos = np.array([0, 1, 2, 3, 4])
y_datos = np.array([1.1, 2.9, 5.2, 6.8, 9.1])

# Definir modelo lineal: y = mx + b
def modelo_lineal(x, m, b):
    return m * x + b

# Ajustar el modelo a los datos
parametros, _ = optimize.curve_fit(modelo_lineal, x_datos, y_datos)
print("Parámetros ajustados (m, b):", parametros)

El módulo scipy.integrate permite calcular integrales numéricas.

In [None]:
# Definir una función: f(x) = x^2 + 2
def funcion(x):
    return x**2 + 2

# Calcular la integral definida de 0 a 3
resultado, error = integrate.quad(funcion, 0, 3)
print("Integral de x^2 + 2 de 0 a 3:", resultado)
print("Error estimado:", error)

# Ejemplo: Probabilidad en una distribución normal
# Probabilidad entre -1 y 1 en una normal estándar
prob, _ = integrate.quad(stats.norm.pdf, -1, 1)
print("Probabilidad entre -1 y 1 (distribución normal):", prob)

## 5. Pandas

Pandas es una librería de Python para análisis y manipulación de datos, construida sobre NumPy. Es ideal para trabajar con datos tabulares, como hojas de cálculo o bases de datos.

In [6]:
import pandas as pd
import numpy as np

# Ver la versión de Pandas
print("Versión de Pandas:", pd.__version__)

Versión de Pandas: 2.3.3


Una Series es un arreglo unidimensional con índices, y un DataFrame es una tabla bidimensional con filas y columnas.

In [8]:
# Crear una Series
notas = pd.Series([85, 90, 78, 92], index=["Ana", "Bob", "Clara", "David"])
print("Series de notas:\n")
notas

Series de notas:



Ana      85
Bob      90
Clara    78
David    92
dtype: int64

In [9]:
# Crear un DataFrame
datos = {
    "Nombre": ["Ana", "Bob", "Clara", "David"],
    "Edad": [20, 22, 19, 21],
    "Nota": [85, 90, 78, 92]
}
df = pd.DataFrame(datos)
print("\nDataFrame:\n")
df


DataFrame:



Unnamed: 0,Nombre,Edad,Nota
0,Ana,20,85
1,Bob,22,90
2,Clara,19,78
3,David,21,92


Pandas ofrece métodos para inspeccionar datos rápidamente, como ver las primeras filas, obtener información sobre columnas y estadísticas básicas.

In [10]:
# Inspeccionar las primeras filas
print("Primeras 2 filas:\n")
print(df.head(2))

# Información del DataFrame
print("\nInformación del DataFrame:")
df.info()

# Estadísticas descriptivas
print("\nEstadísticas descriptivas:\n")
print(df.describe())

Primeras 2 filas:

  Nombre  Edad  Nota
0    Ana    20    85
1    Bob    22    90

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  4 non-null      object
 1   Edad    4 non-null      int64 
 2   Nota    4 non-null      int64 
dtypes: int64(2), object(1)
memory usage: 228.0+ bytes

Estadísticas descriptivas:

            Edad       Nota
count   4.000000   4.000000
mean   20.500000  86.250000
std     1.290994   6.238322
min    19.000000  78.000000
25%    19.750000  83.250000
50%    20.500000  87.500000
75%    21.250000  90.500000
max    22.000000  92.000000


Podemos filtrar filas, seleccionar columnas y usar condiciones lógicas para extraer subconjuntos de datos.

In [11]:
# Seleccionar una columna
print("Columna 'Nota':\n")
print(df["Nota"])

# Filtrar filas donde Edad > 20
print("\nEstudiantes con edad > 20:\n")
print(df[df["Edad"] > 20])

# Seleccionar filas y columnas específicas con loc
print("\nNombres y notas con loc:\n")
print(df.loc[:, ["Nombre", "Nota"]])

# Seleccionar por posición con iloc
print("\nPrimeras 2 filas, primeras 2 columnas con iloc:\n")
print(df.iloc[:2, :2])

Columna 'Nota':

0    85
1    90
2    78
3    92
Name: Nota, dtype: int64

Estudiantes con edad > 20:

  Nombre  Edad  Nota
1    Bob    22    90
3  David    21    92

Nombres y notas con loc:

  Nombre  Nota
0    Ana    85
1    Bob    90
2  Clara    78
3  David    92

Primeras 2 filas, primeras 2 columnas con iloc:

  Nombre  Edad
0    Ana    20
1    Bob    22


Pandas permite modificar datos, como agregar columnas, manejar valores nulos y realizar operaciones.

In [12]:
# Agregar una columna calculada
df["Nota_Ajustada"] = df["Nota"] * 1.1
print("DataFrame con columna ajustada:\n")
print(df)

# Manejar valores nulos
df_con_nulos = df.copy()
df_con_nulos.loc[1, "Nota"] = np.nan
print("\nDataFrame con nulos:\n")
print(df_con_nulos)

# Rellenar nulos con la media
df_con_nulos["Nota"] = df_con_nulos["Nota"].fillna(df_con_nulos["Nota"].mean())
print("\nDataFrame con nulos rellenados:\n")
print(df_con_nulos)

DataFrame con columna ajustada:

  Nombre  Edad  Nota  Nota_Ajustada
0    Ana    20    85           93.5
1    Bob    22    90           99.0
2  Clara    19    78           85.8
3  David    21    92          101.2

DataFrame con nulos:

  Nombre  Edad  Nota  Nota_Ajustada
0    Ana    20  85.0           93.5
1    Bob    22   NaN           99.0
2  Clara    19  78.0           85.8
3  David    21  92.0          101.2

DataFrame con nulos rellenados:

  Nombre  Edad  Nota  Nota_Ajustada
0    Ana    20  85.0           93.5
1    Bob    22  85.0           99.0
2  Clara    19  78.0           85.8
3  David    21  92.0          101.2


Podemos agrupar datos por una columna y calcular estadísticas, útil para análisis exploratorio.

In [13]:
# Crear un DataFrame con más datos
datos_grupo = {
    "Nombre": ["Ana", "Bob", "Clara", "David", "Emma", "Frank"],
    "Grupo": ["A", "B", "A", "B", "A", "B"],
    "Nota": [85, 90, 78, 92, 88, 76],
}
df_grupo = pd.DataFrame(datos_grupo)

# Agrupar por 'Grupo' y calcular la media de notas
print("Media de notas por grupo:\n", df_grupo.groupby("Grupo")["Nota"].mean())

Media de notas por grupo:
 Grupo
A    83.666667
B    86.000000
Name: Nota, dtype: float64


Series de tiempo en Pandas

In [None]:
# Podríamos preguntarle a la IA: ¿Cómo genero un Dataframe cuyo index sea el tiempo? Hacer un ejemplo con datos diarios durante un año





In [None]:
# Podríamos preguntarle a la IA: ¿Cómo puedo calcular la suma y la media mensual de mis datos?



