# Librerías útiles para el análisis de datos
La idea es mostrar las librerías que son necesarias para el análisis de series temporales y espaciales.

## 1. Instalación de las librerías

In [None]:
pip install pandas numpy

## 2. Importar las librerías
Para importar una librería utilizamos la palabra reservada "import" seguida del nombre de la librería. Podemos asignarle una abreviación a la librería, por ejemplo, "import pandas as pd".

## 3. Numpy

NumPy es una librería fundamental para el análisis de datos en Python. Proporciona arreglos multidimensionales (arrays) y funciones matemáticas optimizadas para trabajar con datos numéricos. Es la base para otras librerías como Pandas y Matplotlib.

In [None]:
import numpy as np

print("Versión de NumPy:", np.__version__)

### Creando Arreglos en NumPy

Los arreglos de NumPy (`ndarray`) son similares a las listas de Python, pero más eficientes para cálculos numéricos. Podemos crear arreglos de varias formas:
- A partir de una lista.
- Con funciones integradas como `zeros`, `ones`, o `arange`.

In [None]:
# Crear un arreglo desde una lista
lista = [1, 2, 3, 4]
arreglo = np.array(lista)
print("Arreglo desde lista:", arreglo)

# Arreglo de ceros (3 elementos)
ceros = np.zeros(3)
print("\nArreglo de ceros:", ceros)

# Arreglo de unos (2x3)
unos = np.ones((2, 3))
print("\nMatriz de unos (2x3):\n", unos)

# Arreglo con rango de valores
rango = np.arange(0, 10, 2)  # de 0 a 9, paso de 2
print("\nArreglo con rango:", rango)

# Arreglo con valores espaciados uniformemente
lineal = np.linspace(0, 1, 5)  # 5 valores entre 0 y 1
print("\nValores espaciados:", lineal)

### Propiedades de los Arreglos

Los arreglos de NumPy tienen propiedades útiles:
- `shape`: Forma del arreglo (dimensiones).
- `size`: Número total de elementos.
- `dtype`: Tipo de datos de los elementos.

In [None]:
# Crear un arreglo 2D
matriz = np.array([[1, 2, 3], [4, 5, 6]])
print("Matriz:\n", matriz)

# Propiedades
print("Forma (shape):", matriz.shape)
print("Tamaño (size):", matriz.size)
print("Tipo de datos (dtype):", matriz.dtype)

### Operaciones Básicas con Arreglos

NumPy permite realizar operaciones matemáticas elemento a elemento de manera eficiente, sin necesidad de bucles explícitos. Esto es ideal para análisis de datos.

In [None]:
# Crear dos arreglos
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])

# Operaciones elemento a elemento
suma = a + b
print("Suma:", suma)

resta = a - b
print("\nResta:", resta)

multiplicacion = a * b
print("\nMultiplicación:", multiplicacion)

division = a / b
print("\nDivisión:", division)

# Operaciones con escalares
escalar = a * 2
print("\nMultiplicación por escalar:", escalar)

# Funciones matemáticas
cuadrado = np.square(a)
print("\nCuadrado de a:", cuadrado)

In [None]:
# Operaciones lógicas
arr_1 = np.array([1, 2, 3, 4])
arr_2 = np.array([0, 1, 3, 5])
print("\nElementos mayores que 2:", arr_1 > 2)
print('\nMulti vs Suma:', arr_1 == arr_2)

arr_1 = np.array([True, False, False, True])
arr_2 = np.array([True, True, False, False])
print('\narr_1 =', arr_1)
print('arr_2 =', arr_2)
print('\n\tAnd:', arr_1 & arr_2)
print('\n\tOr:', arr_1 | arr_2)
print('\n\tNot arr_1:', ~arr_1)
print('\n\tAll:', np.all(arr_1))
print('\n\tAny:', np.any(arr_1))

### Indexación y Segmentación

Podemos acceder a elementos específicos de un arreglo o extraer subarreglos usando índices y segmentación, similar a las listas de Python.

In [None]:
# Arreglo 1D
arr = np.array([10, 20, 30, 40, 50])
print("Arreglo:", arr)

# Acceder a un elemento
print("\nElemento en índice 2:", arr[2])

# Segmentación
print("\nElementos del índice 1 al 3:", arr[1:4])

# Arreglo 2D
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("\nMatriz:\n", matriz)

# Acceder a un elemento (fila 1, columna 2)
print("\nElemento [1,2]:", matriz[1, 2])

# Extraer una fila
print("\nFila 1:", matriz[1, :])

# Extraer una columna
print("\nColumna 0:", matriz[:, 0])

### Operaciones Estadísticas

NumPy ofrece funciones para cálculos estadísticos, esenciales para el análisis de datos.

In [None]:
# Podríamos preguntarle a la IA: ¿Cómo se calculan los estadísticos básicos de un ndarray?





### Reshape y Concatenación

Podemos cambiar la forma de un arreglo (`reshape`) o combinar múltiples arreglos, lo cual es útil para preparar datos para análisis.

In [None]:
# Podríamos preguntarle a la IA: ¿Cómo cambiamos la forma de un ndarray y cómo podemos unir varios ndarray?





## 4. Scipy

SciPy es una librería de Python que extiende las capacidades de NumPy para cálculos científicos y análisis de datos. Proporciona herramientas para estadística, optimización, integración numérica, álgebra lineal, entre otros.

In [None]:
import scipy

import numpy as np

from scipy import stats, optimize, integrate

print("Versión de SciPy:", scipy.__version__)

El módulo scipy.stats ofrece herramientas para análisis estadístico, como pruebas de hipótesis, distribuciones y cálculos de probabilidad.

In [None]:
# Generar datos de ejemplo (notas de estudiantes)
notas = np.array([85, 90, 78, 92, 88, 76, 95, 89])

# Estadísticas descriptivas
media = stats.describe(notas).mean
varianza = stats.describe(notas).variance
print("Media de las notas:", media)
print("Varianza de las notas:", varianza)

# Prueba de normalidad (Shapiro-Wilk)
# ¿Son las notas normalmente distribuidas?
stat, p_valor = stats.shapiro(notas)
print("Prueba de normalidad (p-valor):", p_valor)
print("Si p > 0.05, los datos parecen normales.")

El módulo scipy.optimize permite encontrar mínimos o raíces de funciones.

In [None]:
# Definir una función cuadrática: f(x) = x^2 + 2x + 1
def funcion_cuadratica(x):
    return x**2 + 2*x + 1

# Encontrar el mínimo
resultado = optimize.minimize_scalar(funcion_cuadratica)
print("Mínimo de la función en x =", resultado.x)
print("Valor de la función en el mínimo:", resultado.fun)

# Ejemplo: Ajuste de una curva
# Datos de ejemplo
x_datos = np.array([0, 1, 2, 3, 4])
y_datos = np.array([1.1, 2.9, 5.2, 6.8, 9.1])

# Definir modelo lineal: y = mx + b
def modelo_lineal(x, m, b):
    return m * x + b

# Ajustar el modelo a los datos
parametros, _ = optimize.curve_fit(modelo_lineal, x_datos, y_datos)
print("Parámetros ajustados (m, b):", parametros)

El módulo scipy.integrate permite calcular integrales numéricas.

In [None]:
# Definir una función: f(x) = x^2 + 2
def funcion(x):
    return x**2 + 2

# Calcular la integral definida de 0 a 3
resultado, error = integrate.quad(funcion, 0, 3)
print("Integral de x^2 + 2 de 0 a 3:", resultado)
print("Error estimado:", error)

# Ejemplo: Probabilidad en una distribución normal
# Probabilidad entre -1 y 1 en una normal estándar
prob, _ = integrate.quad(stats.norm.pdf, -1, 1)
print("Probabilidad entre -1 y 1 (distribución normal):", prob)

## 5. Pandas

Pandas es una librería de Python para análisis y manipulación de datos, construida sobre NumPy. Es ideal para trabajar con datos tabulares, como hojas de cálculo o bases de datos.

In [None]:
import pandas as pd
import numpy as np

# Ver la versión de Pandas
print("Versión de Pandas:", pd.__version__)

Una Series es un arreglo unidimensional con índices, y un DataFrame es una tabla bidimensional con filas y columnas.

In [None]:
# Crear una Series
notas = pd.Series([85, 90, 78, 92], index=["Ana", "Bob", "Clara", "David"])
print("Series de notas:\n")
print(notas)

# Crear un DataFrame
datos = {
    "Nombre": ["Ana", "Bob", "Clara", "David"],
    "Edad": [20, 22, 19, 21],
    "Nota": [85, 90, 78, 92]
}
df = pd.DataFrame(datos)
print("\nDataFrame:\n")
print(df)

Pandas ofrece métodos para inspeccionar datos rápidamente, como ver las primeras filas, obtener información sobre columnas y estadísticas básicas.

In [None]:
# Inspeccionar las primeras filas
print("Primeras 2 filas:\n")
print(df.head(2))

# Información del DataFrame
print("\nInformación del DataFrame:")
df.info()

# Estadísticas descriptivas
print("\nEstadísticas descriptivas:\n")
print(df.describe())

Podemos filtrar filas, seleccionar columnas y usar condiciones lógicas para extraer subconjuntos de datos.

In [None]:
# Seleccionar una columna
print("Columna 'Nota':\n")
print(df["Nota"])

# Filtrar filas donde Edad > 20
print("\nEstudiantes con edad > 20:\n")
print(df[df["Edad"] > 20])

# Seleccionar filas y columnas específicas con loc
print("\nNombres y notas con loc:\n")
print(df.loc[:, ["Nombre", "Nota"]])

# Seleccionar por posición con iloc
print("\nPrimeras 2 filas, primeras 2 columnas con iloc:\n")
print(df.iloc[:2, :2])

Pandas permite modificar datos, como agregar columnas, manejar valores nulos y realizar operaciones.

In [None]:
# Agregar una columna calculada
df["Nota_Ajustada"] = df["Nota"] * 1.1
print("DataFrame con columna ajustada:\n")
print(df)

# Manejar valores nulos
df_con_nulos = df.copy()
df_con_nulos.loc[1, "Nota"] = np.nan
print("\nDataFrame con nulos:\n")
print(df_con_nulos)

# Rellenar nulos con la media
df_con_nulos["Nota"] = df_con_nulos["Nota"].fillna(df_con_nulos["Nota"].mean())
print("\nDataFrame con nulos rellenados:\n")
print(df_con_nulos)

Podemos agrupar datos por una columna y calcular estadísticas, útil para análisis exploratorio.

In [None]:
# Crear un DataFrame con más datos
datos_grupo = {
    "Nombre": ["Ana", "Bob", "Clara", "David", "Emma", "Frank"],
    "Grupo": ["A", "B", "A", "B", "A", "B"],
    "Nota": [85, 90, 78, 92, 88, 76],
}
df_grupo = pd.DataFrame(datos_grupo)

# Agrupar por 'Grupo' y calcular la media de notas
print("Media de notas por grupo:\n", df_grupo.groupby("Grupo")["Nota"].mean())

Series de tiempo en Pandas

In [None]:
# Podríamos preguntarle a la IA: ¿Cómo genero un Dataframe cuyo index sea el tiempo? Hacer un ejemplo con datos diarios durante un año





In [None]:
# Podríamos preguntarle a la IA: ¿Cómo puedo calcular la suma y la media mensual de mis datos?



