# üìä M√≥dulo 1: Fundamentos Computacionales
## Actividad 1.6: Manipulaci√≥n de Datos con Pandas y NumPy

<div align="center">
  
**Universidad de Caldas - Departamento de Qu√≠mica**  
*Introducci√≥n a la Qu√≠mica Computacional (173G7G)*  
**Profesor:** Jos√© Mauricio Rodas Rodr√≠guez

[![Open in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/maurorodas/Quimica_computacional_173G7G/blob/main/modulo_01_fundamentos/06_pandas_numpy.ipynb)

</div>

---

## üéØ Objetivos de Aprendizaje

Al finalizar esta actividad, ser√°s capaz de:
- Comprender los fundamentos de NumPy para c√°lculos num√©ricos
- Utilizar arrays de NumPy para operaciones vectorizadas eficientes
- Manipular y analizar datos tabulares con Pandas
- Importar y exportar datos en diferentes formatos
- Aplicar operaciones matem√°ticas y estad√≠sticas a datos qu√≠micos
- Preparar y limpiar datasets para an√°lisis en qu√≠mica computacional

---

## üìö ¬øPor qu√© NumPy y Pandas?

### NumPy (Numerical Python)
**NumPy** es la biblioteca fundamental para computaci√≥n cient√≠fica en Python. Proporciona:
- üî¢ Arrays multidimensionales de alto rendimiento
- üöÄ Operaciones vectorizadas (mucho m√°s r√°pidas que loops)
- üìê Funciones matem√°ticas avanzadas
- üßÆ √Ålgebra lineal, transformadas de Fourier, n√∫meros aleatorios

### Pandas (Python Data Analysis)
**Pandas** es la biblioteca est√°ndar para an√°lisis de datos. Ofrece:
- üìä Estructuras de datos potentes (Series y DataFrame)
- üìÅ Lectura/escritura de m√∫ltiples formatos (CSV, Excel, JSON)
- üîç Filtrado, agrupaci√≥n y transformaci√≥n de datos
- üìà Integraci√≥n con herramientas de visualizaci√≥n

### Aplicaciones en Qu√≠mica Computacional

| Tarea | NumPy | Pandas |
|-------|-------|--------|
| Coordenadas at√≥micas | ‚úÖ Arrays 3D | ‚úÖ Tablas estructuradas |
| Energ√≠as de conformeros | ‚úÖ C√°lculos vectorizados | ‚úÖ An√°lisis estad√≠stico |
| Propiedades moleculares | ‚úÖ Operaciones matem√°ticas | ‚úÖ Organizaci√≥n de datos |
| Trayectorias MD | ‚úÖ Arrays de tiempo | ‚úÖ Series temporales |
| Datos espectrosc√≥picos | ‚úÖ Procesamiento de se√±ales | ‚úÖ Comparaci√≥n de espectros |

---


## üî¢ Parte 1: NumPy - Fundamentos

### Instalaci√≥n y Importaci√≥n


In [None]:
# Importar NumPy (convenci√≥n: alias 'np')
import numpy as np

# Verificar versi√≥n
print(f"NumPy versi√≥n: {np.__version__}")

### Creaci√≥n de Arrays

Los arrays de NumPy son m√°s eficientes que las listas de Python para operaciones num√©ricas.


In [None]:
# Crear array desde lista
lista_python = [1, 2, 3, 4, 5]
array_numpy = np.array(lista_python)

print("Lista Python:", lista_python)
print("Array NumPy:", array_numpy)
print("Tipo de dato:", array_numpy.dtype)

# Arrays de diferentes tipos
enteros = np.array([1, 2, 3], dtype=int)
flotantes = np.array([1.0, 2.5, 3.7], dtype=float)
complejos = np.array([1+2j, 3+4j], dtype=complex)

print("\nEnteros:", enteros, "dtype:", enteros.dtype)
print("Flotantes:", flotantes, "dtype:", flotantes.dtype)
print("Complejos:", complejos, "dtype:", complejos.dtype)

### Funciones para Crear Arrays


In [None]:
# Array de ceros
ceros = np.zeros(5)
print("Ceros:", ceros)

# Array de unos
unos = np.ones((3, 4))  # Matriz 3x4
print("\nUnos (3x4):\n", unos)

# Array vac√≠o (valores no inicializados)
vacio = np.empty((2, 3))
print("\nVac√≠o (valores aleatorios):\n", vacio)

# Rango de valores
rango = np.arange(0, 10, 2)  # inicio, fin, paso
print("\nRango (0 a 10, paso 2):", rango)

# Valores espaciados linealmente
linspace = np.linspace(0, 1, 5)  # 5 valores entre 0 y 1
print("\nLinspace (5 valores entre 0 y 1):", linspace)

# Matriz identidad
identidad = np.eye(3)
print("\nMatriz identidad (3x3):\n", identidad)

### Arrays Multidimensionales


In [None]:
# Array 2D (matriz)
matriz = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

print("Matriz:\n", matriz)
print("Shape (forma):", matriz.shape)  # (filas, columnas)
print("Dimensiones:", matriz.ndim)
print("Tama√±o total:", matriz.size)

# Array 3D (ejemplo: coordenadas de 3 √°tomos)
# Cada √°tomo tiene coordenadas [x, y, z]
coordenadas = np.array([
    [0.0, 0.0, 0.0],  # √Åtomo 1
    [1.0, 0.0, 0.0],  # √Åtomo 2
    [0.0, 1.0, 0.0]   # √Åtomo 3
])

print("\nCoordenadas at√≥micas (3 √°tomos):\n", coordenadas)
print("Shape:", coordenadas.shape)  # (3 √°tomos, 3 coordenadas)

### Indexaci√≥n y Slicing


In [None]:
# Array 1D
arr = np.array([10, 20, 30, 40, 50])

print("Array:", arr)
print("Primer elemento:", arr[0])
print("√öltimo elemento:", arr[-1])
print("Elementos del 1 al 3:", arr[1:4])

# Array 2D
matriz = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12]])

print("\nMatriz:\n", matriz)
print("Elemento [1,2]:", matriz[1, 2])  # Fila 1, columna 2
print("Primera fila:", matriz[0, :])
print("Segunda columna:", matriz[:, 1])
print("Submatriz (2x2):\n", matriz[0:2, 1:3])

### Operaciones con Arrays


In [None]:
# Operaciones elemento a elemento
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

print("a =", a)
print("b =", b)
print("\nSuma: a + b =", a + b)
print("Resta: a - b =", a - b)
print("Multiplicaci√≥n: a * b =", a * b)
print("Divisi√≥n: a / b =", a / b)
print("Potencia: a ** 2 =", a ** 2)

# Operaciones con escalares
print("\na * 10 =", a * 10)
print("a + 5 =", a + 5)

# Funciones universales (ufuncs)
print("\nnp.sqrt(a) =", np.sqrt(a))
print("np.exp(a) =", np.exp(a))
print("np.sin(a) =", np.sin(a))

### Funciones de Agregaci√≥n


In [None]:
# Datos de ejemplo: energ√≠as de conformeros (kcal/mol)
energias = np.array([0.0, 1.2, 2.5, 0.8, 3.1, 1.5, 2.0])

print("Energ√≠as (kcal/mol):", energias)
print("\nM√≠nima energ√≠a:", np.min(energias))
print("M√°xima energ√≠a:", np.max(energias))
print("Energ√≠a promedio:", np.mean(energias))
print("Mediana:", np.median(energias))
print("Desviaci√≥n est√°ndar:", np.std(energias))
print("Suma total:", np.sum(energias))

# √çndice del m√≠nimo y m√°ximo
print("\n√çndice del m√≠nimo:", np.argmin(energias))
print("√çndice del m√°ximo:", np.argmax(energias))

### √Ålgebra Lineal


In [None]:
# Matrices
A = np.array([[1, 2],
              [3, 4]])

B = np.array([[5, 6],
              [7, 8]])

print("Matriz A:\n", A)
print("\nMatriz B:\n", B)

# Producto matricial
C = np.dot(A, B)  # o A @ B
print("\nProducto matricial A ¬∑ B:\n", C)

# Transpuesta
print("\nTranspuesta de A:\n", A.T)

# Determinante
det_A = np.linalg.det(A)
print("\nDeterminante de A:", det_A)

# Inversa
inv_A = np.linalg.inv(A)
print("\nInversa de A:\n", inv_A)

# Verificar: A ¬∑ A^(-1) = I
print("\nA ¬∑ A^(-1) = \n", np.dot(A, inv_A))

### Aplicaci√≥n: C√°lculo de Distancias Interat√≥micas


In [None]:
# Coordenadas de una mol√©cula de agua (√Ö)
# √Åtomos: O, H1, H2
coordenadas_H2O = np.array([
    [0.000,  0.000,  0.119],  # O
    [0.000,  0.763, -0.476],  # H1
    [0.000, -0.763, -0.476]   # H2
])

etiquetas = ['O', 'H1', 'H2']

def calcular_distancia(coord1, coord2):
    """Calcula la distancia euclidiana entre dos puntos."""
    return np.sqrt(np.sum((coord1 - coord2)**2))

print("Mol√©cula: H2O\n")
print("Coordenadas (√Ö):")
for i, etiqueta in enumerate(etiquetas):
    print(f"{etiqueta}: {coordenadas_H2O[i]}")

print("\nDistancias interat√≥micas:")
n_atomos = len(coordenadas_H2O)
for i in range(n_atomos):
    for j in range(i+1, n_atomos):
        dist = calcular_distancia(coordenadas_H2O[i], coordenadas_H2O[j])
        print(f"{etiquetas[i]}-{etiquetas[j]}: {dist:.3f} √Ö")

# √Ångulo H-O-H
# Vector O-H1 y O-H2
v1 = coordenadas_H2O[1] - coordenadas_H2O[0]
v2 = coordenadas_H2O[2] - coordenadas_H2O[0]

# √Ångulo usando producto punto
cos_angulo = np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))
angulo = np.arccos(cos_angulo) * 180 / np.pi

print(f"\n√Ångulo H-O-H: {angulo:.2f}¬∞")

---

## üêº Parte 2: Pandas - An√°lisis de Datos

### Instalaci√≥n e Importaci√≥n


In [None]:
# Importar Pandas (convenci√≥n: alias 'pd')
import pandas as pd

# Verificar versi√≥n
print(f"Pandas versi√≥n: {pd.__version__}")

### Series - Arrays Unidimensionales con Etiquetas


In [None]:
# Crear Series desde lista
masas_atomicas = pd.Series([1.008, 12.011, 14.007, 15.999], 
                           index=['H', 'C', 'N', 'O'],
                           name='Masa At√≥mica (uma)')

print(masas_atomicas)
print("\nAcceso por etiqueta:")
print(f"Masa de C: {masas_atomicas['C']} uma")
print(f"Masa de O: {masas_atomicas['O']} uma")

# Operaciones con Series
print("\nDoble de las masas:")
print(masas_atomicas * 2)

# Filtrado
print("\nElementos con masa > 10:")
print(masas_atomicas[masas_atomicas > 10])

### DataFrames - Tablas de Datos


In [None]:
# Crear DataFrame desde diccionario
datos_moleculas = {
    'Nombre': ['Metano', 'Etano', 'Propano', 'Butano'],
    'F√≥rmula': ['CH4', 'C2H6', 'C3H8', 'C4H10'],
    'Masa_Molecular': [16.04, 30.07, 44.10, 58.12],
    'Punto_Ebullici√≥n_C': [-161.5, -88.6, -42.1, -0.5],
    'Densidad_g_L': [0.717, 1.356, 2.006, 2.668]
}

df_alcanos = pd.DataFrame(datos_moleculas)

print("DataFrame de Alcanos:\n")
print(df_alcanos)
print("\nInformaci√≥n del DataFrame:")
print(df_alcanos.info())

### Exploraci√≥n de DataFrames


In [None]:
# Primeras filas
print("Primeras 2 filas:")
print(df_alcanos.head(2))

# √öltimas filas
print("\n√öltimas 2 filas:")
print(df_alcanos.tail(2))

# Estad√≠sticas descriptivas
print("\nEstad√≠sticas descriptivas:")
print(df_alcanos.describe())

# Informaci√≥n de columnas
print("\nNombres de columnas:", df_alcanos.columns.tolist())
print("Shape (filas, columnas):", df_alcanos.shape)

### Selecci√≥n y Filtrado de Datos


In [None]:
# Seleccionar columna (retorna Series)
print("Columna 'Nombre':")
print(df_alcanos['Nombre'])

# Seleccionar m√∫ltiples columnas (retorna DataFrame)
print("\nNombre y Masa Molecular:")
print(df_alcanos[['Nombre', 'Masa_Molecular']])

# Seleccionar fila por √≠ndice
print("\nPrimera fila (iloc):")
print(df_alcanos.iloc[0])

# Filtrado condicional
print("\nMol√©culas con masa > 40:")
moleculas_pesadas = df_alcanos[df_alcanos['Masa_Molecular'] > 40]
print(moleculas_pesadas)

# M√∫ltiples condiciones
print("\nMol√©culas con masa > 30 y punto ebullici√≥n > -50:")
filtro = (df_alcanos['Masa_Molecular'] > 30) & (df_alcanos['Punto_Ebullici√≥n_C'] > -50)
print(df_alcanos[filtro])

### Operaciones con DataFrames


In [None]:
# Agregar nueva columna
df_alcanos['N_Carbonos'] = [1, 2, 3, 4]

# Columna calculada
df_alcanos['Masa_por_Carbono'] = df_alcanos['Masa_Molecular'] / df_alcanos['N_Carbonos']

print("DataFrame con nuevas columnas:")
print(df_alcanos)

# Ordenar por columna
print("\nOrdenado por Punto de Ebullici√≥n:")
df_ordenado = df_alcanos.sort_values('Punto_Ebullici√≥n_C')
print(df_ordenado[['Nombre', 'Punto_Ebullici√≥n_C']])

# Estad√≠sticas por columna
print("\nPromedio de Masa Molecular:", df_alcanos['Masa_Molecular'].mean())
print("M√≠nimo Punto de Ebullici√≥n:", df_alcanos['Punto_Ebullici√≥n_C'].min())
print("M√°xima Densidad:", df_alcanos['Densidad_g_L'].max())

### Lectura y Escritura de Datos


In [None]:
import io

# Crear datos CSV en memoria
csv_data = """Elemento,S√≠mbolo,N√∫mero_At√≥mico,Masa_At√≥mica,Electronegatividad
Hidr√≥geno,H,1,1.008,2.20
Carbono,C,6,12.011,2.55
Nitr√≥geno,N,7,14.007,3.04
Ox√≠geno,O,8,15.999,3.44
Fl√∫or,F,9,18.998,3.98
Sodio,Na,11,22.990,0.93
Magnesio,Mg,12,24.305,1.31
Azufre,S,16,32.065,2.58
Cloro,Cl,17,35.453,3.16"""

# Leer desde string CSV
df_elementos = pd.read_csv(io.StringIO(csv_data))

print("DataFrame de Elementos Qu√≠micos:\n")
print(df_elementos)

# Guardar a CSV (ejemplo)
# df_elementos.to_csv('elementos.csv', index=False)

# Guardar a Excel (requiere openpyxl o xlsxwriter)
# df_elementos.to_excel('elementos.xlsx', index=False)

# Leer desde CSV
# df = pd.read_csv('datos.csv')

# Leer desde Excel
# df = pd.read_excel('datos.xlsx')

### Agrupaci√≥n de Datos


In [None]:
# Crear dataset de ejemplo: datos de espectroscop√≠a
datos_espectro = {
    'Compuesto': ['Benceno', 'Benceno', 'Tolueno', 'Tolueno', 'Xileno', 'Xileno'],
    'Tipo': ['UV', 'IR', 'UV', 'IR', 'UV', 'IR'],
    'Longitud_Onda_nm': [254, 3030, 261, 2950, 265, 2920],
    'Absorbancia': [1.45, 0.89, 1.32, 0.95, 1.28, 0.91]
}

df_espectro = pd.DataFrame(datos_espectro)

print("Datos de Espectroscop√≠a:\n")
print(df_espectro)

# Agrupar por Compuesto
print("\nPromedio de Absorbancia por Compuesto:")
print(df_espectro.groupby('Compuesto')['Absorbancia'].mean())

# Agrupar por Tipo
print("\nEstad√≠sticas por Tipo de Espectro:")
print(df_espectro.groupby('Tipo').describe())

# M√∫ltiples agregaciones
print("\nAgregaciones m√∫ltiples por Compuesto:")
print(df_espectro.groupby('Compuesto').agg({
    'Absorbancia': ['mean', 'min', 'max'],
    'Longitud_Onda_nm': 'mean'
}))

### Limpieza de Datos


In [None]:
# Crear DataFrame con valores faltantes
datos_sucios = {
    'Mol√©cula': ['A', 'B', 'C', 'D', 'E'],
    'Energ√≠a': [10.5, None, 12.3, 11.8, None],
    'Dipolo': [1.2, 1.5, None, 1.8, 2.1],
    'HOMO': [-5.2, -5.5, -5.3, None, -5.1]
}

df_sucio = pd.DataFrame(datos_sucios)

print("DataFrame con valores faltantes:\n")
print(df_sucio)

# Detectar valores faltantes
print("\nValores faltantes por columna:")
print(df_sucio.isnull().sum())

# Eliminar filas con valores faltantes
df_limpio = df_sucio.dropna()
print("\nSin filas con valores faltantes:")
print(df_limpio)

# Rellenar valores faltantes
df_rellenado = df_sucio.fillna(df_sucio.mean(numeric_only=True))
print("\nValores faltantes rellenados con promedio:")
print(df_rellenado)

# Eliminar duplicados (ejemplo)
df_con_dup = pd.DataFrame({
    'A': [1, 1, 2, 3],
    'B': [4, 4, 5, 6]
})
print("\nCon duplicados:")
print(df_con_dup)
print("\nSin duplicados:")
print(df_con_dup.drop_duplicates())

### Combinar DataFrames


In [None]:
# Dos DataFrames con informaci√≥n relacionada
df_propiedades1 = pd.DataFrame({
    'Compuesto': ['Metanol', 'Etanol', 'Propanol'],
    'Masa_Molecular': [32.04, 46.07, 60.10]
})

df_propiedades2 = pd.DataFrame({
    'Compuesto': ['Metanol', 'Etanol', 'Propanol'],
    'Punto_Ebullici√≥n': [64.7, 78.4, 97.2],
    'Densidad': [0.791, 0.789, 0.803]
})

print("DataFrame 1:")
print(df_propiedades1)
print("\nDataFrame 2:")
print(df_propiedades2)

# Merge (unir por columna com√∫n)
df_completo = pd.merge(df_propiedades1, df_propiedades2, on='Compuesto')
print("\nDataFrame combinado:")
print(df_completo)

# Concatenar DataFrames verticalmente
df_mas_alcoholes = pd.DataFrame({
    'Compuesto': ['Butanol'],
    'Masa_Molecular': [74.12],
    'Punto_Ebullici√≥n': [117.7],
    'Densidad': [0.810]
})

df_total = pd.concat([df_completo, df_mas_alcoholes], ignore_index=True)
print("\nDataFrame concatenado:")
print(df_total)

---

## üß™ Aplicaci√≥n Pr√°ctica: An√°lisis de Datos de Energ√≠a

Vamos a analizar un conjunto de datos de energ√≠as conformacionales.


In [None]:
# Crear dataset simulado de conformeros
np.random.seed(42)

n_conformeros = 50

datos_conformeros = {
    'Conformero_ID': [f'Conf_{i:03d}' for i in range(1, n_conformeros+1)],
    'Energ√≠a_kcal_mol': np.random.uniform(0, 10, n_conformeros),
    'Dipolo_Debye': np.random.uniform(0, 5, n_conformeros),
    'HOMO_eV': np.random.uniform(-6, -4, n_conformeros),
    'LUMO_eV': np.random.uniform(-2, 0, n_conformeros),
    '√Årea_Superficial_A2': np.random.uniform(100, 300, n_conformeros)
}

df_conf = pd.DataFrame(datos_conformeros)

# Calcular Gap HOMO-LUMO
df_conf['Gap_eV'] = df_conf['LUMO_eV'] - df_conf['HOMO_eV']

# Energ√≠a relativa al conformero m√°s estable
energia_min = df_conf['Energ√≠a_kcal_mol'].min()
df_conf['Energ√≠a_Relativa'] = df_conf['Energ√≠a_kcal_mol'] - energia_min

print("Dataset de Conformeros (primeras 10 filas):\n")
print(df_conf.head(10))

In [None]:
# An√°lisis estad√≠stico
print("AN√ÅLISIS ESTAD√çSTICO DE CONFORMEROS\n")
print("=" * 60)

print("\nEstad√≠sticas descriptivas:")
print(df_conf[['Energ√≠a_Relativa', 'Dipolo_Debye', 'Gap_eV']].describe())

print("\n1. Conformero m√°s estable:")
conf_min = df_conf.loc[df_conf['Energ√≠a_Relativa'].idxmin()]
print(conf_min)

print("\n2. Conformero con mayor momento dipolar:")
conf_max_dipolo = df_conf.loc[df_conf['Dipolo_Debye'].idxmax()]
print(f"   ID: {conf_max_dipolo['Conformero_ID']}")
print(f"   Dipolo: {conf_max_dipolo['Dipolo_Debye']:.2f} Debye")

print("\n3. Gap HOMO-LUMO promedio: {:.2f} eV".format(df_conf['Gap_eV'].mean()))

print("\n4. Conformeros de baja energ√≠a (< 2 kcal/mol):")
conf_bajos = df_conf[df_conf['Energ√≠a_Relativa'] < 2]
print(f"   Cantidad: {len(conf_bajos)}")
print(f"   Porcentaje: {len(conf_bajos)/len(df_conf)*100:.1f}%")

In [None]:
# An√°lisis de correlaciones
print("\nMATRIZ DE CORRELACI√ìN\n")
print("=" * 60)

columnas_numericas = ['Energ√≠a_Relativa', 'Dipolo_Debye', 'Gap_eV', '√Årea_Superficial_A2']
correlaciones = df_conf[columnas_numericas].corr()

print(correlaciones)

print("\n¬øHay correlaci√≥n entre energ√≠a y momento dipolar?")
corr_e_d = correlaciones.loc['Energ√≠a_Relativa', 'Dipolo_Debye']
print(f"Coeficiente de correlaci√≥n: {corr_e_d:.3f}")

if abs(corr_e_d) > 0.7:
    print("‚ö†Ô∏è Correlaci√≥n fuerte")
elif abs(corr_e_d) > 0.4:
    print("‚ÑπÔ∏è Correlaci√≥n moderada")
else:
    print("‚úì Correlaci√≥n d√©bil o nula")

In [None]:
# Clasificar conformeros por energ√≠a
def clasificar_energia(energia):
    if energia < 1:
        return 'Muy Estable'
    elif energia < 3:
        return 'Estable'
    elif energia < 5:
        return 'Moderado'
    else:
        return 'Inestable'

df_conf['Clasificaci√≥n'] = df_conf['Energ√≠a_Relativa'].apply(clasificar_energia)

print("\nCLASIFICACI√ìN DE CONFORMEROS POR ESTABILIDAD\n")
print("=" * 60)

conteo = df_conf['Clasificaci√≥n'].value_counts()
print(conteo)

print("\nPorcentajes:")
print(df_conf['Clasificaci√≥n'].value_counts(normalize=True) * 100)

# Top 5 conformeros m√°s estables
print("\nTop 5 Conformeros m√°s estables:")
top5 = df_conf.nsmallest(5, 'Energ√≠a_Relativa')[['Conformero_ID', 'Energ√≠a_Relativa', 'Gap_eV']]
print(top5)

In [None]:
# Exportar resultados seleccionados
# Seleccionar conformeros de inter√©s
conformeros_interes = df_conf[df_conf['Energ√≠a_Relativa'] < 3]

print(f"\nConformeros de inter√©s (E < 3 kcal/mol): {len(conformeros_interes)}")
print("\nPrimeros 5:")
print(conformeros_interes.head())

# Guardar a CSV (descomentarlo para guardar)
# conformeros_interes.to_csv('conformeros_estables.csv', index=False)
# print("\n‚úì Datos guardados en 'conformeros_estables.csv'")

---

## üîÑ NumPy y Pandas Juntos

### Convertir entre Arrays y DataFrames


In [None]:
# DataFrame a array NumPy
print("DataFrame original:")
print(df_conf.head(3))

# Extraer valores como array NumPy
array_energias = df_conf['Energ√≠a_Relativa'].values
print("\nArray de energ√≠as:")
print(array_energias[:10])
print("Tipo:", type(array_energias))

# Todo el DataFrame a array
array_completo = df_conf[['Energ√≠a_Relativa', 'Dipolo_Debye', 'Gap_eV']].values
print("\nArray de m√∫ltiples columnas (primeras 5 filas):")
print(array_completo[:5])
print("Shape:", array_completo.shape)

# Array NumPy a DataFrame
nuevo_array = np.random.rand(5, 3)
df_desde_array = pd.DataFrame(
    nuevo_array,
    columns=['X', 'Y', 'Z']
)
print("\nDataFrame desde array NumPy:")
print(df_desde_array)

In [None]:
# Operaciones vectorizadas sobre DataFrames
print("Operaciones vectorizadas en DataFrames\n")

# Normalizar energ√≠as (entre 0 y 1)
energia_min = df_conf['Energ√≠a_Relativa'].min()
energia_max = df_conf['Energ√≠a_Relativa'].max()
df_conf['Energ√≠a_Normalizada'] = (df_conf['Energ√≠a_Relativa'] - energia_min) / (energia_max - energia_min)

print("Energ√≠as normalizadas:")
print(df_conf[['Conformero_ID', 'Energ√≠a_Relativa', 'Energ√≠a_Normalizada']].head())

# Aplicar funci√≥n NumPy a columna Pandas
df_conf['Log_Gap'] = np.log(df_conf['Gap_eV'])

print("\nGap y Log(Gap):")
print(df_conf[['Conformero_ID', 'Gap_eV', 'Log_Gap']].head())

---

## ‚úçÔ∏è Ejercicios Pr√°cticos

### Ejercicio 1: Propiedades de Amino√°cidos (B√°sico)

Crea un DataFrame con los siguientes amino√°cidos y sus propiedades:

| Amino√°cido | C√≥digo | Masa | pI | Hidrofobicidad |
|------------|--------|------|-----|----------------|
| Glicina | Gly | 75.07 | 5.97 | -0.4 |
| Alanina | Ala | 89.09 | 6.01 | 1.8 |
| Valina | Val | 117.15 | 5.97 | 4.2 |
| Leucina | Leu | 131.17 | 5.98 | 3.8 |
| Isoleucina | Ile | 131.17 | 6.02 | 4.5 |

**Tareas:**
1. Calcula la masa promedio
2. Encuentra el amino√°cido m√°s hidrof√≥bico
3. Filtra amino√°cidos con pI > 6.0


In [None]:
# Tu c√≥digo aqu√≠
# Ejemplo de estructura:
# datos = {...}
# df_aa = pd.DataFrame(datos)
# ...

### Ejercicio 2: Matriz de Distancias (Intermedio)

Dadas las coordenadas de 4 √°tomos:
```python
coordenadas = np.array([
    [0.0, 0.0, 0.0],
    [1.5, 0.0, 0.0],
    [0.0, 1.5, 0.0],
    [0.0, 0.0, 1.5]
])
```

**Tareas:**
1. Calcula la matriz de distancias (4x4) usando NumPy
2. Convierte la matriz a DataFrame con etiquetas de √°tomos
3. Encuentra el par de √°tomos m√°s cercano y m√°s lejano


In [None]:
# Tu c√≥digo aqu√≠

### Ejercicio 3: An√°lisis de Trayectoria MD (Avanzado)

Simula una trayectoria de din√°mica molecular simple:
- 1000 pasos de tiempo
- 3 √°tomos con coordenadas [x, y, z]
- Calcula el RMSD respecto a la estructura inicial

**Pasos:**
1. Genera coordenadas aleatorias para cada √°tomo en cada paso
2. Crea DataFrame con columnas: `Tiempo`, `√Åtomo`, `X`, `Y`, `Z`
3. Calcula RMSD para cada paso respecto al paso 0
4. Identifica el paso con mayor RMSD

Hint: RMSD = sqrt(mean((coords_t - coords_0)^2))


In [None]:
# Tu c√≥digo aqu√≠

### Ejercicio 4: An√°lisis de Dataset Real

Crea un an√°lisis completo de datos de solubilidad:

```python
# Dataset de solubilidad (mol/L) a diferentes temperaturas
datos = {
    'Compuesto': ['NaCl', 'KCl', 'CaCl2', 'MgSO4'] * 3,
    'Temperatura_C': [20]*4 + [40]*4 + [60]*4,
    'Solubilidad': [6.14, 4.80, 7.45, 3.57,
                    6.29, 5.20, 8.10, 3.91,
                    6.40, 5.55, 8.72, 4.25]
}
```

**An√°lisis requerido:**
1. Estad√≠sticas por compuesto
2. Tendencia de solubilidad con temperatura
3. Compuesto m√°s sensible a temperatura
4. Gr√°fico conceptual (describe c√≥mo lo har√≠as)


In [None]:
# Tu c√≥digo aqu√≠

---

## üìö Recursos Adicionales

### Documentaci√≥n Oficial
- üìñ [NumPy Documentation](https://numpy.org/doc/)
- üìñ [Pandas Documentation](https://pandas.pydata.org/docs/)
- üìñ [NumPy User Guide](https://numpy.org/doc/stable/user/index.html)
- üìñ [Pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html)

### Tutoriales y Cursos
- üéì [NumPy Quickstart Tutorial](https://numpy.org/doc/stable/user/quickstart.html)
- üéì [Pandas Getting Started](https://pandas.pydata.org/docs/getting_started/index.html)
- üéì [SciPy Lecture Notes](https://scipy-lectures.org/)
- üéì [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/)

### Cheat Sheets
- üìÑ [NumPy Cheat Sheet](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf)
- üìÑ [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

### Libros Recomendados
- üìö "Python for Data Analysis" - Wes McKinney (creador de Pandas)
- üìö "NumPy Cookbook" - Ivan Idris
- üìö "Pandas Cookbook" - Theodore Petrou

### Recursos para Qu√≠mica
- üß™ [ChemPy Documentation](https://pythonhosted.org/chempy/)
- üß™ [MDAnalysis Tutorials](https://www.mdanalysis.org/pages/learning_MDAnalysis/)
- üß™ [RDKit Tutorials](https://www.rdkit.org/docs/GettingStartedInPython.html)

---

## üí° Consejos y Mejores Pr√°cticas

### NumPy
1. **Usa operaciones vectorizadas**: Son 10-100x m√°s r√°pidas que loops de Python
2. **Especifica dtype**: Ahorra memoria y mejora rendimiento
3. **Broadcasting**: Aprovecha las reglas de broadcasting para operaciones eficientes
4. **Evita copias innecesarias**: Usa vistas cuando sea posible
5. **Funciones ufunc**: Prefiere funciones universales de NumPy sobre funciones de Python

```python
# ‚ùå Lento
resultado = []
for x in array:
    resultado.append(x ** 2)

# ‚úÖ R√°pido
resultado = array ** 2
```

### Pandas
1. **Lee solo lo necesario**: Usa `usecols` y `nrows` al leer archivos grandes
2. **Tipos de datos apropiados**: Usa `category` para columnas con pocos valores √∫nicos
3. **Evita iterrows()**: Prefiere operaciones vectorizadas
4. **M√©todo encadenado**: Usa method chaining para c√≥digo m√°s legible
5. **Ind√©xate apropiadamente**: Los √≠ndices bien elegidos aceleran operaciones

```python
# ‚ùå Evitar
for index, row in df.iterrows():
    df.at[index, 'nueva_col'] = row['col1'] * 2

# ‚úÖ Preferir
df['nueva_col'] = df['col1'] * 2
```

### Qu√≠mica Computacional
1. **Unidades consistentes**: Siempre documenta las unidades en nombres de columnas
2. **Metadata**: Incluye informaci√≥n del m√©todo computacional usado
3. **Validaci√≥n**: Verifica rangos f√≠sicamente razonables
4. **Respaldos**: Siempre guarda datos procesados
5. **Reproducibilidad**: Documenta cada paso del an√°lisis

---

## üéì Resumen

En esta actividad has aprendido:

‚úÖ **NumPy:**
- Creaci√≥n y manipulaci√≥n de arrays
- Operaciones vectorizadas eficientes
- √Ålgebra lineal b√°sica
- Aplicaciones a c√°lculos qu√≠micos

‚úÖ **Pandas:**
- Series y DataFrames
- Lectura/escritura de datos
- Filtrado y selecci√≥n
- Agrupaci√≥n y agregaci√≥n
- Limpieza de datos

‚úÖ **Integraci√≥n:**
- Conversi√≥n entre NumPy y Pandas
- An√°lisis de datos cient√≠ficos
- Flujos de trabajo reproducibles

### üéØ Pr√≥ximos Pasos

- **Visualizaci√≥n de datos** con Matplotlib y Plotly (Actividad 1.7)
- **An√°lisis estad√≠stico avanzado** con SciPy
- **Machine Learning** para propiedades moleculares
- **An√°lisis de trayectorias MD** con MDAnalysis

---


<div align="center">

## üéâ ¬°Felicitaciones!

Has completado la **Actividad 1.6: Manipulaci√≥n de Datos con Pandas y NumPy**

**Siguiente actividad**: Visualizaci√≥n de datos cient√≠ficos

[![Inicio](https://img.shields.io/badge/‚¨ÖÔ∏è_Actividad_1.5-Control_de_Versiones-blue.svg)](05_control_versiones.ipynb)
[![Next](https://img.shields.io/badge/Actividad_1.7_‚û°Ô∏è-Visualizaci√≥n_de_Datos-green.svg)](07_visualizacion_datos.ipynb)

---

üìö **[Volver al M√≥dulo 1](README.md)** | üè† **[Inicio del Curso](../README.md)**

---

**Universidad de Caldas - Departamento de Qu√≠mica**  
*Qu√≠mica Computacional 173G7G*

</div>