# Tutorial de NumPy y Pandas
## Una guía completa para el análisis de datos en Python

---

Este notebook cubre:
- **NumPy**: Conceptos básicos y operaciones fundamentales
- **Pandas**: Guía detallada para análisis y manipulación de datos

## Instalación de las bibliotecas

Si no tienes instaladas estas bibliotecas, ejecuta:

```bash
pip install numpy pandas
```

In [None]:
import micropip
await micropip.install(['pandas', 'numpy'])

In [None]:
import numpy as np
import pandas as pd

print(f"NumPy versión: {np.__version__}")
print(f"Pandas versión: {pd.__version__}")

---
# 1. NumPy - Fundamentos Básicos

**NumPy** (Numerical Python) es la biblioteca fundamental para computación científica en Python. Proporciona:
- Arrays multidimensionales eficientes
- Funciones matemáticas de alto rendimiento
- Herramientas para álgebra lineal y números aleatorios

## 1.1 Creación de Arrays

In [None]:
# Array de una dimensión
arr_1d = np.array([1, 2, 3, 4, 5])
print("Array 1D:", arr_1d)
print("Tipo:", type(arr_1d))
print("Forma:", arr_1d.shape)

# Array de dos dimensiones (matriz)
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("\nArray 2D:")
print(arr_2d)
print("Forma:", arr_2d.shape)
print("Dimensiones:", arr_2d.ndim)

## 1.2 Funciones de Creación Útiles

In [None]:
# Crear array de ceros
ceros = np.zeros((3, 4))
print("Array de ceros (3x4):")
print(ceros)

# Crear array de unos
unos = np.ones((2, 3))
print("\nArray de unos (2x3):")
print(unos)

# Rango de valores
rango = np.arange(0, 10, 2)  # inicio, fin, paso
print("\nRango de 0 a 10 con paso 2:", rango)

# Valores espaciados linealmente
linspace = np.linspace(0, 1, 5)  # 5 valores entre 0 y 1
print("\n5 valores entre 0 y 1:", linspace)

## 1.3 Operaciones Básicas

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([10, 20, 30, 40])

print("a:", a)
print("b:", b)
print("\nSuma: a + b =", a + b)
print("Resta: a - b =", a - b)
print("Multiplicación: a * b =", a * b)
print("División: b / a =", b / a)
print("Potencia: a ** 2 =", a ** 2)

# Funciones agregadas
print("\nSuma total:", a.sum())
print("Media:", a.mean())
print("Máximo:", a.max())
print("Mínimo:", a.min())
print("Desviación estándar:", a.std())

## 1.4 Indexación y Slicing

In [None]:
arr = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

print("Array original:", arr)
print("Primer elemento:", arr[0])
print("Últimos 3 elementos:", arr[-3:])
print("Elementos del índice 2 al 5:", arr[2:6])
print("Elementos pares (cada 2):", arr[::2])

# Array 2D
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("\nMatriz:")
print(matriz)
print("Elemento en fila 1, columna 2:", matriz[1, 2])
print("Primera fila:", matriz[0, :])
print("Segunda columna:", matriz[:, 1])

---
# 2. Pandas - Análisis de Datos Completo

**Pandas** es la biblioteca esencial para análisis y manipulación de datos en Python. Construida sobre NumPy, ofrece:
- **Series**: Arrays unidimensionales con etiquetas
- **DataFrames**: Estructuras tabulares bidimensionales
- Herramientas potentes para limpieza, transformación y análisis de datos

## 2.1 Series - Arrays Unidimensionales con Índices

In [12]:
# Crear una Serie desde una lista
serie = pd.Series([10, 20, 30, 40, 50])
print("Serie simple:")
print(serie)

# Serie con índices personalizados
temperaturas = pd.Series(
    [22, 25, 19, 28, 24],
    index=['Lunes', 'Martes', 'Miércoles', 'Jueves', 'Viernes']
)
print("\nTemperaturas de la semana:")
print(temperaturas)

# Acceso a elementos
print("\nTemperatura del Martes:", temperaturas['Martes'])
print("Temperaturas mayores a 23°:", temperaturas[temperaturas > 23])

Serie simple:
0    10
1    20
2    30
3    40
4    50
dtype: int64

Temperaturas de la semana:
Lunes        22
Martes       25
Miércoles    19
Jueves       28
Viernes      24
dtype: int64

Temperatura del Martes: 25
Temperaturas mayores a 23°: Martes     25
Jueves     28
Viernes    24
dtype: int64


## 2.2 DataFrames - Tablas de Datos

Un DataFrame es la estructura principal de Pandas. Es similar a una tabla de Excel o una base de datos SQL.

In [None]:
# Crear DataFrame desde un diccionario
datos = {
    'Nombre': ['Ana', 'Luis', 'María', 'Carlos', 'Elena'],
    'Edad': [25, 32, 28, 35, 29],
    'Ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Valencia', 'Barcelona'],
    'Salario': [30000, 45000, 38000, 52000, 41000]
}

df = pd.DataFrame(datos)
print("DataFrame de empleados:")
print(df)

# Información básica
print("\nForma (filas, columnas):", df.shape)
print("Columnas:", df.columns.tolist())
print("Tipos de datos:")
print(df.dtypes)

## 2.3 Visualización y Resumen de Datos

In [None]:
# Primeras filas
print("Primeras 3 filas:")
print(df.head(3))

# Últimas filas
print("\nÚltimas 2 filas:")
print(df.tail(2))

# Información general
print("\nInformación del DataFrame:")
df.info()

# Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
print(df.describe())

## 2.4 Selección de Datos

Pandas ofrece múltiples formas de seleccionar y filtrar datos.

In [None]:
# Seleccionar una columna (retorna una Serie)
print("Columna de nombres:")
print(df['Nombre'])

# Seleccionar múltiples columnas (retorna DataFrame)
print("\nNombre y Salario:")
print(df[['Nombre', 'Salario']])

# Seleccionar filas por índice numérico con iloc
print("\nPrimera fila (iloc):")
print(df.iloc[0])

print("\nFilas 1 a 3:")
print(df.iloc[1:4])

# Seleccionar con loc (por etiquetas)
print("\nFilas 0 a 2, columnas Nombre y Edad:")
print(df.loc[0:2, ['Nombre', 'Edad']])

## 2.5 Filtrado de Datos

Filtrar datos según condiciones es una operación fundamental.

In [None]:
# Filtrar por una condición
print("Personas mayores de 30 años:")
mayores_30 = df[df['Edad'] > 30]
print(mayores_30)

# Múltiples condiciones con & (AND) y | (OR)
print("\nPersonas de Madrid con salario > 35000:")
filtro = df[(df['Ciudad'] == 'Madrid') & (df['Salario'] > 35000)]
print(filtro)

# Filtrar con isin()
print("\nPersonas de Madrid o Barcelona:")
ciudades_filtro = df[df['Ciudad'].isin(['Madrid', 'Barcelona'])]
print(ciudades_filtro)

# Filtrar filas sin valores nulos
print("\nFilas sin valores nulos:")
print(df.dropna())

## 2.6 Agregar y Modificar Columnas

In [None]:
# Crear una copia para no modificar el original
df_modificado = df.copy()

# Agregar nueva columna
df_modificado['Salario_Anual'] = df_modificado['Salario'] * 12
print("DataFrame con salario anual:")
print(df_modificado)

# Columna calculada con condiciones
df_modificado['Categoría'] = df_modificado['Edad'].apply(
    lambda x: 'Joven' if x < 30 else 'Adulto'
)
print("\nCon columna de categoría:")
print(df_modificado)

# Modificar valores existentes
df_modificado.loc[df_modificado['Ciudad'] == 'Madrid', 'Salario'] = df_modificado['Salario'] * 1.1
print("\nSalarios de Madrid incrementados 10%:")
print(df_modificado[['Nombre', 'Ciudad', 'Salario']])

## 2.7 Ordenamiento de Datos

In [None]:
# Ordenar por una columna
print("Ordenado por edad (ascendente):")
print(df.sort_values('Edad'))

# Ordenar de forma descendente
print("\nOrdenado por salario (descendente):")
print(df.sort_values('Salario', ascending=False))

# Ordenar por múltiples columnas
print("\nOrdenado por ciudad y luego por edad:")
print(df.sort_values(['Ciudad', 'Edad']))

## 2.8 Agrupación y Agregación (GroupBy)

GroupBy es una de las operaciones más poderosas de Pandas. Permite dividir, aplicar funciones y combinar datos.

In [None]:
# Agrupar por ciudad y calcular la media
print("Salario promedio por ciudad:")
salario_por_ciudad = df.groupby('Ciudad')['Salario'].mean()
print(salario_por_ciudad)

# Múltiples agregaciones
print("\nEstadísticas por ciudad:")
stats = df.groupby('Ciudad').agg({
    'Salario': ['mean', 'min', 'max'],
    'Edad': 'mean'
}).round(2)
print(stats)

# Contar elementos por grupo
print("\nCantidad de empleados por ciudad:")
print(df.groupby('Ciudad').size())

## 2.9 Manejo de Valores Faltantes

In [None]:
# Crear DataFrame con valores faltantes
datos_incompletos = {
    'A': [1, 2, np.nan, 4, 5],
    'B': [10, np.nan, 30, 40, 50],
    'C': [100, 200, 300, np.nan, 500]
}
df_nan = pd.DataFrame(datos_incompletos)
print("DataFrame con valores faltantes:")
print(df_nan)

# Detectar valores nulos
print("\n¿Hay valores nulos?")
print(df_nan.isnull())

print("\nCantidad de valores nulos por columna:")
print(df_nan.isnull().sum())

# Eliminar filas con valores nulos
print("\nEliminar filas con NaN:")
print(df_nan.dropna())

# Rellenar valores nulos
print("\nRellenar NaN con 0:")
print(df_nan.fillna(0))

# Rellenar con la media de cada columna
print("\nRellenar con la media:")
print(df_nan.fillna(df_nan.mean()))

## 2.10 Unión de DataFrames

Pandas permite combinar múltiples DataFrames de diferentes formas.

In [None]:
# Crear dos DataFrames de ejemplo
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nombre': ['Ana', 'Luis', 'María'],
    'Edad': [25, 32, 28]
})

df2 = pd.DataFrame({
    'ID': [1, 2, 4],
    'Departamento': ['Ventas', 'IT', 'Marketing'],
    'Experiencia': [3, 8, 5]
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

# Concatenar verticalmente (agregar filas)
df3 = pd.DataFrame({
    'ID': [5, 6],
    'Nombre': ['Carlos', 'Elena'],
    'Edad': [35, 29]
})

print("\nConcatenar verticalmente:")
concatenado = pd.concat([df1, df3], ignore_index=True)
print(concatenado)

# Merge (similar a SQL JOIN) - Inner join
print("\nMerge (inner join):")
merged_inner = pd.merge(df1, df2, on='ID', how='inner')
print(merged_inner)

# Left join
print("\nMerge (left join):")
merged_left = pd.merge(df1, df2, on='ID', how='left')
print(merged_left)

# Outer join
print("\nMerge (outer join):")
merged_outer = pd.merge(df1, df2, on='ID', how='outer')
print(merged_outer)

## 2.11 Aplicar Funciones

Pandas permite aplicar funciones personalizadas a DataFrames y Series.

In [None]:
# Apply sobre una columna
df_temp = df.copy()
df_temp['Edad_Duplicada'] = df_temp['Edad'].apply(lambda x: x * 2)
print("Aplicar función a una columna:")
print(df_temp[['Nombre', 'Edad', 'Edad_Duplicada']])

# Función personalizada
def clasificar_salario(salario):
    if salario < 35000:
        return 'Bajo'
    elif salario < 45000:
        return 'Medio'
    else:
        return 'Alto'

df_temp['Nivel_Salario'] = df_temp['Salario'].apply(clasificar_salario)
print("\nCon clasificación de salario:")
print(df_temp[['Nombre', 'Salario', 'Nivel_Salario']])

# Apply sobre múltiples columnas
def calcular_ratio(row):
    return row['Salario'] / row['Edad']

df_temp['Salario_por_Edad'] = df_temp.apply(calcular_ratio, axis=1)
print("\nRatio Salario/Edad:")
print(df_temp[['Nombre', 'Salario', 'Edad', 'Salario_por_Edad']].round(2))

## 2.12 Tablas Pivote

In [None]:
# Crear datos más complejos para el ejemplo
ventas = pd.DataFrame({
    'Fecha': ['2024-01', '2024-01', '2024-02', '2024-02', '2024-01', '2024-02'],
    'Producto': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Ciudad': ['Madrid', 'Madrid', 'Madrid', 'Madrid', 'Barcelona', 'Barcelona'],
    'Ventas': [100, 150, 120, 180, 90, 160]
})

print("Datos de ventas:")
print(ventas)

# Crear tabla pivote
print("\nTabla pivote - Ventas por Producto y Ciudad:")
pivot = ventas.pivot_table(
    values='Ventas',
    index='Producto',
    columns='Ciudad',
    aggfunc='sum',
    fill_value=0
)
print(pivot)

# Pivot con múltiples agregaciones
print("\nTabla pivote con suma y promedio:")
pivot_multi = ventas.pivot_table(
    values='Ventas',
    index='Producto',
    columns='Fecha',
    aggfunc=['sum', 'mean']
)
print(pivot_multi)

## 2.13 Lectura y Escritura de Archivos

Pandas puede leer y escribir en múltiples formatos.

In [None]:
# Guardar DataFrame en CSV
df.to_csv('empleados.csv', index=False, encoding='utf-8')
print("DataFrame guardado en 'empleados.csv'")

# Leer CSV
df_leido = pd.read_csv('empleados.csv')
print("\nDataFrame leído desde CSV:")
print(df_leido)

# Guardar en Excel (requiere openpyxl o xlsxwriter)
# df.to_excel('empleados.xlsx', index=False, sheet_name='Empleados')

# Leer Excel
# df_excel = pd.read_excel('empleados.xlsx', sheet_name='Empleados')

# Guardar en JSON
df.to_json('empleados.json', orient='records', indent=2, force_ascii=False)
print("\nDataFrame guardado en 'empleados.json'")

# Leer JSON
df_json = pd.read_json('empleados.json')
print("\nDataFrame leído desde JSON:")
print(df_json)

## 2.14 Manejo de Fechas y Tiempos

In [None]:
# Crear DataFrame con fechas
fechas = pd.DataFrame({
    'Fecha': ['2024-01-01', '2024-02-15', '2024-03-30', '2024-04-20'],
    'Ventas': [1000, 1500, 1200, 1800]
})

# Convertir a datetime
fechas['Fecha'] = pd.to_datetime(fechas['Fecha'])
print("DataFrame con fechas:")
print(fechas)
print("\nTipo de la columna Fecha:", fechas['Fecha'].dtype)

# Extraer componentes de fecha
fechas['Año'] = fechas['Fecha'].dt.year
fechas['Mes'] = fechas['Fecha'].dt.month
fechas['Día'] = fechas['Fecha'].dt.day
fechas['Día_Semana'] = fechas['Fecha'].dt.day_name()

print("\nCon componentes de fecha extraídos:")
print(fechas)

# Generar rango de fechas
rango_fechas = pd.date_range(start='2024-01-01', end='2024-01-10', freq='D')
print("\nRango de fechas:")
print(rango_fechas)

## 2.15 Operaciones de String

Pandas ofrece métodos poderosos para manipular cadenas de texto.

In [None]:
# DataFrame con texto
textos = pd.DataFrame({
    'Nombre': ['  ana garcía  ', 'LUIS PÉREZ', 'maría lópez', 'Carlos Ruiz'],
    'Email': ['ana@email.com', 'luis@email.com', 'maria@email.com', 'carlos@email.com']
})

print("DataFrame original:")
print(textos)

# Limpiar espacios y convertir a título
textos['Nombre_Limpio'] = textos['Nombre'].str.strip().str.title()
print("\nCon nombres limpios:")
print(textos[['Nombre', 'Nombre_Limpio']])

# Convertir a mayúsculas/minúsculas
textos['Nombre_Mayus'] = textos['Nombre_Limpio'].str.upper()
textos['Nombre_Minus'] = textos['Nombre_Limpio'].str.lower()

# Contiene substring
textos['Tiene_Garcia'] = textos['Nombre_Limpio'].str.contains('García', case=False)
print("\n¿Contiene 'García'?:")
print(textos[['Nombre_Limpio', 'Tiene_Garcia']])

# Extraer partes del string
textos['Primer_Nombre'] = textos['Nombre_Limpio'].str.split().str[0]
textos['Apellido'] = textos['Nombre_Limpio'].str.split().str[-1]
print("\nCon nombres separados:")
print(textos[['Nombre_Limpio', 'Primer_Nombre', 'Apellido']])

# Reemplazar texto
textos['Email_Nuevo'] = textos['Email'].str.replace('@email.com', '@empresa.com')
print("\nEmails actualizados:")
print(textos[['Email', 'Email_Nuevo']])

## 2.16 Resumen de Métodos Útiles de Pandas

### Métodos de Información
- `df.head(n)` - Primeras n filas
- `df.tail(n)` - Últimas n filas
- `df.info()` - Información general del DataFrame
- `df.describe()` - Estadísticas descriptivas
- `df.shape` - Dimensiones (filas, columnas)
- `df.columns` - Lista de columnas
- `df.dtypes` - Tipos de datos

### Métodos de Selección
- `df['columna']` - Seleccionar columna
- `df[['col1', 'col2']]` - Múltiples columnas
- `df.iloc[i, j]` - Selección por posición numérica
- `df.loc[i, 'col']` - Selección por etiqueta
- `df.query()` - Filtrado con expresiones

### Métodos de Transformación
- `df.drop()` - Eliminar filas/columnas
- `df.rename()` - Renombrar columnas
- `df.sort_values()` - Ordenar
- `df.groupby()` - Agrupar
- `df.merge()` - Unir DataFrames
- `df.pivot_table()` - Crear tablas pivote

### Métodos de Limpieza
- `df.dropna()` - Eliminar valores nulos
- `df.fillna()` - Rellenar valores nulos
- `df.drop_duplicates()` - Eliminar duplicados
- `df.replace()` - Reemplazar valores

---
## Ejercicios Prácticos

Prueba estos ejercicios para practicar lo aprendido:

1. **NumPy**: Crea una matriz 5x5 con números aleatorios entre 0 y 100, calcula su media, máximo y mínimo.

2. **Pandas - Series**: Crea una serie con las ventas de una tienda durante 7 días y calcula el promedio y el día con más ventas.

3. **Pandas - DataFrame**: Crea un DataFrame con información de 10 productos (nombre, precio, stock) y:
   - Encuentra productos con precio mayor a 50
   - Calcula el valor total del inventario (precio × stock)
   - Ordena por precio de mayor a menor

4. **Pandas - GroupBy**: Agrupa el DataFrame de empleados por ciudad y calcula el salario promedio y la edad promedio por ciudad.

5. **Pandas - Limpieza**: Crea un DataFrame con algunos valores nulos y practica rellenarlos con diferentes estrategias (media, mediana, valor anterior).