# Trabajo Práctico: Manipulación y Análisis de Datos con Python

## Introducción

Este trabajo práctico está diseñado para fortalecer sus conocimientos en manipulación y análisis de datos utilizando NumPy, Pandas, herramientas de visualización como Matplotlib y Seaborn, y conceptos básicos de aprendizaje automático con Scikit-learn y TensorFlow.

**Instrucciones generales:**
- Complete las celdas de código donde se indique con `# Tu código aquí`
- Para cada ejercicio, asegúrese de mostrar el resultado solicitado
- Los ejercicios están organizados por nivel de complejidad creciente
- No dude en utilizar la documentación oficial de las bibliotecas y los materiales del curso

In [None]:
# Importamos las bibliotecas necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets, preprocessing, model_selection, metrics
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.tree import DecisionTreeClassifier
import tensorflow as tf
from tensorflow import keras
import time
import warnings

# Configuraciones generales
warnings.filterwarnings('ignore')
plt.style.use('seaborn-v0_8-whitegrid')  # Para compatibilidad con versiones recientes
sns.set_theme(style="whitegrid")
np.random.seed(42)  # Para reproducibilidad

## Ejercicio 1: Lectura y escritura de datos de diferentes fuentes

En este ejercicio practicaremos la lectura de datos desde diferentes formatos y fuentes.

a) Cree un DataFrame con información de 5 productos (id, nombre, precio, categoría) y guárdelo en formatos CSV, Excel y JSON.

In [None]:
# Crear un DataFrame con información de productos
# Tu código aquí

# Guardar en diferentes formatos
# Tu código aquí

b) Lea el archivo CSV creado y muestre las primeras 3 filas.

In [None]:
# Tu código aquí

c) Lea el archivo Excel y JSON, y verifique que los datos coinciden con el DataFrame original.

In [None]:
# Tu código aquí

d) Descargue el conjunto de datos de Iris directamente desde una URL y cárguelo en un DataFrame.

In [None]:
# URL de datos Iris: https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
# Tu código aquí

## Ejercicio 2: Exploración inicial de datos

Utilizaremos el conocido conjunto de datos de pasajeros del Titanic para practicar técnicas de exploración inicial.

a) Cargue el dataset de Titanic utilizando la siguiente celda y muestre la información básica del DataFrame (info(), shape, describe()).

In [None]:
# Cargar datos del Titanic
url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
titanic_df = pd.read_csv(url)

# Mostrar información básica del DataFrame
# Tu código aquí

b) Identifique y muestre un resumen de los valores nulos en el dataset.

In [None]:
# Tu código aquí

c) Explore la distribución de pasajeros por clase (Pclass) y por sexo (Sex). Muestre los resultados como tablas de frecuencia.

In [None]:
# Tu código aquí

d) Calcule la edad promedio, mediana y desviación estándar de los pasajeros, agrupados por sexo y clase.

In [None]:
# Tu código aquí

## Ejercicio 3: Manipulación básica de DataFrames con Pandas

a) Cree un nuevo DataFrame a partir del dataset del Titanic que incluya solo pasajeros menores de 18 años (niños).

In [None]:
# Tu código aquí

b) Añada una nueva columna llamada 'Grupo_Edad' que clasifique a los pasajeros en 'Niño' (< 18), 'Adulto' (18-65) y 'Mayor' (> 65).

In [None]:
# Tu código aquí

c) Seleccione todas las mujeres que sobrevivieron y viajaban en primera clase.

In [None]:
# Tu código aquí

d) Ordene el DataFrame por edad de manera descendente y por tarifa de manera ascendente.

In [None]:
# Tu código aquí

## Ejercicio 4: Operaciones avanzadas con Pandas

a) Calcule la tasa de supervivencia por clase y sexo utilizando groupby.

In [None]:
# Tu código aquí

b) Genere un nuevo DataFrame con la tarifa media, máxima y mínima por clase y puerto de embarque.

In [None]:
# Tu código aquí

c) Cree dos subconjuntos del DataFrame Titanic: uno con pasajeros que viajaban solos y otro con pasajeros que viajaban en familia. Luego, combine estos DataFrames usando concat y marque el origen de cada registro.

Pista: Use las columnas SibSp (número de hermanos/cónyuges) y Parch (número de padres/hijos)

In [None]:
# Tu código aquí

d) Cree un pequeño DataFrame con información de puertos de embarque (códigos y nombres completos) y haga un merge con el DataFrame Titanic para reemplazar los códigos por nombres descriptivos.

Puertos: C = Cherbourg, Q = Queenstown, S = Southampton

In [None]:
# Tu código aquí

## Ejercicio 5: Manejo de valores nulos y duplicados

a) Identifique todas las columnas con valores nulos en el dataset del Titanic y calcule el porcentaje de valores faltantes para cada una.

In [None]:
# Tu código aquí

b) Rellene los valores faltantes de edad con la mediana de edad según clase y sexo.

In [None]:
# Tu código aquí

c) Elimine las filas con valores nulos en la columna 'Embarked'.

In [None]:
# Tu código aquí

d) Busque y elimine registros duplicados, si existen, mostrando primero cuántos encontró.

In [None]:
# Tu código aquí

## Ejercicio 6: Operaciones con arrays NumPy

a) Cree un array NumPy 3D de forma (3, 4, 5) con valores aleatorios entre 0 y 100.

In [None]:
# Tu código aquí

b) Calcule la media, mediana, mínimo y máximo por cada "profundidad" del array 3D.

In [None]:
# Tu código aquí

c) Cree una matriz 5x5 con valores aleatorios y reemplace todos los valores mayores que la media con el valor 1 y los menores o iguales con 0.

In [None]:
# Tu código aquí

d) Demuestre el broadcasting en NumPy sumando un vector fila a todas las filas de una matriz y un vector columna a todas las columnas.

In [None]:
# Tu código aquí

## Ejercicio 7: Análisis estadístico con Pandas y NumPy

a) A partir del dataset del Titanic, calcule la correlación entre todas las variables numéricas.

In [None]:
# Tu código aquí

b) Normalice (escala 0-1) las columnas numéricas 'Age' y 'Fare' del dataset del Titanic.

In [None]:
# Tu código aquí

c) Aplique una transformación logarítmica a la columna 'Fare' para reducir su asimetría y compare las estadísticas antes y después.

In [None]:
# Tu código aquí

d) Realice un análisis de valores atípicos (outliers) en la columna 'Fare' utilizando el método IQR.

In [None]:
# Tu código aquí

## Ejercicio 8: Optimización de rendimiento en procesamiento de datos

a) Compare el rendimiento entre un bucle for tradicional y una operación vectorizada de NumPy para calcular la raíz cuadrada de un millón de números.

In [None]:
# Tu código aquí

b) Compare el rendimiento de .apply() vs. vectorización en Pandas para convertir una columna de texto a mayúsculas.

In [None]:
# Tu código aquí

c) Demuestre cómo optimizar el uso de memoria de un DataFrame grande mediante la conversión adecuada de tipos de datos.

In [None]:
# Tu código aquí

d) Implemente y compare dos métodos para calcular la frecuencia de cada letra en una cadena larga: uno usando un enfoque tradicional y otro usando técnicas de vectorización.

In [None]:
# Tu código aquí

## Ejercicio 9: Visualización básica con Matplotlib

a) Cree un gráfico de líneas que muestre la evolución de la tasa de supervivencia por edad en el Titanic.

In [None]:
# Tu código aquí

b) Genere un gráfico de barras que compare la tarifa promedio pagada por clase y sexo.

In [None]:
# Tu código aquí

c) Cree un histograma de la distribución de edades, con bins de 5 años, separando por supervivencia.

In [None]:
# Tu código aquí

d) Produzca un gráfico de dispersión que relacione la edad y la tarifa, diferenciando por clase y supervivencia mediante colores y tamaños.

In [None]:
# Tu código aquí

## Ejercicio 10: Visualización avanzada con Seaborn

a) Cree un boxplot que compare la distribución de tarifas por clase y supervivencia.

In [None]:
# Tu código aquí

b) Genere un mapa de calor de la matriz de correlación de las variables numéricas del dataset.

In [None]:
# Tu código aquí

c) Utilice un violin plot para comparar la distribución de edades por clase y sexo.

In [None]:
# Tu código aquí

d) Cree un pair plot para explorar relaciones entre 'Age', 'Fare', 'Pclass' y 'Survived'.

In [None]:
# Tu código aquí

## Ejercicio 11: Creación de un dashboard de visualización

Cree un dashboard completo con al menos 4 visualizaciones diferentes organizadas en una cuadrícula de 2x2, que resuma los aspectos más importantes del dataset del Titanic.

In [None]:
# Tu código aquí

## Ejercicio 12: Preprocesamiento de datos para aprendizaje automático

a) Prepare el dataset del Titanic para modelado:
   - Maneje valores nulos
   - Convierta variables categóricas a numéricas
   - Seleccione características relevantes
   - Divida en conjuntos de entrenamiento y prueba

In [None]:
# Tu código aquí

b) Estandarice las características numéricas utilizando StandardScaler.

In [None]:
# Tu código aquí

c) Aplique one-hot encoding a la variable categórica 'Embarked'.

In [None]:
# Tu código aquí

d) Genere un pipeline de preprocesamiento que incluya todas estas transformaciones.

In [None]:
# Tu código aquí

## Ejercicio 13: Modelos básicos con Scikit-learn

a) Entrene un modelo de regresión logística para predecir la supervivencia en el Titanic.

In [None]:
# Tu código aquí

b) Evalúe el modelo utilizando precisión, recall, F1-score y una matriz de confusión.

In [None]:
# Tu código aquí

c) Entrene un modelo de árbol de decisión y compare su rendimiento con la regresión logística.

In [None]:
# Tu código aquí

d) Utilice validación cruzada para evaluar ambos modelos de manera más robusta.

In [None]:
# Tu código aquí

## Ejercicio 14: Carga y análisis de un dataset diferente

Utilice el conjunto de datos de diabetes de Scikit-learn para:
a) Cargar y explorar el dataset
b) Realizar un análisis estadístico básico
c) Visualizar las relaciones entre variables
d) Preparar los datos para modelado

In [None]:
# Cargar el dataset
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()

# Tu código aquí

## Ejercicio 15: Regresión lineal con Scikit-learn

a) Entrene un modelo de regresión lineal en el dataset de diabetes.

In [None]:
# Tu código aquí

b) Evalúe el rendimiento del modelo utilizando R², MSE y MAE.

In [None]:
# Tu código aquí

c) Visualice las predicciones vs. valores reales.

In [None]:
# Tu código aquí

d) Realice un análisis de los coeficientes del modelo para identificar las características más importantes.

In [None]:
# Tu código aquí

## Ejercicio 16: Introducción a redes neuronales con TensorFlow/Keras

a) Cargue el dataset MNIST de dígitos manuscritos.

In [None]:
mnist = tf.keras.datasets.mnist
(x_train, y_train), (x_test, y_test) = mnist.load_data()

# Tu código aquí

b) Prepare y normalice los datos para entrenamiento.

In [None]:
# Tu código aquí

c) Cree un modelo de red neuronal secuencial con al menos 2 capas ocultas.

In [None]:
# Tu código aquí

d) Entrene el modelo, visualice la curva de aprendizaje y evalúe su precisión en el conjunto de prueba.

In [None]:
# Tu código aquí

## Ejercicio 17: Aplicación práctica - Análisis de series temporales

Analice el dataset de pasajeros de aerolíneas (disponible en Seaborn):

a) Cargue y visualice la serie temporal.

In [None]:
flights = sns.load_dataset('flights')

# Tu código aquí

b) Descomponga la serie en tendencia, estacionalidad y residuos.

In [None]:
# Tu código aquí

c) Analice patrones mensuales y anuales mediante visualizaciones.

In [None]:
# Tu código aquí

d) Prepare los datos para un modelo predictivo (opcional: construya un modelo simple).

In [None]:
# Tu código aquí

## Ejercicio 18: Combinación de múltiples fuentes de datos

a) Cree tres DataFrames diferentes: uno con información demográfica de clientes, otro con historial de compras y otro con valoraciones de productos.

In [None]:
# Tu código aquí

b) Utilice operaciones de merge/join para combinar la información en un único DataFrame.

In [None]:
# Tu código aquí

c) Realice un análisis que responda: ¿Qué grupos demográficos gastan más? ¿Cómo se relaciona el gasto con las valoraciones?

In [None]:
# Tu código aquí

d) Visualice las relaciones encontradas mediante gráficos apropiados.

In [None]:
# Tu código aquí

## Ejercicio 19: Optimización de hiperparámetros en un modelo de aprendizaje automático

a) Utilizando el dataset de iris, prepare los datos para modelado.

In [None]:
iris = datasets.load_iris()

# Tu código aquí

b) Defina una cuadrícula de hiperparámetros para un modelo de clasificación (árbol de decisión o SVM).

In [None]:
# Tu código aquí

c) Utilice GridSearchCV para encontrar la mejor combinación de hiperparámetros.

In [None]:
# Tu código aquí

d) Evalúe el modelo optimizado y compare con la versión predeterminada.

In [None]:
# Tu código aquí

## Ejercicio 20: Proyecto final integrador

Elija uno de los siguientes datasets para realizar un análisis completo:
- Calidad del vino (Wine Quality)
- Precios de viviendas (Boston Housing)
- Accidentes aéreos (Aviones dataset)
- Otro dataset de su elección (con aprobación previa)

Desarrolle un proyecto que incluya:
1. Exploración inicial de datos
2. Limpieza y preprocesamiento
3. Análisis estadístico
4. Visualizaciones informativas
5. Modelado predictivo
6. Evaluación de resultados
7. Conclusiones y recomendaciones

In [None]:
# Dataset de calidad del vino (ejemplo)
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv"
wine = pd.read_csv(url, sep=';')

# Tu código aquí

## Conclusión y Entrega

Este trabajo práctico le permitirá aplicar de manera integrada los conocimientos adquiridos sobre manipulación de datos, visualización y aprendizaje automático.

**Criterios de evaluación:**
- Correcta implementación de las soluciones
- Calidad del código (legibilidad, eficiencia, documentación)
- Pertinencia de los análisis y visualizaciones
- Interpretación adecuada de los resultados

**Fecha de entrega:** 30/04/25

**Forma de entrega:** Suba este notebook completado al aula virtual.