# 📊 Análisis de Datos con Python - Módulo 5

## Bienvenido al Módulo de Análisis de Datos

### 📚 Contenido del Módulo 5:
1. **Introducción al análisis de datos**
2. **Manipulación de datos con Pandas**
3. **Análisis exploratorio de datos (EDA)**
4. **Manipulación avanzada de datos**
5. **Visualización avanzada**
6. **Extracción de datos**
7. **Proyecto: Análisis de datos de COVID-19**

### 🎯 Objetivos de Aprendizaje:
- Dominar la manipulación de datos con Pandas
- Realizar análisis exploratorio efectivo
- Crear visualizaciones impactantes
- Extraer datos de diversas fuentes
- Aplicar técnicas de análisis a datos reales
- Construir dashboards interactivos

---

## 1. 📈 Introducción al Análisis de Datos

El análisis de datos es el proceso de inspeccionar, limpiar, transformar y modelar datos con el objetivo de descubrir información útil, informar conclusiones y apoyar la toma de decisiones.

### 🌟 ¿Por qué Python para análisis de datos?

Python se ha convertido en el lenguaje preferido para análisis de datos por varias razones:

- **Ecosistema rico**: Pandas, NumPy, Matplotlib, Scikit-learn
- **Sintaxis clara y legible**: Facilita el desarrollo y mantenimiento
- **Comunidad activa**: Abundantes recursos y bibliotecas
- **Versatilidad**: Desde análisis básico hasta machine learning avanzado
- **Integración**: Funciona bien con otras herramientas y sistemas

In [None]:
# Importar las bibliotecas principales para análisis de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración para visualizaciones más atractivas
plt.style.use('ggplot')
sns.set(style="whitegrid")

# Mostrar versiones
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")
print(f"Matplotlib version: {plt.__version__}")
print(f"Seaborn version: {sns.__version__}")

: 

### 🔄 Flujo de trabajo típico en análisis de datos

1. **Obtención de datos**: Recolectar datos de diversas fuentes
2. **Limpieza de datos**: Manejar valores faltantes, duplicados, errores
3. **Exploración**: Análisis estadístico y visualización inicial
4. **Transformación**: Crear nuevas variables, normalizar, agregar
5. **Análisis**: Aplicar técnicas estadísticas y modelos
6. **Visualización**: Crear gráficos y dashboards informativos
7. **Comunicación**: Presentar hallazgos y conclusiones

---

## 2. 🐼 Manipulación de datos con Pandas

Pandas es la biblioteca más importante para manipulación y análisis de datos en Python. Proporciona estructuras de datos flexibles y herramientas para trabajar con datos estructurados.

### 📋 Estructuras de datos principales:

1. **Series**: Array unidimensional etiquetado
2. **DataFrame**: Tabla bidimensional con columnas potencialmente de diferentes tipos

In [None]:
# Crear una Series
s = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print("Series de Pandas:")
print(s)
print("\nTipo de datos:", type(s))

# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Carlos', 'María', 'Pedro', 'Laura'],
    'Edad': [28, 34, 29, 42, 31],
    'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Valencia', 'Bilbao'],
    'Puntuación': [85, 92, 78, 96, 89]
}

df = pd.DataFrame(data)
print("\nDataFrame de Pandas:")
print(df)

# Información básica del DataFrame
print("\nInformación del DataFrame:")
print(df.info())

# Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
print(df.describe())

### 📥 Carga de datos desde diferentes fuentes

Pandas puede leer datos de múltiples formatos:

In [None]:
# Ejemplo de carga de datos (comentado para evitar errores)

# CSV
# df_csv = pd.read_csv('datos/ejemplo.csv')

# Excel
# df_excel = pd.read_excel('datos/ejemplo.xlsx', sheet_name='Hoja1')

# JSON
# df_json = pd.read_json('datos/ejemplo.json')

# SQL (requiere SQLAlchemy)
# from sqlalchemy import create_engine
# engine = create_engine('sqlite:///ejemplo.db')
# df_sql = pd.read_sql('SELECT * FROM tabla', engine)

# Crear un DataFrame de ejemplo para continuar
df_ventas = pd.DataFrame({
    'Fecha': pd.date_range(start='2023-01-01', periods=10),
    'Producto': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],
    'Cantidad': [10, 5, 15, 8, 12, 20, 7, 9, 14, 11],
    'Precio': [100, 200, 100, 150, 200, 100, 150, 200, 100, 150],
    'Vendedor': ['Juan', 'María', 'Juan', 'Pedro', 'María', 'Juan', 'Pedro', 'María', 'Juan', 'Pedro']
})

print("DataFrame de ventas:")
print(df_ventas.head())

### 🧹 Limpieza y transformación de datos

La limpieza de datos es una parte crucial del análisis:

In [None]:
# Crear un DataFrame con problemas comunes
df_sucio = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5],
    'B': [5, 6, 7, np.nan, 9],
    'C': ['a', 'b', 'c', 'd', np.nan]
})

print("DataFrame con valores faltantes:")
print(df_sucio)

# Detectar valores faltantes
print("\nValores faltantes por columna:")
print(df_sucio.isna().sum())

# Rellenar valores faltantes
df_limpio1 = df_sucio.fillna({'A': 0, 'B': 0, 'C': 'desconocido'})
print("\nDataFrame con valores faltantes rellenados:")
print(df_limpio1)

# Eliminar filas con valores faltantes
df_limpio2 = df_sucio.dropna()
print("\nDataFrame con filas con valores faltantes eliminadas:")
print(df_limpio2)

### 🔍 Filtrado y selección de datos

Pandas ofrece múltiples formas de seleccionar y filtrar datos:

In [None]:
# Volvemos al DataFrame de ventas
print("DataFrame de ventas:")
print(df_ventas)

# Selección de columnas
print("\nSelección de columnas:")
print(df_ventas[['Producto', 'Cantidad']])

# Filtrado con condiciones
print("\nVentas del producto A:")
print(df_ventas[df_ventas['Producto'] == 'A'])

# Filtrado con múltiples condiciones
print("\nVentas del producto A con cantidad > 10:")
print(df_ventas[(df_ventas['Producto'] == 'A') & (df_ventas['Cantidad'] > 10)])

# Selección por índice con .loc
print("\nSelección por índice con .loc:")
print(df_ventas.loc[2:4, ['Fecha', 'Producto', 'Cantidad']])

# Selección por posición con .iloc
print("\nSelección por posición con .iloc:")
print(df_ventas.iloc[2:5, 0:3])

### 📊 Operaciones de agrupación y agregación

Las operaciones de agrupación permiten realizar análisis por categorías:

In [None]:
# Calcular total de ventas
df_ventas['Total'] = df_ventas['Cantidad'] * df_ventas['Precio']

# Agrupar por producto
print("Ventas por producto:")
ventas_por_producto = df_ventas.groupby('Producto').agg({
    'Cantidad': 'sum',
    'Total': 'sum'
})
print(ventas_por_producto)

# Agrupar por vendedor
print("\nVentas por vendedor:")
ventas_por_vendedor = df_ventas.groupby('Vendedor').agg({
    'Cantidad': 'sum',
    'Total': 'sum'
})
print(ventas_por_vendedor)

# Múltiples niveles de agrupación
print("\nVentas por vendedor y producto:")
ventas_detalladas = df_ventas.groupby(['Vendedor', 'Producto']).agg({
    'Cantidad': 'sum',
    'Total': 'sum'
})
print(ventas_detalladas)

### 🎯 Ejercicio Práctico 1: Análisis de ventas

Utilizando el DataFrame de ventas, realiza las siguientes tareas:

1. Calcula el promedio de ventas por día
2. Encuentra el producto más vendido
3. Identifica al vendedor con mayor ingreso total
4. Crea una nueva columna 'Mes' y agrupa las ventas por mes

In [None]:
# Tu código aquí

# 1. Promedio de ventas por día

# 2. Producto más vendido

# 3. Vendedor con mayor ingreso

# 4. Ventas por mes

---

## 3. 🔍 Análisis Exploratorio de Datos (EDA)

El Análisis Exploratorio de Datos (EDA) es un enfoque para analizar conjuntos de datos con el fin de resumir sus características principales, a menudo utilizando métodos visuales.

### 📊 Estadísticas descriptivas

Las estadísticas descriptivas nos ayudan a entender la distribución y características de nuestros datos:

In [None]:
# Crear un DataFrame con datos más complejos para EDA
np.random.seed(42)
n = 1000

df_eda = pd.DataFrame({
    'edad': np.random.normal(35, 10, n).astype(int),
    'ingreso': np.random.lognormal(10, 0.5, n).astype(int),
    'gastos': np.random.lognormal(9, 0.4, n).astype(int),
    'score_credito': np.random.normal(700, 100, n).clip(300, 850).astype(int),
    'genero': np.random.choice(['M', 'F'], n),
    'educacion': np.random.choice(['Primaria', 'Secundaria', 'Universidad', 'Posgrado'], n,
                                 p=[0.1, 0.3, 0.4, 0.2]),
    'region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste', 'Centro'], n)
})

# Añadir algunas variables derivadas
df_eda['ahorro'] = df_eda['ingreso'] - df_eda['gastos']
df_eda['ratio_gasto'] = df_eda['gastos'] / df_eda['ingreso']

# Mostrar las primeras filas
print("DataFrame para EDA:")
print(df_eda.head())

# Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
print(df_eda.describe())

# Información sobre variables categóricas
print("\nDistribución de género:")
print(df_eda['genero'].value_counts())

print("\nDistribución de educación:")
print(df_eda['educacion'].value_counts())

### 📈 Visualización con Matplotlib y Seaborn

La visualización es clave para entender patrones en los datos:

In [None]:
# Configuración para visualizaciones más atractivas
plt.style.use('ggplot')
sns.set(style="whitegrid")

# Crear una figura con múltiples subplots
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Histograma de edad
sns.histplot(df_eda['edad'], kde=True, ax=axes[0, 0])
axes[0, 0].set_title('Distribución de Edad')

# Histograma de ingresos
sns.histplot(df_eda['ingreso'], kde=True, ax=axes[0, 1])
axes[0, 1].set_title('Distribución de Ingresos')

# Gráfico de barras para educación
sns.countplot(x='educacion', data=df_eda, ax=axes[1, 0])
axes[1, 0].set_title('Nivel Educativo')
axes[1, 0].set_xticklabels(axes[1, 0].get_xticklabels(), rotation=45)

# Gráfico de barras para región
sns.countplot(x='region', data=df_eda, ax=axes[1, 1])
axes[1, 1].set_title('Distribución por Región')

plt.tight_layout()
plt.show()

In [None]:
# Relaciones entre variables
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# Scatter plot: Ingreso vs Gastos
sns.scatterplot(x='ingreso', y='gastos', hue='genero', data=df_eda, ax=axes[0])
axes[0].set_title('Ingreso vs Gastos')

# Box plot: Score de crédito por nivel educativo
sns.boxplot(x='educacion', y='score_credito', data=df_eda, ax=axes[1])
axes[1].set_title('Score de Crédito por Nivel Educativo')
axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=45)

# Violin plot: Ahorro por género
sns.violinplot(x='genero', y='ahorro', data=df_eda, ax=axes[2])
axes[2].set_title('Distribución de Ahorro por Género')

plt.tight_layout()
plt.show()

### 🔄 Correlaciones y patrones

Analizar correlaciones nos ayuda a identificar relaciones entre variables:

In [None]:
# Calcular matriz de correlación
corr_matrix = df_eda.select_dtypes(include=[np.number]).corr()

# Visualizar matriz de correlación
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1, fmt='.2f')
plt.title('Matriz de Correlación')
plt.show()

# Pairplot para visualizar relaciones entre múltiples variables
sns.pairplot(df_eda[['edad', 'ingreso', 'gastos', 'score_credito', 'genero']], hue='genero')
plt.suptitle('Relaciones entre Variables Numéricas por Género', y=1.02)
plt.show()

### 🎯 Ejercicio Práctico 2: Análisis Exploratorio

Utilizando el DataFrame `df_eda`, realiza las siguientes tareas:

1. Identifica las variables con mayor correlación
2. Crea un gráfico que muestre la relación entre educación, ingreso y ahorro
3. Analiza si hay diferencias significativas en el ratio de gasto por región
4. Identifica posibles valores atípicos en el score de crédito

In [None]:
# Tu código aquí

# 1. Variables con mayor correlación

# 2. Relación entre educación, ingreso y ahorro

# 3. Ratio de gasto por región

# 4. Valores atípicos en score de crédito

---

## 4. 🔧 Manipulación Avanzada de Datos

Esta sección cubre técnicas avanzadas para manipular y transformar datos, incluyendo operaciones con fechas, manejo de datos faltantes, y transformaciones complejas.

### 📅 Trabajando con fechas y horas

Las fechas son un tipo de dato crucial en el análisis de datos. Pandas proporciona herramientas poderosas para trabajar con ellas:

In [None]:
# Trabajando con fechas y horas
from datetime import datetime, timedelta
import pandas as pd

# Crear un rango de fechas
fechas = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
print(f"Generadas {len(fechas)} fechas desde enero hasta diciembre 2023")

# Crear un DataFrame con datos de series temporales
df_tiempo = pd.DataFrame({
    'fecha': pd.date_range(start='2023-01-01', periods=365, freq='D'),
    'ventas': np.random.normal(1000, 200, 365),
    'temperatura': np.random.normal(20, 10, 365)
})

# Establecer fecha como índice
df_tiempo.set_index('fecha', inplace=True)
print("\nDataFrame con índice de fecha:")
print(df_tiempo.head())

# Extraer componentes de fecha
df_tiempo['año'] = df_tiempo.index.year
df_tiempo['mes'] = df_tiempo.index.month
df_tiempo['día_semana'] = df_tiempo.index.dayofweek
df_tiempo['nombre_mes'] = df_tiempo.index.month_name()

print("\nComponentes de fecha extraídos:")
print(df_tiempo[['año', 'mes', 'día_semana', 'nombre_mes']].head())

# Resample: agregar datos por periodo
ventas_mensuales = df_tiempo['ventas'].resample('M').agg(['sum', 'mean', 'std'])
print("\nVentas agregadas por mes:")
print(ventas_mensuales.head())

### 🕳️ Estrategias avanzadas para datos faltantes

El manejo de datos faltantes es crucial para obtener resultados confiables en el análisis de datos:

In [None]:
# Crear un DataFrame con patrones de datos faltantes
np.random.seed(42)
df_faltantes = pd.DataFrame({
    'A': np.random.randn(1000),
    'B': np.random.randn(1000),
    'C': np.random.randn(1000),
    'categoria': np.random.choice(['X', 'Y', 'Z'], 1000)
})

# Introducir valores faltantes de manera realista
missing_mask_A = np.random.random(1000) < 0.1  # 10% faltantes
missing_mask_B = np.random.random(1000) < 0.05  # 5% faltantes
missing_mask_C = (df_faltantes['A'] > 2) | (np.random.random(1000) < 0.03)  # Faltantes no aleatorios

df_faltantes.loc[missing_mask_A, 'A'] = np.nan
df_faltantes.loc[missing_mask_B, 'B'] = np.nan
df_faltantes.loc[missing_mask_C, 'C'] = np.nan

print("Patrones de datos faltantes:")
print(df_faltantes.isna().sum())
print(f"\nTotal de filas: {len(df_faltantes)}")
print(f"Filas sin valores faltantes: {len(df_faltantes.dropna())}")

# Análisis de patrones de datos faltantes
import missingno as msno
print("\nPatrón de valores faltantes (usando missingno):")
# msno.matrix(df_faltantes)  # Comentado para evitar problemas de visualización

# Estrategias de imputación
from sklearn.impute import SimpleImputer, KNNImputer

# 1. Imputación por media/mediana
imputer_mean = SimpleImputer(strategy='mean')
df_mean = df_faltantes.copy()
df_mean[['A', 'B', 'C']] = imputer_mean.fit_transform(df_faltantes[['A', 'B', 'C']])

# 2. Imputación por KNN
imputer_knn = KNNImputer(n_neighbors=5)
df_knn = df_faltantes.copy()
df_knn[['A', 'B', 'C']] = imputer_knn.fit_transform(df_faltantes[['A', 'B', 'C']])

# 3. Imputación por grupo
df_group = df_faltantes.copy()
df_group['A'] = df_group.groupby('categoria')['A'].transform(lambda x: x.fillna(x.mean()))
df_group['B'] = df_group.groupby('categoria')['B'].transform(lambda x: x.fillna(x.median()))

print("\nComparación de estrategias de imputación:")
print(f"Original - Media A: {df_faltantes['A'].mean():.3f}")
print(f"Imputación media - Media A: {df_mean['A'].mean():.3f}")
print(f"Imputación KNN - Media A: {df_knn['A'].mean():.3f}")
print(f"Imputación por grupo - Media A: {df_group['A'].mean():.3f}")

### 🔄 Transformaciones de datos

Las transformaciones de datos nos permiten preparar los datos para análisis específicos:

In [None]:
# Transformaciones comunes en análisis de datos
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder

# Crear datos para transformaciones
df_transform = pd.DataFrame({
    'valor': [1, 100, 1000, 10000, 100000],
    'score': [0.1, 0.5, 0.8, 0.9, 0.95],
    'categoria': ['bajo', 'medio', 'alto', 'muy_alto', 'excelente'],
    'precio': [10.5, 25.0, 45.2, 78.9, 150.0]
})

print("Datos originales:")
print(df_transform)

# 1. Transformación logarítmica
df_transform['log_valor'] = np.log1p(df_transform['valor'])  # log(1+x) para evitar log(0)

# 2. Normalización (Min-Max scaling)
scaler_minmax = MinMaxScaler()
df_transform['precio_norm'] = scaler_minmax.fit_transform(df_transform[['precio']])

# 3. Estandarización (Z-score)
scaler_standard = StandardScaler()
df_transform['precio_std'] = scaler_standard.fit_transform(df_transform[['precio']])

# 4. Codificación de variables categóricas
# One-hot encoding
categorias_dummy = pd.get_dummies(df_transform['categoria'], prefix='cat')
df_transform = pd.concat([df_transform, categorias_dummy], axis=1)

# Label encoding
label_encoder = LabelEncoder()
df_transform['categoria_encoded'] = label_encoder.fit_transform(df_transform['categoria'])

print("\nDatos después de transformaciones:")
print(df_transform)

# 5. Binning (discretización)
df_transform['precio_bins'] = pd.cut(df_transform['precio'], 
                                   bins=3, 
                                   labels=['Bajo', 'Medio', 'Alto'])

print("\nBinning de precios:")
print(df_transform[['precio', 'precio_bins']])

# 6. Transformación de ranking
df_transform['precio_rank'] = df_transform['precio'].rank(method='dense')

print("\nRanking de precios:")
print(df_transform[['precio', 'precio_rank']])

---

## 5. 📊 Visualización Avanzada

La visualización efectiva es clave para comunicar insights de datos. Exploraremos técnicas avanzadas con Plotly y visualizaciones interactivas.

### 🎨 Visualizaciones interactivas con Plotly

In [None]:
# Visualizaciones avanzadas con Plotly
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Crear datos más complejos para visualización
np.random.seed(42)
n = 500

df_viz = pd.DataFrame({
    'x': np.random.normal(0, 1, n),
    'y': np.random.normal(0, 1, n),
    'z': np.random.normal(0, 1, n),
    'categoria': np.random.choice(['A', 'B', 'C', 'D'], n),
    'tamaño': np.random.uniform(10, 100, n),
    'fecha': pd.date_range('2023-01-01', periods=n, freq='D'),
    'valor': np.random.exponential(2, n)
})

# 1. Scatter plot interactivo con múltiples dimensiones
fig1 = px.scatter(df_viz, 
                  x='x', 
                  y='y', 
                  color='categoria',
                  size='tamaño',
                  hover_data=['z', 'valor'],
                  title='Scatter Plot Multidimensional Interactivo')
fig1.show()

# 2. Gráfico de series temporales interactivo
df_time_agg = df_viz.groupby(['fecha', 'categoria'])['valor'].sum().reset_index()

fig2 = px.line(df_time_agg, 
               x='fecha', 
               y='valor', 
               color='categoria',
               title='Series Temporales por Categoría')
fig2.show()

# 3. Histograma con distribuciones superpuestas
fig3 = px.histogram(df_viz, 
                    x='valor', 
                    color='categoria',
                    marginal='box',  # Añadir boxplot en el margen
                    title='Distribución de Valores por Categoría')
fig3.show()

# 4. Gráfico 3D
fig4 = px.scatter_3d(df_viz, 
                     x='x', 
                     y='y', 
                     z='z',
                     color='categoria',
                     size='tamaño',
                     title='Visualización 3D')
fig4.show()

print("Visualizaciones interactivas creadas con Plotly")

---

## 6. 🌐 Extracción de Datos

En el mundo real, los datos provienen de múltiples fuentes. Aprenderemos a extraer datos de APIs, páginas web y bases de datos.

### 🔗 Consumo de APIs

In [None]:
# Extracción de datos de APIs
import requests
import json

# Ejemplo con API pública (JSONPlaceholder)
def obtener_datos_api():
    """Función para obtener datos de una API pública"""
    try:
        # API de ejemplo que no requiere autenticación
        url = "https://jsonplaceholder.typicode.com/posts"
        response = requests.get(url)
        
        if response.status_code == 200:
            datos = response.json()
            df_api = pd.DataFrame(datos)
            return df_api
        else:
            print(f"Error en la API: {response.status_code}")
            return None
    except Exception as e:
        print(f"Error al conectar con la API: {e}")
        return None

# Intentar obtener datos de la API
df_posts = obtener_datos_api()

if df_posts is not None:
    print("Datos obtenidos de la API:")
    print(df_posts.head())
    print(f"\nTotal de posts: {len(df_posts)}")
    print(f"Columnas: {df_posts.columns.tolist()}")
else:
    print("No se pudieron obtener datos de la API")

# Ejemplo de análisis básico de los datos de la API
if df_posts is not None:
    # Análisis de longitud de títulos
    df_posts['titulo_longitud'] = df_posts['title'].str.len()
    df_posts['body_longitud'] = df_posts['body'].str.len()
    
    print("\nEstadísticas de longitud:")
    print(df_posts[['titulo_longitud', 'body_longitud']].describe())
    
    # Usuarios más activos
    usuarios_activos = df_posts['userId'].value_counts().head()
    print("\nUsuarios más activos:")
    print(usuarios_activos)

### 🕸️ Web Scraping con BeautifulSoup

El web scraping nos permite extraer datos de páginas web. Es importante hacerlo de manera ética y respetando los términos de servicio:

In [None]:
# Web Scraping con BeautifulSoup
from bs4 import BeautifulSoup
import requests
import time

# Función para scraping ético
def scraping_ejemplo():
    """
    Ejemplo de web scraping básico
    Nota: Siempre revisar robots.txt y términos de servicio
    """
    try:
        # URL de ejemplo (sitio que permite scraping)
        url = "https://httpbin.org/html"
        
        # Hacer la petición con headers apropiados
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        }
        
        response = requests.get(url, headers=headers)
        
        if response.status_code == 200:
            soup = BeautifulSoup(response.content, 'html.parser')
            
            # Extraer información
            titulo = soup.find('title')
            encabezados = soup.find_all(['h1', 'h2', 'h3'])
            parrafos = soup.find_all('p')
            
            print("Scraping exitoso:")
            print(f"Título: {titulo.text if titulo else 'No encontrado'}")
            print(f"Número de encabezados: {len(encabezados)}")
            print(f"Número de párrafos: {len(parrafos)}")
            
            return True
        else:
            print(f"Error al acceder a la página: {response.status_code}")
            return False
            
    except Exception as e:
        print(f"Error en scraping: {e}")
        return False

# Ejecutar ejemplo de scraping
resultado_scraping = scraping_ejemplo()

# Ejemplo de creación de datos simulados para análisis
# (En lugar de scraping real por limitaciones del entorno)
def crear_datos_simulados_web():
    """Crear datos que simularían venir de web scraping"""
    productos = ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Auriculares']
    tiendas = ['TiendaA', 'TiendaB', 'TiendaC']
    
    datos_simulados = []
    
    for _ in range(100):
        producto = np.random.choice(productos)
        tienda = np.random.choice(tiendas)
        precio = np.random.uniform(50, 2000)
        rating = np.random.uniform(1, 5)
        stock = np.random.randint(0, 100)
        
        datos_simulados.append({
            'producto': producto,
            'tienda': tienda,
            'precio': round(precio, 2),
            'rating': round(rating, 1),
            'stock': stock,
            'fecha_scraping': pd.Timestamp.now()
        })
    
    return pd.DataFrame(datos_simulados)

# Crear datos simulados
df_scraping = crear_datos_simulados_web()
print("\nDatos simulados de web scraping:")
print(df_scraping.head())
print(f"\nTotal de productos scrapeados: {len(df_scraping)}")

# Análisis de los datos "scrapeados"
print("\nAnálisis de precios por tienda:")
precio_por_tienda = df_scraping.groupby('tienda')['precio'].agg(['mean', 'min', 'max'])
print(precio_por_tienda)

---

## 7. 🦠 Proyecto Integrador: Análisis de Datos de COVID-19

Aplicaremos todas las técnicas aprendidas en un proyecto real: análisis de datos de COVID-19.

### 📋 Objetivos del proyecto:
1. Obtener datos de COVID-19 de fuentes confiables
2. Limpiar y preparar los datos
3. Realizar análisis exploratorio
4. Crear visualizaciones informativas
5. Identificar patrones y tendencias
6. Generar insights actionables

### 📊 Carga y preparación de datos

In [None]:
# Proyecto COVID-19: Análisis de datos completo

# Como no podemos acceder a APIs externas en este entorno,
# simularemos datos realistas de COVID-19
def crear_datos_covid_simulados():
    """Crear datos realistas que simulan datos de COVID-19"""
    
    # Países para el análisis
    paises = ['España', 'Francia', 'Italia', 'Alemania', 'Reino Unido', 
              'Estados Unidos', 'Brasil', 'India', 'China', 'Japón']
    
    # Generar fechas para un año completo
    fechas = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
    
    datos_covid = []
    
    for pais in paises:
        # Simular tendencias diferentes por país
        base_casos = np.random.randint(1000, 10000)
        tendencia = np.random.uniform(-0.001, 0.001)
        
        for i, fecha in enumerate(fechas):
            # Simular variación estacional
            variacion_estacional = np.sin(2 * np.pi * i / 365) * 0.3
            
            # Casos con tendencia y ruido
            casos = int(base_casos * (1 + tendencia * i + variacion_estacional) * 
                       (1 + np.random.normal(0, 0.2)))
            casos = max(0, casos)  # No casos negativos
            
            # Muertes (aproximadamente 1-3% de casos)
            muertes = int(casos * np.random.uniform(0.01, 0.03))
            
            # Recuperados (aproximadamente 95% de casos con retraso)
            recuperados = int(casos * 0.95 * (1 + np.random.normal(0, 0.1)))
            
            # Población aproximada por país (en millones)
            poblaciones = {
                'España': 47, 'Francia': 68, 'Italia': 60, 'Alemania': 83,
                'Reino Unido': 67, 'Estados Unidos': 331, 'Brasil': 215,
                'India': 1380, 'China': 1441, 'Japón': 125
            }
            
            datos_covid.append({
                'fecha': fecha,
                'pais': pais,
                'casos_nuevos': casos,
                'muertes_nuevas': muertes,
                'recuperados_nuevos': recuperados,
                'poblacion_millones': poblaciones[pais]
            })
    
    return pd.DataFrame(datos_covid)

# Crear el dataset de COVID-19
df_covid = crear_datos_covid_simulados()

print("Dataset de COVID-19 creado:")
print(f"Período: {df_covid['fecha'].min()} a {df_covid['fecha'].max()}")
print(f"Países: {len(df_covid['pais'].unique())}")
print(f"Registros totales: {len(df_covid)}")
print("\nPrimeras filas:")
print(df_covid.head())

# Calcular métricas acumuladas
df_covid['casos_acumulados'] = df_covid.groupby('pais')['casos_nuevos'].cumsum()
df_covid['muertes_acumuladas'] = df_covid.groupby('pais')['muertes_nuevas'].cumsum()
df_covid['recuperados_acumulados'] = df_covid.groupby('pais')['recuperados_nuevos'].cumsum()

# Calcular tasas por millón de habitantes
df_covid['casos_por_millon'] = (df_covid['casos_acumulados'] / df_covid['poblacion_millones'])
df_covid['muertes_por_millon'] = (df_covid['muertes_acumuladas'] / df_covid['poblacion_millones'])

print("\nMétricas calculadas:")
print(df_covid[['pais', 'fecha', 'casos_acumulados', 'casos_por_millon']].head())

In [None]:
# Análisis exploratorio de datos COVID-19

# 1. Resumen estadístico por país
print("Resumen estadístico por país (al final del período):")
resumen_final = df_covid.groupby('pais').tail(1)[['pais', 'casos_acumulados', 
                                                  'muertes_acumuladas', 
                                                  'casos_por_millon']].set_index('pais')
resumen_final = resumen_final.sort_values('casos_acumulados', ascending=False)
print(resumen_final)

# 2. Países más afectados
print("\nTop 5 países por casos totales:")
top_casos = resumen_final.sort_values('casos_acumulados', ascending=False).head()
print(top_casos[['casos_acumulados', 'muertes_acumuladas']])

print("\nTop 5 países por casos por millón de habitantes:")
top_per_capita = resumen_final.sort_values('casos_por_millon', ascending=False).head()
print(top_per_capita[['casos_por_millon']])

# 3. Visualizaciones del proyecto

# Configurar estilo
plt.style.use('ggplot')
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gráfico 1: Evolución temporal de casos por país (países principales)
paises_principales = ['Estados Unidos', 'Brasil', 'India', 'España', 'Francia']
for pais in paises_principales:
    data_pais = df_covid[df_covid['pais'] == pais]
    axes[0, 0].plot(data_pais['fecha'], data_pais['casos_acumulados'], 
                    label=pais, linewidth=2)

axes[0, 0].set_title('Evolución de Casos Acumulados', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Fecha')
axes[0, 0].set_ylabel('Casos Acumulados')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Gráfico 2: Casos por millón al final del período
axes[0, 1].bar(range(len(top_per_capita)), top_per_capita['casos_por_millon'].values)
axes[0, 1].set_title('Casos por Millón de Habitantes', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('País')
axes[0, 1].set_ylabel('Casos por Millón')
axes[0, 1].set_xticks(range(len(top_per_capita)))
axes[0, 1].set_xticklabels(top_per_capita.index, rotation=45)

# Gráfico 3: Comparación casos nuevos vs muertes nuevas
# Promedio móvil de 7 días para suavizar
df_covid['casos_ma7'] = df_covid.groupby('pais')['casos_nuevos'].rolling(7).mean().reset_index(0, drop=True)
df_covid['muertes_ma7'] = df_covid.groupby('pais')['muertes_nuevas'].rolling(7).mean().reset_index(0, drop=True)

# Seleccionar España para el ejemplo
data_espana = df_covid[df_covid['pais'] == 'España']
axes[1, 0].plot(data_espana['fecha'], data_espana['casos_ma7'], 
                label='Casos (MA7)', color='blue', linewidth=2)
ax2 = axes[1, 0].twinx()
ax2.plot(data_espana['fecha'], data_espana['muertes_ma7'], 
         label='Muertes (MA7)', color='red', linewidth=2)

axes[1, 0].set_title('España: Casos vs Muertes (Media Móvil 7 días)', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Fecha')
axes[1, 0].set_ylabel('Casos Nuevos', color='blue')
ax2.set_ylabel('Muertes Nuevas', color='red')

# Gráfico 4: Distribución de casos por mes
df_covid['mes'] = df_covid['fecha'].dt.month
casos_por_mes = df_covid.groupby('mes')['casos_nuevos'].sum()
axes[1, 1].bar(casos_por_mes.index, casos_por_mes.values)
axes[1, 1].set_title('Distribución de Casos por Mes', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Mes')
axes[1, 1].set_ylabel('Total de Casos Nuevos')

plt.tight_layout()
plt.show()

# 4. Análisis de correlaciones
print("\n=== ANÁLISIS DE CORRELACIONES ===")
correlaciones = df_covid[['casos_nuevos', 'muertes_nuevas', 'recuperados_nuevos', 
                         'poblacion_millones']].corr()
print("Matriz de correlación:")
print(correlaciones)

# 5. Identificación de patrones estacionales
print("\n=== ANÁLISIS ESTACIONAL ===")
casos_estacionales = df_covid.groupby(['mes'])['casos_nuevos'].agg(['mean', 'std'])
print("Patrones estacionales (promedio de casos por mes):")
print(casos_estacionales)

### 📋 Insights y Conclusiones del Proyecto

Del análisis de datos COVID-19 podemos extraer varios insights importantes:

#### 🔍 Hallazgos principales:
1. **Variabilidad entre países**: Los patrones de contagio varían significativamente
2. **Tendencias estacionales**: Se observan patrones estacionales en algunos países
3. **Correlación casos-muertes**: Existe una correlación positiva pero con variaciones temporales
4. **Impacto poblacional**: Los casos por millón de habitantes ofrecen una perspectiva más equilibrada

#### 💡 Recomendaciones para análisis futuros:
- Incorporar datos de vacunación
- Analizar impacto de medidas de política pública
- Estudiar correlaciones con factores socioeconómicos
- Implementar modelos predictivos

---

## 🎯 Ejercicios Finales del Módulo

### Ejercicio 1: Análisis personalizado
Elige un subconjunto de países y realiza un análisis comparativo detallado incluyendo:
- Evolución temporal
- Tasas de mortalidad
- Patrones estacionales
- Visualizaciones personalizadas

### Ejercicio 2: Dashboard interactivo
Crea un dashboard interactivo usando Plotly que permita:
- Seleccionar países
- Filtrar por fechas
- Comparar métricas
- Mostrar tendencias

### Ejercicio 3: Análisis predictivo básico
Implementa un modelo simple para predecir:
- Tendencias futuras de casos
- Patrones estacionales
- Comparación de diferentes enfoques

---

## 🎉 ¡Felicitaciones! Has completado el Módulo 5

### 📚 Resumen de lo aprendido:

1. **✅ Fundamentos del análisis de datos**
   - Ecosistema de Python para datos
   - Flujo de trabajo típico

2. **✅ Manipulación con Pandas**
   - Series y DataFrames
   - Limpieza y transformación
   - Operaciones de agrupación

3. **✅ Análisis exploratorio (EDA)**
   - Estadísticas descriptivas
   - Visualizaciones efectivas
   - Identificación de patrones

4. **✅ Técnicas avanzadas**
   - Manejo de fechas y datos faltantes
   - Transformaciones de datos
   - Imputación inteligente

5. **✅ Visualización profesional**
   - Gráficos interactivos con Plotly
   - Dashboards informativos
   - Comunicación visual de insights

6. **✅ Extracción de datos**
   - Consumo de APIs
   - Web scraping ético
   - Integración de múltiples fuentes

7. **✅ Proyecto integrador**
   - Análisis completo de COVID-19
   - Aplicación práctica de todas las técnicas
   - Generación de insights actionables

### 🚀 Próximo módulo: Machine Learning

En el **Módulo 6** exploraremos:
- Algoritmos de aprendizaje automático
- Scikit-learn y modelos predictivos
- Evaluación y validación de modelos
- Proyectos de ML en producción

### 📖 Recursos adicionales recomendados:

- **Libros**: "Python for Data Analysis" by Wes McKinney
- **Documentación**: Pandas, Matplotlib, Plotly
- **Práctica**: Kaggle datasets y competiciones
- **Comunidad**: Stack Overflow, Reddit r/MachineLearning

¡Estás listo para el siguiente nivel! 🎯