# üìä An√°lisis de Datos con Python - M√≥dulo 5

## Bienvenido al M√≥dulo de An√°lisis de Datos

### üìö Contenido del M√≥dulo 5:
1. **Introducci√≥n al an√°lisis de datos**
2. **Manipulaci√≥n de datos con Pandas**
3. **An√°lisis exploratorio de datos (EDA)**
4. **Manipulaci√≥n avanzada de datos**
5. **Visualizaci√≥n avanzada**
6. **Extracci√≥n de datos**
7. **Proyecto: An√°lisis de datos de COVID-19**

### üéØ Objetivos de Aprendizaje:
- Dominar la manipulaci√≥n de datos con Pandas
- Realizar an√°lisis exploratorio efectivo
- Crear visualizaciones impactantes
- Extraer datos de diversas fuentes
- Aplicar t√©cnicas de an√°lisis a datos reales
- Construir dashboards interactivos

---

## 1. üìà Introducci√≥n al An√°lisis de Datos

El an√°lisis de datos es el proceso de inspeccionar, limpiar, transformar y modelar datos con el objetivo de descubrir informaci√≥n √∫til, informar conclusiones y apoyar la toma de decisiones.

### üåü ¬øPor qu√© Python para an√°lisis de datos?

Python se ha convertido en el lenguaje preferido para an√°lisis de datos por varias razones:

- **Ecosistema rico**: Pandas, NumPy, Matplotlib, Scikit-learn
- **Sintaxis clara y legible**: Facilita el desarrollo y mantenimiento
- **Comunidad activa**: Abundantes recursos y bibliotecas
- **Versatilidad**: Desde an√°lisis b√°sico hasta machine learning avanzado
- **Integraci√≥n**: Funciona bien con otras herramientas y sistemas

In [None]:
# Importar las bibliotecas principales para an√°lisis de datos
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n para visualizaciones m√°s atractivas
plt.style.use('ggplot')
sns.set(style="whitegrid")

# Mostrar versiones
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")
print(f"Matplotlib version: {plt.__version__}")
print(f"Seaborn version: {sns.__version__}")

: 

### üîÑ Flujo de trabajo t√≠pico en an√°lisis de datos

1. **Obtenci√≥n de datos**: Recolectar datos de diversas fuentes
2. **Limpieza de datos**: Manejar valores faltantes, duplicados, errores
3. **Exploraci√≥n**: An√°lisis estad√≠stico y visualizaci√≥n inicial
4. **Transformaci√≥n**: Crear nuevas variables, normalizar, agregar
5. **An√°lisis**: Aplicar t√©cnicas estad√≠sticas y modelos
6. **Visualizaci√≥n**: Crear gr√°ficos y dashboards informativos
7. **Comunicaci√≥n**: Presentar hallazgos y conclusiones

---

## 2. üêº Manipulaci√≥n de datos con Pandas

Pandas es la biblioteca m√°s importante para manipulaci√≥n y an√°lisis de datos en Python. Proporciona estructuras de datos flexibles y herramientas para trabajar con datos estructurados.

### üìã Estructuras de datos principales:

1. **Series**: Array unidimensional etiquetado
2. **DataFrame**: Tabla bidimensional con columnas potencialmente de diferentes tipos

In [None]:
# Crear una Series
s = pd.Series([1, 3, 5, 7, 9], index=['a', 'b', 'c', 'd', 'e'])
print("Series de Pandas:")
print(s)
print("\nTipo de datos:", type(s))

# Crear un DataFrame
data = {
    'Nombre': ['Ana', 'Carlos', 'Mar√≠a', 'Pedro', 'Laura'],
    'Edad': [28, 34, 29, 42, 31],
    'Ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Valencia', 'Bilbao'],
    'Puntuaci√≥n': [85, 92, 78, 96, 89]
}

df = pd.DataFrame(data)
print("\nDataFrame de Pandas:")
print(df)

# Informaci√≥n b√°sica del DataFrame
print("\nInformaci√≥n del DataFrame:")
print(df.info())

# Estad√≠sticas descriptivas
print("\nEstad√≠sticas descriptivas:")
print(df.describe())

### üì• Carga de datos desde diferentes fuentes

Pandas puede leer datos de m√∫ltiples formatos:

In [None]:
# Ejemplo de carga de datos (comentado para evitar errores)

# CSV
# df_csv = pd.read_csv('datos/ejemplo.csv')

# Excel
# df_excel = pd.read_excel('datos/ejemplo.xlsx', sheet_name='Hoja1')

# JSON
# df_json = pd.read_json('datos/ejemplo.json')

# SQL (requiere SQLAlchemy)
# from sqlalchemy import create_engine
# engine = create_engine('sqlite:///ejemplo.db')
# df_sql = pd.read_sql('SELECT * FROM tabla', engine)

# Crear un DataFrame de ejemplo para continuar
df_ventas = pd.DataFrame({
    'Fecha': pd.date_range(start='2023-01-01', periods=10),
    'Producto': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],
    'Cantidad': [10, 5, 15, 8, 12, 20, 7, 9, 14, 11],
    'Precio': [100, 200, 100, 150, 200, 100, 150, 200, 100, 150],
    'Vendedor': ['Juan', 'Mar√≠a', 'Juan', 'Pedro', 'Mar√≠a', 'Juan', 'Pedro', 'Mar√≠a', 'Juan', 'Pedro']
})

print("DataFrame de ventas:")
print(df_ventas.head())

### üßπ Limpieza y transformaci√≥n de datos

La limpieza de datos es una parte crucial del an√°lisis:

In [None]:
# Crear un DataFrame con problemas comunes
df_sucio = pd.DataFrame({
    'A': [1, 2, np.nan, 4, 5],
    'B': [5, 6, 7, np.nan, 9],
    'C': ['a', 'b', 'c', 'd', np.nan]
})

print("DataFrame con valores faltantes:")
print(df_sucio)

# Detectar valores faltantes
print("\nValores faltantes por columna:")
print(df_sucio.isna().sum())

# Rellenar valores faltantes
df_limpio1 = df_sucio.fillna({'A': 0, 'B': 0, 'C': 'desconocido'})
print("\nDataFrame con valores faltantes rellenados:")
print(df_limpio1)

# Eliminar filas con valores faltantes
df_limpio2 = df_sucio.dropna()
print("\nDataFrame con filas con valores faltantes eliminadas:")
print(df_limpio2)

### üîç Filtrado y selecci√≥n de datos

Pandas ofrece m√∫ltiples formas de seleccionar y filtrar datos:

In [None]:
# Volvemos al DataFrame de ventas
print("DataFrame de ventas:")
print(df_ventas)

# Selecci√≥n de columnas
print("\nSelecci√≥n de columnas:")
print(df_ventas[['Producto', 'Cantidad']])

# Filtrado con condiciones
print("\nVentas del producto A:")
print(df_ventas[df_ventas['Producto'] == 'A'])

# Filtrado con m√∫ltiples condiciones
print("\nVentas del producto A con cantidad > 10:")
print(df_ventas[(df_ventas['Producto'] == 'A') & (df_ventas['Cantidad'] > 10)])

# Selecci√≥n por √≠ndice con .loc
print("\nSelecci√≥n por √≠ndice con .loc:")
print(df_ventas.loc[2:4, ['Fecha', 'Producto', 'Cantidad']])

# Selecci√≥n por posici√≥n con .iloc
print("\nSelecci√≥n por posici√≥n con .iloc:")
print(df_ventas.iloc[2:5, 0:3])

### üìä Operaciones de agrupaci√≥n y agregaci√≥n

Las operaciones de agrupaci√≥n permiten realizar an√°lisis por categor√≠as:

In [None]:
# Calcular total de ventas
df_ventas['Total'] = df_ventas['Cantidad'] * df_ventas['Precio']

# Agrupar por producto
print("Ventas por producto:")
ventas_por_producto = df_ventas.groupby('Producto').agg({
    'Cantidad': 'sum',
    'Total': 'sum'
})
print(ventas_por_producto)

# Agrupar por vendedor
print("\nVentas por vendedor:")
ventas_por_vendedor = df_ventas.groupby('Vendedor').agg({
    'Cantidad': 'sum',
    'Total': 'sum'
})
print(ventas_por_vendedor)

# M√∫ltiples niveles de agrupaci√≥n
print("\nVentas por vendedor y producto:")
ventas_detalladas = df_ventas.groupby(['Vendedor', 'Producto']).agg({
    'Cantidad': 'sum',
    'Total': 'sum'
})
print(ventas_detalladas)

### üéØ Ejercicio Pr√°ctico 1: An√°lisis de ventas

Utilizando el DataFrame de ventas, realiza las siguientes tareas:

1. Calcula el promedio de ventas por d√≠a
2. Encuentra el producto m√°s vendido
3. Identifica al vendedor con mayor ingreso total
4. Crea una nueva columna 'Mes' y agrupa las ventas por mes

In [None]:
# Tu c√≥digo aqu√≠

# 1. Promedio de ventas por d√≠a

# 2. Producto m√°s vendido

# 3. Vendedor con mayor ingreso

# 4. Ventas por mes

---

## 3. üîç An√°lisis Exploratorio de Datos (EDA)

El An√°lisis Exploratorio de Datos (EDA) es un enfoque para analizar conjuntos de datos con el fin de resumir sus caracter√≠sticas principales, a menudo utilizando m√©todos visuales.

### üìä Estad√≠sticas descriptivas

Las estad√≠sticas descriptivas nos ayudan a entender la distribuci√≥n y caracter√≠sticas de nuestros datos:

In [None]:
# Crear un DataFrame con datos m√°s complejos para EDA
np.random.seed(42)
n = 1000

df_eda = pd.DataFrame({
    'edad': np.random.normal(35, 10, n).astype(int),
    'ingreso': np.random.lognormal(10, 0.5, n).astype(int),
    'gastos': np.random.lognormal(9, 0.4, n).astype(int),
    'score_credito': np.random.normal(700, 100, n).clip(300, 850).astype(int),
    'genero': np.random.choice(['M', 'F'], n),
    'educacion': np.random.choice(['Primaria', 'Secundaria', 'Universidad', 'Posgrado'], n,
                                 p=[0.1, 0.3, 0.4, 0.2]),
    'region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste', 'Centro'], n)
})

# A√±adir algunas variables derivadas
df_eda['ahorro'] = df_eda['ingreso'] - df_eda['gastos']
df_eda['ratio_gasto'] = df_eda['gastos'] / df_eda['ingreso']

# Mostrar las primeras filas
print("DataFrame para EDA:")
print(df_eda.head())

# Estad√≠sticas descriptivas
print("\nEstad√≠sticas descriptivas:")
print(df_eda.describe())

# Informaci√≥n sobre variables categ√≥ricas
print("\nDistribuci√≥n de g√©nero:")
print(df_eda['genero'].value_counts())

print("\nDistribuci√≥n de educaci√≥n:")
print(df_eda['educacion'].value_counts())

### üìà Visualizaci√≥n con Matplotlib y Seaborn

La visualizaci√≥n es clave para entender patrones en los datos:

In [None]:
# Configuraci√≥n para visualizaciones m√°s atractivas
plt.style.use('ggplot')
sns.set(style="whitegrid")

# Crear una figura con m√∫ltiples subplots
fig, axes = plt.subplots(2, 2, figsize=(14, 10))

# Histograma de edad
sns.histplot(df_eda['edad'], kde=True, ax=axes[0, 0])
axes[0, 0].set_title('Distribuci√≥n de Edad')

# Histograma de ingresos
sns.histplot(df_eda['ingreso'], kde=True, ax=axes[0, 1])
axes[0, 1].set_title('Distribuci√≥n de Ingresos')

# Gr√°fico de barras para educaci√≥n
sns.countplot(x='educacion', data=df_eda, ax=axes[1, 0])
axes[1, 0].set_title('Nivel Educativo')
axes[1, 0].set_xticklabels(axes[1, 0].get_xticklabels(), rotation=45)

# Gr√°fico de barras para regi√≥n
sns.countplot(x='region', data=df_eda, ax=axes[1, 1])
axes[1, 1].set_title('Distribuci√≥n por Regi√≥n')

plt.tight_layout()
plt.show()

In [None]:
# Relaciones entre variables
fig, axes = plt.subplots(1, 3, figsize=(18, 5))

# Scatter plot: Ingreso vs Gastos
sns.scatterplot(x='ingreso', y='gastos', hue='genero', data=df_eda, ax=axes[0])
axes[0].set_title('Ingreso vs Gastos')

# Box plot: Score de cr√©dito por nivel educativo
sns.boxplot(x='educacion', y='score_credito', data=df_eda, ax=axes[1])
axes[1].set_title('Score de Cr√©dito por Nivel Educativo')
axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=45)

# Violin plot: Ahorro por g√©nero
sns.violinplot(x='genero', y='ahorro', data=df_eda, ax=axes[2])
axes[2].set_title('Distribuci√≥n de Ahorro por G√©nero')

plt.tight_layout()
plt.show()

### üîÑ Correlaciones y patrones

Analizar correlaciones nos ayuda a identificar relaciones entre variables:

In [None]:
# Calcular matriz de correlaci√≥n
corr_matrix = df_eda.select_dtypes(include=[np.number]).corr()

# Visualizar matriz de correlaci√≥n
plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', vmin=-1, vmax=1, fmt='.2f')
plt.title('Matriz de Correlaci√≥n')
plt.show()

# Pairplot para visualizar relaciones entre m√∫ltiples variables
sns.pairplot(df_eda[['edad', 'ingreso', 'gastos', 'score_credito', 'genero']], hue='genero')
plt.suptitle('Relaciones entre Variables Num√©ricas por G√©nero', y=1.02)
plt.show()

### üéØ Ejercicio Pr√°ctico 2: An√°lisis Exploratorio

Utilizando el DataFrame `df_eda`, realiza las siguientes tareas:

1. Identifica las variables con mayor correlaci√≥n
2. Crea un gr√°fico que muestre la relaci√≥n entre educaci√≥n, ingreso y ahorro
3. Analiza si hay diferencias significativas en el ratio de gasto por regi√≥n
4. Identifica posibles valores at√≠picos en el score de cr√©dito

In [None]:
# Tu c√≥digo aqu√≠

# 1. Variables con mayor correlaci√≥n

# 2. Relaci√≥n entre educaci√≥n, ingreso y ahorro

# 3. Ratio de gasto por regi√≥n

# 4. Valores at√≠picos en score de cr√©dito

---

## 4. üîß Manipulaci√≥n Avanzada de Datos

Esta secci√≥n cubre t√©cnicas avanzadas para manipular y transformar datos, incluyendo operaciones con fechas, manejo de datos faltantes, y transformaciones complejas.

### üìÖ Trabajando con fechas y horas

Las fechas son un tipo de dato crucial en el an√°lisis de datos. Pandas proporciona herramientas poderosas para trabajar con ellas:

In [None]:
# Trabajando con fechas y horas
from datetime import datetime, timedelta
import pandas as pd

# Crear un rango de fechas
fechas = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
print(f"Generadas {len(fechas)} fechas desde enero hasta diciembre 2023")

# Crear un DataFrame con datos de series temporales
df_tiempo = pd.DataFrame({
    'fecha': pd.date_range(start='2023-01-01', periods=365, freq='D'),
    'ventas': np.random.normal(1000, 200, 365),
    'temperatura': np.random.normal(20, 10, 365)
})

# Establecer fecha como √≠ndice
df_tiempo.set_index('fecha', inplace=True)
print("\nDataFrame con √≠ndice de fecha:")
print(df_tiempo.head())

# Extraer componentes de fecha
df_tiempo['a√±o'] = df_tiempo.index.year
df_tiempo['mes'] = df_tiempo.index.month
df_tiempo['d√≠a_semana'] = df_tiempo.index.dayofweek
df_tiempo['nombre_mes'] = df_tiempo.index.month_name()

print("\nComponentes de fecha extra√≠dos:")
print(df_tiempo[['a√±o', 'mes', 'd√≠a_semana', 'nombre_mes']].head())

# Resample: agregar datos por periodo
ventas_mensuales = df_tiempo['ventas'].resample('M').agg(['sum', 'mean', 'std'])
print("\nVentas agregadas por mes:")
print(ventas_mensuales.head())

### üï≥Ô∏è Estrategias avanzadas para datos faltantes

El manejo de datos faltantes es crucial para obtener resultados confiables en el an√°lisis de datos:

In [None]:
# Crear un DataFrame con patrones de datos faltantes
np.random.seed(42)
df_faltantes = pd.DataFrame({
    'A': np.random.randn(1000),
    'B': np.random.randn(1000),
    'C': np.random.randn(1000),
    'categoria': np.random.choice(['X', 'Y', 'Z'], 1000)
})

# Introducir valores faltantes de manera realista
missing_mask_A = np.random.random(1000) < 0.1  # 10% faltantes
missing_mask_B = np.random.random(1000) < 0.05  # 5% faltantes
missing_mask_C = (df_faltantes['A'] > 2) | (np.random.random(1000) < 0.03)  # Faltantes no aleatorios

df_faltantes.loc[missing_mask_A, 'A'] = np.nan
df_faltantes.loc[missing_mask_B, 'B'] = np.nan
df_faltantes.loc[missing_mask_C, 'C'] = np.nan

print("Patrones de datos faltantes:")
print(df_faltantes.isna().sum())
print(f"\nTotal de filas: {len(df_faltantes)}")
print(f"Filas sin valores faltantes: {len(df_faltantes.dropna())}")

# An√°lisis de patrones de datos faltantes
import missingno as msno
print("\nPatr√≥n de valores faltantes (usando missingno):")
# msno.matrix(df_faltantes)  # Comentado para evitar problemas de visualizaci√≥n

# Estrategias de imputaci√≥n
from sklearn.impute import SimpleImputer, KNNImputer

# 1. Imputaci√≥n por media/mediana
imputer_mean = SimpleImputer(strategy='mean')
df_mean = df_faltantes.copy()
df_mean[['A', 'B', 'C']] = imputer_mean.fit_transform(df_faltantes[['A', 'B', 'C']])

# 2. Imputaci√≥n por KNN
imputer_knn = KNNImputer(n_neighbors=5)
df_knn = df_faltantes.copy()
df_knn[['A', 'B', 'C']] = imputer_knn.fit_transform(df_faltantes[['A', 'B', 'C']])

# 3. Imputaci√≥n por grupo
df_group = df_faltantes.copy()
df_group['A'] = df_group.groupby('categoria')['A'].transform(lambda x: x.fillna(x.mean()))
df_group['B'] = df_group.groupby('categoria')['B'].transform(lambda x: x.fillna(x.median()))

print("\nComparaci√≥n de estrategias de imputaci√≥n:")
print(f"Original - Media A: {df_faltantes['A'].mean():.3f}")
print(f"Imputaci√≥n media - Media A: {df_mean['A'].mean():.3f}")
print(f"Imputaci√≥n KNN - Media A: {df_knn['A'].mean():.3f}")
print(f"Imputaci√≥n por grupo - Media A: {df_group['A'].mean():.3f}")

### üîÑ Transformaciones de datos

Las transformaciones de datos nos permiten preparar los datos para an√°lisis espec√≠ficos:

In [None]:
# Transformaciones comunes en an√°lisis de datos
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder

# Crear datos para transformaciones
df_transform = pd.DataFrame({
    'valor': [1, 100, 1000, 10000, 100000],
    'score': [0.1, 0.5, 0.8, 0.9, 0.95],
    'categoria': ['bajo', 'medio', 'alto', 'muy_alto', 'excelente'],
    'precio': [10.5, 25.0, 45.2, 78.9, 150.0]
})

print("Datos originales:")
print(df_transform)

# 1. Transformaci√≥n logar√≠tmica
df_transform['log_valor'] = np.log1p(df_transform['valor'])  # log(1+x) para evitar log(0)

# 2. Normalizaci√≥n (Min-Max scaling)
scaler_minmax = MinMaxScaler()
df_transform['precio_norm'] = scaler_minmax.fit_transform(df_transform[['precio']])

# 3. Estandarizaci√≥n (Z-score)
scaler_standard = StandardScaler()
df_transform['precio_std'] = scaler_standard.fit_transform(df_transform[['precio']])

# 4. Codificaci√≥n de variables categ√≥ricas
# One-hot encoding
categorias_dummy = pd.get_dummies(df_transform['categoria'], prefix='cat')
df_transform = pd.concat([df_transform, categorias_dummy], axis=1)

# Label encoding
label_encoder = LabelEncoder()
df_transform['categoria_encoded'] = label_encoder.fit_transform(df_transform['categoria'])

print("\nDatos despu√©s de transformaciones:")
print(df_transform)

# 5. Binning (discretizaci√≥n)
df_transform['precio_bins'] = pd.cut(df_transform['precio'], 
                                   bins=3, 
                                   labels=['Bajo', 'Medio', 'Alto'])

print("\nBinning de precios:")
print(df_transform[['precio', 'precio_bins']])

# 6. Transformaci√≥n de ranking
df_transform['precio_rank'] = df_transform['precio'].rank(method='dense')

print("\nRanking de precios:")
print(df_transform[['precio', 'precio_rank']])

---

## 5. üìä Visualizaci√≥n Avanzada

La visualizaci√≥n efectiva es clave para comunicar insights de datos. Exploraremos t√©cnicas avanzadas con Plotly y visualizaciones interactivas.

### üé® Visualizaciones interactivas con Plotly

In [None]:
# Visualizaciones avanzadas con Plotly
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Crear datos m√°s complejos para visualizaci√≥n
np.random.seed(42)
n = 500

df_viz = pd.DataFrame({
    'x': np.random.normal(0, 1, n),
    'y': np.random.normal(0, 1, n),
    'z': np.random.normal(0, 1, n),
    'categoria': np.random.choice(['A', 'B', 'C', 'D'], n),
    'tama√±o': np.random.uniform(10, 100, n),
    'fecha': pd.date_range('2023-01-01', periods=n, freq='D'),
    'valor': np.random.exponential(2, n)
})

# 1. Scatter plot interactivo con m√∫ltiples dimensiones
fig1 = px.scatter(df_viz, 
                  x='x', 
                  y='y', 
                  color='categoria',
                  size='tama√±o',
                  hover_data=['z', 'valor'],
                  title='Scatter Plot Multidimensional Interactivo')
fig1.show()

# 2. Gr√°fico de series temporales interactivo
df_time_agg = df_viz.groupby(['fecha', 'categoria'])['valor'].sum().reset_index()

fig2 = px.line(df_time_agg, 
               x='fecha', 
               y='valor', 
               color='categoria',
               title='Series Temporales por Categor√≠a')
fig2.show()

# 3. Histograma con distribuciones superpuestas
fig3 = px.histogram(df_viz, 
                    x='valor', 
                    color='categoria',
                    marginal='box',  # A√±adir boxplot en el margen
                    title='Distribuci√≥n de Valores por Categor√≠a')
fig3.show()

# 4. Gr√°fico 3D
fig4 = px.scatter_3d(df_viz, 
                     x='x', 
                     y='y', 
                     z='z',
                     color='categoria',
                     size='tama√±o',
                     title='Visualizaci√≥n 3D')
fig4.show()

print("Visualizaciones interactivas creadas con Plotly")

---

## 6. üåê Extracci√≥n de Datos

En el mundo real, los datos provienen de m√∫ltiples fuentes. Aprenderemos a extraer datos de APIs, p√°ginas web y bases de datos.

### üîó Consumo de APIs

In [None]:
# Extracci√≥n de datos de APIs
import requests
import json

# Ejemplo con API p√∫blica (JSONPlaceholder)
def obtener_datos_api():
    """Funci√≥n para obtener datos de una API p√∫blica"""
    try:
        # API de ejemplo que no requiere autenticaci√≥n
        url = "https://jsonplaceholder.typicode.com/posts"
        response = requests.get(url)
        
        if response.status_code == 200:
            datos = response.json()
            df_api = pd.DataFrame(datos)
            return df_api
        else:
            print(f"Error en la API: {response.status_code}")
            return None
    except Exception as e:
        print(f"Error al conectar con la API: {e}")
        return None

# Intentar obtener datos de la API
df_posts = obtener_datos_api()

if df_posts is not None:
    print("Datos obtenidos de la API:")
    print(df_posts.head())
    print(f"\nTotal de posts: {len(df_posts)}")
    print(f"Columnas: {df_posts.columns.tolist()}")
else:
    print("No se pudieron obtener datos de la API")

# Ejemplo de an√°lisis b√°sico de los datos de la API
if df_posts is not None:
    # An√°lisis de longitud de t√≠tulos
    df_posts['titulo_longitud'] = df_posts['title'].str.len()
    df_posts['body_longitud'] = df_posts['body'].str.len()
    
    print("\nEstad√≠sticas de longitud:")
    print(df_posts[['titulo_longitud', 'body_longitud']].describe())
    
    # Usuarios m√°s activos
    usuarios_activos = df_posts['userId'].value_counts().head()
    print("\nUsuarios m√°s activos:")
    print(usuarios_activos)

### üï∏Ô∏è Web Scraping con BeautifulSoup

El web scraping nos permite extraer datos de p√°ginas web. Es importante hacerlo de manera √©tica y respetando los t√©rminos de servicio:

In [None]:
# Web Scraping con BeautifulSoup
from bs4 import BeautifulSoup
import requests
import time

# Funci√≥n para scraping √©tico
def scraping_ejemplo():
    """
    Ejemplo de web scraping b√°sico
    Nota: Siempre revisar robots.txt y t√©rminos de servicio
    """
    try:
        # URL de ejemplo (sitio que permite scraping)
        url = "https://httpbin.org/html"
        
        # Hacer la petici√≥n con headers apropiados
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
        }
        
        response = requests.get(url, headers=headers)
        
        if response.status_code == 200:
            soup = BeautifulSoup(response.content, 'html.parser')
            
            # Extraer informaci√≥n
            titulo = soup.find('title')
            encabezados = soup.find_all(['h1', 'h2', 'h3'])
            parrafos = soup.find_all('p')
            
            print("Scraping exitoso:")
            print(f"T√≠tulo: {titulo.text if titulo else 'No encontrado'}")
            print(f"N√∫mero de encabezados: {len(encabezados)}")
            print(f"N√∫mero de p√°rrafos: {len(parrafos)}")
            
            return True
        else:
            print(f"Error al acceder a la p√°gina: {response.status_code}")
            return False
            
    except Exception as e:
        print(f"Error en scraping: {e}")
        return False

# Ejecutar ejemplo de scraping
resultado_scraping = scraping_ejemplo()

# Ejemplo de creaci√≥n de datos simulados para an√°lisis
# (En lugar de scraping real por limitaciones del entorno)
def crear_datos_simulados_web():
    """Crear datos que simular√≠an venir de web scraping"""
    productos = ['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Auriculares']
    tiendas = ['TiendaA', 'TiendaB', 'TiendaC']
    
    datos_simulados = []
    
    for _ in range(100):
        producto = np.random.choice(productos)
        tienda = np.random.choice(tiendas)
        precio = np.random.uniform(50, 2000)
        rating = np.random.uniform(1, 5)
        stock = np.random.randint(0, 100)
        
        datos_simulados.append({
            'producto': producto,
            'tienda': tienda,
            'precio': round(precio, 2),
            'rating': round(rating, 1),
            'stock': stock,
            'fecha_scraping': pd.Timestamp.now()
        })
    
    return pd.DataFrame(datos_simulados)

# Crear datos simulados
df_scraping = crear_datos_simulados_web()
print("\nDatos simulados de web scraping:")
print(df_scraping.head())
print(f"\nTotal de productos scrapeados: {len(df_scraping)}")

# An√°lisis de los datos "scrapeados"
print("\nAn√°lisis de precios por tienda:")
precio_por_tienda = df_scraping.groupby('tienda')['precio'].agg(['mean', 'min', 'max'])
print(precio_por_tienda)

---

## 7. ü¶† Proyecto Integrador: An√°lisis de Datos de COVID-19

Aplicaremos todas las t√©cnicas aprendidas en un proyecto real: an√°lisis de datos de COVID-19.

### üìã Objetivos del proyecto:
1. Obtener datos de COVID-19 de fuentes confiables
2. Limpiar y preparar los datos
3. Realizar an√°lisis exploratorio
4. Crear visualizaciones informativas
5. Identificar patrones y tendencias
6. Generar insights actionables

### üìä Carga y preparaci√≥n de datos

In [None]:
# Proyecto COVID-19: An√°lisis de datos completo

# Como no podemos acceder a APIs externas en este entorno,
# simularemos datos realistas de COVID-19
def crear_datos_covid_simulados():
    """Crear datos realistas que simulan datos de COVID-19"""
    
    # Pa√≠ses para el an√°lisis
    paises = ['Espa√±a', 'Francia', 'Italia', 'Alemania', 'Reino Unido', 
              'Estados Unidos', 'Brasil', 'India', 'China', 'Jap√≥n']
    
    # Generar fechas para un a√±o completo
    fechas = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
    
    datos_covid = []
    
    for pais in paises:
        # Simular tendencias diferentes por pa√≠s
        base_casos = np.random.randint(1000, 10000)
        tendencia = np.random.uniform(-0.001, 0.001)
        
        for i, fecha in enumerate(fechas):
            # Simular variaci√≥n estacional
            variacion_estacional = np.sin(2 * np.pi * i / 365) * 0.3
            
            # Casos con tendencia y ruido
            casos = int(base_casos * (1 + tendencia * i + variacion_estacional) * 
                       (1 + np.random.normal(0, 0.2)))
            casos = max(0, casos)  # No casos negativos
            
            # Muertes (aproximadamente 1-3% de casos)
            muertes = int(casos * np.random.uniform(0.01, 0.03))
            
            # Recuperados (aproximadamente 95% de casos con retraso)
            recuperados = int(casos * 0.95 * (1 + np.random.normal(0, 0.1)))
            
            # Poblaci√≥n aproximada por pa√≠s (en millones)
            poblaciones = {
                'Espa√±a': 47, 'Francia': 68, 'Italia': 60, 'Alemania': 83,
                'Reino Unido': 67, 'Estados Unidos': 331, 'Brasil': 215,
                'India': 1380, 'China': 1441, 'Jap√≥n': 125
            }
            
            datos_covid.append({
                'fecha': fecha,
                'pais': pais,
                'casos_nuevos': casos,
                'muertes_nuevas': muertes,
                'recuperados_nuevos': recuperados,
                'poblacion_millones': poblaciones[pais]
            })
    
    return pd.DataFrame(datos_covid)

# Crear el dataset de COVID-19
df_covid = crear_datos_covid_simulados()

print("Dataset de COVID-19 creado:")
print(f"Per√≠odo: {df_covid['fecha'].min()} a {df_covid['fecha'].max()}")
print(f"Pa√≠ses: {len(df_covid['pais'].unique())}")
print(f"Registros totales: {len(df_covid)}")
print("\nPrimeras filas:")
print(df_covid.head())

# Calcular m√©tricas acumuladas
df_covid['casos_acumulados'] = df_covid.groupby('pais')['casos_nuevos'].cumsum()
df_covid['muertes_acumuladas'] = df_covid.groupby('pais')['muertes_nuevas'].cumsum()
df_covid['recuperados_acumulados'] = df_covid.groupby('pais')['recuperados_nuevos'].cumsum()

# Calcular tasas por mill√≥n de habitantes
df_covid['casos_por_millon'] = (df_covid['casos_acumulados'] / df_covid['poblacion_millones'])
df_covid['muertes_por_millon'] = (df_covid['muertes_acumuladas'] / df_covid['poblacion_millones'])

print("\nM√©tricas calculadas:")
print(df_covid[['pais', 'fecha', 'casos_acumulados', 'casos_por_millon']].head())

In [None]:
# An√°lisis exploratorio de datos COVID-19

# 1. Resumen estad√≠stico por pa√≠s
print("Resumen estad√≠stico por pa√≠s (al final del per√≠odo):")
resumen_final = df_covid.groupby('pais').tail(1)[['pais', 'casos_acumulados', 
                                                  'muertes_acumuladas', 
                                                  'casos_por_millon']].set_index('pais')
resumen_final = resumen_final.sort_values('casos_acumulados', ascending=False)
print(resumen_final)

# 2. Pa√≠ses m√°s afectados
print("\nTop 5 pa√≠ses por casos totales:")
top_casos = resumen_final.sort_values('casos_acumulados', ascending=False).head()
print(top_casos[['casos_acumulados', 'muertes_acumuladas']])

print("\nTop 5 pa√≠ses por casos por mill√≥n de habitantes:")
top_per_capita = resumen_final.sort_values('casos_por_millon', ascending=False).head()
print(top_per_capita[['casos_por_millon']])

# 3. Visualizaciones del proyecto

# Configurar estilo
plt.style.use('ggplot')
fig, axes = plt.subplots(2, 2, figsize=(16, 12))

# Gr√°fico 1: Evoluci√≥n temporal de casos por pa√≠s (pa√≠ses principales)
paises_principales = ['Estados Unidos', 'Brasil', 'India', 'Espa√±a', 'Francia']
for pais in paises_principales:
    data_pais = df_covid[df_covid['pais'] == pais]
    axes[0, 0].plot(data_pais['fecha'], data_pais['casos_acumulados'], 
                    label=pais, linewidth=2)

axes[0, 0].set_title('Evoluci√≥n de Casos Acumulados', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Fecha')
axes[0, 0].set_ylabel('Casos Acumulados')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Gr√°fico 2: Casos por mill√≥n al final del per√≠odo
axes[0, 1].bar(range(len(top_per_capita)), top_per_capita['casos_por_millon'].values)
axes[0, 1].set_title('Casos por Mill√≥n de Habitantes', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Pa√≠s')
axes[0, 1].set_ylabel('Casos por Mill√≥n')
axes[0, 1].set_xticks(range(len(top_per_capita)))
axes[0, 1].set_xticklabels(top_per_capita.index, rotation=45)

# Gr√°fico 3: Comparaci√≥n casos nuevos vs muertes nuevas
# Promedio m√≥vil de 7 d√≠as para suavizar
df_covid['casos_ma7'] = df_covid.groupby('pais')['casos_nuevos'].rolling(7).mean().reset_index(0, drop=True)
df_covid['muertes_ma7'] = df_covid.groupby('pais')['muertes_nuevas'].rolling(7).mean().reset_index(0, drop=True)

# Seleccionar Espa√±a para el ejemplo
data_espana = df_covid[df_covid['pais'] == 'Espa√±a']
axes[1, 0].plot(data_espana['fecha'], data_espana['casos_ma7'], 
                label='Casos (MA7)', color='blue', linewidth=2)
ax2 = axes[1, 0].twinx()
ax2.plot(data_espana['fecha'], data_espana['muertes_ma7'], 
         label='Muertes (MA7)', color='red', linewidth=2)

axes[1, 0].set_title('Espa√±a: Casos vs Muertes (Media M√≥vil 7 d√≠as)', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Fecha')
axes[1, 0].set_ylabel('Casos Nuevos', color='blue')
ax2.set_ylabel('Muertes Nuevas', color='red')

# Gr√°fico 4: Distribuci√≥n de casos por mes
df_covid['mes'] = df_covid['fecha'].dt.month
casos_por_mes = df_covid.groupby('mes')['casos_nuevos'].sum()
axes[1, 1].bar(casos_por_mes.index, casos_por_mes.values)
axes[1, 1].set_title('Distribuci√≥n de Casos por Mes', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Mes')
axes[1, 1].set_ylabel('Total de Casos Nuevos')

plt.tight_layout()
plt.show()

# 4. An√°lisis de correlaciones
print("\n=== AN√ÅLISIS DE CORRELACIONES ===")
correlaciones = df_covid[['casos_nuevos', 'muertes_nuevas', 'recuperados_nuevos', 
                         'poblacion_millones']].corr()
print("Matriz de correlaci√≥n:")
print(correlaciones)

# 5. Identificaci√≥n de patrones estacionales
print("\n=== AN√ÅLISIS ESTACIONAL ===")
casos_estacionales = df_covid.groupby(['mes'])['casos_nuevos'].agg(['mean', 'std'])
print("Patrones estacionales (promedio de casos por mes):")
print(casos_estacionales)

### üìã Insights y Conclusiones del Proyecto

Del an√°lisis de datos COVID-19 podemos extraer varios insights importantes:

#### üîç Hallazgos principales:
1. **Variabilidad entre pa√≠ses**: Los patrones de contagio var√≠an significativamente
2. **Tendencias estacionales**: Se observan patrones estacionales en algunos pa√≠ses
3. **Correlaci√≥n casos-muertes**: Existe una correlaci√≥n positiva pero con variaciones temporales
4. **Impacto poblacional**: Los casos por mill√≥n de habitantes ofrecen una perspectiva m√°s equilibrada

#### üí° Recomendaciones para an√°lisis futuros:
- Incorporar datos de vacunaci√≥n
- Analizar impacto de medidas de pol√≠tica p√∫blica
- Estudiar correlaciones con factores socioecon√≥micos
- Implementar modelos predictivos

---

## üéØ Ejercicios Finales del M√≥dulo

### Ejercicio 1: An√°lisis personalizado
Elige un subconjunto de pa√≠ses y realiza un an√°lisis comparativo detallado incluyendo:
- Evoluci√≥n temporal
- Tasas de mortalidad
- Patrones estacionales
- Visualizaciones personalizadas

### Ejercicio 2: Dashboard interactivo
Crea un dashboard interactivo usando Plotly que permita:
- Seleccionar pa√≠ses
- Filtrar por fechas
- Comparar m√©tricas
- Mostrar tendencias

### Ejercicio 3: An√°lisis predictivo b√°sico
Implementa un modelo simple para predecir:
- Tendencias futuras de casos
- Patrones estacionales
- Comparaci√≥n de diferentes enfoques

---

## üéâ ¬°Felicitaciones! Has completado el M√≥dulo 5

### üìö Resumen de lo aprendido:

1. **‚úÖ Fundamentos del an√°lisis de datos**
   - Ecosistema de Python para datos
   - Flujo de trabajo t√≠pico

2. **‚úÖ Manipulaci√≥n con Pandas**
   - Series y DataFrames
   - Limpieza y transformaci√≥n
   - Operaciones de agrupaci√≥n

3. **‚úÖ An√°lisis exploratorio (EDA)**
   - Estad√≠sticas descriptivas
   - Visualizaciones efectivas
   - Identificaci√≥n de patrones

4. **‚úÖ T√©cnicas avanzadas**
   - Manejo de fechas y datos faltantes
   - Transformaciones de datos
   - Imputaci√≥n inteligente

5. **‚úÖ Visualizaci√≥n profesional**
   - Gr√°ficos interactivos con Plotly
   - Dashboards informativos
   - Comunicaci√≥n visual de insights

6. **‚úÖ Extracci√≥n de datos**
   - Consumo de APIs
   - Web scraping √©tico
   - Integraci√≥n de m√∫ltiples fuentes

7. **‚úÖ Proyecto integrador**
   - An√°lisis completo de COVID-19
   - Aplicaci√≥n pr√°ctica de todas las t√©cnicas
   - Generaci√≥n de insights actionables

### üöÄ Pr√≥ximo m√≥dulo: Machine Learning

En el **M√≥dulo 6** exploraremos:
- Algoritmos de aprendizaje autom√°tico
- Scikit-learn y modelos predictivos
- Evaluaci√≥n y validaci√≥n de modelos
- Proyectos de ML en producci√≥n

### üìñ Recursos adicionales recomendados:

- **Libros**: "Python for Data Analysis" by Wes McKinney
- **Documentaci√≥n**: Pandas, Matplotlib, Plotly
- **Pr√°ctica**: Kaggle datasets y competiciones
- **Comunidad**: Stack Overflow, Reddit r/MachineLearning

¬°Est√°s listo para el siguiente nivel! üéØ