# 📊 Taller: Análisis de Datos Completo

Este notebook guía a los estudiantes a practicar **todo el flujo de análisis de datos**:
- Obtención de datos (3 formas)
- Exploración
- Limpieza
- Análisis Exploratorio de Datos (EDA)
- Visualización
- Mini-modelado

👉 Cada estudiante puede elegir **su dataset** y el **método de obtención**.


## 1. Importar librerías necesarias

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import sqlite3


## 2. Obtención de datos
Elige uno de estos métodos para cargar tu dataset:
- **Datos sintéticos**
- **Desde la web (CSV)**
- **Desde base de datos (SQLite)**


In [None]:
# 🔹 Opción 1: Crear datos sintéticos
np.random.seed(42)
synthetic = pd.DataFrame({
    'Edad': np.random.randint(18, 60, 20),
    'Ingresos': np.random.randint(1000, 5000, 20),
    'Compras': np.random.randint(1, 10, 20)
})
synthetic.head()

In [None]:
# 🔹 Opción 2: Cargar dataset desde la web (ejemplo: Titanic)
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
titanic = pd.read_csv(url)
titanic.head()

In [None]:
# 🔹 Opción 3: Cargar dataset desde base de datos SQLite
conn = sqlite3.connect(":memory:")
synthetic.to_sql("ventas", conn, index=False)
df_sql = pd.read_sql("SELECT * FROM ventas", conn)
df_sql.head()

## 3. Exploración de datos

In [None]:
# Reemplaza 'df' por el dataset que hayas elegido: synthetic, titanic o df_sql
df = titanic  # 👈 Cambia aquí

df.head()
df.info()
df.describe()

## 4. Limpieza de datos

In [None]:
# Revisar valores nulos
df.isnull().sum()

# Eliminar duplicados
df = df.drop_duplicates()

# Rellenar nulos numéricos con la media
df = df.fillna(df.mean(numeric_only=True))
df.info()

## 5. Análisis Exploratorio de Datos (EDA): Varianza, Covarianza y Correlación

In [None]:
# Varianza
print("Varianzas:\n", df.var(numeric_only=True))

# Covarianza
print("\nCovarianzas:\n", df.cov(numeric_only=True))

# Correlación
print("\nCorrelaciones:\n", df.corr(numeric_only=True))

## 6. Visualización de datos

In [None]:
plt.figure(figsize=(8,6))
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap="coolwarm")
plt.title("Mapa de correlación entre variables")
plt.show()

# Otro gráfico ejemplo
sns.histplot(data=df, x=df.select_dtypes('number').columns[0], kde=True)
plt.show()

## 7. Mini-modelado de datos (ejemplo básico con Titanic)
👉 Si tu dataset no tiene variable objetivo, puedes saltar este paso.

In [None]:
# Ejemplo: Regresión logística en Titanic
if 'Survived' in df.columns:
    X = df[['Pclass','Age','Fare']].fillna(0)
    y = df['Survived']
    
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)
    model = LogisticRegression(max_iter=200)
    model.fit(X_train, y_train)
    preds = model.predict(X_test)
    print("Precisión:", accuracy_score(y_test, preds))
else:
    print("Este dataset no tiene una columna objetivo clara para modelar.")

## 8. Conclusiones y reflexiones
- ¿Qué aprendiste del dataset?
- ¿Qué variable tuvo mayor varianza?
- ¿Qué relaciones encontraste con la covarianza/correlación?
- ¿Qué tan útil sería tu dataset para entrenar un modelo de IA?
