<a href="https://colab.research.google.com/github/sneymz00/learn_IA/blob/main/DataScience_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📊 Recordatorios Data Science - Python & Pandas

**Apuntes rápidos para limpieza y análisis de datos**

---

## 🛠️ Imports Básicos

In [None]:
import pandas as pd
import numpy as np

# Para mounting Google Drive (si necesario)
# from google.colab import drive
# drive.mount('/content/drive')

## 🔍 1. Exploración Inicial de Datos

**Comandos esenciales para conocer tu dataset:**

```python
# Cargar datos
df = pd.read_csv('archivo.csv')  # o pd.read_csv('archivo.csv', sep=';')

# Exploración básica
df.head()           # Primeras 5 filas
df.tail()           # Últimas 5 filas
df.shape            # (filas, columnas)
df.columns          # Nombres de columnas
df.dtypes           # Tipos de datos
df.info()           # Resumen completo
df.describe()       # Estadísticas descriptivas
```

## 🧹 2. Limpieza de Datos

### **Valores Nulos**
```python
# Detectar nulos
df.isnull().sum()                    # Conteo por columna
df.isnull().sum() / len(df) * 100   # Porcentaje

# Tratar nulos
df.dropna()                         # Eliminar filas con nulos
df.fillna(0)                        # Rellenar con 0
df.fillna(df.mean())                # Rellenar con media
df.fillna(df.mode()[0])             # Rellenar con moda
```

### **Duplicados**
```python
# Detectar y eliminar duplicados
df.duplicated().sum()               # Contar duplicados
df.drop_duplicates()                # Eliminar duplicados
```

### **Normalización de Texto**
```python
# Limpiar texto
df['columna'] = df['columna'].str.strip()      # Quitar espacios
df['columna'] = df['columna'].str.lower()      # Minúsculas
df['columna'] = df['columna'].str.title()      # Formato Título
df['columna'] = df['columna'].str.upper()      # Mayúsculas
```

## 🎯 3. Detección de Outliers - Método IQR

**Fórmula IQR (Rango Intercuartílico):**
- Q1 = Percentil 25
- Q3 = Percentil 75  
- IQR = Q3 - Q1
- Límite inferior = Q1 - 1.5 × IQR
- Límite superior = Q3 + 1.5 × IQR

**Código:**

In [None]:
def detectar_outliers_iqr(df, columna):
    """
    Detecta outliers usando método IQR
    """
    # Calcular cuartiles
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    IQR = Q3 - Q1

    # Definir límites
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    # Identificar outliers
    outliers = df[(df[columna] < limite_inferior) |
                  (df[columna] > limite_superior)]

    print(f"Q1: {Q1:.2f}")
    print(f"Q3: {Q3:.2f}")
    print(f"IQR: {IQR:.2f}")
    print(f"Límites: [{limite_inferior:.2f}, {limite_superior:.2f}]")
    print(f"Outliers encontrados: {len(outliers)}")

    return outliers, limite_inferior, limite_superior

## 🔎 4. Filtrado de Datos (WHERE)

**Filtros básicos:**
```python
# Filtros simples
df[df['columna'] > 50]              # Mayor que
df[df['columna'] == 'valor']        # Igual a
df[df['columna'].isin(['A', 'B'])]  # Está en lista

# Filtros múltiples
df[(df['col1'] > 10) & (df['col2'] == 'texto')]    # AND
df[(df['col1'] > 10) | (df['col2'] == 'texto')]    # OR
df[~(df['columna'] > 10)]                          # NOT

# Método query (alternativa)
df.query('columna > 50')
df.query('col1 > 10 and col2 == "texto"')
```

## 📊 5. Agrupación y Agregación (GroupBy)

```python
# Agrupación básica
df.groupby('columna').mean()                    # Media por grupo
df.groupby('columna').sum()                     # Suma por grupo
df.groupby('columna').count()                   # Conteo por grupo

# Múltiples agregaciones
df.groupby('columna').agg({
    'col1': 'mean',
    'col2': 'sum',
    'col3': 'count'
})

# Múltiples columnas de agrupación
df.groupby(['col1', 'col2']).mean()

# Ordenar resultados
df.groupby('columna').sum().sort_values('col1', ascending=False)
```

## 🔧 6. Conversión de Tipos de Datos

```python
# Conversiones básicas
df['columna'] = df['columna'].astype('int')        # A entero
df['columna'] = df['columna'].astype('float')      # A decimal
df['columna'] = df['columna'].astype('str')        # A texto
df['columna'] = df['columna'].astype('category')   # A categoría

# Conversiones especiales
df['fecha'] = pd.to_datetime(df['fecha'])          # A fecha
df['numero'] = pd.to_numeric(df['numero'], errors='coerce')  # A numérico
```

## 💡 7. Tips y Trucos Rápidos

### **Crear nuevas columnas**
```python
# Columna condicional
df['nueva_col'] = np.where(df['col'] > 50, 'Alto', 'Bajo')

# Columna desde otra
df['nueva_col'] = df['col1'] * df['col2']

# Columna binaria (0/1)
df['tiene_valor'] = (df['columna'].notnull()).astype(int)
```

### **Conteos y frecuencias**
```python
df['columna'].value_counts()           # Conteo de valores únicos
df['columna'].value_counts(normalize=True)  # Porcentajes
df['columna'].nunique()                # Número de valores únicos
```

### **Ordenamiento**
```python
df.sort_values('columna', ascending=False)      # Descendente
df.sort_values(['col1', 'col2'])                # Múltiples columnas
```

## 🔄 8. Flujo de Trabajo Recomendado

### **Secuencia típica de limpieza:**

1. **Cargar** → `pd.read_csv()`
2. **Explorar** → `df.info()`, `df.describe()`
3. **Detectar problemas** → nulos, duplicados, outliers
4. **Limpiar** → eliminar/imputar según criterio
5. **Normalizar** → tipos de datos, texto
6. **Verificar** → confirmar limpieza exitosa
7. **Analizar** → groupby, filtros, agregaciones
8. **Guardar** → `df.to_csv('limpio.csv', index=False)`

## 9. Checklist Final

**Antes de analizar, verificar:**

- [ ] **Sin valores nulos** → `df.isnull().sum().sum() == 0`
- [ ] **Sin duplicados** → `df.duplicated().sum() == 0`
- [ ] **Tipos correctos** → `df.dtypes`
- [ ] **Outliers tratados** → método IQR aplicado
- [ ] **Texto normalizado** → mayúsculas/minúsculas consistentes
- [ ] **Fechas convertidas** → `pd.to_datetime()` si aplica

**Comando de verificación rápida:**

In [None]:
def verificar_limpieza(df):
    """
    Verifica que el dataset esté limpio
    """
    print("🔍 VERIFICACIÓN DE LIMPIEZA")
    print("=" * 30)
    print(f"📋 Dimensiones: {df.shape}")
    print(f"❌ Valores nulos: {df.isnull().sum().sum()}")
    print(f"🔄 Duplicados: {df.duplicated().sum()}")
    print(f"📊 Tipos de datos:")
    print(df.dtypes.value_counts())

    if df.isnull().sum().sum() == 0 and df.duplicated().sum() == 0:
        print("\n✅ Dataset limpio - Listo para análisis")
    else:
        print("\n⚠️ Dataset necesita más limpieza")

# Usar así: verificar_limpieza(df)

---

## 🎓 Recordatorio Final

> **"Los datos limpios son la base de cualquier análisis exitoso"**

**Regla de oro:** Siempre explorar antes de limpiar, y verificar después de limpiar.

**Próximos pasos:** Una vez limpios los datos → visualización, modelado, insights.

---
*Apuntes creados para Data Science*