<a href="https://colab.research.google.com/github/sneymz00/learn_IA/blob/main/DataScience_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìä Recordatorios Data Science - Python & Pandas

**Apuntes r√°pidos para limpieza y an√°lisis de datos**

---

## üõ†Ô∏è Imports B√°sicos

In [None]:
import pandas as pd
import numpy as np

# Para mounting Google Drive (si necesario)
# from google.colab import drive
# drive.mount('/content/drive')

## üîç 1. Exploraci√≥n Inicial de Datos

**Comandos esenciales para conocer tu dataset:**

```python
# Cargar datos
df = pd.read_csv('archivo.csv')  # o pd.read_csv('archivo.csv', sep=';')

# Exploraci√≥n b√°sica
df.head()           # Primeras 5 filas
df.tail()           # √öltimas 5 filas
df.shape            # (filas, columnas)
df.columns          # Nombres de columnas
df.dtypes           # Tipos de datos
df.info()           # Resumen completo
df.describe()       # Estad√≠sticas descriptivas
```

## üßπ 2. Limpieza de Datos

### **Valores Nulos**
```python
# Detectar nulos
df.isnull().sum()                    # Conteo por columna
df.isnull().sum() / len(df) * 100   # Porcentaje

# Tratar nulos
df.dropna()                         # Eliminar filas con nulos
df.fillna(0)                        # Rellenar con 0
df.fillna(df.mean())                # Rellenar con media
df.fillna(df.mode()[0])             # Rellenar con moda
```

### **Duplicados**
```python
# Detectar y eliminar duplicados
df.duplicated().sum()               # Contar duplicados
df.drop_duplicates()                # Eliminar duplicados
```

### **Normalizaci√≥n de Texto**
```python
# Limpiar texto
df['columna'] = df['columna'].str.strip()      # Quitar espacios
df['columna'] = df['columna'].str.lower()      # Min√∫sculas
df['columna'] = df['columna'].str.title()      # Formato T√≠tulo
df['columna'] = df['columna'].str.upper()      # May√∫sculas
```

## üéØ 3. Detecci√≥n de Outliers - M√©todo IQR

**F√≥rmula IQR (Rango Intercuart√≠lico):**
- Q1 = Percentil 25
- Q3 = Percentil 75  
- IQR = Q3 - Q1
- L√≠mite inferior = Q1 - 1.5 √ó IQR
- L√≠mite superior = Q3 + 1.5 √ó IQR

**C√≥digo:**

In [None]:
def detectar_outliers_iqr(df, columna):
    """
    Detecta outliers usando m√©todo IQR
    """
    # Calcular cuartiles
    Q1 = df[columna].quantile(0.25)
    Q3 = df[columna].quantile(0.75)
    IQR = Q3 - Q1

    # Definir l√≠mites
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR

    # Identificar outliers
    outliers = df[(df[columna] < limite_inferior) |
                  (df[columna] > limite_superior)]

    print(f"Q1: {Q1:.2f}")
    print(f"Q3: {Q3:.2f}")
    print(f"IQR: {IQR:.2f}")
    print(f"L√≠mites: [{limite_inferior:.2f}, {limite_superior:.2f}]")
    print(f"Outliers encontrados: {len(outliers)}")

    return outliers, limite_inferior, limite_superior

## üîé 4. Filtrado de Datos (WHERE)

**Filtros b√°sicos:**
```python
# Filtros simples
df[df['columna'] > 50]              # Mayor que
df[df['columna'] == 'valor']        # Igual a
df[df['columna'].isin(['A', 'B'])]  # Est√° en lista

# Filtros m√∫ltiples
df[(df['col1'] > 10) & (df['col2'] == 'texto')]    # AND
df[(df['col1'] > 10) | (df['col2'] == 'texto')]    # OR
df[~(df['columna'] > 10)]                          # NOT

# M√©todo query (alternativa)
df.query('columna > 50')
df.query('col1 > 10 and col2 == "texto"')
```

## üìä 5. Agrupaci√≥n y Agregaci√≥n (GroupBy)

```python
# Agrupaci√≥n b√°sica
df.groupby('columna').mean()                    # Media por grupo
df.groupby('columna').sum()                     # Suma por grupo
df.groupby('columna').count()                   # Conteo por grupo

# M√∫ltiples agregaciones
df.groupby('columna').agg({
    'col1': 'mean',
    'col2': 'sum',
    'col3': 'count'
})

# M√∫ltiples columnas de agrupaci√≥n
df.groupby(['col1', 'col2']).mean()

# Ordenar resultados
df.groupby('columna').sum().sort_values('col1', ascending=False)
```

## üîß 6. Conversi√≥n de Tipos de Datos

```python
# Conversiones b√°sicas
df['columna'] = df['columna'].astype('int')        # A entero
df['columna'] = df['columna'].astype('float')      # A decimal
df['columna'] = df['columna'].astype('str')        # A texto
df['columna'] = df['columna'].astype('category')   # A categor√≠a

# Conversiones especiales
df['fecha'] = pd.to_datetime(df['fecha'])          # A fecha
df['numero'] = pd.to_numeric(df['numero'], errors='coerce')  # A num√©rico
```

## üí° 7. Tips y Trucos R√°pidos

### **Crear nuevas columnas**
```python
# Columna condicional
df['nueva_col'] = np.where(df['col'] > 50, 'Alto', 'Bajo')

# Columna desde otra
df['nueva_col'] = df['col1'] * df['col2']

# Columna binaria (0/1)
df['tiene_valor'] = (df['columna'].notnull()).astype(int)
```

### **Conteos y frecuencias**
```python
df['columna'].value_counts()           # Conteo de valores √∫nicos
df['columna'].value_counts(normalize=True)  # Porcentajes
df['columna'].nunique()                # N√∫mero de valores √∫nicos
```

### **Ordenamiento**
```python
df.sort_values('columna', ascending=False)      # Descendente
df.sort_values(['col1', 'col2'])                # M√∫ltiples columnas
```

## üîÑ 8. Flujo de Trabajo Recomendado

### **Secuencia t√≠pica de limpieza:**

1. **Cargar** ‚Üí `pd.read_csv()`
2. **Explorar** ‚Üí `df.info()`, `df.describe()`
3. **Detectar problemas** ‚Üí nulos, duplicados, outliers
4. **Limpiar** ‚Üí eliminar/imputar seg√∫n criterio
5. **Normalizar** ‚Üí tipos de datos, texto
6. **Verificar** ‚Üí confirmar limpieza exitosa
7. **Analizar** ‚Üí groupby, filtros, agregaciones
8. **Guardar** ‚Üí `df.to_csv('limpio.csv', index=False)`

## 9. Checklist Final

**Antes de analizar, verificar:**

- [ ] **Sin valores nulos** ‚Üí `df.isnull().sum().sum() == 0`
- [ ] **Sin duplicados** ‚Üí `df.duplicated().sum() == 0`
- [ ] **Tipos correctos** ‚Üí `df.dtypes`
- [ ] **Outliers tratados** ‚Üí m√©todo IQR aplicado
- [ ] **Texto normalizado** ‚Üí may√∫sculas/min√∫sculas consistentes
- [ ] **Fechas convertidas** ‚Üí `pd.to_datetime()` si aplica

**Comando de verificaci√≥n r√°pida:**

In [None]:
def verificar_limpieza(df):
    """
    Verifica que el dataset est√© limpio
    """
    print("üîç VERIFICACI√ìN DE LIMPIEZA")
    print("=" * 30)
    print(f"üìã Dimensiones: {df.shape}")
    print(f"‚ùå Valores nulos: {df.isnull().sum().sum()}")
    print(f"üîÑ Duplicados: {df.duplicated().sum()}")
    print(f"üìä Tipos de datos:")
    print(df.dtypes.value_counts())

    if df.isnull().sum().sum() == 0 and df.duplicated().sum() == 0:
        print("\n‚úÖ Dataset limpio - Listo para an√°lisis")
    else:
        print("\n‚ö†Ô∏è Dataset necesita m√°s limpieza")

# Usar as√≠: verificar_limpieza(df)

---

## üéì Recordatorio Final

> **"Los datos limpios son la base de cualquier an√°lisis exitoso"**

**Regla de oro:** Siempre explorar antes de limpiar, y verificar despu√©s de limpiar.

**Pr√≥ximos pasos:** Una vez limpios los datos ‚Üí visualizaci√≥n, modelado, insights.

---
*Apuntes creados para Data Science*