# Semana 7: Manipulación de Datos

## 🧐 Un primer vistazo al conjunto de datos
Los datos en un análisis pueden venir en distintos formatos: números, texto, fechas y más. Para manipularlos correctamente, es esencial entender cómo funcionan los diferentes tipos de datos en Python y Pandas.

Antes de trabajar con un dataset, es importante entender su estructura.

```python
import pandas as pd

# Cargar un archivo CSV
df = pd.read_csv("datos.csv")

# Ver las primeras filas
df.head()
```

**Ejemplo 1:** Ver información general de las columnas y tipos de datos.
```python
df.info()
```

**Ejemplo 2:** Contar valores únicos en una columna categórica.
```python
df["categoria"].value_counts()
```

## ⏳ Trabajar con Fechas y Horas
Las fechas y horas son fundamentales en análisis de series temporales y planificación de datos.

```python
# Convertir una columna a formato datetime
df["fecha"] = pd.to_datetime(df["fecha"])
```

**Ejemplo 1:** Extraer el año y mes de una fecha.
```python
df["año"] = df["fecha"].dt.year
df["mes"] = df["fecha"].dt.month
```

**Ejemplo 2:** Calcular la diferencia entre fechas.
```python
df["dias_transcurridos"] = (pd.to_datetime("2025-01-01") - df["fecha"]).dt.days
```

## 🏗️ Ingeniería de Características
La ingeniería de características consiste en transformar los datos brutos en información útil para mejorar el análisis y la predicción.

### ✨ Crear Nuevas Columnas a partir de Otras
A menudo, es útil generar nuevas variables basadas en los datos existentes.

**Ejercicio:** Crea una nueva columna que clasifique edades en grupos como "Joven", "Adulto" y "Mayor".
```python
def clasificar_edad(edad):
    if edad < 18:
        return "Joven"
    elif edad < 60:
        return "Adulto"
    else:
        return "Mayor"

df["grupo_edad"] = df["edad"].apply(clasificar_edad)
```

### 🏷 Crear Categorías con Funciones de Fila
Las categorías permiten agrupar datos y analizarlos más fácilmente.

**Ejemplo:** Crear una nueva columna con etiquetas basadas en el precio de un producto.
```python
def categorizar_precio(precio):
    if precio < 50:
        return "Barato"
    elif precio < 200:
        return "Moderado"
    else:
        return "Caro"

df["categoria_precio"] = df["precio"].apply(categorizar_precio)
```

In [54]:
def clasificar_edad(Edad):
    if Edad < 18:
        return "Joven"
    elif Edad < 60:
        return "Adulto"
    else:
        return "Mayor"

df2["grupo_edad"] = df2["Edad"].apply(clasificar_edad)

In [56]:
df2.head()

Unnamed: 0,CustomerID,Nombre,Edad,Email,grupo_edad
0,100,Veronica,66,kpatel@yahoo.com,Mayor
1,101,Fernando,19,codywong@hotmail.com,Adulto
2,102,Deborah,19,thomaslauren@nguyen.com,Adulto
3,103,Kimberly,45,amysampson@gmail.com,Adulto
4,104,Brett,40,jonathancaldwell@hotmail.com,Adulto


In [57]:
def categorizar_precio(precio):
    if precio < 50:
        return "Barato"
    elif precio < 200:
        return "Moderado"
    else:
        return "Caro"

df["categoria_precio"] = df["UnitPrice"].apply(categorizar_precio)

In [59]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,categoria_precio
0,1001,P000,Work,7,2024-01-01,76.76,119.0,Moderado
1,1002,P001,Forget,4,2024-01-02,45.39,132.0,Barato
2,1003,P002,Time,8,2024-01-03,24.75,108.0,Barato
3,1004,P003,Watch,5,2024-01-04,58.93,123.0,Moderado
4,1005,P004,Necessary,7,2024-01-05,7.97,106.0,Barato


## 💻🐧 Es hora de un examen
Se van a dividir en grupos de 3 en donde van a resolver el siguiente ejercicio:

Descargaran los datos [aquí](https://drive.google.com/drive/folders/10Wqjw1XspfHEE8WJjycwRLiKW6PXAzSk?usp=sharing)


1. ¿Quien es el cliente con la mayor cantidad de `StockCode`?.
2. Con los datos de nuestros clientes, ¿cual es la edad promedio de nuestros clientes?
3. ¿Cuantos clientes tenemos con nombres repetidos y con nombres únicos?
4. ¿Quien es el cliente que más compra ha hecho segun nuestra base de datos de fechas y cual es el més en que mayor cantidad de compras hizo?.
5. Van a crear un nuevo DataFrame con la siguiente info: `Nombre`, `Edad`, `StockCode`, `Description` y `Quantity`. Estos nuevos DataFrames deben ser coherentes con los datos ya entregados.
6. Con el DataFrame anterior van a crear dos columnas nuevas que son: `grupo_edad` y `grupo_cantidad`
