# Curso: Python para Análisis de Datos
## Transformación y Manipulación de Datos

### 1. Transformación de Datos
**Definición:** La transformación de datos implica convertir, limpiar o modificar datos para hacerlos útiles en el análisis.

In [None]:
import pandas as pd

df = pd.DataFrame({
    'nombre': ['Ana', 'Luis', 'Pedro'],
    'edad': ['25', '30', '35']
})

df['edad'] = df['edad'].astype(int)
df

Unnamed: 0,nombre,edad
0,Ana,25
1,Luis,30
2,Pedro,35


### 2. Aplicación de Funciones en Forma Tabular
**Apply y Map:** Se usan para transformar datos en columnas o filas usando funciones definidas o lambda.

In [9]:
# apply para modificar valores de una columna
df['nombre_mayus'] = df['nombre'].apply(lambda x: x.upper())

# map sobre una serie
df['inicial'] = df['nombre'].map(lambda x: x[0])

df

Unnamed: 0,nombre,edad,nombre_mayus,inicial
0,Ana,25,ANA,A
1,Luis,30,LUIS,L
2,Pedro,35,PEDRO,P


### 3. Funciones de Agrupamiento
**groupby y agg:** Permiten resumir datos según grupos.

In [11]:
df_ventas = pd.DataFrame({
    'vendedor': ['Ana', 'Ana', 'Luis', 'Pedro'],
    'ventas': [200, 150, 300, 400]
})

# Agrupamiento
agrupado = df_ventas.groupby('vendedor').agg({'ventas': ['sum', 'mean']})
agrupado

Unnamed: 0_level_0,ventas,ventas
Unnamed: 0_level_1,sum,mean
vendedor,Unnamed: 1_level_2,Unnamed: 2_level_2
Ana,350,175.0
Luis,300,300.0
Pedro,400,400.0


### 4. Generación de Reportes Tabulares
Usamos `pivot_table` para crear reportes y luego exportarlos si es necesario.

In [13]:
pivot = pd.pivot_table(df_ventas, values='ventas', index='vendedor', aggfunc='sum')
pivot.to_csv('reporte_ventas.csv')
pivot

Unnamed: 0_level_0,ventas
vendedor,Unnamed: 1_level_1
Ana,350
Luis,300
Pedro,400


### 5. Unión de Tablas
Usamos `merge` para combinar DataFrames como JOIN en SQL.

In [15]:
clientes = pd.DataFrame({'id_cliente': [1, 2], 'nombre': ['Ana', 'Luis']})
ordenes = pd.DataFrame({'id_cliente': [1, 1, 3], 'monto': [100, 80, 60]})

# Inner Join
pd.merge(clientes, ordenes, on='id_cliente', how='inner')

Unnamed: 0,id_cliente,nombre,monto
0,1,Ana,100
1,1,Ana,80


### 6. Concatenación de DataFrames (`concat`)
Sirve para unir datos vertical u horizontalmente.

In [17]:
df1 = pd.DataFrame({'A': ['A1', 'A2'], 'B': ['B1', 'B2']})
df2 = pd.DataFrame({'A': ['A3', 'A4'], 'B': ['B3', 'B4']})

# Concatenación vertical
pd.concat([df1, df2], ignore_index=True)

Unnamed: 0,A,B
0,A1,B1
1,A2,B2
2,A3,B3
3,A4,B4


### 7. Reordenamiento de Colecciones (`reindex`)
Permite cambiar el orden del índice o columnas.

In [19]:
df = pd.DataFrame({'valores': [10, 20, 30]}, index=['a', 'b', 'c'])

# Cambiar el orden
df.reindex(['c', 'b', 'a'])

Unnamed: 0,valores
c,30
b,20
a,10
