# üìò Sesi√≥n 6: Pandas - An√°lisis de Datos

---

## üéØ Objetivos

- Dominar Series y DataFrames
- Leer/escribir diferentes formatos
- Limpiar y transformar datos
- Aplicar GroupBy y agregaciones

In [None]:
import pandas as pd
import numpy as np
print(f"Pandas version: {pd.__version__}")

## 1. Series y DataFrames

In [None]:
# Series - array 1D con √≠ndices
s = pd.Series([10, 20, 30, 40], index=['a', 'b', 'c', 'd'])
print("Series:")
print(s)
print(f"\nValor en 'b': {s['b']}")
print(f"Valores > 20: {s[s > 20].tolist()}")

In [None]:
# DataFrame - tabla 2D
df = pd.DataFrame({
    'nombre': ['Ana', 'Bob', 'Carlos', 'Diana'],
    'edad': [25, 30, 35, 28],
    'ciudad': ['Madrid', 'Barcelona', 'Madrid', 'Sevilla'],
    'salario': [45000, 50000, 55000, 48000]
})

print(df)
print(f"\nShape: {df.shape}")
print(f"Columnas: {df.columns.tolist()}")
print(f"Tipos: \n{df.dtypes}")

In [None]:
# Informaci√≥n r√°pida
print("Info:")
df.info()
print("\nDescribe:")
print(df.describe())

## 2. Selecci√≥n de Datos

In [None]:
# Seleccionar columnas
print("Una columna (Series):")
print(df['nombre'])

print("\nVarias columnas (DataFrame):")
print(df[['nombre', 'edad']])

In [None]:
# loc (por etiqueta) e iloc (por posici√≥n)
print("loc[1, 'nombre']:", df.loc[1, 'nombre'])
print("iloc[1, 0]:", df.iloc[1, 0])

print("\nloc filas 0-2, columnas nombre y ciudad:")
print(df.loc[0:2, ['nombre', 'ciudad']])

print("\niloc primeras 2 filas, primeras 2 columnas:")
print(df.iloc[:2, :2])

In [None]:
# Filtrado con condiciones
print("Edad > 28:")
print(df[df['edad'] > 28])

print("\nMadrid Y salario > 45000:")
print(df[(df['ciudad'] == 'Madrid') & (df['salario'] > 45000)])

print("\nCiudad en [Madrid, Barcelona]:")
print(df[df['ciudad'].isin(['Madrid', 'Barcelona'])])

## 3. Lectura y Escritura de Datos

In [None]:
# Simular datos CSV
csv_data = """nombre,edad,ciudad,salario
Ana,25,Madrid,45000
Bob,30,Barcelona,50000
Carlos,35,Madrid,55000"""

from io import StringIO
df = pd.read_csv(StringIO(csv_data))
print("Desde CSV:")
print(df)

In [None]:
# Opciones de lectura
# pd.read_csv('archivo.csv', 
#     sep=',',           # Separador
#     header=0,          # Fila de encabezados
#     index_col='id',    # Columna como √≠ndice
#     usecols=['a','b'], # Solo estas columnas
#     dtype={'col': int},# Tipos espec√≠ficos
#     parse_dates=['fecha'], # Parsear fechas
#     na_values=['NA', ''],  # Valores nulos
#     nrows=1000         # Leer N filas
# )

# Escritura
# df.to_csv('salida.csv', index=False)
# df.to_excel('salida.xlsx', sheet_name='Datos')
# df.to_json('salida.json')

print("Ejemplos de lectura/escritura (ver c√≥digo)")

## 4. Limpieza de Datos

In [None]:
# Crear datos con problemas
df_sucio = pd.DataFrame({
    'nombre': ['Ana', 'Bob', None, 'Diana', 'Eva'],
    'edad': [25, None, 35, 28, 30],
    'salario': [45000, 50000, 55000, None, 48000],
    'ciudad': ['Madrid', 'barcelona', 'MADRID', 'Sevilla', 'Madrid']
})
print("Datos sucios:")
print(df_sucio)

In [None]:
# Detectar nulos
print("Nulos por columna:")
print(df_sucio.isnull().sum())

print("\nFilas con alg√∫n nulo:")
print(df_sucio[df_sucio.isnull().any(axis=1)])

In [None]:
# Manejar nulos
df_limpio = df_sucio.copy()

# Eliminar filas con nulos
print("dropna():")
print(df_sucio.dropna())

# Rellenar nulos
df_limpio['edad'] = df_limpio['edad'].fillna(df_limpio['edad'].median())
df_limpio['salario'] = df_limpio['salario'].fillna(df_limpio['salario'].mean())
df_limpio['nombre'] = df_limpio['nombre'].fillna('Desconocido')

print("\nDespu√©s de fillna:")
print(df_limpio)

In [None]:
# Normalizar texto
df_limpio['ciudad'] = df_limpio['ciudad'].str.lower().str.strip().str.title()
print("Ciudades normalizadas:")
print(df_limpio['ciudad'])

In [None]:
# Eliminar duplicados
df_dup = pd.DataFrame({'a': [1, 1, 2], 'b': [1, 1, 3]})
print("Con duplicados:")
print(df_dup)
print("\nSin duplicados:")
print(df_dup.drop_duplicates())

## 5. Transformaci√≥n de Datos

In [None]:
df = pd.DataFrame({
    'nombre': ['Ana', 'Bob', 'Carlos'],
    'salario': [45000, 50000, 55000],
    'departamento': ['IT', 'HR', 'IT']
})

# Crear nuevas columnas
df['salario_mensual'] = df['salario'] / 12
df['bono'] = df['salario'] * 0.1

print(df)

In [None]:
# apply() para transformaciones personalizadas
def categorizar_salario(s):
    if s < 48000:
        return 'Bajo'
    elif s < 52000:
        return 'Medio'
    return 'Alto'

df['categoria'] = df['salario'].apply(categorizar_salario)
print(df)

In [None]:
# map() para mapear valores
df['depto_completo'] = df['departamento'].map({
    'IT': 'Tecnolog√≠a',
    'HR': 'Recursos Humanos'
})
print(df)

## 6. GroupBy y Agregaciones

In [None]:
df = pd.DataFrame({
    'departamento': ['IT', 'HR', 'IT', 'HR', 'IT'],
    'nombre': ['Ana', 'Bob', 'Carlos', 'Diana', 'Eva'],
    'salario': [45000, 50000, 55000, 48000, 52000],
    'a√±os_exp': [3, 5, 8, 4, 6]
})

print("Datos:")
print(df)

In [None]:
# Agrupar y agregar
print("\nSalario promedio por departamento:")
print(df.groupby('departamento')['salario'].mean())

print("\nM√∫ltiples agregaciones:")
print(df.groupby('departamento')['salario'].agg(['mean', 'min', 'max', 'count']))

In [None]:
# Agregaciones personalizadas
agg_resultado = df.groupby('departamento').agg({
    'salario': ['mean', 'sum'],
    'a√±os_exp': 'mean',
    'nombre': 'count'
}).round(2)

# Aplanar columnas multinivel
agg_resultado.columns = ['_'.join(col) for col in agg_resultado.columns]
print(agg_resultado)

In [None]:
# transform() - mantiene el shape original
df['salario_promedio_depto'] = df.groupby('departamento')['salario'].transform('mean')
df['diferencia_vs_promedio'] = df['salario'] - df['salario_promedio_depto']
print(df)

## 7. Merge, Join y Concatenaci√≥n

In [None]:
# DataFrames para combinar
empleados = pd.DataFrame({
    'emp_id': [1, 2, 3, 4],
    'nombre': ['Ana', 'Bob', 'Carlos', 'Diana'],
    'depto_id': [101, 102, 101, 103]
})

departamentos = pd.DataFrame({
    'depto_id': [101, 102, 104],
    'depto_nombre': ['IT', 'HR', 'Finance']
})

print("Empleados:")
print(empleados)
print("\nDepartamentos:")
print(departamentos)

In [None]:
# Merge (tipos de join)
print("Inner join (default):")
print(pd.merge(empleados, departamentos, on='depto_id'))

print("\nLeft join:")
print(pd.merge(empleados, departamentos, on='depto_id', how='left'))

print("\nOuter join:")
print(pd.merge(empleados, departamentos, on='depto_id', how='outer'))

In [None]:
# Concatenar
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

print("Concatenar vertical:")
print(pd.concat([df1, df2], ignore_index=True))

print("\nConcatenar horizontal:")
print(pd.concat([df1, df2], axis=1))

---
## üèãÔ∏è Ejercicios Resueltos

In [None]:
# Ejercicio 1: An√°lisis de ventas
ventas = pd.DataFrame({
    'fecha': pd.date_range('2024-01-01', periods=10),
    'producto': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C'],
    'cantidad': [10, 5, 8, 12, 7, 15, 9, 6, 11, 8],
    'precio': [100, 200, 100, 150, 200, 100, 150, 200, 100, 150]
})

# Calcular ingresos
ventas['ingresos'] = ventas['cantidad'] * ventas['precio']

# Resumen por producto
resumen = ventas.groupby('producto').agg({
    'cantidad': 'sum',
    'ingresos': 'sum'
}).sort_values('ingresos', ascending=False)

print(resumen)

In [None]:
# Ejercicio 2: Limpiar datos de emails
datos = pd.DataFrame({
    'email': ['  Ana@Gmail.COM  ', 'bob@yahoo.com', 'CARLOS@hotmail.COM', None, 'diana@']
})

def limpiar_email(email):
    if pd.isna(email) or '@' not in email or email.endswith('@'):
        return None
    return email.strip().lower()

datos['email_limpio'] = datos['email'].apply(limpiar_email)
print(datos)

---
## üìù Ejercicios para Practicar

In [None]:
# Ejercicio 1: Encontrar empleados con salario > promedio de su depto
# Tu c√≥digo aqu√≠

In [None]:
# Ejercicio 2: Pivotear datos de ventas por mes y producto
# Tu c√≥digo aqu√≠

In [None]:
# Ejercicio 3: Calcular el crecimiento porcentual de ventas mes a mes
# Tu c√≥digo aqu√≠

---
## üéØ Resumen

- **Series/DataFrame**: Estructuras base de Pandas
- **Selecci√≥n**: `[]`, `loc`, `iloc`, filtros booleanos
- **Limpieza**: `dropna`, `fillna`, `drop_duplicates`
- **Transformaci√≥n**: `apply`, `map`, crear columnas
- **GroupBy**: `groupby().agg()`, `transform`
- **Combinar**: `merge`, `concat`, `join`