# Módulo 6: Pandas - Análisis de Datos con DataFrames

**Duración estimada:** 30 minutos

## Objetivos
- Entender qué es un DataFrame y por qué es fundamental en Data Science
- Cargar datos desde CSV y Excel
- Explorar datos con métodos básicos (head, tail, info, describe)
- Seleccionar y filtrar datos
- Modificar y crear nuevas columnas
- Operaciones básicas de limpieza de datos
- Preparar datos para sklearn

## 6.1 Introducción a Pandas

**Pandas** es la biblioteca más importante para análisis de datos en Python.

### ¿Por qué Pandas?
- **DataFrames**: Estructura tabular similar a Excel o SQL
- **Rendimiento**: Construido sobre NumPy, muy rápido
- **Flexibilidad**: Lee CSV, Excel, SQL, JSON, y más
- **Integración**: sklearn espera datos en formato pandas
- **Análisis**: Groupby, merge, pivot, y más

### Comparación con Java:
- **Java:** Trabajarías con `List<Object[]>` o librerías como Apache POI
- **Pandas:** DataFrame nativo con operaciones optimizadas

In [25]:
import pandas as pd
import numpy as np

# Versión de pandas
print(f"Pandas versión: {pd.__version__}")

Pandas versión: 3.0.0


### Conceptos Clave

**Series:** Array 1D con etiquetas (como una columna de Excel)
```python
s = pd.Series([1, 2, 3, 4])
```

**DataFrame:** Tabla 2D con filas y columnas etiquetadas
```python
df = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
```

In [26]:
# Crear una Series
serie = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("Series:")
print(serie)
print(f"\nTipo: {type(serie)}")
print(f"Acceso por índice: serie['c'] = {serie['c']}")

Series:
a    10
b    20
c    30
d    40
e    50
dtype: int64

Tipo: <class 'pandas.Series'>
Acceso por índice: serie['c'] = 30


In [27]:
# Crear un DataFrame desde un diccionario
datos = {
    'Nombre': ['Ana', 'Carlos', 'María', 'Luis'],
    'Edad': [25, 30, 28, 35],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla'],
    'Salario': [30000, 45000, 38000, 52000]
}

df = pd.DataFrame(datos)
print("DataFrame:")
print(df)

DataFrame:
   Nombre  Edad     Ciudad  Salario
0     Ana    25     Madrid    30000
1  Carlos    30  Barcelona    45000
2   María    28   Valencia    38000
3    Luis    35    Sevilla    52000


## 6.2 Crear Archivos de Datos de Ejemplo

Primero, vamos a crear archivos CSV y Excel de ejemplo para trabajar.

In [28]:
# Crear dataset de empleados
np.random.seed(42)

n_empleados = 100

empleados = pd.DataFrame({
    'ID': range(1, n_empleados + 1),
    'Nombre': [f'Empleado_{i}' for i in range(1, n_empleados + 1)],
    'Departamento': np.random.choice(['IT', 'Ventas', 'Marketing', 'HR', 'Finanzas'], n_empleados),
    'Edad': np.random.randint(22, 65, n_empleados),
    'Salario': np.random.randint(25000, 100000, n_empleados),
    'Años_Experiencia': np.random.randint(0, 20, n_empleados),
    'Rendimiento': np.random.choice(['Bajo', 'Medio', 'Alto', 'Excelente'], n_empleados),
    'Activo': np.random.choice([True, False], n_empleados, p=[0.9, 0.1])
})

# Guardar como CSV
empleados.to_csv('empleados.csv', index=False)
print("Archivo 'empleados.csv' creado")

# Guardar como Excel
empleados.to_excel('empleados.xlsx', index=False, sheet_name='Empleados')
print("Archivo 'empleados.xlsx' creado")

print(f"\nDataset creado con {len(empleados)} empleados")
display(empleados.head()) 
#head() muestra las primeras filas del DataFrame. Puedes indicar cuántas filas quieres ver, por defecto son 5.
#display() es útil en entornos como Jupyter Notebook para mostrar DataFrames de manera más legible. Quizás VS Code te pida instalar un plugin para usarlo.

Archivo 'empleados.csv' creado
Archivo 'empleados.xlsx' creado

Dataset creado con 100 empleados


Unnamed: 0,ID,Nombre,Departamento,Edad,Salario,Años_Experiencia,Rendimiento,Activo
0,1,Empleado_1,HR,49,88734,11,Medio,False
1,2,Empleado_2,Finanzas,28,95467,13,Medio,True
2,3,Empleado_3,Marketing,30,77662,5,Medio,True
3,4,Empleado_4,Finanzas,29,37688,2,Excelente,True
4,5,Empleado_5,Finanzas,33,50342,8,Bajo,True


In [29]:
# Crear dataset de ventas
np.random.seed(42)
fechas = pd.date_range('2023-01-01', periods=365, freq='D')

ventas = pd.DataFrame({
    'Fecha': fechas,
    'Producto': np.random.choice(['Laptop', 'Mouse', 'Teclado', 'Monitor', 'Auriculares'], 365),
    'Cantidad': np.random.randint(1, 50, 365),
    'Precio_Unitario': np.random.uniform(10, 1500, 365).round(2),
    'Vendedor': np.random.choice(['Juan', 'María', 'Pedro', 'Laura', 'Carlos'], 365),
    'Region': np.random.choice(['Norte', 'Sur', 'Este', 'Oeste'], 365)
})
print("\nDataset de ventas creado:")
display(ventas.head())

# Calcular total
ventas['Total'] = (ventas['Cantidad'] * ventas['Precio_Unitario']).round(2)

print("\nDataset de ventas con columna 'Total':")
display(ventas.head())

# Guardar
ventas.to_csv('ventas.csv', index=False)
print("✓ Archivo 'ventas.csv' creado")
print(f"\nDataset de ventas: {len(ventas)} registros")


Dataset de ventas creado:


Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region
0,2023-01-01,Monitor,6,1137.93,María,Sur
1,2023-01-02,Auriculares,45,79.88,Pedro,Oeste
2,2023-01-03,Teclado,32,410.32,Laura,Este
3,2023-01-04,Auriculares,30,43.06,Laura,Oeste
4,2023-01-05,Auriculares,47,752.27,Carlos,Norte



Dataset de ventas con columna 'Total':


Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region,Total
0,2023-01-01,Monitor,6,1137.93,María,Sur,6827.58
1,2023-01-02,Auriculares,45,79.88,Pedro,Oeste,3594.6
2,2023-01-03,Teclado,32,410.32,Laura,Este,13130.24
3,2023-01-04,Auriculares,30,43.06,Laura,Oeste,1291.8
4,2023-01-05,Auriculares,47,752.27,Carlos,Norte,35356.69


✓ Archivo 'ventas.csv' creado

Dataset de ventas: 365 registros


## 6.3 Cargar Datos desde Archivos

### Cargar desde CSV

In [30]:
# Cargar CSV - la forma más común
df_empleados = pd.read_csv('empleados.csv')

print("DataFrame cargado desde CSV:")
display(df_empleados.head())  # Primeras 5 filas
print(f"\nShape: {df_empleados.shape}")  # (filas, columnas)

DataFrame cargado desde CSV:


Unnamed: 0,ID,Nombre,Departamento,Edad,Salario,Años_Experiencia,Rendimiento,Activo
0,1,Empleado_1,HR,49,88734,11,Medio,False
1,2,Empleado_2,Finanzas,28,95467,13,Medio,True
2,3,Empleado_3,Marketing,30,77662,5,Medio,True
3,4,Empleado_4,Finanzas,29,37688,2,Excelente,True
4,5,Empleado_5,Finanzas,33,50342,8,Bajo,True



Shape: (100, 8)


In [31]:
# Opciones comunes de read_csv
df_ventas = pd.read_csv(
    'ventas.csv',
    parse_dates=['Fecha'],      # Convertir columna a datetime
    # sep=';',                   # Para CSV con separador diferente
    # encoding='utf-8',          # Especificar encoding
    # nrows=100,                 # Leer solo primeras N filas
    # usecols=['Fecha', 'Total'] # Leer solo columnas específicas
)

print("Ventas cargadas:")
display(df_ventas.head())
print(f"\nTipo de la columna Fecha: {df_ventas['Fecha'].dtype}")

Ventas cargadas:


Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region,Total
0,2023-01-01,Monitor,6,1137.93,María,Sur,6827.58
1,2023-01-02,Auriculares,45,79.88,Pedro,Oeste,3594.6
2,2023-01-03,Teclado,32,410.32,Laura,Este,13130.24
3,2023-01-04,Auriculares,30,43.06,Laura,Oeste,1291.8
4,2023-01-05,Auriculares,47,752.27,Carlos,Norte,35356.69



Tipo de la columna Fecha: datetime64[us]


### Cargar desde Excel

In [32]:
# Cargar Excel
df_excel = pd.read_excel('empleados.xlsx', sheet_name='Empleados')

print("DataFrame desde Excel:")
display(df_excel.head())

# Si el Excel tiene múltiples hojas
# df_dict = pd.read_excel('archivo.xlsx', sheet_name=None)  # Carga todas las hojas

DataFrame desde Excel:


Unnamed: 0,ID,Nombre,Departamento,Edad,Salario,Años_Experiencia,Rendimiento,Activo
0,1,Empleado_1,HR,49,88734,11,Medio,False
1,2,Empleado_2,Finanzas,28,95467,13,Medio,True
2,3,Empleado_3,Marketing,30,77662,5,Medio,True
3,4,Empleado_4,Finanzas,29,37688,2,Excelente,True
4,5,Empleado_5,Finanzas,33,50342,8,Bajo,True


## 6.4 Exploración Básica de Datos

### Métodos Esenciales

In [33]:
# head() - primeras N filas (default: 5)
print("Primeras 3 filas:")
display(df_empleados.head(3))

# tail() - últimas N filas
print("\nÚltimas 3 filas:")
display(df_empleados.tail(3))

Primeras 3 filas:


Unnamed: 0,ID,Nombre,Departamento,Edad,Salario,Años_Experiencia,Rendimiento,Activo
0,1,Empleado_1,HR,49,88734,11,Medio,False
1,2,Empleado_2,Finanzas,28,95467,13,Medio,True
2,3,Empleado_3,Marketing,30,77662,5,Medio,True



Últimas 3 filas:


Unnamed: 0,ID,Nombre,Departamento,Edad,Salario,Años_Experiencia,Rendimiento,Activo
97,98,Empleado_98,Ventas,53,70714,4,Excelente,False
98,99,Empleado_99,Ventas,27,81835,14,Bajo,True
99,100,Empleado_100,IT,53,98744,16,Bajo,True


In [34]:
# info() - información sobre el DataFrame
print("Información del DataFrame:")
df_empleados.info()

Información del DataFrame:
<class 'pandas.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype
---  ------            --------------  -----
 0   ID                100 non-null    int64
 1   Nombre            100 non-null    str  
 2   Departamento      100 non-null    str  
 3   Edad              100 non-null    int64
 4   Salario           100 non-null    int64
 5   Años_Experiencia  100 non-null    int64
 6   Rendimiento       100 non-null    str  
 7   Activo            100 non-null    bool 
dtypes: bool(1), int64(4), str(3)
memory usage: 5.7 KB


In [35]:
# describe() - estadísticas descriptivas
print("Estadísticas descriptivas (columnas numéricas):")
print(df_empleados.describe())

Estadísticas descriptivas (columnas numéricas):
               ID        Edad      Salario  Años_Experiencia
count  100.000000  100.000000    100.00000        100.000000
mean    50.500000   43.880000  61714.95000          9.340000
std     29.011492   13.062615  22811.62267          6.027245
min      1.000000   22.000000  26802.00000          0.000000
25%     25.750000   32.750000  41205.25000          4.000000
50%     50.500000   47.000000  63925.50000          9.500000
75%     75.250000   54.000000  78524.50000         14.250000
max    100.000000   64.000000  99543.00000         19.000000


In [36]:
# Más métodos útiles
print(f"Shape (filas, columnas): {df_empleados.shape}")
print(f"\nColumnas: {df_empleados.columns.tolist()}")
print(f"\nTipos de datos:\n{df_empleados.dtypes}")
print(f"\nNúmero total de elementos: {df_empleados.size}")
print(f"\nValores nulos por columna:\n{df_empleados.isnull().sum()}")

Shape (filas, columnas): (100, 8)

Columnas: ['ID', 'Nombre', 'Departamento', 'Edad', 'Salario', 'Años_Experiencia', 'Rendimiento', 'Activo']

Tipos de datos:
ID                  int64
Nombre                str
Departamento          str
Edad                int64
Salario             int64
Años_Experiencia    int64
Rendimiento           str
Activo               bool
dtype: object

Número total de elementos: 800

Valores nulos por columna:
ID                  0
Nombre              0
Departamento        0
Edad                0
Salario             0
Años_Experiencia    0
Rendimiento         0
Activo              0
dtype: int64


In [37]:
# sample() - muestra aleatoria
print("5 filas aleatorias:")
print(df_empleados.sample(5))

5 filas aleatorias:
    ID       Nombre Departamento  Edad  Salario  Años_Experiencia Rendimiento  \
72  73  Empleado_73     Finanzas    54    28987                17        Bajo   
79  80  Empleado_80           HR    62    65818                11   Excelente   
15  16  Empleado_16       Ventas    22    74811                 2       Medio   
2    3   Empleado_3    Marketing    30    77662                 5       Medio   
31  32  Empleado_32           HR    34    72254                 2        Bajo   

    Activo  
72    True  
79    True  
15    True  
2     True  
31    True  


## 6.5 Selección de Datos

### Seleccionar Columnas

In [38]:
# Seleccionar una columna (retorna Series)
nombres = df_empleados['Nombre']
print("Una columna (Series):")
display(nombres.head())
print(f"Tipo: {type(nombres)}")

# Seleccionar múltiples columnas (retorna DataFrame)
subset = df_empleados[['Nombre', 'Salario', 'Departamento']]
print("\nMúltiples columnas (DataFrame):")
display(subset.head())
print(f"Tipo: {type(subset)}")

Una columna (Series):


0    Empleado_1
1    Empleado_2
2    Empleado_3
3    Empleado_4
4    Empleado_5
Name: Nombre, dtype: str

Tipo: <class 'pandas.Series'>

Múltiples columnas (DataFrame):


Unnamed: 0,Nombre,Salario,Departamento
0,Empleado_1,88734,HR
1,Empleado_2,95467,Finanzas
2,Empleado_3,77662,Marketing
3,Empleado_4,37688,Finanzas
4,Empleado_5,50342,Finanzas


Tipo: <class 'pandas.DataFrame'>


### Seleccionar Filas: loc e iloc

**loc:** Selección por etiqueta (label-based)  
**iloc:** Selección por posición (position-based)

In [39]:
# iloc - por posición (como arrays de NumPy)
print("Primera fila con iloc:")
display(df_empleados.iloc[0])

print("\nPrimeras 3 filas, primeras 3 columnas:")
display(df_empleados.iloc[0:3, 0:3])

print("\nFilas 5 a 7, columnas 'Nombre' y 'Salario':")
display(df_empleados.iloc[5:8, [1, 4]])  # Columnas por índice

Primera fila con iloc:


ID                           1
Nombre              Empleado_1
Departamento                HR
Edad                        49
Salario                  88734
Años_Experiencia            11
Rendimiento              Medio
Activo                   False
Name: 0, dtype: object


Primeras 3 filas, primeras 3 columnas:


Unnamed: 0,ID,Nombre,Departamento
0,1,Empleado_1,HR
1,2,Empleado_2,Finanzas
2,3,Empleado_3,Marketing



Filas 5 a 7, columnas 'Nombre' y 'Salario':


Unnamed: 0,Nombre,Salario
5,Empleado_6,62157
6,Empleado_7,92863
7,Empleado_8,77083


### Filtrado Condicional (Boolean Indexing)

In [40]:
# Filtrar empleados con salario > 50000
altos_salarios = df_empleados[df_empleados['Salario'] > 50000]
print(f"Empleados con salario > 50000: {len(altos_salarios)}")
display(altos_salarios.head())

Empleados con salario > 50000: 64


Unnamed: 0,ID,Nombre,Departamento,Edad,Salario,Años_Experiencia,Rendimiento,Activo
0,1,Empleado_1,HR,49,88734,11,Medio,False
1,2,Empleado_2,Finanzas,28,95467,13,Medio,True
2,3,Empleado_3,Marketing,30,77662,5,Medio,True
4,5,Empleado_5,Finanzas,33,50342,8,Bajo,True
5,6,Empleado_6,Ventas,55,62157,4,Excelente,True


In [41]:
# Múltiples condiciones (usar & para AND, | para OR)
it_seniors = df_empleados[
    (df_empleados['Departamento'] == 'IT') & 
    (df_empleados['Años_Experiencia'] > 10)
]

print(f"Empleados IT con >10 años experiencia: {len(it_seniors)}")
display(it_seniors[['Nombre', 'Departamento', 'Años_Experiencia', 'Salario']].head())

Empleados IT con >10 años experiencia: 11


Unnamed: 0,Nombre,Departamento,Años_Experiencia,Salario
18,Empleado_19,IT,17,97082
23,Empleado_24,IT,16,33680
33,Empleado_34,IT,12,85713
41,Empleado_42,IT,15,54855
45,Empleado_46,IT,14,32400


In [42]:
# isin() - verificar si está en una lista
departamentos_tech = df_empleados[
    df_empleados['Departamento'].isin(['IT', 'Marketing'])
]

print(f"Empleados en IT o Marketing: {len(departamentos_tech)}")
print(departamentos_tech['Departamento'].value_counts())

Empleados en IT o Marketing: 34
Departamento
IT           18
Marketing    16
Name: count, dtype: int64


### EJERCICIO 1: Exploración y Filtrado

Usando el DataFrame `df_ventas`:

1. Muestra las primeras 10 y últimas 10 filas
2. Obtén información básica del DataFrame (info, describe)
3. Filtra las ventas donde:
   - Total > 10000
   - Producto sea 'Laptop' o 'Monitor'
   - Vendedor sea 'María'
4. ¿Cuántas ventas cumplen cada condición?
5. Muestra las 5 ventas con mayor Total

In [50]:
# TU CÓDIGO AQUÍ

# 1. Primeras y últimas 10 filas
primeras10 = df_ventas.head(10)
print("Primeras 10 filas:")
display(primeras10)

ultimas10 = df_ventas.tail(10)
print("Ultimas 10 filas:")
display(ultimas10)

# 2. Info y describe
print("Informacion:")
print(df_ventas.info())

print("Estadisticas:")
print(df_ventas.describe())

# 3. Filtros
ventas_altas = df_ventas[df_ventas['Total'] > 10000]
ventas_tech = df_ventas[df_ventas['Producto'].isin(['Laptop', 'Monitor'])]
ventas_maria = df_ventas[df_ventas['Vendedor'] == 'Maria']

print("Productos con ventas > 10000")
display(ventas_altas)

print("Productos tecnologicos vendidos")
display(ventas_tech)

print("Ventas realizadas por María")
display(ventas_maria)

# 4. Contar
print(f"Número de productos con ventas > 10000: {ventas_altas.count()}")
print(f"Número de productos tecnológicos vendidos: {ventas_tech.count()}")
print(f"Numero de ventas realizadas por María: {ventas_maria.count()}")

# 5. Top 5 ventas
print("Top 5 productos en ventas:")
top_5_ventas = df_ventas.sort_values(by='Total', ascending=False).head(5)
display(top_5_ventas)


Primeras 10 filas:


Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region,Total
0,2023-01-01,Monitor,6,1137.93,María,Sur,6827.58
1,2023-01-02,Auriculares,45,79.88,Pedro,Oeste,3594.6
2,2023-01-03,Teclado,32,410.32,Laura,Este,13130.24
3,2023-01-04,Auriculares,30,43.06,Laura,Oeste,1291.8
4,2023-01-05,Auriculares,47,752.27,Carlos,Norte,35356.69
5,2023-01-06,Mouse,35,719.55,Carlos,Oeste,25184.25
6,2023-01-07,Teclado,40,1248.74,Juan,Sur,49949.6
7,2023-01-08,Teclado,16,468.59,María,Norte,7497.44
8,2023-01-09,Teclado,13,1226.41,Carlos,Sur,15943.33
9,2023-01-10,Auriculares,42,1452.28,Laura,Sur,60995.76


Ultimas 10 filas:


Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region,Total
355,2023-12-22,Teclado,21,953.53,María,Norte,20024.13
356,2023-12-23,Monitor,14,1106.5,Juan,Este,15491.0
357,2023-12-24,Auriculares,9,1273.71,María,Sur,11463.39
358,2023-12-25,Laptop,46,192.94,Laura,Oeste,8875.24
359,2023-12-26,Auriculares,1,1315.9,Laura,Oeste,1315.9
360,2023-12-27,Monitor,45,967.96,Carlos,Oeste,43558.2
361,2023-12-28,Monitor,13,1058.88,Carlos,Sur,13765.44
362,2023-12-29,Monitor,4,1366.83,Laura,Este,5467.32
363,2023-12-30,Auriculares,1,940.89,Laura,Sur,940.89
364,2023-12-31,Monitor,49,510.44,Laura,Oeste,25011.56


Informacion:
<class 'pandas.DataFrame'>
RangeIndex: 365 entries, 0 to 364
Data columns (total 7 columns):
 #   Column           Non-Null Count  Dtype         
---  ------           --------------  -----         
 0   Fecha            365 non-null    datetime64[us]
 1   Producto         365 non-null    str           
 2   Cantidad         365 non-null    int64         
 3   Precio_Unitario  365 non-null    float64       
 4   Vendedor         365 non-null    str           
 5   Region           365 non-null    str           
 6   Total            365 non-null    float64       
dtypes: datetime64[us](1), float64(2), int64(1), str(3)
memory usage: 20.1 KB
None
Estadisticas:
                     Fecha    Cantidad  Precio_Unitario         Total
count                  365  365.000000       365.000000    365.000000
mean   2023-07-02 00:00:00   25.095890       780.700603  19275.246658
min    2023-01-01 00:00:00    1.000000        13.870000    243.900000
25%    2023-04-02 00:00:00   13.000000  

Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region,Total
2,2023-01-03,Teclado,32,410.32,Laura,Este,13130.24
4,2023-01-05,Auriculares,47,752.27,Carlos,Norte,35356.69
5,2023-01-06,Mouse,35,719.55,Carlos,Oeste,25184.25
6,2023-01-07,Teclado,40,1248.74,Juan,Sur,49949.60
8,2023-01-09,Teclado,13,1226.41,Carlos,Sur,15943.33
...,...,...,...,...,...,...,...
356,2023-12-23,Monitor,14,1106.50,Juan,Este,15491.00
357,2023-12-24,Auriculares,9,1273.71,María,Sur,11463.39
360,2023-12-27,Monitor,45,967.96,Carlos,Oeste,43558.20
361,2023-12-28,Monitor,13,1058.88,Carlos,Sur,13765.44


Productos tecnologicos vendidos


Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region,Total
0,2023-01-01,Monitor,6,1137.93,María,Sur,6827.58
10,2023-01-11,Monitor,30,141.73,Pedro,Norte,4251.90
14,2023-01-15,Monitor,28,636.60,Juan,Este,17824.80
16,2023-01-17,Monitor,37,962.65,Pedro,Sur,35618.05
18,2023-01-19,Laptop,23,1355.70,María,Oeste,31181.10
...,...,...,...,...,...,...,...
358,2023-12-25,Laptop,46,192.94,Laura,Oeste,8875.24
360,2023-12-27,Monitor,45,967.96,Carlos,Oeste,43558.20
361,2023-12-28,Monitor,13,1058.88,Carlos,Sur,13765.44
362,2023-12-29,Monitor,4,1366.83,Laura,Este,5467.32


Ventas realizadas por María


Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region,Total


Número de productos con ventas > 10000: Fecha              233
Producto           233
Cantidad           233
Precio_Unitario    233
Vendedor           233
Region             233
Total              233
dtype: int64
Número de productos tecnológicos vendidos: Fecha              169
Producto           169
Cantidad           169
Precio_Unitario    169
Vendedor           169
Region             169
Total              169
dtype: int64
Numero de ventas realizadas por María: Fecha              0
Producto           0
Cantidad           0
Precio_Unitario    0
Vendedor           0
Region             0
Total              0
dtype: int64
Top 5 productos en ventas:


Unnamed: 0,Fecha,Producto,Cantidad,Precio_Unitario,Vendedor,Region,Total
331,2023-11-28,Mouse,49,1468.61,María,Sur,71961.89
132,2023-05-13,Monitor,48,1495.91,Juan,Norte,71803.68
79,2023-03-21,Monitor,49,1386.82,Pedro,Este,67954.18
135,2023-05-16,Teclado,49,1376.92,María,Oeste,67469.08
247,2023-09-05,Laptop,49,1368.66,Pedro,Este,67064.34


## 6.6 Modificación de Datos

### Crear Nuevas Columnas

In [51]:
# Crear copia para no modificar el original
df_emp = df_empleados.copy() 

print("Dataframe original")
display(df_emp.head())

# Crear columna simple
df_emp['Salario_Anual'] = df_emp['Salario'] * 12

# Crear columna con operación condicional
df_emp['Categoria_Salario'] = df_emp['Salario'].apply(
    lambda x: 'Alto' if x > 60000 else ('Medio' if x > 40000 else 'Bajo')
)

print("Nuevas columnas creadas:")
display(df_emp[['Nombre', 'Salario', 'Salario_Anual', 'Categoria_Salario']].head())

Dataframe original


Unnamed: 0,ID,Nombre,Departamento,Edad,Salario,Años_Experiencia,Rendimiento,Activo
0,1,Empleado_1,HR,49,88734,11,Medio,False
1,2,Empleado_2,Finanzas,28,95467,13,Medio,True
2,3,Empleado_3,Marketing,30,77662,5,Medio,True
3,4,Empleado_4,Finanzas,29,37688,2,Excelente,True
4,5,Empleado_5,Finanzas,33,50342,8,Bajo,True


Nuevas columnas creadas:


Unnamed: 0,Nombre,Salario,Salario_Anual,Categoria_Salario
0,Empleado_1,88734,1064808,Alto
1,Empleado_2,95467,1145604,Alto
2,Empleado_3,77662,931944,Alto
3,Empleado_4,37688,452256,Bajo
4,Empleado_5,50342,604104,Medio


In [52]:
# Usar np.where (equivalente a expresión ternaria)
df_emp['Es_Senior'] = np.where(df_emp['Años_Experiencia'] >= 10, 'Sí', 'No')

# Múltiples condiciones con np.select
condiciones = [
    df_emp['Edad'] < 30,
    (df_emp['Edad'] >= 30) & (df_emp['Edad'] < 50),
    df_emp['Edad'] >= 50
]
valores = ['Joven', 'Adulto', 'Senior']
df_emp['Grupo_Edad'] = np.select(condiciones, valores, default='Desconocido')

print("\nMás columnas:")
display(df_emp[['Nombre', 'Edad', 'Años_Experiencia', 'Es_Senior', 'Grupo_Edad']].head(10))


Más columnas:


Unnamed: 0,Nombre,Edad,Años_Experiencia,Es_Senior,Grupo_Edad
0,Empleado_1,49,11,Sí,Adulto
1,Empleado_2,28,13,Sí,Joven
2,Empleado_3,30,5,No,Adulto
3,Empleado_4,29,2,No,Joven
4,Empleado_5,33,8,No,Adulto
5,Empleado_6,55,4,No,Senior
6,Empleado_7,54,16,Sí,Senior
7,Empleado_8,44,13,Sí,Adulto
8,Empleado_9,45,2,No,Adulto
9,Empleado_10,58,0,No,Senior


### Modificar Columnas Existentes

In [53]:
# Modificar valores
df_test = df_emp.copy()

print("Salarios originales:")
display(df_test[['Nombre', 'Departamento', 'Salario']].head())

# Aumentar todos los salarios un 10%
df_test['Salario'] = df_test['Salario'] * 1.10

# Modificar valores específicos
df_test.loc[df_test['Departamento'] == 'IT', 'Salario'] *= 1.05  # IT +5% adicional

print("Salarios modificados:")
display(df_test[['Nombre', 'Departamento', 'Salario']].head())

Salarios originales:


Unnamed: 0,Nombre,Departamento,Salario
0,Empleado_1,HR,88734
1,Empleado_2,Finanzas,95467
2,Empleado_3,Marketing,77662
3,Empleado_4,Finanzas,37688
4,Empleado_5,Finanzas,50342


Salarios modificados:


Unnamed: 0,Nombre,Departamento,Salario
0,Empleado_1,HR,97607.4
1,Empleado_2,Finanzas,105013.7
2,Empleado_3,Marketing,85428.2
3,Empleado_4,Finanzas,41456.8
4,Empleado_5,Finanzas,55376.2


### Renombrar Columnas

In [54]:
# Renombrar columnas
df_renamed = df_emp.rename(columns={
    'Nombre': 'Empleado',
    'Años_Experiencia': 'Experiencia'
})

print("Columnas renombradas:")
print(df_renamed.columns.tolist())

Columnas renombradas:
['ID', 'Empleado', 'Departamento', 'Edad', 'Salario', 'Experiencia', 'Rendimiento', 'Activo', 'Salario_Anual', 'Categoria_Salario', 'Es_Senior', 'Grupo_Edad']


### Eliminar Columnas

In [55]:
# Eliminar columnas
df_dropped = df_emp.drop(columns=['Salario_Anual', 'Categoria_Salario'])

print(f"Columnas después de drop:")
print(df_dropped.columns.tolist())

# Nota: drop no modifica el DataFrame original a menos que uses inplace=True
# df_emp.drop(columns=['col'], inplace=True)  # Modifica el original

Columnas después de drop:
['ID', 'Nombre', 'Departamento', 'Edad', 'Salario', 'Años_Experiencia', 'Rendimiento', 'Activo', 'Es_Senior', 'Grupo_Edad']


## 6.7 Ordenar Datos

In [56]:
# Ordenar por una columna
por_salario = df_empleados.sort_values('Salario', ascending=False)
print("Top 5 salarios más altos:")
display(por_salario[['Nombre', 'Departamento', 'Salario']].head())

Top 5 salarios más altos:


Unnamed: 0,Nombre,Departamento,Salario
96,Empleado_97,Finanzas,99543
86,Empleado_87,IT,99290
99,Empleado_100,IT,98744
29,Empleado_30,HR,98656
43,Empleado_44,Ventas,97694


## 6.9 Manejo de Valores Faltantes

Vamos a introducir algunos valores faltantes para practicar

In [57]:
# Crear DataFrame con valores faltantes
df_na = df_empleados.copy()

# Introducir NaN aleatorios
np.random.seed(42)
indices_na = np.random.choice(df_na.index, 10, replace=False)
df_na.loc[indices_na, 'Salario'] = np.nan
df_na.loc[indices_na[:5], 'Edad'] = np.nan

print("Valores nulos por columna:")
print(df_na.isnull().sum())

Valores nulos por columna:
ID                   0
Nombre               0
Departamento         0
Edad                 5
Salario             10
Años_Experiencia     0
Rendimiento          0
Activo               0
dtype: int64


In [58]:
# Detectar filas con valores nulos
filas_con_nulos = df_na[df_na.isnull().any(axis=1)]
print(f"Filas con al menos un valor nulo: {len(filas_con_nulos)}")
display(filas_con_nulos[['ID', 'Nombre', 'Salario', 'Edad']].head())

Filas con al menos un valor nulo: 10


Unnamed: 0,ID,Nombre,Salario,Edad
0,1,Empleado_1,,49.0
10,11,Empleado_11,,56.0
22,23,Empleado_23,,47.0
39,40,Empleado_40,,60.0
44,45,Empleado_45,,


In [59]:
# Eliminar filas con valores nulos
df_sin_nulos = df_na.dropna()
print(f"Filas después de dropna: {len(df_sin_nulos)}")

# Eliminar solo si hay nulos en columnas específicas
df_sin_nulos_salario = df_na.dropna(subset=['Salario'])
print(f"Filas después de dropna(subset=['Salario']): {len(df_sin_nulos_salario)}")

Filas después de dropna: 90
Filas después de dropna(subset=['Salario']): 90


In [None]:
# Rellenar valores nulos
df_filled = df_na.copy()

# Rellenar con un valor específico
df_filled['Salario'] = df_filled['Salario'].fillna(df_filled['Salario'].median(), inplace=True)


print("Valores nulos después de fillna:")
print(df_filled.isnull().sum())

Valores nulos después de fillna:
ID                   0
Nombre               0
Departamento         0
Edad                 5
Salario             10
Años_Experiencia     0
Rendimiento          0
Activo               0
dtype: int64


C:\Users\jejoz\AppData\Local\Temp\ipykernel_23120\2987160814.py:5: ChainedAssignmentError: A value is being set on a copy of a DataFrame or Series through chained assignment using an inplace method.
Such inplace method never works to update the original DataFrame or Series, because the intermediate object on which we are setting values always behaves as a copy (due to Copy-on-Write).

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' instead, to perform the operation inplace on the original object, or try to avoid an inplace operation using 'df[col] = df[col].method(value)'.

See the documentation for a more detailed explanation: https://pandas.pydata.org/pandas-docs/stable/user_guide/copy_on_write.html
  df_filled['Salario'].fillna({'Salario': df_filled['Salario'].median()}, inplace=True)


### EJERCICIO 2: Análisis Completo

Usando el DataFrame `df_ventas`, realiza el siguiente análisis:

1. **Crear nuevas columnas:**
   - `Mes`: Extraer el mes de la fecha (usa `df['Fecha'].dt.month`)
   - `Trimestre`: Calcular el trimestre (Q1, Q2, Q3, Q4)
   - `Categoria_Venta`: 'Alta' si Total > 20000, 'Media' si > 10000, 'Baja' en otro caso

2. **Análisis por producto:**
   - Total vendido por producto
   - Cantidad promedio vendida por producto
   - Precio promedio por producto

3. **Análisis por vendedor:**
   - Total de ventas por vendedor
   - Número de transacciones por vendedor
   - Ticket promedio por vendedor

4. **Top 10 ventas más grandes**

5. **Guardar resultados en CSV**

In [None]:
# TU CÓDIGO AQUÍ

# 1. Crear nuevas columnas
df_analisis = df_ventas.copy()

# Mes
df_analisis['Mes'] = df_analisis['Fecha'].dt.month

# Trimestre
df_analisis['Trimestre'] = df_analisis['Fecha'].dt.quarter

# Categoría
df_analisis['Categoria_Venta'] = np.where(
    df_analisis['Total'] > 10000, 'Alta',
    np.where(df_analisis['Total'] > 5000, 'Media', 'Baja')
)

print("Nuevas columnas creadas:")
display(df_analisis[['Fecha', 'Mes', 'Trimestre', 'Total', 'Categoria_Venta']].head())

# 2. Análisis por producto
por_producto = df_analisis.groupby('Producto').agg(
    Total_Ventas=('Total', 'sum'),
    Ventas_Promedio=('Total', 'mean'),
    Cantidad_Vendida=('Cantidad', 'sum'),
).reset_index()

print("Análisis por producto:")
display(por_producto)

# 3. Análisis por vendedor
por_vendedor = df_analisis.groupby('Vendedor').agg(
    Total_Ventas=('Total', 'sum'),
    Ventas_Promedio=('Total', 'mean'),
    Cantidad_Vendida=('Cantidad', 'sum'),
).reset_index()

print("Análisis por vendedor:")
display(por_vendedor)

# 4. Top 10 ventas
top_10 = df_analisis.sort_values(by='Total', ascending=False).head(10)
print("Top 10 ventas:")
display(top_10)

# 5. Guardar
top_10.to_csv('top_10_ventas.csv', index=False)
print("Archivo 'top_10_ventas.csv' creado")


## Resumen del Módulo 6

**Has aprendido:**
- Qué es un DataFrame y por qué es fundamental
- Cargar datos desde CSV y Excel
- Explorar datos: head, tail, info, describe
- Seleccionar datos: [], loc, iloc, filtrado booleano
- Crear y modificar columnas
- Ordenar y agrupar datos
- Manejar valores faltantes

**Operaciones esenciales:**
```python
# Lectura
df = pd.read_csv('archivo.csv')
df = pd.read_excel('archivo.xlsx')

# Exploración
df.head(), df.tail(), df.info(), df.describe()

# Selección
df['columna'], df[['col1', 'col2']]
df.loc[filas, columnas], df.iloc[posiciones]
df[df['col'] > valor]

# Modificación
df['nueva'] = ...
df.drop(columns=[...]), df.rename(columns={...})

# Exportación
df.to_csv('salida.csv', index=False)
df.to_excel('salida.xlsx', index=False)
```