# Manejo de datos con Pandas

**Hecho por**: Andrés Sebastián Ospina Guzmán.

## Dataset utilizado para la actividad
El siguiente dataset sera utilizado para el análisis del mismo:

In [25]:
import pandas as pd
import numpy as np

datos = {
    'nombre':   ['Ana', 'Bob', 'Clara', 'Diego', 'Eva'],
    'edad':     [25, 30, 22, None, 28],
    'ciudad':   ['Madrid', 'Lima', 'Bogotá', 'Medellin', None],
    'producto': ['Laptop', 'Teléfono', 'Tablet', 'Laptop', 'Tablet'],
    'precio':   [1200, 800, 300, 1150, None],
    'stock':    [10, 15, 5, 8, 0]
}

df = pd.DataFrame(datos, index=['a', 'b', 'c', 'd', 'e'])

# Guarda el dataset para ejercicios de lectura/escritura
df.to_csv('actividad_semana4.csv', index=True)
df


Unnamed: 0,nombre,edad,ciudad,producto,precio,stock
a,Ana,25.0,Madrid,Laptop,1200.0,10
b,Bob,30.0,Lima,Teléfono,800.0,15
c,Clara,22.0,Bogotá,Tablet,300.0,5
d,Diego,,Medellin,Laptop,1150.0,8
e,Eva,28.0,,Tablet,,0


## Ejercicios por tema
1. Series — crear y operar
- Crea una Series desde una lista y otra desde un diccionario.
- Accede a elementos por índice, modifica un valor y realiza una operación matemática (por ejemplo, multiplicar por 2).

In [26]:
print("1) SERIES — CREAR Y OPERAR")
print("-" * 60)

# Series desde lista
serie_lista = pd.Series([10, 20, 30, 40, 50])
print("Serie desde lista:")
print(serie_lista)

# Series desde diccionario
serie_dict = pd.Series({'a': 100, 'b': 200, 'c': 300})
print("\nSerie desde diccionario:")
print(serie_dict)

# Acceder por índice
print(f"\nElemento en índice 2: {serie_lista[2]}")
print(f"Elemento con etiqueta 'b': {serie_dict['b']}")

# Modificar valor
serie_lista[2] = 35
print(f"\nSerie modificada (índice 2 = 35):")
print(serie_lista)

# Operación matemática
serie_multiplicada = serie_lista * 2
print("\nSerie multiplicada por 2:")
print(serie_multiplicada)
print("\n" + "="*60 + "\n")

1) SERIES — CREAR Y OPERAR
------------------------------------------------------------
Serie desde lista:
0    10
1    20
2    30
3    40
4    50
dtype: int64

Serie desde diccionario:
a    100
b    200
c    300
dtype: int64

Elemento en índice 2: 30
Elemento con etiqueta 'b': 200

Serie modificada (índice 2 = 35):
0    10
1    20
2    35
3    40
4    50
dtype: int64

Serie multiplicada por 2:
0     20
1     40
2     70
3     80
4    100
dtype: int64




2. DataFrame — crear y explorar
* Crea un DataFrame desde un diccionario y aplica un índice personalizado.
* Accede a una columna, usa `loc` para una fila por etiqueta y `iloc` por posición.

In [27]:
print("2) DATAFRAME — CREAR Y EXPLORAR")
print("-" * 60)

# DataFrame desde diccionario con índice personalizado
df_nuevo = pd.DataFrame({
    'col1': [1, 2, 3],
    'col2': [4, 5, 6]
}, index=['x', 'y', 'z'])
print("DataFrame con índice personalizado:")
print(df_nuevo)

# Acceder a columna
print("\nColumna 'nombre':")
print(df['nombre'])

# Usar loc (por etiqueta)
print("\nFila 'b' con loc:")
print(df.loc['b'])

# Usar iloc (por posición)
print("\nFila en posición 1 con iloc:")
print(df.iloc[1])
print("\n" + "="*60 + "\n")

2) DATAFRAME — CREAR Y EXPLORAR
------------------------------------------------------------
DataFrame con índice personalizado:
   col1  col2
x     1     4
y     2     5
z     3     6

Columna 'nombre':
a      Ana
b      Bob
c    Clara
d    Diego
e      Eva
Name: nombre, dtype: object

Fila 'b' con loc:
nombre           Bob
edad            30.0
ciudad          Lima
producto    Teléfono
precio         800.0
stock             15
Name: b, dtype: object

Fila en posición 1 con iloc:
nombre           Bob
edad            30.0
ciudad          Lima
producto    Teléfono
precio         800.0
stock             15
Name: b, dtype: object




3. Operaciones básicas
* Agrega una columna derivada (por ejemplo, `precio_descuento = precio * 0.9`).
* Aplica una operación vectorizada sobre una columna numérica.

In [28]:
print("3) OPERACIONES BÁSICAS")
print("-" * 60)

# Agregar columna derivada
df['precio_descuento'] = df['precio'] * 0.9
print("DataFrame con columna 'precio_descuento':")
print(df[['precio', 'precio_descuento']])

# Operación vectorizada
df['stock_doble'] = df['stock'] * 2
print("\nColumna 'stock_doble' (stock * 2):")
print(df[['stock', 'stock_doble']])
print("\n" + "="*60 + "\n")

3) OPERACIONES BÁSICAS
------------------------------------------------------------
DataFrame con columna 'precio_descuento':
   precio  precio_descuento
a  1200.0            1080.0
b   800.0             720.0
c   300.0             270.0
d  1150.0            1035.0
e     NaN               NaN

Columna 'stock_doble' (stock * 2):
   stock  stock_doble
a     10           20
b     15           30
c      5           10
d      8           16
e      0            0




4. Manejo de datos faltantes
* Detecta nulos con `isna` y cuenta faltantes por columna.
* Completa faltantes en `edad` con 0 y en ciudad con `'Desconocido'`.

In [29]:
print("4) MANEJO DE DATOS FALTANTES")
print("-" * 60)

# Detectar nulos
print("Valores nulos por columna:")
print(df.isna().sum())

# Completar faltantes
df['edad'] = df['edad'].fillna(0)
df['ciudad'] = df['ciudad'].fillna('Desconocido')
print("\nDataFrame con faltantes completados:")
print(df[['edad', 'ciudad']])
print("\n" + "="*60 + "\n")

4) MANEJO DE DATOS FALTANTES
------------------------------------------------------------
Valores nulos por columna:
nombre              0
edad                1
ciudad              1
producto            0
precio              1
stock               0
precio_descuento    1
stock_doble         0
dtype: int64

DataFrame con faltantes completados:
   edad       ciudad
a  25.0       Madrid
b  30.0         Lima
c  22.0       Bogotá
d   0.0     Medellin
e  28.0  Desconocido




5. Selección y filtrado
* Filtra filas con `precio > 500`.
* Filtra productos iguales a `'Laptop'` y stock mayor que 5.

In [30]:
print("5) SELECCIÓN Y FILTRADO")
print("-" * 60)

# Filtrar precio > 500
filtro_precio = df[df['precio'] > 500]
print("Filas con precio > 500:")
print(filtro_precio)

# Filtrar Laptop y stock > 5
filtro_combinado = df[(df['producto'] == 'Laptop') & (df['stock'] > 5)]
print("\nFilas con producto='Laptop' y stock > 5:")
print(filtro_combinado)
print("\n" + "="*60 + "\n")

5) SELECCIÓN Y FILTRADO
------------------------------------------------------------
Filas con precio > 500:
  nombre  edad    ciudad  producto  precio  stock  precio_descuento  \
a    Ana  25.0    Madrid    Laptop  1200.0     10            1080.0   
b    Bob  30.0      Lima  Teléfono   800.0     15             720.0   
d  Diego   0.0  Medellin    Laptop  1150.0      8            1035.0   

   stock_doble  
a           20  
b           30  
d           16  

Filas con producto='Laptop' y stock > 5:
  nombre  edad    ciudad producto  precio  stock  precio_descuento  \
a    Ana  25.0    Madrid   Laptop  1200.0     10            1080.0   
d  Diego   0.0  Medellin   Laptop  1150.0      8            1035.0   

   stock_doble  
a           20  
d           16  




6. Ordenar datos
* Ordena por `edad` ascendente.
* Ordena por `precio` descendente ignorando nulos (llena temporalmente nulos con 0 para ordenamiento).

In [31]:
print("6) ORDENAR DATOS")
print("-" * 60)

# Ordenar por edad ascendente
df_ordenado_edad = df.sort_values('edad')
print("DataFrame ordenado por edad (ascendente):")
print(df_ordenado_edad[['nombre', 'edad']])

# Ordenar por precio descendente (rellenar nulos temporalmente)
df_temp = df.copy()
df_temp['precio'] = df_temp['precio'].fillna(0)
df_ordenado_precio = df_temp.sort_values('precio', ascending=False)
print("\nDataFrame ordenado por precio (descendente):")
print(df_ordenado_precio[['nombre', 'precio']])
print("\n" + "="*60 + "\n")

6) ORDENAR DATOS
------------------------------------------------------------
DataFrame ordenado por edad (ascendente):
  nombre  edad
d  Diego   0.0
c  Clara  22.0
a    Ana  25.0
e    Eva  28.0
b    Bob  30.0

DataFrame ordenado por precio (descendente):
  nombre  precio
a    Ana  1200.0
d  Diego  1150.0
b    Bob   800.0
c  Clara   300.0
e    Eva     0.0




7. Estadísticas básicas
* Obtén `describe()` para columnas numéricas.
* Obtén `value_counts()` para la columna `producto`.

In [33]:
print("7) ESTADÍSTICAS BÁSICAS")
print("-" * 60)

# describe() para columnas numéricas
print("Estadísticas descriptivas:")
print(df.describe())

# value_counts() para producto
print("\nConteo de valores en 'producto':")
print(df['producto'].value_counts())
print("\n" + "="*60 + "\n")

7) ESTADÍSTICAS BÁSICAS
------------------------------------------------------------
Estadísticas descriptivas:
            edad       precio     stock  precio_descuento  stock_doble
count   5.000000     4.000000   5.00000          4.000000     5.000000
mean   21.000000   862.500000   7.60000        776.250000    15.200000
std    12.124356   415.080314   5.59464        373.572282    11.189281
min     0.000000   300.000000   0.00000        270.000000     0.000000
25%    22.000000   675.000000   5.00000        607.500000    10.000000
50%    25.000000   975.000000   8.00000        877.500000    16.000000
75%    28.000000  1162.500000  10.00000       1046.250000    20.000000
max    30.000000  1200.000000  15.00000       1080.000000    30.000000

Conteo de valores en 'producto':
producto
Laptop      2
Tablet      2
Teléfono    1
Name: count, dtype: int64




8. Leer y guardar datos
* Lee el CSV creado (`actividad_semana4.csv`) y muestra las primeras filas.
* Guarda un nuevo CSV con columnas seleccionadas.

In [34]:
print("8) LEER Y GUARDAR DATOS")
print("-" * 60)

# Leer CSV
df_leido = pd.read_csv('actividad_semana4.csv', index_col=0)
print("Primeras filas del CSV leído:")
print(df_leido.head())

# Guardar CSV con columnas seleccionadas
df[['nombre', 'producto', 'precio']].to_csv('seleccion_productos.csv', index=True)
print("\nCSV 'seleccion_productos.csv' guardado exitosamente.")
print("\n" + "="*60 + "\n")


8) LEER Y GUARDAR DATOS
------------------------------------------------------------
Primeras filas del CSV leído:
  nombre  edad    ciudad  producto  precio  stock
a    Ana  25.0    Madrid    Laptop  1200.0     10
b    Bob  30.0      Lima  Teléfono   800.0     15
c  Clara  22.0    Bogotá    Tablet   300.0      5
d  Diego   NaN  Medellin    Laptop  1150.0      8
e    Eva  28.0       NaN    Tablet     NaN      0

CSV 'seleccion_productos.csv' guardado exitosamente.




9. Ejercicio integrado
* Aplica descuento del 10% a `precio`, filtra productos con `stock > 5`, ordena por `precio_descuento` y guarda como `inventario_procesado.csv`.

In [35]:
print("9) EJERCICIO INTEGRADO")
print("-" * 60)

# Recargar datos originales
df_integrado = pd.read_csv('actividad_semana4.csv', index_col=0)

# Aplicar descuento del 10%
df_integrado['precio_descuento'] = df_integrado['precio'] * 0.9

# Filtrar stock > 5
df_integrado = df_integrado[df_integrado['stock'] > 5]

# Ordenar por precio_descuento
df_integrado = df_integrado.sort_values('precio_descuento')

# Guardar CSV
df_integrado.to_csv('inventario_procesado.csv', index=True)

print("Inventario procesado:")
print(df_integrado)
print("\nCSV 'inventario_procesado.csv' guardado exitosamente.")

9) EJERCICIO INTEGRADO
------------------------------------------------------------
Inventario procesado:
  nombre  edad    ciudad  producto  precio  stock  precio_descuento
b    Bob  30.0      Lima  Teléfono   800.0     15             720.0
d  Diego   NaN  Medellin    Laptop  1150.0      8            1035.0
a    Ana  25.0    Madrid    Laptop  1200.0     10            1080.0

CSV 'inventario_procesado.csv' guardado exitosamente.
