In [2]:
import pandas as pd
import numpy as np

# --------------------------------------------
# 1. Leer el archivo CSV generado
# --------------------------------------------
# Leer el archivo CSV
df = pd.read_csv('datos_ejemplo.csv')

# Mostrar el DataFrame original
print("DataFrame Original (Leído desde el CSV):")
print(df)

DataFrame Original (Leído desde el CSV):
   ID  Nombre             Edad Genero  Salario Departamento
0   1     Ana               25      F  50000.0       Ventas
1   2    Luis               30      M      NaN    Marketing
2   3  Carlos  Treinta y cinco      M  60000.0       Ventas
3   4   Sofia               40      F  55000.0         RRHH
4   5     NaN               45      M  70000.0           TI


In [3]:
# --------------------------------------------
# 2. Selección de columnas
# --------------------------------------------
print("\nSelección de una columna: 'Nombre'")

# Selección de una columna (una serie)
print(df['Nombre'])

print("\nSelección de múltiples columnas: 'Nombre' y 'Salario'")
# Selección de varias columnas (un DataFrame)
print(df[['Nombre', 'Salario']])


Selección de una columna: 'Nombre'
0       Ana
1      Luis
2    Carlos
3     Sofia
4       NaN
Name: Nombre, dtype: object

Selección de múltiples columnas: 'Nombre' y 'Salario'
   Nombre  Salario
0     Ana  50000.0
1    Luis      NaN
2  Carlos  60000.0
3   Sofia  55000.0
4     NaN  70000.0


In [4]:
# --------------------------------------------
# 3. Filtrado de filas por condición
# --------------------------------------------

# Primero, convertimos la columna 'Edad' a valores numéricos, para que podamos filtrar correctamente
df['Edad'] = pd.to_numeric(df['Edad'], errors='coerce')  # Convertir 'Edad' a valores numéricos

print("\nFiltrado de filas donde 'Edad' es mayor a 30 años:")
# Filtrar las filas donde la edad sea mayor a 30
filtro_edad = df[df['Edad'] > 30]
print(filtro_edad)


Filtrado de filas donde 'Edad' es mayor a 30 años:
   ID Nombre  Edad Genero  Salario Departamento
3   4  Sofia  40.0      F  55000.0         RRHH
4   5    NaN  45.0      M  70000.0           TI


In [None]:
# --------------------------------------------
# 4. Filtrado con múltiples condiciones
# --------------------------------------------
print("\nFiltrado de filas donde 'Salario' sea mayor a 55000 y 'Genero' sea 'M':")

# Filtrar filas usando múltiples condiciones
filtro_multiple = df[(df['Salario'] > 55000) & (df['Genero'] == 'M')]
print(filtro_multiple)

In [5]:
# --------------------------------------------
# 5. Uso de .loc[] para selección por etiquetas
# --------------------------------------------
print("\nUso de .loc[] para seleccionar filas y columnas por etiquetas:")

# Usando .loc[] para seleccionar por etiquetas de fila y columna
loc_result = df.loc[df['Edad'] > 30, ['Nombre', 'Salario']]
print(loc_result)


Uso de .loc[] para seleccionar filas y columnas por etiquetas:
  Nombre  Salario
3  Sofia  55000.0
4    NaN  70000.0


In [6]:
# --------------------------------------------
# 6. Uso de .iloc[] para selección por posiciones
# --------------------------------------------
print("\nUso de .iloc[] para seleccionar filas y columnas por posiciones:")

# Usando .iloc[] para seleccionar filas y columnas por posición
iloc_result = df.iloc[1:4, [0, 1, 4]]  # Filas 1 a 3 (index 1, 2, 3) y columnas 0, 1 y 4
print(iloc_result)


Uso de .iloc[] para seleccionar filas y columnas por posiciones:
   ID  Nombre  Salario
1   2    Luis      NaN
2   3  Carlos  60000.0
3   4   Sofia  55000.0


In [7]:
# --------------------------------------------
# 7. Uso de .query() para selección (Alternativa a condicionales)
# --------------------------------------------
print("\nUso de .query() para filtrar filas donde 'Salario' > 55000 y 'Genero' == 'M':")

# Usando query() para filtrar con condiciones en formato de cadena
query_result = df.query("Salario > 55000 and Genero == 'M'")
print(query_result)


Uso de .query() para filtrar filas donde 'Salario' > 55000 y 'Genero' == 'M':
   ID  Nombre  Edad Genero  Salario Departamento
2   3  Carlos   NaN      M  60000.0       Ventas
4   5     NaN  45.0      M  70000.0           TI


In [8]:
import pandas as pd
 
# Crear el DataFrame de ejemplo
data = {
    'id_venta': [1, 2, 3, 4, 5, 6],
    'producto': ['Camisa', 'Pantalón', 'Zapatos', 'Camisa', 'Pantalón', 'Zapatos'],
    'cantidad': [2, 3, 1, 2, 0, 5],
    'precio_unitario': [20.00, 40.00, 50.00, 20.00, 40.00, 50.00],
    'fecha': ['2024-05-01', '2024-05-03', '2024-05-02', '2024-05-01', '2024-05-02', '2024-05-05']
}
 
df = pd.DataFrame(data)
print(df)

   id_venta  producto  cantidad  precio_unitario       fecha
0         1    Camisa         2             20.0  2024-05-01
1         2  Pantalón         3             40.0  2024-05-03
2         3   Zapatos         1             50.0  2024-05-02
3         4    Camisa         2             20.0  2024-05-01
4         5  Pantalón         0             40.0  2024-05-02
5         6   Zapatos         5             50.0  2024-05-05


In [10]:
import pandas as pd

data = {
    'producto': ['A', 'B', ' C'],
    'cantidad': [3, 0, 15],
    'precio_unitario': [10, 20, 15]
}

df = pd.DataFrame(data)

In [11]:
df_filtrado = df[df['cantidad'] > 1] 
print(df_filtrado)

  producto  cantidad  precio_unitario
0        A         3               10
2        C        15               15


In [12]:
df_seleccion = df_filtrado[['producto', 'cantidad']] 
print(df_seleccion)

  producto  cantidad
0        A         3
2        C        15


In [18]:
df_filtrado.loc[:,'total_venta'] = df_filtrado['cantidad'] * df_filtrado['precio_unitario'] 
print(df_filtrado)

            producto  cantidad  precio_unitario  total_venta
0                  A       3.0             10.0         30.0
2                  C      15.0             15.0        225.0
total_venta      NaN       NaN              NaN          NaN
