# **Manipulación de Datos con pandas**

# **1. Introducción**
* pandas es una biblioteca de Python diseñada para trabajar con datos tabulares
y estructurados. Proporciona dos estructuras principales:

* Series: Una columna de datos con un índice.
DataFrame: Una tabla de datos con filas y columnas.





# **2. Creación de un DataFrame**
Puedes crear un DataFrame a partir de listas, diccionarios o archivos externos (como CSV o Excel).

 Ejemplo inicial:

In [32]:
import pandas as pd

# Datos iniciales
data = {
    "Nombre": ["Juan", "Ana", "Luis", "Sofía"],
    "Edad": [23, 25, 21, 22],
    "Ciudad": ["Madrid", "Barcelona", "Valencia", "Sevilla"],
    "Salario": [2000, 2500, 2300, 2200]
}

# Crear un DataFrame
df = pd.DataFrame(data)
print(df)


  Nombre  Edad     Ciudad  Salario
0   Juan    23     Madrid     2000
1    Ana    25  Barcelona     2500
2   Luis    21   Valencia     2300
3  Sofía    22    Sevilla     2200


# **3. Métodos de Manipulación de Datos**


**1.  Inspección del DataFrame**
* df.head(n): Muestra las primeras n filas (por defecto n=5).
* df.tail(n): Muestra las últimas n filas.
* df.info(): Información general del DataFrame.
* df.describe(): Estadísticas descriptivas para columnas numéricas.



In [38]:
# Inspeccionar los datos
print(df.head(2))  # Primeras 2 filas


  Empleado  Edad     Ciudad  Salario  Horas Trabajadas  Impuestos
1      Ana    25  Barcelona     2500                42      375.0
4    María    24     Madrid     2400                41      360.0


In [39]:
# Inspeccionar los datos

print(df.info())   # Información general



<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, 1 to 0
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   Empleado          5 non-null      object 
 1   Edad              5 non-null      int64  
 2   Ciudad            5 non-null      object 
 3   Salario           5 non-null      int64  
 4   Horas Trabajadas  5 non-null      int64  
 5   Impuestos         5 non-null      float64
dtypes: float64(1), int64(3), object(2)
memory usage: 280.0+ bytes
None


In [40]:
# Inspeccionar los datos
print(df.describe())  # Estadísticas descriptivas

            Edad      Salario  Horas Trabajadas   Impuestos
count   5.000000     5.000000          5.000000    5.000000
mean   23.000000  2280.000000         39.000000  342.000000
std     1.581139   192.353841          2.915476   28.853076
min    21.000000  2000.000000         35.000000  300.000000
25%    22.000000  2200.000000         37.000000  330.000000
50%    23.000000  2300.000000         40.000000  345.000000
75%    24.000000  2400.000000         41.000000  360.000000
max    25.000000  2500.000000         42.000000  375.000000


 **2. Selección de Datos Por columnas: df["columna"] o df[["col1", "col2"]].
Por filas:**

* df.loc[] (basado en etiquetas).
*df.iloc[] (basado en índices).










In [41]:
# Seleccionar columnas
print(df["Nombre"])        # Una sola columna
print(df[["Nombre", "Edad"]])  # Varias columnas

# Seleccionar filas
print(df.loc[1])    # Fila con índice 1 (Ana)
print(df.iloc[2])   # Fila número 2 (Luis)


KeyError: 'Nombre'

**3.Filtrar Datos
Filtrar filas basadas en condiciones.**

In [None]:
# Filtrar filas donde la edad sea mayor a 22
filtro = df[df["Edad"] > 22]
print(filtro)

# Filtrar filas donde la ciudad sea "Madrid"
filtro_ciudad = df[df["Ciudad"] == "Madrid"]
print(filtro_ciudad)


**4.Modificar o Agregar Columnas**

* Agregar una nueva columna: Usar una operación o dato predefinido.
* Modificar una columna existente: Aplicar operaciones a columnas existentes.



In [None]:
# Nueva columna: "Impuestos" (20% del Salario)
df["Impuestos"] = df["Salario"] * 0.2

# Modificar columna "Salario" (incremento del 5%)
df["Salario"] = df["Salario"] * 1.05
print(df)


**5. Renombrar Columnas**

* df.rename(): Cambia los nombres de las columnas.

In [None]:
# Renombrar columnas
df = df.rename(columns={"Nombre": "Empleado", "Salario": "Ingreso"})
print(df)


**6. Reindexar**
* Cambiar el índice del DataFrame.




In [None]:
# Usar la columna "Empleado" como índice
df = df.set_index("Empleado")
print(df)

# Resetear el índice
df = df.reset_index()
print(df)


**7.  Ordenar Datos**
* df.sort_values(by="columna"): Ordena los datos por una columna.
* df.sort_index(): Ordena los datos por el índice.

In [None]:
# Ordenar por Edad (ascendente)
df = df.sort_values(by="Edad")
print(df)

# Ordenar por Salario (descendente)
df = df.sort_values(by="Ingreso", ascending=False)
print(df)


**8.Eliminar Datos**
* Eliminar filas: df.drop(index).
* Eliminar columnas: df.drop("columna", axis=1).

In [None]:
# Eliminar una columna
df = df.drop("Impuestos", axis=1)
print(df)

# Eliminar una fila
df = df.drop(1)  # Elimina la fila con índice 1
print(df)


**9.Manejo de Datos Nulos**
* df.isnull(): Identifica valores nulos.
* df.fillna(valor): Rellena valores nulos.
* df.dropna(): Elimina filas con valores nulos.

In [None]:
# Manejar datos nulos
df["Edad"] = [23, None, 21, 22]  # Introducir un nulo
print(df)
df["Edad"] = df["Edad"].fillna(df["Edad"].mean())  # Rellenar con la media
print(df)


 **10. Agrupar y Resumir Datos**
* df.groupby("columna"): Agrupa datos y realiza operaciones.



In [None]:
# Agrupar por Ciudad y calcular salario promedio
agrupado = df.groupby("Ciudad")["Salario"].mean()
print(agrupado)


# **4.Ejercicio Práctico**
Usa este arreglo inicial para practicar:


In [42]:
data = {
    "Empleado": ["Juan", "Ana", "Luis", "Sofía", "María"],
    "Edad": [23, 25, 21, 22, 24],
    "Ciudad": ["Madrid", "Barcelona", "Valencia", "Sevilla", "Madrid"],
    "Salario": [2000, 2500, 2300, 2200, 2400],
    "Horas Trabajadas": [40, 42, 35, 37, 41]
}

df = pd.DataFrame(data)
print(df)


  Empleado  Edad     Ciudad  Salario  Horas Trabajadas
0     Juan    23     Madrid     2000                40
1      Ana    25  Barcelona     2500                42
2     Luis    21   Valencia     2300                35
3    Sofía    22    Sevilla     2200                37
4    María    24     Madrid     2400                41


**Tareas sugeridas con este DataFrame:**
1. Selecciona solo los empleados de "Madrid".
2. Crea una nueva columna con el salario neto (descontando un 15% de impuestos).
3. Filtra los empleados con más de 40 horas trabajadas.
4. Ordena el DataFrame por "Salario" en orden descendente.
5. Agrupa los empleados por "Ciudad" y calcula el salario promedio.




In [43]:
#cSelecciona solo los empleados de "Madrid".
filtro_ciudad = df[df["Ciudad"] == "Madrid"]
print(filtro_ciudad)
#Crea una nueva columna con el salario neto (descontando un 15% de impuestos).
df["Impuestos"] = df["Salario"] * 0.15
print(df)
# Filtra los empleados con más de 40 horas trabajadas.
filtro = df[df["Horas Trabajadas"] > 40]
print(filtro)
# Ordena el DataFrame por "Salario" en orden descendente.
df = df.sort_values(by="Salario", ascending=False)
print(df)
#Agrupa los empleados por "Ciudad" y calcula el salario promedio.
agrupado = df.groupby("Ciudad")["Salario"].mean()
print(agrupado)



  Empleado  Edad  Ciudad  Salario  Horas Trabajadas
0     Juan    23  Madrid     2000                40
4    María    24  Madrid     2400                41
  Empleado  Edad     Ciudad  Salario  Horas Trabajadas  Impuestos
0     Juan    23     Madrid     2000                40      300.0
1      Ana    25  Barcelona     2500                42      375.0
2     Luis    21   Valencia     2300                35      345.0
3    Sofía    22    Sevilla     2200                37      330.0
4    María    24     Madrid     2400                41      360.0
  Empleado  Edad     Ciudad  Salario  Horas Trabajadas  Impuestos
1      Ana    25  Barcelona     2500                42      375.0
4    María    24     Madrid     2400                41      360.0
  Empleado  Edad     Ciudad  Salario  Horas Trabajadas  Impuestos
1      Ana    25  Barcelona     2500                42      375.0
4    María    24     Madrid     2400                41      360.0
2     Luis    21   Valencia     2300                

# **5.Cómo usar query()**



* Sintaxis Básica




In [None]:
df.query("condición")


* La condición debe estar entre comillas y puede usar los nombres de las columnas directamente.
* Operadores comunes:
* ==: Igual.
* !=: Diferente.
* > y <: Mayor y menor.
* >= y <=: Mayor o igual, menor o igual.
* and: Y lógico.
* or: O lógico.
* in: Verifica si un valor pertenece a un conjunto.



**1. Ejemplo de DataFrame**

Usaremos el siguiente DataFrame para los ejemplos:

In [44]:
import pandas as pd

# Datos de ejemplo
data = {
    "Empleado": ["Juan", "Ana", "Luis", "Sofía", "María"],
    "Edad": [23, 25, 21, 22, 24],
    "Ciudad": ["Madrid", "Barcelona", "Valencia", "Sevilla", "Madrid"],
    "Salario": [2000, 2500, 2300, 2200, 2400],
    "Horas_Trabajadas": [40, 42, 35, 37, 41]
}

# Crear el DataFrame
df = pd.DataFrame(data)
print(df)


  Empleado  Edad     Ciudad  Salario  Horas_Trabajadas
0     Juan    23     Madrid     2000                40
1      Ana    25  Barcelona     2500                42
2     Luis    21   Valencia     2300                35
3    Sofía    22    Sevilla     2200                37
4    María    24     Madrid     2400                41


**2. Ejemplos Usando query()**
* Filtrar por una condición :
Seleccionar empleados con un salario mayor a 2200:

In [45]:
resultado = df.query("Salario > 2200")
print(resultado)


  Empleado  Edad     Ciudad  Salario  Horas_Trabajadas
1      Ana    25  Barcelona     2500                42
2     Luis    21   Valencia     2300                35
4    María    24     Madrid     2400                41


* Filtrar con múltiples condiciones :
Seleccionar empleados de "Madrid" con más de 40 horas trabajadas.

In [46]:
resultado = df.query("Ciudad == 'Madrid' and Horas_Trabajadas > 40")
print(resultado)


  Empleado  Edad  Ciudad  Salario  Horas_Trabajadas
4    María    24  Madrid     2400                41


* Filtrar usando in :
Seleccionar empleados que trabajan en "Madrid" o "Sevilla":

In [47]:
resultado = df.query("Ciudad in ['Madrid', 'Sevilla']")
print(resultado)


  Empleado  Edad   Ciudad  Salario  Horas_Trabajadas
0     Juan    23   Madrid     2000                40
3    Sofía    22  Sevilla     2200                37
4    María    24   Madrid     2400                41


* Filtrar usando variables externas :
Si necesitas usar una variable externa en la consulta, usa el operador @

In [48]:
# Variable externa
salario_minimo = 2300

# Filtrar con una variable
resultado = df.query("Salario >= @salario_minimo")
print(resultado)


  Empleado  Edad     Ciudad  Salario  Horas_Trabajadas
1      Ana    25  Barcelona     2500                42
2     Luis    21   Valencia     2300                35
4    María    24     Madrid     2400                41


* Seleccionar filas por condiciones en texto :
Seleccionar empleados cuyo nombre comienza con "A":

In [49]:
resultado = df.query("Empleado.str.startswith('A')", engine="python")
print(resultado)


  Empleado  Edad     Ciudad  Salario  Horas_Trabajadas
1      Ana    25  Barcelona     2500                42


## Ventajas de query()
* Legibilidad: Las condiciones son similares a SQL, lo que las hace más intuitivas.
* Evita errores: Puedes escribir directamente los nombres de las columnas sin usar notación de diccionario (df["columna"]).
* Eficiencia: Es más rápido en comparación con métodos alternativos para grandes DataFrames.


## Uso de funciones en pandas



Pandas permite aplicar funciones a columnas o filas de un DataFrame para realizar transformaciones, cálculos y análisis personalizados.





1. Funciones Aplicadas Directamente
* Puedes aplicar funciones predefinidas o personalizadas usando:

* apply(): Aplica una función a lo largo de filas o columnas.
* applymap(): Aplica una función elemento a elemento (solo para DataFrames).
* map(): Aplica funciones a Series.






### Ejemplos de Uso de Funciones

In [124]:
import pandas as pd

# Crear un DataFrame de ejemplo
data = {
    "Empleado": ["Juan", "Ana", "Luis", "Sofía", "María"],
    "Edad": [23, 25, 21, 22, 24],
    "Salario": [2000, 2500, 2300, 2200, 2400],
    "Horas Trabajadas": [40, 42, 35, 37, 41]
}

df = pd.DataFrame(data)
print(df)


  Empleado  Edad  Salario  Horas Trabajadas
0     Juan    23     2000                40
1      Ana    25     2500                42
2     Luis    21     2300                35
3    Sofía    22     2200                37
4    María    24     2400                41




1.  Aplicar una función a una columna



In [51]:
#Convertir la columna "Salario" de euros a dólares (suponiendo un cambio de 1.1):
df["Salario Dólares"] = df["Salario"].apply(lambda x: x * 1.1)
print(df)


  Empleado  Edad  Salario  Horas Trabajadas  Salario Dólares
0     Juan    23     2000                40           2200.0
1      Ana    25     2500                42           2750.0
2     Luis    21     2300                35           2530.0
3    Sofía    22     2200                37           2420.0
4    María    24     2400                41           2640.0


2. Crear una nueva columna basada en condiciones

In [52]:
#Agregar una columna que indique si el empleado trabaja horas extras (más de 40 horas):
df["Horas Extras"] = df["Horas Trabajadas"].apply(lambda x: "Sí" if x > 40 else "No")
print(df)


  Empleado  Edad  Salario  Horas Trabajadas  Salario Dólares Horas Extras
0     Juan    23     2000                40           2200.0           No
1      Ana    25     2500                42           2750.0           Sí
2     Luis    21     2300                35           2530.0           No
3    Sofía    22     2200                37           2420.0           No
4    María    24     2400                41           2640.0           Sí


3. Usar funciones personalizadas

In [55]:
#Definir una función para calcular impuestos (15% del salario):
def calcular_impuestos(salario):
    return salario * 0.15

df["Impuestos"] = df["Salario"].apply(calcular_impuestos)
print(df)



  Empleado  Edad  Salario  Horas Trabajadas  Salario Dólares Horas Extras  \
0     Juan    23     2000                40           2200.0           No   
1      Ana    25     2500                42           2750.0           Sí   
2     Luis    21     2300                35           2530.0           No   
3    Sofía    22     2200                37           2420.0           No   
4    María    24     2400                41           2640.0           Sí   

   Impuestos  
0      300.0  
1      375.0  
2      345.0  
3      330.0  
4      360.0  


4.  Aplicar funciones a todos los elementos del DataFrame


In [57]:
#Convertir todas las columnas numéricas a tipo flotante:
# Selecciona las columnas con tipo de dato entero
int_cols = df.select_dtypes(include=['int64']).columns
# Convierte las columnas enteras a float
df[int_cols] = df[int_cols].applymap(float)

# Imprime los tipos de datos actualizados
print(df.dtypes)


Empleado             object
Edad                float64
Salario             float64
Horas Trabajadas    float64
Salario Dólares     float64
Horas Extras         object
Impuestos           float64
dtype: object


  df[int_cols] = df[int_cols].applymap(float)


5. Usar map() con Series

In [127]:
#Reemplazar los nombres de los empleados por sus iniciales:

df["Empleado"] = df["Empleado"].map(lambda x: x[0])
print(df)


  Empleado  Edad  Salario  Horas Trabajadas
0        J    23     2000                40
1        A    25     2500                42
2        L    21     2300                35
3        S    22     2200                37
4        M    24     2400                41


6. Aplicar funciones agregadas en agrupaciones

In [102]:
#Calcular el promedio de salario por horas extras:
promedio_salario = df.groupby("Horas Trabajadas")["Salario"].mean()
print(promedio_salario)


Horas Trabajadas
35    2300.0
37    2200.0
40    2000.0
41    2400.0
42    2500.0
Name: Salario, dtype: float64
