<a href="https://colab.research.google.com/github/JJJ-23/Pandas-Colaborativo/blob/main/Tarea_de_Pandas_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Introducción a Pandas

Pandas es una librería de código abierto para Python que proporciona estructuras de datos de alto rendimiento y herramientas de análisis de datos fáciles de usar. Es fundamental para el análisis y la manipulación de datos en Python.

Las dos estructuras de datos principales en Pandas son:

1.  **Series**: Un array unidimensional etiquetado capaz de contener cualquier tipo de dato (enteros, cadenas, flotantes, objetos Python, etc.).
2.  **DataFrame**: Una estructura de datos bidimensional etiquetada con columnas de tipos potencialmente diferentes. Puedes pensar en él como una hoja de cálculo o una tabla SQL. Es la estructura más utilizada en Pandas.

## Creación de Series y DataFrames

Podemos crear Series y DataFrames de diversas maneras. Aquí veremos algunos ejemplos básicos utilizando listas y diccionarios de Python.

In [None]:
import pandas as pd

# Crear una Serie desde una lista
serie_ejemplo = pd.Series([1, 2, 3, 4, 5])
print("Ejemplo de Serie:")
print(serie_ejemplo)

# Crear un DataFrame desde un diccionario de listas
datos = {'columna_A': [10, 20, 30, 40],
         'columna_B': ['A', 'B', 'C', 'D']}
dataframe_ejemplo = pd.DataFrame(datos)
print("\nEjemplo de DataFrame:")
print(dataframe_ejemplo)

Ejemplo de Serie:
0    1
1    2
2    3
3    4
4    5
dtype: int64

Ejemplo de DataFrame:
   columna_A columna_B
0         10         A
1         20         B
2         30         C
3         40         D


In [None]:
display(dataframe_ejemplo)

Unnamed: 0,columna_A,columna_B
0,10,A
1,20,B
2,30,C
3,40,D


## Exploración básica de DataFrames: `head()`, `tail()`, `info()`, `describe()`

Una vez que tienes un DataFrame, es útil poder echar un vistazo rápido a su contenido, entender su estructura y obtener un resumen estadístico de las columnas numéricas.

### `head()` y `tail()`

-   `head(n)`: Muestra las primeras `n` filas del DataFrame. Por defecto, `n` es 5.
-   `tail(n)`: Muestra las últimas `n` filas del DataFrame. Por defecto, `n` es 5.

Estas funciones son muy útiles para obtener una vista previa rápida de los datos, especialmente con DataFrames grandes.

In [None]:
print("Primeras 2 filas del DataFrame:")
display(dataframe_ejemplo.head(2))

print("\nÚltima fila del DataFrame:")
display(dataframe_ejemplo.tail(1))

Primeras 2 filas del DataFrame:


Unnamed: 0,columna_A,columna_B
0,10,A
1,20,B



Última fila del DataFrame:


Unnamed: 0,columna_A,columna_B
3,40,D


### `info()`

El método `info()` imprime un resumen conciso de un DataFrame. Incluye información sobre el índice, el tipo de datos de cada columna, el número de valores no nulos y el uso de memoria. Es excelente para obtener una visión general rápida de la estructura y los tipos de datos.

In [None]:
print("DataFrame:")
display(dataframe_ejemplo)

DataFrame:


Unnamed: 0,columna_A,columna_B
0,10,A
1,20,B
2,30,C
3,40,D


In [None]:
print("Información del DataFrame:")
dataframe_ejemplo.info()

Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   columna_A  4 non-null      int64 
 1   columna_B  4 non-null      object
dtypes: int64(1), object(1)
memory usage: 196.0+ bytes


### `describe()`

El método `describe()` genera estadísticas descriptivas que resumen la tendencia central, la dispersión y la forma de la distribución de un conjunto de datos, excluyendo los valores `NaN`. `describe()` analiza las columnas numéricas por defecto. Para las columnas de objetos (como cadenas de texto), `describe()` proporciona un resumen diferente.

In [None]:
print("Estadísticas descriptivas del DataFrame:")
display(dataframe_ejemplo.describe())

Estadísticas descriptivas del DataFrame:


Unnamed: 0,columna_A
count,4.0
mean,25.0
std,12.909944
min,10.0
25%,17.5
50%,25.0
75%,32.5
max,40.0


In [None]:
print("Estadísticas descriptivas para todas las columnas (incluyendo no numéricas):")
display(dataframe_ejemplo.describe(include='all'))

print("\nEstadísticas descriptivas solo para columnas no numéricas:")
display(dataframe_ejemplo.describe(include='object'))

Estadísticas descriptivas para todas las columnas (incluyendo no numéricas):


Unnamed: 0,columna_A,columna_B
count,4.0,4
unique,,4
top,,A
freq,,1
mean,25.0,
std,12.909944,
min,10.0,
25%,17.5,
50%,25.0,
75%,32.5,



Estadísticas descriptivas solo para columnas no numéricas:


Unnamed: 0,columna_B
count,4
unique,4
top,A
freq,1


## Selección de datos con `loc` e `iloc`

Una parte fundamental del trabajo con DataFrames es poder seleccionar subconjuntos de datos. Pandas proporciona dos métodos principales para esto: `loc` e `iloc`.

-   `loc`: Se basa en **etiquetas** o **índices de etiquetas**. Se utiliza principalmente para seleccionar datos por nombre de fila y columna.
-   `iloc`: Se basa en **índices enteros** (posiciones). Se utiliza para seleccionar datos por posición numérica de fila y columna.

In [None]:
display(dataframe_ejemplo)

Unnamed: 0,columna_A,columna_B
0,10,A
1,20,B
2,30,C
3,40,D


### Usando `loc`

`loc` permite seleccionar filas y columnas por sus etiquetas. Puedes usar:

-   Una sola etiqueta: `df.loc[fila, columna]`
-   Una lista de etiquetas: `df.loc[[fila1, fila2], [columna1, columna2]]`
-   Un slice de etiquetas: `df.loc[etiqueta_inicio:etiqueta_fin, etiqueta_col_inicio:etiqueta_col_fin]` (¡importante! el slice final es inclusivo con `loc`)
-   Una máscara booleana: `df.loc[df[columna] > valor]`

In [None]:
display(dataframe_ejemplo)

Unnamed: 0,columna_A,columna_B
0,10,A
1,20,B
2,30,C
3,40,D


In [None]:
print("Seleccionar la fila con índice de etiqueta 1 y la columna 'columna_A' con loc:")
display(dataframe_ejemplo.loc[1, 'columna_A'])

print("\nSeleccionar las filas con índices de etiqueta 0 y 2, y todas las columnas con loc:")
display(dataframe_ejemplo.loc[[0, 2], :])

print("\nSeleccionar filas desde el índice de etiqueta 1 hasta el 3 (inclusive) y la columna 'columna_B' con loc:")
display(dataframe_ejemplo.loc[1:3, 'columna_B'])

print("\nSeleccionar filas donde 'columna_A' es mayor que 20 con loc:")
display(dataframe_ejemplo.loc[dataframe_ejemplo['columna_A'] > 20])

Seleccionar la fila con índice de etiqueta 1 y la columna 'columna_A' con loc:


np.int64(20)


Seleccionar las filas con índices de etiqueta 0 y 2, y todas las columnas con loc:


Unnamed: 0,columna_A,columna_B
0,10,A
2,30,C



Seleccionar filas desde el índice de etiqueta 1 hasta el 3 (inclusive) y la columna 'columna_B' con loc:


Unnamed: 0,columna_B
1,B
2,C
3,D



Seleccionar filas donde 'columna_A' es mayor que 20 con loc:


Unnamed: 0,columna_A,columna_B
2,30,C
3,40,D


### Usando `iloc`

`iloc` permite seleccionar filas y columnas por su posición entera (basada en 0). Puedes usar:

-   Un solo índice entero: `df.iloc[indice_fila, indice_columna]`
-   Una lista de índices enteros: `df.iloc[[indice_fila1, indice_fila2], [indice_columna1, indice_columna2]]`
-   Un slice de índices enteros: `df.iloc[indice_inicio:indice_fin, indice_col_inicio:indice_col_fin]` (¡importante! el slice final es exclusivo con `iloc`, como en los slices de listas de Python)

In [None]:
print("Seleccionar la fila en la posición 1 y la columna en la posición 0 con iloc:")
display(dataframe_ejemplo.iloc[1, 0])

print("\nSeleccionar las filas en las posiciones 0 y 2, y todas las columnas con iloc:")
display(dataframe_ejemplo.iloc[[0, 2], :])

print("\nSeleccionar filas desde la posición 1 hasta la 4 (exclusiva) y la columna en la posición 1 con iloc:")
display(dataframe_ejemplo.iloc[1:4, 1])

Seleccionar la fila en la posición 1 y la columna en la posición 0 con iloc:


np.int64(20)


Seleccionar las filas en las posiciones 0 y 2, y todas las columnas con iloc:


Unnamed: 0,columna_A,columna_B
0,10,A
2,30,C



Seleccionar filas desde la posición 1 hasta la 4 (exclusiva) y la columna en la posición 1 con iloc:


Unnamed: 0,columna_B
1,B
2,C
3,D


## Ejercicios prácticos

Para practicar lo aprendido, intenta resolver los siguientes ejercicios. Puedes crear nuevas celdas de código para escribir y ejecutar tus soluciones.

**Ejercicio 1: Crear un DataFrame**

Crea un DataFrame llamado `datos_estudiantes` con las siguientes columnas:
-   `Nombre`: Lista de nombres de estudiantes (al menos 5).
-   `Edad`: Lista de edades correspondientes.
-   `Carrera`: Lista de carreras que estudian.

Muestra el DataFrame completo.

**Ejercicio 2: Exploración básica**

Usando el DataFrame `datos_estudiantes` que creaste:
-   Muestra las primeras 3 filas.
-   Muestra la última fila.
-   Obtén información sobre los tipos de datos y valores no nulos.
-   Obtén estadísticas descriptivas de la columna numérica.

**Ejercicio 3: Selección con `loc`**

Usando el DataFrame `datos_estudiantes`:
-   Selecciona el nombre y la carrera del estudiante en el índice de etiqueta 2.
-   Selecciona todas las columnas para los estudiantes con índices de etiqueta 0, 1 y 4.
-   Selecciona los nombres de los estudiantes que tienen más de 20 años.

**Ejercicio 4: Selección con `iloc`**

Usando el DataFrame `datos_estudiantes`:
-   Selecciona la edad del estudiante en la posición 3.
-   Selecciona el nombre y la edad de los estudiantes en las posiciones 0 y 2.
-   Selecciona las carreras de los estudiantes desde la posición 1 hasta la 4 (exclusiva).

## Filtrado, Ordenamiento y Operaciones en DataFrames

Una vez que tenemos nuestros datos cargados en un DataFrame, las siguientes tareas comunes en el análisis de datos son filtrar, ordenar y realizar diversas operaciones sobre ellos. Estas técnicas nos permiten seleccionar subconjuntos relevantes de datos, organizarlos de una manera significativa y transformar los datos según sea necesario.

- **Filtrado**: Permite seleccionar filas o columnas de un DataFrame basándose en condiciones específicas. Esencial para enfocarse en los datos de interés.
- **Ordenamiento**: Permite organizar las filas de un DataFrame según los valores de una o más columnas, o por el índice. Útil para visualizar patrones o preparar datos para análisis posteriores.
- **Operaciones**: Incluye una variedad de acciones como eliminar filas o columnas, aplicar funciones a los datos para transformarlos, o realizar cálculos. Son fundamentales para la limpieza y preparación de datos.

En esta sección, exploraremos cómo realizar estas operaciones utilizando métodos clave de Pandas como `df[df['col']]` para filtrado booleano, `sort_values()` y `sort_index()` para ordenamiento, y `drop()`, `apply()`, y `map()` para diversas transformaciones.

## Filtrado de datos

El filtrado de datos en Pandas es el proceso de seleccionar filas o columnas de un DataFrame que cumplen ciertas condiciones. Una forma muy común y poderosa de hacer esto es usando **máscaras booleanas**.

Una máscara booleana es una Serie de valores booleanos (True/False) de la misma longitud que el índice del DataFrame. Cuando se aplica esta máscara a un DataFrame, solo se seleccionan las filas donde el valor de la máscara es `True`.

La sintaxis básica es `df[máscara_booleana]`.

Podemos crear máscaras booleanas comparando una columna del DataFrame con un valor, por ejemplo:

- `df['columna'] > valor`: Selecciona filas donde los valores en 'columna' son mayores que 'valor'.
- `df['columna'] == valor`: Selecciona filas donde los valores en 'columna' son iguales a 'valor'.
- `df['columna'].isin([valor1, valor2])`: Selecciona filas donde los valores en 'columna' están en la lista proporcionada.

También podemos combinar múltiples condiciones usando operadores lógicos:

- `&` (AND lógico)
- `|` (OR lógico)
- `~` (NOT lógico)

Es importante encerrar cada condición entre paréntesis al combinarlas.

In [None]:
import pandas as pd
import numpy as np

# Crear un DataFrame más complejo llamado datos_estudiantes
datos_estudiantes = pd.DataFrame({
    'Nombre': ['Ana', 'Juan', 'Maria', 'Pedro', 'Luisa', 'Carlos', 'Sofia', 'Diego', 'Elena', 'Roberto'],
    'Edad': [21, 22, 20, 23, 21, 24, 22, 20, 23, 25],
    'Carrera': ['Ingeniería', 'Ciencias', 'Arte', 'Ingeniería', 'Ciencias', 'Arte', 'Ingeniería', 'Ciencias', 'Arte', 'Ingeniería'],
    'Promedio': [8.5, 7.9, 9.1, 8.0, 8.8, 7.5, 8.9, 7.8, 9.0, 8.2],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Madrid', 'Barcelona']
})

print("DataFrame datos_estudiantes creado:")
display(datos_estudiantes)

DataFrame datos_estudiantes creado:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
0,Ana,21,Ingeniería,8.5,Madrid
1,Juan,22,Ciencias,7.9,Barcelona
2,Maria,20,Arte,9.1,Valencia
3,Pedro,23,Ingeniería,8.0,Sevilla
4,Luisa,21,Ciencias,8.8,Madrid
5,Carlos,24,Arte,7.5,Barcelona
6,Sofia,22,Ingeniería,8.9,Valencia
7,Diego,20,Ciencias,7.8,Sevilla
8,Elena,23,Arte,9.0,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona


**Ejercicios de Filtrado (con DataFrame más complejo):**

Usando el DataFrame `datos_estudiantes`:

1.  Filtra y muestra solo los estudiantes cuya carrera es 'Ingeniería'.
2.  Filtra y muestra los estudiantes que tienen 22 años o más.
3.  Filtra y muestra los estudiantes que viven en 'Madrid' o 'Barcelona'.
4.  Filtra y muestra los estudiantes que estudian 'Arte' y tienen un promedio mayor a 8.0.
5.  Filtra y muestra los estudiantes cuya ciudad *no* es 'Sevilla' y cuya edad es menor a 23 años.
6.  Filtra y muestra los estudiantes que tienen un promedio entre 8.0 y 9.0 (inclusive).

In [None]:
print("1. Estudiantes de Ingeniería:")
display(datos_estudiantes[datos_estudiantes['Carrera'] == 'Ingeniería'])

print("\n2. Estudiantes de 22 años o más:")
display(datos_estudiantes[datos_estudiantes['Edad'] >= 22])

print("\n3. Estudiantes de Madrid o Barcelona:")
display(datos_estudiantes[datos_estudiantes['Ciudad'].isin(['Madrid', 'Barcelona'])])

print("\n4. Estudiantes de Arte con promedio > 8.0:")
display(datos_estudiantes[(datos_estudiantes['Carrera'] == 'Arte') & (datos_estudiantes['Promedio'] > 8.0)])

print("\n5. Estudiantes que no viven en Sevilla y son menores de 23 años:")
display(datos_estudiantes[(datos_estudiantes['Ciudad'] != 'Sevilla') & (datos_estudiantes['Edad'] < 23)])

print("\n6. Estudiantes con promedio entre 8.0 y 9.0 (inclusive):")
display(datos_estudiantes[(datos_estudiantes['Promedio'] >= 8.0) & (datos_estudiantes['Promedio'] <= 9.0)])

1. Estudiantes de Ingeniería:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
0,Ana,21,Ingeniería,8.5,Madrid
3,Pedro,23,Ingeniería,8.0,Sevilla
6,Sofia,22,Ingeniería,8.9,Valencia
9,Roberto,25,Ingeniería,8.2,Barcelona



2. Estudiantes de 22 años o más:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
1,Juan,22,Ciencias,7.9,Barcelona
3,Pedro,23,Ingeniería,8.0,Sevilla
5,Carlos,24,Arte,7.5,Barcelona
6,Sofia,22,Ingeniería,8.9,Valencia
8,Elena,23,Arte,9.0,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona



3. Estudiantes de Madrid o Barcelona:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
0,Ana,21,Ingeniería,8.5,Madrid
1,Juan,22,Ciencias,7.9,Barcelona
4,Luisa,21,Ciencias,8.8,Madrid
5,Carlos,24,Arte,7.5,Barcelona
8,Elena,23,Arte,9.0,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona



4. Estudiantes de Arte con promedio > 8.0:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
2,Maria,20,Arte,9.1,Valencia
8,Elena,23,Arte,9.0,Madrid



5. Estudiantes que no viven en Sevilla y son menores de 23 años:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
0,Ana,21,Ingeniería,8.5,Madrid
1,Juan,22,Ciencias,7.9,Barcelona
2,Maria,20,Arte,9.1,Valencia
4,Luisa,21,Ciencias,8.8,Madrid
6,Sofia,22,Ingeniería,8.9,Valencia



6. Estudiantes con promedio entre 8.0 y 9.0 (inclusive):


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
0,Ana,21,Ingeniería,8.5,Madrid
3,Pedro,23,Ingeniería,8.0,Sevilla
4,Luisa,21,Ciencias,8.8,Madrid
6,Sofia,22,Ingeniería,8.9,Valencia
8,Elena,23,Arte,9.0,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona


## Ordenamiento de datos

Ordenar datos es una tarea común para organizar la información de manera significativa. En Pandas, puedes ordenar un DataFrame de dos maneras principales:

- Por los **valores** de una o más columnas usando el método `sort_values()`.
- Por el **índice** usando el método `sort_index()`.

### `sort_values()`

El método `sort_values()` te permite ordenar un DataFrame basándose en los valores de una columna o una lista de columnas. Algunos argumentos importantes son:

- `by`: La columna o lista de columnas por las cuales ordenar.
- `axis`: Eje a ordenar (0 para filas, 1 para columnas). Por defecto es 0.
- `ascending`: Si ordenar en orden ascendente (True) o descendente (False). Puede ser una lista de booleanos si ordenas por múltiples columnas.
- `inplace`: Si realizar la operación en el DataFrame original (True) o devolver un nuevo DataFrame ordenado (False). Por defecto es False.

### `sort_index()`

El método `sort_index()` te permite ordenar un DataFrame basándose en los valores de su índice. Algunos argumentos importantes son similares a `sort_values()`:

- `axis`: Eje a ordenar (0 para filas, 1 para columnas). Por defecto es 0.
- `ascending`: Si ordenar en orden ascendente (True) o descendente (False).
- `inplace`: Si realizar la operación en el DataFrame original (True) o devolver un nuevo DataFrame ordenado (False). Por defecto es False.

**Ejercicios de Ordenamiento:**

Usando el DataFrame `datos_estudiantes`:

1.  Ordena el DataFrame por la columna 'Edad' en orden ascendente.
2.  Ordena el DataFrame por la columna 'Promedio' en orden descendente.
3.  Ordena el DataFrame primero por 'Carrera' (ascendente) y luego por 'Promedio' (descendente).
4.  Ordena el DataFrame por el índice en orden descendente.
5.  Crea un nuevo DataFrame llamado `datos_ordenados_ciudad` que sea una copia de `datos_estudiantes` ordenado por la columna 'Ciudad' en orden ascendente, sin modificar el DataFrame original.

In [None]:
print("1. Ordenar por 'Edad' ascendente:")
display(datos_estudiantes.sort_values(by='Edad', ascending=True))

print("\n2. Ordenar por 'Promedio' descendente:")
display(datos_estudiantes.sort_values(by='Promedio', ascending=False))

print("\n3. Ordenar por 'Carrera' (asc) y luego 'Promedio' (desc):")
display(datos_estudiantes.sort_values(by=['Carrera', 'Promedio'], ascending=[True, False]))

print("\n4. Ordenar por índice descendente:")
display(datos_estudiantes.sort_index(ascending=False))

print("\n5. Crear nuevo DataFrame ordenado por 'Ciudad':")
datos_ordenados_ciudad = datos_estudiantes.sort_values(by='Ciudad', ascending=True)
display(datos_ordenados_ciudad)

1. Ordenar por 'Edad' ascendente:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
2,Maria,20,Arte,9.1,Valencia
7,Diego,20,Ciencias,7.8,Sevilla
4,Luisa,21,Ciencias,8.8,Madrid
0,Ana,21,Ingeniería,8.5,Madrid
6,Sofia,22,Ingeniería,8.9,Valencia
1,Juan,22,Ciencias,7.9,Barcelona
3,Pedro,23,Ingeniería,8.0,Sevilla
8,Elena,23,Arte,9.0,Madrid
5,Carlos,24,Arte,7.5,Barcelona
9,Roberto,25,Ingeniería,8.2,Barcelona



2. Ordenar por 'Promedio' descendente:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
2,Maria,20,Arte,9.1,Valencia
8,Elena,23,Arte,9.0,Madrid
6,Sofia,22,Ingeniería,8.9,Valencia
4,Luisa,21,Ciencias,8.8,Madrid
0,Ana,21,Ingeniería,8.5,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona
3,Pedro,23,Ingeniería,8.0,Sevilla
1,Juan,22,Ciencias,7.9,Barcelona
7,Diego,20,Ciencias,7.8,Sevilla
5,Carlos,24,Arte,7.5,Barcelona



3. Ordenar por 'Carrera' (asc) y luego 'Promedio' (desc):


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
2,Maria,20,Arte,9.1,Valencia
8,Elena,23,Arte,9.0,Madrid
5,Carlos,24,Arte,7.5,Barcelona
4,Luisa,21,Ciencias,8.8,Madrid
1,Juan,22,Ciencias,7.9,Barcelona
7,Diego,20,Ciencias,7.8,Sevilla
6,Sofia,22,Ingeniería,8.9,Valencia
0,Ana,21,Ingeniería,8.5,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona
3,Pedro,23,Ingeniería,8.0,Sevilla



4. Ordenar por índice descendente:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
9,Roberto,25,Ingeniería,8.2,Barcelona
8,Elena,23,Arte,9.0,Madrid
7,Diego,20,Ciencias,7.8,Sevilla
6,Sofia,22,Ingeniería,8.9,Valencia
5,Carlos,24,Arte,7.5,Barcelona
4,Luisa,21,Ciencias,8.8,Madrid
3,Pedro,23,Ingeniería,8.0,Sevilla
2,Maria,20,Arte,9.1,Valencia
1,Juan,22,Ciencias,7.9,Barcelona
0,Ana,21,Ingeniería,8.5,Madrid



5. Crear nuevo DataFrame ordenado por 'Ciudad':


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
1,Juan,22,Ciencias,7.9,Barcelona
5,Carlos,24,Arte,7.5,Barcelona
9,Roberto,25,Ingeniería,8.2,Barcelona
0,Ana,21,Ingeniería,8.5,Madrid
4,Luisa,21,Ciencias,8.8,Madrid
8,Elena,23,Arte,9.0,Madrid
3,Pedro,23,Ingeniería,8.0,Sevilla
7,Diego,20,Ciencias,7.8,Sevilla
2,Maria,20,Arte,9.1,Valencia
6,Sofia,22,Ingeniería,8.9,Valencia


## Operaciones en DataFrames: `drop()`, `apply()`, `map()`

Además de filtrar y ordenar, Pandas ofrece una variedad de métodos para realizar operaciones directamente sobre los datos de un DataFrame. Exploraremos tres de los más comunes y útiles: `drop()`, `apply()` y `map()`.

### `drop()`: Eliminando filas o columnas

El método `drop()` se utiliza para eliminar filas o columnas de un DataFrame.

- Para eliminar **filas**, especificamos las etiquetas de índice de las filas a eliminar y `axis=0`.
- Para eliminar **columnas**, especificamos los nombres de las columnas a eliminar y `axis=1`.

Argumentos clave:

- `labels`: Etiqueta(s) de índice o nombre(s) de columna a eliminar. Puede ser una sola etiqueta o una lista de etiquetas.
- `axis`: 0 para eliminar filas (por defecto), 1 para eliminar columnas.
- `inplace`: Si modificar el DataFrame original (True) o devolver un nuevo DataFrame con las filas/columnas eliminadas (False). Por defecto es False.

In [None]:
print("DataFrame original:")
display(datos_estudiantes)

# Eliminar filas por índice
print("\nDataFrame después de eliminar filas con índices 0 y 2:")
display(datos_estudiantes.drop(labels=[0, 2], axis=0))

# Eliminar una columna por nombre
print("\nDataFrame después de eliminar la columna 'Ciudad':")
display(datos_estudiantes.drop(labels='Ciudad', axis=1))

# Eliminar múltiples columnas
print("\nDataFrame después de eliminar las columnas 'Edad' y 'Promedio':")
display(datos_estudiantes.drop(labels=['Edad', 'Promedio'], axis=1))

# Nota: drop() por defecto no modifica el DataFrame original.
# Si quieres modificarlo in-place, usa inplace=True
# datos_estudiantes.drop(labels='Ciudad', axis=1, inplace=True)
# print("\nDataFrame original después de eliminar la columna 'Ciudad' (inplace=True):")
# display(datos_estudiantes)

DataFrame original:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
0,Ana,21,Ingeniería,8.5,Madrid
1,Juan,22,Ciencias,7.9,Barcelona
2,Maria,20,Arte,9.1,Valencia
3,Pedro,23,Ingeniería,8.0,Sevilla
4,Luisa,21,Ciencias,8.8,Madrid
5,Carlos,24,Arte,7.5,Barcelona
6,Sofia,22,Ingeniería,8.9,Valencia
7,Diego,20,Ciencias,7.8,Sevilla
8,Elena,23,Arte,9.0,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona



DataFrame después de eliminar filas con índices 0 y 2:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
1,Juan,22,Ciencias,7.9,Barcelona
3,Pedro,23,Ingeniería,8.0,Sevilla
4,Luisa,21,Ciencias,8.8,Madrid
5,Carlos,24,Arte,7.5,Barcelona
6,Sofia,22,Ingeniería,8.9,Valencia
7,Diego,20,Ciencias,7.8,Sevilla
8,Elena,23,Arte,9.0,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona



DataFrame después de eliminar la columna 'Ciudad':


Unnamed: 0,Nombre,Edad,Carrera,Promedio
0,Ana,21,Ingeniería,8.5
1,Juan,22,Ciencias,7.9
2,Maria,20,Arte,9.1
3,Pedro,23,Ingeniería,8.0
4,Luisa,21,Ciencias,8.8
5,Carlos,24,Arte,7.5
6,Sofia,22,Ingeniería,8.9
7,Diego,20,Ciencias,7.8
8,Elena,23,Arte,9.0
9,Roberto,25,Ingeniería,8.2



DataFrame después de eliminar las columnas 'Edad' y 'Promedio':


Unnamed: 0,Nombre,Carrera,Ciudad
0,Ana,Ingeniería,Madrid
1,Juan,Ciencias,Barcelona
2,Maria,Arte,Valencia
3,Pedro,Ingeniería,Sevilla
4,Luisa,Ciencias,Madrid
5,Carlos,Arte,Barcelona
6,Sofia,Ingeniería,Valencia
7,Diego,Ciencias,Sevilla
8,Elena,Arte,Madrid
9,Roberto,Ingeniería,Barcelona


### `apply()`: Aplicando una función a lo largo de un eje

El método `apply()` permite aplicar una función a lo largo de un eje de un DataFrame o Serie. Es muy flexible y puede usarse para aplicar funciones predefinidas de Python/NumPy o funciones personalizadas.

- Para aplicar una función a cada **columna**, usamos `axis=0` (por defecto).
- Para aplicar una función a cada **fila**, usamos `axis=1`.

Argumentos clave:

- `func`: La función a aplicar. Puede ser una función de Python, una función de NumPy, etc.
- `axis`: 0 o 'index' para aplicar la función a cada columna, 1 o 'columns' para aplicar la función a cada fila.
- `args` y `kwds`: Argumentos posicionales y de palabra clave adicionales a pasar a la función `func`.

In [None]:
print("DataFrame original:")
display(datos_estudiantes)

# Aplicar una función a una columna (ej: calcular la longitud de los nombres)
print("\nLongitud de los nombres:")
display(datos_estudiantes['Nombre'].apply(len))

# Aplicar una función a cada fila (ej: crear una nueva columna combinando Nombre y Carrera)
def combinar_nombre_carrera(fila):
    return f"{fila['Nombre']} ({fila['Carrera']})"

print("\nNueva columna combinando Nombre y Carrera:")
display(datos_estudiantes.apply(combinar_nombre_carrera, axis=1))

# Aplicar una función de NumPy a una columna (ej: calcular el cuadrado del Promedio)
print("\nCuadrado del Promedio:")
display(datos_estudiantes['Promedio'].apply(np.square))

# Aplicar una función a varias columnas (ej: sumar Edad y Promedio - aunque no tenga sentido práctico aquí)
def sumar_edad_promedio(fila):
    return fila['Edad'] + fila['Promedio']

print("\nSuma de Edad y Promedio por fila:")
display(datos_estudiantes.apply(sumar_edad_promedio, axis=1))

DataFrame original:


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad
0,Ana,21,Ingeniería,8.5,Madrid
1,Juan,22,Ciencias,7.9,Barcelona
2,Maria,20,Arte,9.1,Valencia
3,Pedro,23,Ingeniería,8.0,Sevilla
4,Luisa,21,Ciencias,8.8,Madrid
5,Carlos,24,Arte,7.5,Barcelona
6,Sofia,22,Ingeniería,8.9,Valencia
7,Diego,20,Ciencias,7.8,Sevilla
8,Elena,23,Arte,9.0,Madrid
9,Roberto,25,Ingeniería,8.2,Barcelona



Longitud de los nombres:


Unnamed: 0,Nombre
0,3
1,4
2,5
3,5
4,5
5,6
6,5
7,5
8,5
9,7



Nueva columna combinando Nombre y Carrera:


Unnamed: 0,0
0,Ana (Ingeniería)
1,Juan (Ciencias)
2,Maria (Arte)
3,Pedro (Ingeniería)
4,Luisa (Ciencias)
5,Carlos (Arte)
6,Sofia (Ingeniería)
7,Diego (Ciencias)
8,Elena (Arte)
9,Roberto (Ingeniería)



Cuadrado del Promedio:


Unnamed: 0,Promedio
0,72.25
1,62.41
2,82.81
3,64.0
4,77.44
5,56.25
6,79.21
7,60.84
8,81.0
9,67.24



Suma de Edad y Promedio por fila:


Unnamed: 0,0
0,29.5
1,29.9
2,29.1
3,31.0
4,29.8
5,31.5
6,30.9
7,27.8
8,32.0
9,33.2


### `map()`: Mapeando valores en una Serie

El método `map()` se utiliza exclusivamente en **Series** (una sola columna) para sustituir cada valor en la Serie por otro valor, basado en un diccionario o una función. Es útil para transformar o estandarizar valores.

Argumentos clave:

- `arg`: Un diccionario, una Serie o una función para mapear los valores existentes a nuevos valores.
- `na_action`: 'ignore' para no afectar los valores NaN.

A diferencia de `apply()`, `map()` opera elemento por elemento en una Serie. Si necesitas aplicar una función fila por fila o columna por columna a todo el DataFrame, `apply()` es más apropiado.

In [None]:
print("Columna 'Carrera' original:")
display(datos_estudiantes['Carrera'])

# Usar map() con un diccionario para cambiar los nombres de las carreras
mapeo_carreras = {
    'Ingeniería': 'Ing.',
    'Ciencias': 'Cien.',
    'Arte': 'Arte'
}

print("\nColumna 'Carrera' mapeada con un diccionario:")
display(datos_estudiantes['Carrera'].map(mapeo_carreras))

# Usar map() con una función para categorizar la edad
def categorizar_edad(edad):
    if edad < 22:
        return 'Joven'
    elif edad < 24:
        return 'Adulto Joven'
    else:
        return 'Adulto'

print("\nColumna 'Edad' mapeada con una función (categoría):")
display(datos_estudiantes['Edad'].map(categorizar_edad))

# Nota: map() devuelve una nueva Serie. Para añadirla al DataFrame, la asignas a una nueva columna:
datos_estudiantes['Categoria_Edad'] = datos_estudiantes['Edad'].map(categorizar_edad)
print("\nDataFrame con nueva columna 'Categoria_Edad':")
display(datos_estudiantes)

Columna 'Carrera' original:


Unnamed: 0,Carrera
0,Ingeniería
1,Ciencias
2,Arte
3,Ingeniería
4,Ciencias
5,Arte
6,Ingeniería
7,Ciencias
8,Arte
9,Ingeniería



Columna 'Carrera' mapeada con un diccionario:


Unnamed: 0,Carrera
0,Ing.
1,Cien.
2,Arte
3,Ing.
4,Cien.
5,Arte
6,Ing.
7,Cien.
8,Arte
9,Ing.



Columna 'Edad' mapeada con una función (categoría):


Unnamed: 0,Edad
0,Joven
1,Adulto Joven
2,Joven
3,Adulto Joven
4,Joven
5,Adulto
6,Adulto Joven
7,Joven
8,Adulto Joven
9,Adulto



DataFrame con nueva columna 'Categoria_Edad':


Unnamed: 0,Nombre,Edad,Carrera,Promedio,Ciudad,Categoria_Edad
0,Ana,21,Ingeniería,8.5,Madrid,Joven
1,Juan,22,Ciencias,7.9,Barcelona,Adulto Joven
2,Maria,20,Arte,9.1,Valencia,Joven
3,Pedro,23,Ingeniería,8.0,Sevilla,Adulto Joven
4,Luisa,21,Ciencias,8.8,Madrid,Joven
5,Carlos,24,Arte,7.5,Barcelona,Adulto
6,Sofia,22,Ingeniería,8.9,Valencia,Adulto Joven
7,Diego,20,Ciencias,7.8,Sevilla,Joven
8,Elena,23,Arte,9.0,Madrid,Adulto Joven
9,Roberto,25,Ingeniería,8.2,Barcelona,Adulto


**Ejercicios de Operaciones:**

Usando el DataFrame `datos_estudiantes`:

1.  Crea un nuevo DataFrame llamado `df_sin_edad` eliminando la columna 'Edad'. Muestra `df_sin_edad`.
2.  Elimina las filas con índices 5 y 9 del DataFrame original (sin usar `inplace`) y muestra el resultado.
3.  Crea una nueva columna llamada 'Promedio_Ajustado' que sea el 'Promedio' sumándole 0.5. Usa el método que consideres más adecuado. Muestra el DataFrame con la nueva columna.
4.  Crea una nueva columna llamada 'Inicial_Nombre' que contenga la primera letra del nombre de cada estudiante. Usa `apply()` o `map()`. Muestra el DataFrame.
5.  Usando `map()`, crea una nueva columna 'Nivel_Promedio' que categorice el promedio en 'Alto' (>= 8.5), 'Medio' (>= 7.5 y < 8.5) o 'Bajo' (< 7.5). Muestra el DataFrame con la nueva columna.