# Semana 7-10: Pandas - Manipulación y Análisis de Datos Tabulares

## 1. Introducción a Pandas y DataFrames

### ¿Qué es Pandas?

**Pandas** es una librería de Python de código abierto, construida sobre NumPy, que proporciona estructuras de datos de alto rendimiento y herramientas de análisis de datos fáciles de usar.  El nombre "Pandas" proviene de "Panel Data", un término econométrico para datos tabulares multidimensionales.

Pandas está diseñada para que el trabajo con datos tabulares sea **intuitivo, flexible y eficiente**.  Se ha convertido en una herramienta fundamental en el ecosistema de ciencia de datos de Python, siendo ampliamente utilizada en análisis de datos, limpieza de datos, preparación de datos, exploración de datos y muchas otras tareas relacionadas.

### DataFrames: La Estructura de Datos Fundamental

El corazón de Pandas es el **DataFrame**. Un DataFrame es una estructura de datos tabular **bidimensional** con **etiquetas en filas y columnas**.  Puedes pensar en un DataFrame como una hoja de cálculo en Excel, una tabla en una base de datos SQL o un diccionario de Series de NumPy.

[Image of Pandas DataFrame Structure]

Las características clave de un DataFrame son:

*   **Datos Tabulares:** Organiza los datos en filas y columnas, similar a una tabla.
*   **Columnas Etiquetadas:** Cada columna tiene un **nombre** (etiqueta), que permite acceder a los datos de manera intuitiva.
*   **Filas Indexadas:** Cada fila tiene un **índice**, que por defecto es numérico (0, 1, 2, ...), pero puede ser personalizado con etiquetas significativas (fechas, nombres, etc.).
*   **Tipos de Datos Heterogéneos por Columna:**  A diferencia de los arrays NumPy, **cada columna de un DataFrame puede tener un tipo de datos diferente** (enteros, flotantes, cadenas, booleanos, fechas, etc.).  Sin embargo, **dentro de una misma columna, todos los elementos deben ser del mismo tipo**.
*   **Flexibilidad y Funcionalidad:** Pandas DataFrames ofrecen una gran flexibilidad y una amplia gama de funciones para manipular, limpiar, transformar y analizar datos tabulares.

### DataFrames vs. Arrays NumPy:

Si bien Pandas se construye sobre NumPy y utiliza arrays NumPy internamente, los DataFrames son una estructura de datos de nivel superior con características adicionales diseñadas específicamente para datos tabulares. Aquí hay algunas diferencias clave:

| Característica             | Arrays NumPy (ndarrays)                  | DataFrames de Pandas                        |
| -------------------------- | ---------------------------------------- | ------------------------------------------- |
| Estructura de datos        | N-dimensional (generalmente numéricos)     | Bidimensional (tabular)                     |
| Etiquetas de columnas      | No tiene etiquetas de columna por defecto | Columnas etiquetadas con nombres             |
| Índices de filas           | Índices numéricos por defecto            | Índices numéricos o personalizados           |
| Tipos de datos por columna | Homogéneo (mismo tipo en todo el array) | Heterogéneo (diferentes tipos por columna, homogéneo dentro de columna) |
| Uso Principal              | Computación numérica eficiente            | Manipulación y análisis de datos tabulares |

En resumen:

*   **Usa NumPy cuando:** Necesitas realizar operaciones numéricas intensivas en datos homogéneos (ej. cálculos matemáticos, álgebra lineal, procesamiento de imágenes).
*   **Usa Pandas cuando:** Necesitas manipular y analizar datos tabulares, especialmente datos que pueden ser heterogéneos y requieren funcionalidades de etiquetado, indexación, limpieza, transformación y análisis exploratorio.

---


## 2. Series en Pandas (Arrays Unidimensionales Indexados)

### ¿Qué es una Serie?

Una **Serie** en Pandas es una estructura de datos **unidimensional** que puede contener cualquier tipo de datos (enteros, flotantes, cadenas, fechas, etc.).  Es similar a un array NumPy 1D, pero con la diferencia clave de que una Serie tiene un **índice** etiquetado.

[Image of Pandas Series Structure]

Piensa en una Serie como una columna individual de un DataFrame.  De hecho, un DataFrame se puede ver como una colección de Series que comparten el mismo índice.

### Creación de Series:

Puedes crear una Serie de Pandas de varias maneras:

*   **A partir de una lista de Python:**

In [2]:
import pandas as pd

lista_datos = [10, 20, 30, 40, 50]
serie_lista = pd.Series(lista_datos)
print(serie_lista)
print(type(serie_lista))
print(serie_lista.index)
print(serie_lista.values)

0    10
1    20
2    30
3    40
4    50
dtype: int64
<class 'pandas.core.series.Series'>
RangeIndex(start=0, stop=5, step=1)
[10 20 30 40 50]


*   **A partir de un array NumPy:**

In [4]:
import pandas as pd
import numpy as np

array_datos = np.array([1.1, 2.2, 3.3, 4.4, 5.5])
serie_array = pd.Series(array_datos)
print(serie_array)

0    1.1
1    2.2
2    3.3
3    4.4
4    5.5
dtype: float64


*   **A partir de un diccionario de Python:**

In [6]:
import pandas as pd

diccionario_datos = {'a': 100, 'b': 200, 'c': 300, 'd': 400}
serie_dict = pd.Series(diccionario_datos)
print(serie_dict)
print(serie_dict.index)

a    100
b    200
c    300
d    400
dtype: int64
Index(['a', 'b', 'c', 'd'], dtype='object')


*   **Especificando el índice explícitamente:**

In [7]:
import pandas as pd

datos = [5, 10, 15, 20]
indices_personalizados = ['Uno', 'Dos', 'Tres', 'Cuatro']
serie_indexada = pd.Series(datos, index=indices_personalizados)
print(serie_indexada)

Uno        5
Dos       10
Tres      15
Cuatro    20
dtype: int64


### Indexación y Selección en Series:

Puedes acceder a los elementos de una Serie utilizando su índice (etiqueta o posición numérica):

In [9]:
import pandas as pd

serie = pd.Series([10, 20, 30, 40, 50], index=['A', 'B', 'C', 'D', 'E'])

# Indexación por etiqueta (índice)
print(serie['B'])
print(serie[['A', 'D', 'E']])

# Indexación por posición (índice numérico)
print(serie.iloc[1])
print(serie[0:3])

# Indexación booleana (similar a NumPy)
print(serie[serie > 30])

20
A    10
D    40
E    50
dtype: int64
20
A    10
B    20
C    30
dtype: int64
D    40
E    50
dtype: int64


---

## 3. Creación de DataFrames

Hay varias formas de crear DataFrames en Pandas:

*   **A partir de un diccionario de listas o arrays NumPy:**

In [13]:
import pandas as pd
import numpy as np

diccionario_data = {
    'Nombre': ['Alice', 'Bob', 'Charlie', 'David'],
    'Edad': [25, 30, 22, 35],
    'Ciudad': ['Nueva York', 'Londres', 'París', 'Tokio']
}
dataframe_dict = pd.DataFrame(diccionario_data)
print(dataframe_dict)
print(type(dataframe_dict))
print(dataframe_dict.columns)
print(dataframe_dict.index)
print(dataframe_dict.values)

    Nombre  Edad      Ciudad
0    Alice    25  Nueva York
1      Bob    30     Londres
2  Charlie    22       París
3    David    35       Tokio
<class 'pandas.core.frame.DataFrame'>
Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')
RangeIndex(start=0, stop=4, step=1)
[['Alice' 25 'Nueva York']
 ['Bob' 30 'Londres']
 ['Charlie' 22 'París']
 ['David' 35 'Tokio']]


*   **A partir de una lista de listas:**

In [10]:
import pandas as pd

lista_listas_data = [
    ['Alice', 25, 'Nueva York'],
    ['Bob', 30, 'Londres'],
    ['Charlie', 22, 'París'],
    ['David', 35, 'Tokio']
]
nombres_columnas = ['Nombre', 'Edad', 'Ciudad']
dataframe_listas = pd.DataFrame(lista_listas_data, columns=nombres_columnas)
print(dataframe_listas)

    Nombre  Edad      Ciudad
0    Alice    25  Nueva York
1      Bob    30     Londres
2  Charlie    22       París
3    David    35       Tokio


*   **A partir de un array NumPy 2D:**

In [12]:
import pandas as pd
import numpy as np

array_2d_data = np.array([
    ['Alice', 25, 'Nueva York'],
    ['Bob', 30, 'Londres'],
    ['Charlie', 22, 'París'],
    ['David', 35, 'Tokio']
])
nombres_columnas = ['Nombre', 'Edad', 'Ciudad']
dataframe_array = pd.DataFrame(array_2d_data, columns=nombres_columnas)
print(array_2d_data)
print(dataframe_array)

[['Alice' '25' 'Nueva York']
 ['Bob' '30' 'Londres']
 ['Charlie' '22' 'París']
 ['David' '35' 'Tokio']]
    Nombre Edad      Ciudad
0    Alice   25  Nueva York
1      Bob   30     Londres
2  Charlie   22       París
3    David   35       Tokio


*   **A partir de un archivo CSV (u otros formatos de archivo):**  Veremos la lectura de archivos en la siguiente sección.

---

## 4. Lectura y Escritura de DataFrames desde/a Archivos (CSV, Excel, etc.)

Pandas facilita la lectura y escritura de DataFrames desde y hacia varios formatos de archivo, siendo CSV y Excel los más comunes.

### Lectura desde Archivo CSV (`pd.read_csv()`):

La función `pd.read_csv('nombre_archivo.csv')` lee datos desde un archivo CSV y crea un DataFrame. Pandas puede inferir automáticamente el separador de columnas, los encabezados y los tipos de datos, aunque puedes personalizar estos aspectos con argumentos adicionales.



In [13]:
import pandas as pd

# Asumiendo que tienes un archivo llamado 'datos.csv' con datos tabulares
dataframe_csv = pd.read_csv('../Datasets/datos.csv') # Descomenta esta línea y reemplaza 'datos.csv' con tu archivo CSV
print(dataframe_csv.head())
print(dataframe_csv.info())

   Nombre  Edad     Ciudad
0    Juan    25     Madrid
1     Ana    30  Barcelona
2  Carlos    22   Valencia
3   Laura    28    Sevilla
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  4 non-null      object
 1   Edad    4 non-null      int64 
 2   Ciudad  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes
None




[Image of Pandas DataFrame Read from CSV]

**Argumentos comunes de `pd.read_csv()`:**

*   `filepath_or_buffer`:  Ruta al archivo CSV (o un objeto similar a un archivo).
*   `sep`:  Separador de columnas (por defecto es `,`).  Usa `sep='\t'` para archivos TSV (tab-separated).
*   `header`:  Fila(s) que contienen los nombres de las columnas (por defecto `header=0`, la primera fila). Usa `header=None` si no hay encabezado, o `header=[0, 1]` si hay múltiples filas de encabezado.
*   `names`:  Lista de nombres de columnas a usar (si no hay encabezado o quieres reemplazarlos).
*   `index_col`:  Columna(s) a usar como índice de filas.
*   `dtype`:  Diccionario para especificar el tipo de datos de cada columna (para optimización o control de tipos).
*   `encoding`:  Codificación de caracteres del archivo (ej. `'utf-8'`, `'latin-1'`).
*   `na_values`:  Valores a considerar como faltantes (NaN).
*   `skiprows`, `nrows`, `skipfooter`:  Para saltar filas al inicio, leer un número limitado de filas, o saltar filas al final del archivo.
*   Y muchos más... (consulta la documentación de Pandas para todos los argumentos).

### Escritura a Archivo CSV (`dataframe.to_csv()`):

El método `dataframe.to_csv('nombre_archivo.csv')` guarda un DataFrame en un archivo CSV.


In [27]:
import pandas as pd

data = {'columna1': [1, 2, 3], 'columna2': ['A', 'B', 'C']}
df = pd.DataFrame(data)

df.to_csv('../Datasets/archivo_salida.csv', index=False) # Guarda el DataFrame a CSV (sin índice de filas)
# Esto creará un archivo 'archivo_salida.csv' en tu directorio de trabajo.



**Argumentos comunes de `dataframe.to_csv()`:**

*   `path_or_buf`:  Ruta al archivo de salida.
*   `sep`:  Separador de columnas (por defecto `,`).
*   `index`:  `True` o `False` (si se incluye o no el índice de filas en el archivo CSV, por defecto `True`).  Generalmente, `index=False` es preferible si el índice es solo numérico secuencial y no tiene significado como datos.
*   `header`:  `True` o `False` (si se incluyen o no los nombres de las columnas en la primera fila, por defecto `True`).
*   `encoding`:  Codificación de caracteres del archivo de salida.
*   `decimal`:  Carácter para representar el separador decimal en números flotantes (por defecto `.').
*   Y más...

### Lectura desde Archivo Excel (`pd.read_excel()`):

Similar a CSV, `pd.read_excel('nombre_archivo.xlsx')` lee datos desde un archivo Excel (tanto `.xlsx` como `.xls`) y crea un DataFrame.  Necesitas tener instalado el paquete `openpyxl` para leer archivos `.xlsx` (se instala con `pip install openpyxl`).


In [26]:
import pandas as pd

dataframe_excel = pd.read_excel('../Datasets/archivo_salida.xlsx', sheet_name='personas') # Descomenta esta línea y reemplaza 'datos.xlsx' con tu archivo Excel
print(dataframe_excel.head())
print(dataframe_excel.info())

   Nombre  Edad     Ciudad
0    Juan    25     Madrid
1     Ana    30  Barcelona
2  Carlos    22   Valencia
3   Laura    28    Sevilla
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  4 non-null      object
 1   Edad    4 non-null      int64 
 2   Ciudad  4 non-null      object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes
None




**Argumentos importantes de `pd.read_excel()`:**

*   `io`:  Ruta al archivo Excel.
*   `sheet_name`:  Nombre de la hoja de cálculo a leer (por defecto `0`, la primera hoja). Puedes usar el nombre de la hoja (cadena) o el índice de la hoja (entero, empezando desde 0).  Usa `sheet_name=None` para leer *todas* las hojas en un diccionario de DataFrames.
*   `header`, `names`, `index_col`, `dtype`, `encoding`, `skiprows`, `nrows`, `skipfooter`:  Argumentos similares a `pd.read_csv()` para controlar el formato de lectura.

### Escritura a Archivo Excel (`dataframe.to_excel()`):

`dataframe.to_excel('nombre_archivo.xlsx', sheet_name='NuevaHoja', index=False)` guarda un DataFrame en un archivo Excel, creando una nueva hoja de cálculo llamada 'NuevaHoja'.  También requiere `openpyxl` para escribir archivos `.xlsx`.


In [25]:
import pandas as pd

data = {
    'Nombre': ['Juan', 'Ana', 'Carlos', 'Laura'],
    'Edad': [25, 30, 22, 28],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

df = pd.DataFrame(data)

df.to_excel('../Datasets/archivo_salida.xlsx', sheet_name='personas', index=False) # Guarda a Excel, hoja 'PreciosFrutas'


**Argumentos importantes de `dataframe.to_excel()`:**

*   `excel_writer`:  Ruta al archivo de salida Excel.
*   `sheet_name`:  Nombre de la hoja de cálculo a crear (por defecto `'Sheet1'`).
*   `index`, `header`, `encoding`, `decimal`:  Argumentos similares a `dataframe.to_csv()`.

---


## 5. Indexación y Selección de Datos en DataFrames

Pandas ofrece varias formas poderosas y flexibles de indexar y seleccionar datos en DataFrames:

### Selección de Columnas:

*   **Por nombre de columna (como diccionario):**  `dataframe['nombre_columna']` o `dataframe[['nombre_columna1', 'nombre_columna2']]`.  Retorna una Serie (si se selecciona una columna) o un DataFrame (si se seleccionan varias columnas).

In [28]:
import pandas as pd

data = {'Nombre': ['Alice', 'Bob', 'Charlie'], 'Edad': [25, 30, 22], 'Ciudad': ['NY', 'LDN', 'PAR']}
df = pd.DataFrame(data)

columna_nombres = df['Nombre'] # Selecciona la columna 'Nombre' (retorna una Serie)
print(columna_nombres)
print(type(columna_nombres))

columnas_nombre_edad = df[['Nombre', 'Edad']] # Selecciona columnas 'Nombre' y 'Edad' (retorna un DataFrame)
print(columnas_nombre_edad)
print(type(columnas_nombre_edad))

0      Alice
1        Bob
2    Charlie
Name: Nombre, dtype: object
<class 'pandas.core.series.Series'>
    Nombre  Edad
0    Alice    25
1      Bob    30
2  Charlie    22
<class 'pandas.core.frame.DataFrame'>


*   **Por atributo (si el nombre de la columna es válido como atributo Python):**  `dataframe.nombre_columna`.  **Menos recomendado**, puede ser ambiguo y no funciona si el nombre de columna tiene espacios o caracteres especiales.

In [29]:
import pandas as pd

data = {'Nombre': ['Alice', 'Bob'], 'Edad': [25, 30]}
df = pd.DataFrame(data)

columna_edad_atributo = df.Edad # Selecciona la columna 'Edad' usando atributo (¡funciona si el nombre es válido!)
print(columna_edad_atributo)

0    25
1    30
Name: Edad, dtype: int64


### Selección de Filas:

*   **Slicing por índice numérico (similar a listas):**  `dataframe[inicio_fila:fin_fila]`.  **Selecciona filas *por posición numérica* (índice implícito), no por etiqueta de índice.**

In [30]:
import pandas as pd

data = {'Producto': ['A', 'B', 'C', 'D', 'E'], 'Ventas': [100, 200, 150, 250, 120]}
df = pd.DataFrame(data)

primeras_tres_filas = df[0:3] # Selecciona las primeras 3 filas (índices 0, 1, 2) por posición numérica
print(primeras_tres_filas)

  Producto  Ventas
0        A     100
1        B     200
2        C     150


### Selección Avanzada con `.loc[]` y `.iloc[]`:

Pandas proporciona los **indexadores `.loc[]` y `.iloc[]`** para una indexación y selección más precisa y controlada.

*   **`.loc[]` (Indexación basada en etiquetas):**  Se usa para seleccionar **filas y columnas por *etiquetas de índice y nombre de columna***.

In [32]:
import pandas as pd

data = {'Producto': ['A', 'B', 'C', 'D', 'E'], 'Ventas': [100, 200, 150, 250, 120]}
df = pd.DataFrame(data, index=['P1', 'P2', 'P3', 'P4', 'P5']) # Índice personalizado

# Seleccionar fila por etiqueta de índice
fila_P3 = df.loc['P3'] # Fila con etiqueta de índice 'P3' (retorna una Serie)
print(fila_P3)

# Seleccionar filas por rango de etiquetas de índice
filas_P2_a_P4 = df.loc['P2':'P4'] # Filas desde etiqueta 'P2' hasta 'P4' (¡incluyendo 'P4'!)
print(filas_P2_a_P4)

# Seleccionar un valor específico por etiqueta de fila y nombre de columna
venta_P4 = df.loc['P4', 'Ventas'] # Valor en fila 'P4', columna 'Ventas'
print(venta_P4)

# Seleccionar filas y columnas específicas por etiquetas
subdataframe_loc = df.loc[['P1', 'P4', 'P5'], ['Producto', 'Ventas']] # Filas 'P1', 'P4', 'P5' y columnas 'Producto', 'Ventas'
print(subdataframe_loc)

# Slicing de filas y columnas por etiquetas
subdataframe_slice_loc = df.loc['P2':'P4', 'Producto':'Ventas'] # Filas de 'P2' a 'P4' y columnas de 'Producto' a 'Ventas'
print(subdataframe_slice_loc)

Producto      C
Ventas      150
Name: P3, dtype: object
   Producto  Ventas
P2        B     200
P3        C     150
P4        D     250
250
   Producto  Ventas
P1        A     100
P4        D     250
P5        E     120
   Producto  Ventas
P2        B     200
P3        C     150
P4        D     250


*   **`.iloc[]` (Indexación basada en posición entera):** Se usa para seleccionar **filas y columnas por *posición numérica* (índice entero)**.  Similar a la indexación por posición en listas y arrays NumPy.

In [33]:
import pandas as pd

data = {'Producto': ['A', 'B', 'C', 'D', 'E'], 'Ventas': [100, 200, 150, 250, 120]}
df = pd.DataFrame(data) # Índice numérico por defecto

# Seleccionar fila por posición numérica
fila_indice_2 = df.iloc[2] # Fila en la posición 2 (tercera fila, índice 2) (retorna una Serie)
print(fila_indice_2)

# Seleccionar filas por rango de posiciones numéricas
filas_indices_1_a_3 = df.iloc[1:4] # Filas desde posición 1 hasta 3 (sin incluir 4, posiciones 1, 2, 3)
print(filas_indices_1_a_3)

# Seleccionar un valor específico por posición de fila y columna
venta_posicion_3_1 = df.iloc[3, 1] # Valor en fila posición 3 (cuarta fila), columna posición 1 (segunda columna)
print(venta_posicion_3_1)

# Seleccionar filas y columnas específicas por posiciones numéricas
subdataframe_iloc = df.iloc[[0, 3, 4], [0, 1]] # Filas en posiciones 0, 3, 4 y columnas en posiciones 0, 1
print(subdataframe_iloc)

# Slicing de filas y columnas por posiciones numéricas
subdataframe_slice_iloc = df.iloc[1:4, 0:2] # Filas de posición 1 a 3 y columnas de posición 0 a 1
print(subdataframe_slice_iloc)

Producto      C
Ventas      150
Name: 2, dtype: object
  Producto  Ventas
1        B     200
2        C     150
3        D     250
250
  Producto  Ventas
0        A     100
3        D     250
4        E     120
  Producto  Ventas
1        B     200
2        C     150
3        D     250


### Indexación Booleana (Filtrado basado en condiciones):

Similar a NumPy, puedes usar una Serie booleana (o una condición que se evalúe a una Serie booleana) para filtrar filas de un DataFrame.

In [34]:
import pandas as pd

data = {'Producto': ['A', 'B', 'C', 'D', 'E'], 'Ventas': [100, 200, 150, 250, 120], 'Region': ['Norte', 'Sur', 'Norte', 'Este', 'Oeste']}
df = pd.DataFrame(data)

# Crear una máscara booleana basada en una condición (Ventas > 150)
mascara_ventas_altas = df['Ventas'] > 150 # Retorna una Serie booleana
print(mascara_ventas_altas)

# Filtrar el DataFrame usando la máscara booleana
df_ventas_altas = df[mascara_ventas_altas] # Selecciona solo las filas donde la máscara es True
print(df_ventas_altas)

# Combinar múltiples condiciones con operadores lógicos (&, |, ~)
df_ventas_altas_norte = df[(df['Ventas'] > 150) & (df['Region'] == 'Norte')] # Ventas > 150 Y Región 'Norte'
print(df_ventas_altas_norte)

df_region_norte_o_oeste = df[(df['Region'] == 'Norte') | (df['Region'] == 'Oeste')] # Región 'Norte' OR Región 'Oeste'
print(df_region_norte_o_oeste)

df_ventas_no_altas = df[~(df['Ventas'] > 150)] # NOT (Ventas > 150) - Ventas no mayores que 150
print(df_ventas_no_altas)

0    False
1     True
2    False
3     True
4    False
Name: Ventas, dtype: bool
  Producto  Ventas Region
1        B     200    Sur
3        D     250   Este
Empty DataFrame
Columns: [Producto, Ventas, Region]
Index: []
  Producto  Ventas Region
0        A     100  Norte
2        C     150  Norte
4        E     120  Oeste
  Producto  Ventas Region
0        A     100  Norte
2        C     150  Norte
4        E     120  Oeste


## 6. Manipulación Básica de DataFrames

* **Añadir Nuevas Columnas (dataframe.assign() o asignación directa):**

1. **Usando** .assign():  Retorna un nuevo DataFrame con la(s) nueva(s) columna(s) añadida(s).  El DataFrame original no se modifica.

In [37]:
import pandas as pd

data = {'Producto': ['A', 'B', 'C'], 'Precio': [10, 20, 30]}
df = pd.DataFrame(data)

df_con_iva = df.assign(IVA=lambda df: df['Precio'] * 0.21) # Calcula IVA como 21% del Precio y añade columna 'IVA'
print(df_con_iva)
# Output: (DataFrame con una columna 'IVA' adicional)

  Producto  Precio  IVA
0        A      10  2.1
1        B      20  4.2
2        C      30  6.3


En .assign(), puedes usar funciones lambda para cálculos basados en otras columnas del DataFrame (como en el ejemplo del IVA).

2. **Asignación Directa (modifica el DataFrame original):**  Simplemente asigna una Serie (o lista/array de la longitud correcta) a un nuevo nombre de columna. Modifica el DataFrame directamente (in-place).

In [38]:
import pandas as pd

data = {'Producto': ['A', 'B', 'C'], 'Precio': [10, 20, 30]}
df = pd.DataFrame(data)

df['Descuento'] = [0.1, 0.2, 0.15] # Añade columna 'Descuento' con valores específicos
print(df)
# Output: (DataFrame con una columna 'Descuento' adicional)

df['Precio_Final'] = df['Precio'] * (1 - df['Descuento']) # Añade columna 'Precio_Final' calculada
print(df)
# Output: (DataFrame con una columna 'Precio_Final' adicional)

  Producto  Precio  Descuento
0        A      10       0.10
1        B      20       0.20
2        C      30       0.15
  Producto  Precio  Descuento  Precio_Final
0        A      10       0.10           9.0
1        B      20       0.20          16.0
2        C      30       0.15          25.5


* **Eliminar Columnas (dataframe.drop()):**

    Retorna un nuevo DataFrame con las columnas especificadas eliminadas.  El DataFrame original no se modifica

In [39]:
import pandas as pd

data = {'Producto': ['A', 'B', 'C'], 'Precio': [10, 20, 30], 'IVA': [2.1, 4.2, 6.3]}
df = pd.DataFrame(data)

df_sin_iva = df.drop(columns=['IVA']) # Elimina la columna 'IVA' (retorna nuevo DataFrame)
print(df_sin_iva)
# Output: (DataFrame sin la columna 'IVA')

columnas_a_eliminar = ['Precio', 'IVA']
df_sin_precio_iva = df.drop(columns=columnas_a_eliminar) # Elimina múltiples columnas
print(df_sin_precio_iva)

  Producto  Precio
0        A      10
1        B      20
2        C      30
  Producto
0        A
1        B
2        C


* **Renombrar Columnas (dataframe.rename()):**

    Retorna un nuevo DataFrame con las columnas renombradas.  El DataFrame original no se modifica.

In [41]:
import pandas as pd

data = {'Producto': ['A', 'B', 'C'], 'Precio': [10, 20, 30]}
df = pd.DataFrame(data)

df_columnas_renombradas = df.rename(columns={'Producto': 'Artículo', 'Precio': 'Coste'}) # Renombra columnas
print(df_columnas_renombradas)
# Output: (DataFrame con columnas 'Artículo' y 'Coste' en lugar de 'Producto' y 'Precio')

df_renombrado_indice = df.rename(index={0: 'Fila_1', 1: 'Fila_2', 2: 'Fila_3'}) # Renombra índices de filas
print(df_renombrado_indice)

  Artículo  Coste
0        A     10
1        B     20
2        C     30
       Producto  Precio
Fila_1        A      10
Fila_2        B      20
Fila_3        C      30


*  **Ordenar DataFrames (dataframe.sort_values()):**

    Ordena las filas del DataFrame según los valores de una o más columnas.  Retorna un nuevo DataFrame ordenado.

In [42]:
import pandas as pd

data = {'Producto': ['C', 'A', 'B', 'D'], 'Precio': [30, 10, 20, 40]}
df = pd.DataFrame(data)

df_ordenado_precio = df.sort_values(by='Precio') # Ordena por la columna 'Precio' (ascendente por defecto)
print(df_ordenado_precio)

df_ordenado_producto_descendente = df.sort_values(by='Producto', ascending=False) # Ordena por 'Producto' en orden descendente
print(df_ordenado_producto_descendente)

df_ordenado_multiple = df.sort_values(by=['Producto', 'Precio'], ascending=[True, False]) # Ordena por 'Producto' (ascendente) y luego por 'Precio' (descendente) dentro de cada grupo de 'Producto'
print(df_ordenado_multiple)

  Producto  Precio
1        A      10
2        B      20
0        C      30
3        D      40
  Producto  Precio
3        D      40
0        C      30
2        B      20
1        A      10
  Producto  Precio
1        A      10
2        B      20
0        C      30
3        D      40


* **Filtrar DataFrames (Indexación Booleana, ya visto en la sección 5):**

Ya hemos visto en la sección de indexación cómo usar la indexación booleana para filtrar filas de un DataFrame basadas en condiciones.  Esto es una forma muy común de manipulación de DataFrames.

## 7. Manejo de Valores Faltantes (NaN)

En datos del mundo real, es muy común encontrarse con valores faltantes o datos ausentes. Pandas representa los valores faltantes usando NaN (Not a Number), que es un valor especial de punto flotante de NumPy.

Pandas proporciona funciones para detectar, eliminar o rellenar valores faltantes en DataFrames:

* **Detectar Valores Faltantes (dataframe.isnull() y dataframe.notnull()):**

    * dataframe.isnull(): Retorna un DataFrame booleano de la misma forma, donde True indica que el valor es faltante (NaN), y False si no lo es.
    * dataframe.notnull(): Retorna un DataFrame booleano opuesto, donde True indica que el valor no es faltante, y False si lo es.

In [44]:
import pandas as pd
import numpy as np

data = {'Columna1': [1, 2, np.nan, 4], 'Columna2': ['A', np.nan, 'C', 'D']}
df = pd.DataFrame(data)
print(df)
# Output:
#    Columna1 Columna2
# 0       1.0        A
# 1       2.0      NaN
# 2       NaN        C
# 3       4.0        D

print(df.isnull()) # Detecta valores NaN (True donde hay NaN)
# Output:
#    Columna1  Columna2
# 0     False     False
# 1     False      True
# 2      True     False
# 3     False     False

print(df.notnull()) # Detecta valores NO NaN (True donde NO hay NaN)
# Output:
#    Columna1  Columna2
# 0      True      True
# 1      True     False
# 2     False      True
# 3      True      True

   Columna1 Columna2
0       1.0        A
1       2.0      NaN
2       NaN        C
3       4.0        D
   Columna1  Columna2
0     False     False
1     False      True
2      True     False
3     False     False
   Columna1  Columna2
0      True      True
1      True     False
2     False      True
3      True      True


* **Eliminar Filas o Columnas con Valores Faltantes (dataframe.dropna()):**

    * dataframe.dropna(): Retorna un nuevo DataFrame con filas o columnas que contienen al menos un valor faltante eliminadas.

In [45]:
import pandas as pd
import numpy as np

data = {'Columna1': [1, np.nan, 3, 4], 'Columna2': ['A', 'B', np.nan, 'D'], 'Columna3': [5, 6, 7, 8]}
df = pd.DataFrame(data)
print(df)

df_sin_na_filas = df.dropna() # Elimina filas con al menos un NaN (por defecto axis=0, filas)
print(df_sin_na_filas)
# Output: (solo la fila 3, ya que las filas 0, 1, 2 tienen al menos un NaN)

df_sin_na_columnas = df.dropna(axis=1) # Elimina columnas con al menos un NaN (axis=1, columnas)
print(df_sin_na_columnas)
# Output: (solo la columna 'Columna3', ya que 'Columna1' y 'Columna2' tienen NaNs)

df_sin_na_todas_columnas = df.dropna(how='all') # Elimina filas solo si *todas* las columnas son NaN (how='all')
print(df_sin_na_todas_columnas) # En este ejemplo, no hay filas donde *todas* las columnas sean NaN, así que no elimina nada

df_sin_na_en_columna1 = df.dropna(subset=['Columna1']) # Elimina filas que tienen NaN *solo en la columna 'Columna1'* (subset=[...])
print(df_sin_na_en_columna1)

   Columna1 Columna2  Columna3
0       1.0        A         5
1       NaN        B         6
2       3.0      NaN         7
3       4.0        D         8
   Columna1 Columna2  Columna3
0       1.0        A         5
3       4.0        D         8
   Columna3
0         5
1         6
2         7
3         8
   Columna1 Columna2  Columna3
0       1.0        A         5
1       NaN        B         6
2       3.0      NaN         7
3       4.0        D         8
   Columna1 Columna2  Columna3
0       1.0        A         5
2       3.0      NaN         7
3       4.0        D         8


* **Rellenar Valores Faltantes (dataframe.fillna()):**

    Retorna un nuevo DataFrame con los valores faltantes reemplazados por un valor específico.

In [None]:
import pandas as pd
import numpy as np

data = {'Columna1': [1, np.nan, 3, 4], 'Columna2': ['A', 'B', np.nan, 'D']}
df = pd.DataFrame(data)
print(df)

df_rellenado_con_0 = df.fillna(0) # Rellena NaNs con el valor 0
print(df_rellenado_con_0)

df_rellenado_con_media = df.fillna(df.mean(numeric_only=True)) # Rellena NaNs en columnas numéricas con la media de cada columna
print(df_rellenado_con_media)

df_rellenado_con_valor_especifico_columna = df.fillna({'Columna1': -1, 'Columna2': 'ValorFaltante'}) # Rellena NaNs con diferentes valores por columna (diccionario)
print(df_rellenado_con_valor_especifico_columna)

df_rellenado_hacia_adelante = df.ffill() # Rellena NaNs "hacia adelante" (forward fill) con el último valor válido anterior en la misma columna
print(df_rellenado_hacia_adelante)

df_rellenado_hacia_atras = df.bfill() # Rellena NaNs "hacia atrás" (backward fill) con el siguiente valor válido posterior en la misma columna
print(df_rellenado_hacia_atras)

## 8. Agrupación y Agregación de Datos (`groupby`, `agg`)

* **Agrupación con `dataframe.groupby()`:**

    El método `.groupby('nombre_columna')` agrupa las filas del DataFrame basadas en los valores de la columna especificada (`'nombre_columna'`).  Retorna un objeto GroupBy, que es como una "vista" agrupada de los datos.  No realiza cálculos directamente, sino que prepara los datos para operaciones de agregación.

In [27]:
import pandas as pd

data = {'Departamento': ['Ventas', 'Ventas', 'Marketing', 'Marketing', 'Ventas', 'RRHH', 'RRHH'],
        'Empleado': ['Ana', 'Pedro', 'Laura', 'Carlos', 'Sofía', 'Juan', 'María'],
        'Salario': [50000, 60000, 70000, 80000, 55000, 90000, 95000]}
df = pd.DataFrame(data)
print(df)

grupo_departamento = df.groupby('Departamento') # Agrupa por 'Departamento' (retorna objeto GroupBy)
print(grupo_departamento) # Output: <class 'pandas.core.groupby.generic.DataFrameGroupBy'>

# Puedes iterar sobre los grupos (nombre de grupo y DataFrame del grupo)
for nombre_grupo, dataframe_grupo in grupo_departamento:
    print(f"\nDepartamento: {nombre_grupo}")
    print(dataframe_grupo)

  Departamento Empleado  Salario
0       Ventas      Ana    50000
1       Ventas    Pedro    60000
2    Marketing    Laura    70000
3    Marketing   Carlos    80000
4       Ventas    Sofía    55000
5         RRHH     Juan    90000
6         RRHH    María    95000
<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000023F3319B8F0>

Departamento: Marketing
  Departamento Empleado  Salario
2    Marketing    Laura    70000
3    Marketing   Carlos    80000

Departamento: RRHH
  Departamento Empleado  Salario
5         RRHH     Juan    90000
6         RRHH    María    95000

Departamento: Ventas
  Departamento Empleado  Salario
0       Ventas      Ana    50000
1       Ventas    Pedro    60000
4       Ventas    Sofía    55000


* **Agregación con .agg():**

Después de agrupar con .groupby(), puedes aplicar funciones de agregación a cada grupo usando el método .agg().  Las funciones de agregación realizan cálculos que resumen los datos de cada grupo (ej. media, suma, conteo, mínimo, máximo, etc.).

In [24]:
import pandas as pd

data = {'Departamento': ['Ventas', 'Ventas', 'Marketing', 'Marketing', 'Ventas', 'RRHH', 'RRHH'],
        'Empleado': ['Ana', 'Pedro', 'Laura', 'Carlos', 'Sofía', 'Juan', 'María'],
        'Salario': [50000, 60000, 70000, 80000, 55000, 90000, 95000]}
df = pd.DataFrame(data)
grupo_departamento = df.groupby('Departamento')

# Calcular la media del salario por departamento
salario_medio_por_departamento = grupo_departamento['Salario'].mean() # Aplica la función 'mean()' a la columna 'Salario' de cada grupo
print("\nSalario medio por departamento:\n", salario_medio_por_departamento)

# Calcular múltiples agregaciones a la vez (usando un diccionario)
estadisticas_salario_departamento = grupo_departamento['Salario'].agg(['mean', 'median', 'std', 'count', 'min', 'max']) # Aplica múltiples funciones de agregación a 'Salario'
print("\nEstadísticas de salario por departamento:\n", estadisticas_salario_departamento)

# Aplicar diferentes agregaciones a diferentes columnas (con diccionario)
agregaciones_personalizadas = grupo_departamento.agg(
    Salario_Medio=('Salario', 'mean'), # Calcula la media del salario y renombra la columna resultante a 'Salario_Medio'
    Salario_Maximo=('Salario', 'max'), # Calcula el máximo salario y renombra a 'Salario_Maximo'
    Cantidad_Empleados=('Empleado', 'count') # Cuenta el número de empleados en cada departamento y renombra a 'Cantidad_Empleados'
)
print("\nAgregaciones personalizadas por departamento:\n", agregaciones_personalizadas)


Salario medio por departamento:
 Departamento
Marketing    75000.0
RRHH         92500.0
Ventas       55000.0
Name: Salario, dtype: float64

Estadísticas de salario por departamento:
                  mean   median          std  count    min    max
Departamento                                                    
Marketing     75000.0  75000.0  7071.067812      2  70000  80000
RRHH          92500.0  92500.0  3535.533906      2  90000  95000
Ventas        55000.0  55000.0  5000.000000      3  50000  60000

Agregaciones personalizadas por departamento:
               Salario_Medio  Salario_Maximo  Cantidad_Empleados
Departamento                                                   
Marketing           75000.0           80000                   2
RRHH                92500.0           95000                   2
Ventas              55000.0           60000                   3


### Funciones de agregación comunes en Pandas (que puedes usar con `.agg()`):

- `'mean'` o `np.mean`: Media
- `'median'` o `np.median`: Mediana
- `'std'` o `np.std`: Desviación estándar
- `'sum'` o `np.sum`: Suma
- `'count'`: Conteo de valores no NaN
- `'size'`: Tamaño del grupo (incluyendo NaNs)
- `'min'` o `np.min`: Mínimo
- `'max'` o `np.max`: Máximo
- `'first'`, `'last'`: Primer y último valor en el grupo
- `'nunique'`: Número de valores únicos
- Y muchas más... (puedes usar funciones de NumPy o funciones personalizadas).

## 9. Unión y Concatenación de DataFrames

Pandas proporciona funciones para combinar DataFrames, ya sea **uniéndolos** (como en `SQL` `JOIN`) o **concatenándolos** (apilándolos vertical u horizontalmente).

* **Unión de DataFrames (`pd.merge()`):**

    `pd.merge(dataframe_izquierdo, dataframe_derecho, on='columna_clave', how='tipo_union')` **combina dos DataFrames basados en una o más columnas en común (columnas "clave")**.  Es similar a las operaciones `JOIN` en `SQL`.

In [55]:
import pandas as pd

# DataFrame de empleados
df_empleados = pd.DataFrame({
    'EmpleadoID': [1, 2, 3, 4, 5],
    'Nombre': ['Ana', 'Bob', 'Carlos', 'Diana', 'Eva'],
    'DepartamentoID': [101, 102, 105, 103, 102, ] # Clave para unir con df_departamentos
})
print("DataFrame de empleados:\n", df_empleados)

# DataFrame de departamentos
df_departamentos = pd.DataFrame({
    'DepartamentoID': [101, 102, 103, 104], # Clave para unir con df_empleados
    'NombreDepartamento': ['Ventas', 'Marketing', 'RRHH', 'IT'],
    'Ubicacion': ['Nueva York', 'Londres', 'París', 'Tokio']
})
print("\nDataFrame de departamentos:\n", df_departamentos)

# Unir DataFrames basados en 'DepartamentoID' (clave común) - INNER JOIN por defecto
df_unido_inner = pd.merge(df_empleados, df_departamentos, on='DepartamentoID') # 'on=' indica la columna clave de unión
print("\nDataFrame unido (INNER JOIN):\n", df_unido_inner)

# OUTER JOIN (LEFT, RIGHT, OUTER)
df_unido_left = pd.merge(df_empleados, df_departamentos, on='DepartamentoID', how='left') # LEFT JOIN - Conserva todas las filas de df_empleados
print("\nDataFrame unido (LEFT JOIN):\n", df_unido_left)

df_unido_right = pd.merge(df_empleados, df_departamentos, on='DepartamentoID', how='right') # RIGHT JOIN - Conserva todas las filas de df_departamentos
print("\nDataFrame unido (RIGHT JOIN):\n", df_unido_right)

df_unido_outer = pd.merge(df_empleados, df_departamentos, on='DepartamentoID', how='outer') # OUTER JOIN - Conserva todas las filas de ambos DataFrames
print("\nDataFrame unido (OUTER JOIN):\n", df_unido_outer)

DataFrame de empleados:
    EmpleadoID  Nombre  DepartamentoID
0           1     Ana             101
1           2     Bob             102
2           3  Carlos             105
3           4   Diana             103
4           5     Eva             102

DataFrame de departamentos:
    DepartamentoID NombreDepartamento   Ubicacion
0             101             Ventas  Nueva York
1             102          Marketing     Londres
2             103               RRHH       París
3             104                 IT       Tokio

DataFrame unido (INNER JOIN):
    EmpleadoID Nombre  DepartamentoID NombreDepartamento   Ubicacion
0           1    Ana             101             Ventas  Nueva York
1           2    Bob             102          Marketing     Londres
2           4  Diana             103               RRHH       París
3           5    Eva             102          Marketing     Londres

DataFrame unido (LEFT JOIN):
    EmpleadoID  Nombre  DepartamentoID NombreDepartamento   Ubicacion


* **Tipos de unión (`how` argument in `pd.merge()`):**

    - `'inner'` (por defecto): **INNER JOIN**. Retorna solo las filas que tienen valores coincidentes en la columna clave en ambos DataFrames.
    - `'left'`: **LEFT (or LEFT OUTER) JOIN**. Retorna todas las filas del DataFrame izquierdo (dataframe_izquierdo) y las filas coincidentes del DataFrame derecho (dataframe_derecho). Si no hay coincidencia en el derecho, se rellenan con `NaN`.
    - `'right'`: **RIGHT (or RIGHT OUTER) JOIN**. Retorna todas las filas del DataFrame derecho y las filas coincidentes del DataFrame izquierdo. Si no hay coincidencia en el izquierdo, se rellenan con `NaN`.
    - `'outer'`: **FULL OUTER JOIN**. Retorna todas las filas de ambos DataFrames. Si no hay coincidencia en uno de los DataFrames, se rellenan con `NaN`.

* **Otros argumentos importantes de `pd.merge()`:**

    - `left_on`, `right_on`: Si las columnas clave tienen nombres diferentes en los DataFrames izquierdo y derecho, puedes especificarlos con `left_on='nombre_columna_izq`' y `right_on='nombre_columna_der`'.
    - `suffixes`: Sufijos para añadir a los nombres de las columnas si hay columnas con el mismo nombre en ambos DataFrames (excepto la columna clave). Por defecto `suffixes=('_x', '_y')`.

* **Concatenación de DataFrames (`pd.concat()`):**

    `pd.concat([dataframe1, dataframe2, ...], axis=0, join='outer')` **concatena DataFrames a lo largo de un eje (filas o columnas)**.  Es como "apilar" o "pegar" DataFrames juntos.


In [35]:
import pandas as pd

# DataFrame 1
df1 = pd.DataFrame({'Letras': ['A', 'B', 'C'], 'Números': [1, 2, 3]}, index=[0, 1, 2])
print("DataFrame 1:\n", df1)

# DataFrame 2
df2 = pd.DataFrame({'Letras': ['D', 'E', 'F'], 'Números': [4, 5, 6]}, index=[3, 4, 5])
print("\nDataFrame 2:\n", df2)

# Concatenación vertical (a lo largo de las filas, axis=0 por defecto) - Apila df2 debajo de df1
df_concatenado_vertical = pd.concat([df1, df2]) # axis=0 es el valor por defecto
print("\nDataFrame concatenado verticalmente:\n", df_concatenado_vertical)

# Concatenación horizontal (a lo largo de las columnas, axis=1)
df3 = pd.DataFrame({'Colores': ['Rojo', 'Verde', 'Azul']}, index=[0, 1, 2])
print("\nDataFrame 3:\n", df3)
df_concatenado_horizontal = pd.concat([df1, df3], axis=1) # axis=1 para concatenar horizontalmente (lado a lado)
print("\nDataFrame concatenado horizontalmente:\n", df_concatenado_horizontal)

# Concatenación con índices no coincidentes (join='outer' por defecto, join='inner' para intersección de índices)
df4 = pd.DataFrame({'Valores': [100, 200]}, index=[0, 1]) # DataFrame 4 con menos filas
print("\nDataFrame 4:\n", df4)
df_concatenado_outer_join = pd.concat([df1, df4], axis=1) # join='outer' (por defecto) - Conserva todos los índices, rellena con NaN donde no hay datos
print("\nConcatenación con OUTER JOIN (índices):\n", df_concatenado_outer_join)

df_concatenado_inner_join = pd.concat([df1, df4], axis=1, join='inner') # join='inner' - Conserva solo los índices que están en ambos DataFrames
print("\nConcatenación con INNER JOIN (índices):\n", df_concatenado_inner_join)

DataFrame 1:
   Letras  Números
0      A        1
1      B        2
2      C        3

DataFrame 2:
   Letras  Números
3      D        4
4      E        5
5      F        6

DataFrame concatenado verticalmente:
   Letras  Números
0      A        1
1      B        2
2      C        3
3      D        4
4      E        5
5      F        6

DataFrame 3:
   Colores
0    Rojo
1   Verde
2    Azul

DataFrame concatenado horizontalmente:
   Letras  Números Colores
0      A        1    Rojo
1      B        2   Verde
2      C        3    Azul

DataFrame 4:
    Valores
0      100
1      200

Concatenación con OUTER JOIN (índices):
   Letras  Números  Valores
0      A        1    100.0
1      B        2    200.0
2      C        3      NaN

Concatenación con INNER JOIN (índices):
   Letras  Números  Valores
0      A        1      100
1      B        2      200


* **Argumentos importantes de `pd.concat()`:**

    - `objs`: Lista o tupla de DataFrames o Series a concatenar.
    - `axis`: Eje de concatenación: `axis=0` (vertical, filas - por defecto), `axis=1` (horizontal, columnas).
    - `join`: Cómo manejar los índices en la concatenación horizontal (`axis=1`):
        - `'outer'` (por defecto): **OUTER JOIN**. Usa la unión de todos los índices. Rellena con NaN para los índices no coincidentes.
        - `'inner'`: **INNER JOIN**. Usa la intersección de los índices. Conserva solo las filas con índices comunes a todos los DataFrames.
    - `ignore_index`: `True` o `False` (para resetear o no el índice del DataFrame concatenado a un nuevo índice numérico secuencial, por defecto `False`).

## 10. Aplicación de Funciones a DataFrames (`apply`, `map`)

Pandas proporciona métodos `.apply()` y `.map()` para aplicar funciones a DataFrames y Series de manera flexible y vectorizada.

* **`.apply()` (Aplicar función a filas o columnas):**

   Aplica una función a lo largo de un eje de un DataFrame (filas o columnas).

  *  **Aplicar a columnas (por defecto `axis=0` o `axis='index'`)**:  Aplica la función a cada columna individualmente.  La función recibe una Serie (que representa una columna) como argumento y debe retornar un valor único (para agregación por columna) o una Serie de la misma longitud que la columna (para transformación columna a columna).


In [60]:
import pandas as pd

data = {'Columna1': [1, 2, 3, 4], 'Columna2': [10, 20, 30, 40]}
df = pd.DataFrame(data)

def cuadrado(serie): # Función para calcular el cuadrado de una Serie
    return serie ** 2

df_cuadrado_columnas = df.apply(cuadrado) # Aplica la función 'cuadrado' a cada columna (axis=0 por defecto)
print(df_cuadrado_columnas)

# Usar funciones lambda para operaciones más cortas
df_suma_a_columna = df.apply(lambda serie: serie + 100) # Suma 100 a cada elemento de cada columna
print(df_suma_a_columna)

# Usar funciones de NumPy
df_log_columnas = df.apply(np.log) # Calcula el logaritmo natural de cada elemento de cada columna
print(df_log_columnas)

# Calcular un valor agregado por columna (ej. suma de cada columna)
suma_por_columna = df.apply(sum) # Aplica la función 'sum()' a cada columna (retorna una Serie con la suma de cada columna)
print(suma_por_columna) # Output: Serie con las sumas de cada columna

   Columna1  Columna2
0         1       100
1         4       400
2         9       900
3        16      1600
   Columna1  Columna2
0       101       110
1       102       120
2       103       130
3       104       140
   Columna1  Columna2
0  0.000000  2.302585
1  0.693147  2.995732
2  1.098612  3.401197
3  1.386294  3.688879
Columna1     10
Columna2    100
dtype: int64


*  * **Aplicar a filas (axis=1 o axis='columns'):** Aplica la función a cada fila individualmente. La función recibe una Serie (que representa una fila) como argumento y debe retornar un valor único (para agregación por fila) o una Serie de la misma longitud que las columnas (para transformación fila a fila).

In [61]:
import pandas as pd

data = {'Columna1': [1, 2, 3, 4], 'Columna2': [10, 20, 30, 40]}
df = pd.DataFrame(data)

def suma_fila(fila): # Función para sumar los valores de una fila
    return fila.sum()

suma_por_fila = df.apply(suma_fila, axis=1) # Aplica 'suma_fila' a cada fila (axis=1)
print(suma_por_fila) # Output: Serie con las sumas de cada fila

# Usar funciones lambda para operaciones más cortas por fila
df_resta_filas = df.apply(lambda fila: fila['Columna2'] - fila['Columna1'], axis=1) # Resta Columna1 de Columna2 en cada fila
print(df_resta_filas)

0    11
1    22
2    33
3    44
dtype: int64
0     9
1    18
2    27
3    36
dtype: int64


* **.map() (Aplicar función elemento a elemento):**

    Aplica una función **a cada elemento** de un DataFrame.  La función recibe un valor individual como argumento y debe retornar un valor transformado.  Retorna un nuevo DataFrame con los resultados.  Solo funciona en DataFrames (no en Series).

In [3]:
import pandas as pd

data = {'Columna1': [1, 2, 3, 4], 'Columna2': [10, 20, 30, 40]}
df = pd.DataFrame(data)

def duplicar(valor): # Función para duplicar un valor
    return valor * 2

df_duplicado_elementos = df.map(duplicar) # Aplica 'duplicar' a cada elemento del DataFrame
print(df_duplicado_elementos)

# Usar funciones lambda para operaciones más cortas elemento a elemento
df_formato_texto = df.map(lambda x: f"Valor: {x}") # Formatea cada elemento como "Valor: [valor]"
print(df_formato_texto)

   Columna1  Columna2
0         2        20
1         4        40
2         6        60
3         8        80
   Columna1   Columna2
0  Valor: 1  Valor: 10
1  Valor: 2  Valor: 20
2  Valor: 3  Valor: 30
3  Valor: 4  Valor: 40


# Ejercicios Pandas

### 1. Creación de DataFrames y Series:

* Crea una Serie de Pandas llamada `serie_nombres` que contenga una lista de 5 nombres. Asigna índices alfabéticos ('a', 'b', 'c', 'd', 'e').
* Crea un DataFrame llamado `df_calificaciones` con las siguientes columnas: 'Nombre' (cadenas), 'Materia' (cadenas), 'Calificacion' (flotantes). Añade al menos 8-10 filas de datos de ejemplo (inventados).
* Crea un DataFrame vacío llamado `df_vacío`.

In [48]:
serie_nombres = pd.Series(['Ana', 'Bob', 'Carlos', 'Diana', 'Eva'], index=['a', 'b', 'c', 'd', 'e'] )
print(serie_nombres)

data = {
    'Nombre': ['Ana', 'Bob', 'Eva', 'Carlos', 'Diana', 'Bob', 'Ana', 'Carlos', 'Diana', 'Eva'],
    'Materia': ['Matemáticas', 'Física', 'Química', 'Biología', 'Historia', 'Matemáticas', 'Física', 'Química', 'Biología', 'Historia'],
    'Calificacion': [7., 8., 9., 6., 5., 8., 9., 7., 6., 5.]
}
df_calificaciones = pd.DataFrame(data)
print(df_calificaciones)

df_vacio = pd.DataFrame() # DataFrame vacío

a       Ana
b       Bob
c    Carlos
d     Diana
e       Eva
dtype: object
   Nombre      Materia  Calificacion
0     Ana  Matemáticas           7.0
1     Bob       Física           8.0
2     Eva      Química           9.0
3  Carlos     Biología           6.0
4   Diana     Historia           5.0
5     Bob  Matemáticas           8.0
6     Ana       Física           9.0
7  Carlos      Química           7.0
8   Diana     Biología           6.0
9     Eva     Historia           5.0


### 2. Lectura y Escritura de Archivos:

* Guarda el DataFrame `df_calificaciones` creado en el ejercicio 1 en un archivo CSV llamado `calificaciones.csv` (sin incluir el índice de filas).
* Lee el archivo `calificaciones.csv` que acabas de guardar y crea un nuevo DataFrame llamado `df_leído_csv`.
* Crea un nuevo DataFrame (o usa `df_calificaciones`) y guárdalo en un archivo Excel llamado `calificaciones.xlsx`, en una hoja llamada 'Resultados' (sin índice).
* Lee la hoja 'Resultados' del archivo `calificaciones.xlsx` y crea un DataFrame llamado `df_leído_excel`.


In [None]:
df_calificaciones.to_csv('../Datasets/calificaciones.csv', index=False) # Guarda el DataFrame a un archivo CSV (sin índice de filas)

df_leido_csv = pd.read_csv('../Datasets/calificaciones.csv') # Lee un archivo CSV y crea un DataFrame

df_calificaciones.to_excel('../Datasets/calificaciones.xlsx', sheet_name='Resultados', index=False) # Guarda el DataFrame a un archivo Excel, hoja 'Resultados'

df_leido_excel = pd.read_excel('../Datasets/calificaciones.xlsx', sheet_name='Resultados') # Lee un archivo Excel y crea un DataFrame

### 3. Indexación y Selección:

* Usando el DataFrame `df_calificaciones`:
* Selecciona solo la columna 'Nombre'.
* Selecciona las columnas 'Nombre' y 'Calificacion'.
* Selecciona las primeras 3 filas usando slicing por posición.
* Selecciona las filas con índice de fila 2 y 4 usando `.iloc[]`.
* Selecciona las filas con etiquetas de índice (si las has definido) 'index_label_1' y 'index_label_3' usando `.loc[]`. Si no definiste índices personalizados, puedes establecer el 'Nombre' como índice y usar nombres como índice.
* Selecciona las filas donde la 'Calificacion' sea mayor o igual a 7.5 usando indexación booleana.
* Selecciona las filas donde la 'Materia' sea 'Matemáticas' o 'Ciencias'.


In [5]:
nombre = df_calificaciones['Nombre'] # Selecciona la columna 'Nombre' (retorna una Serie)
print(nombre)

nombre_calificaciones = df_calificaciones[['Nombre', 'Calificacion']] # Selecciona columnas 'Nombre' y 'Calificacion' (retorna un DataFrame)
print(nombre_calificaciones)

tres_primeras_filas = df_calificaciones[0:3] # Selecciona las primeras 3 filas (índices 0, 1, 2) por posición numérica
print(tres_primeras_filas)

indice_2_4 = df_calificaciones.iloc[2:5] # Selecciona las filas 2 a 4 (índices 2, 3, 4) por posición numérica
print(indice_2_4)

df_calificaciones_index = df_calificaciones.set_index('Nombre')
ana = df_calificaciones_index.loc['Ana'] # Selecciona la fila con etiqueta de índice 'Ana' (retorna una Serie)
carlos = df_calificaciones_index.loc['Carlos'] # Selecciona la fila con etiqueta de índice 'Carlos' (retorna una Serie)
print(ana)
print(carlos)

calificacion_mayor = df_calificaciones['Calificacion'] > 7.5 # Crea una máscara booleana para calificaciones mayores a 7
print(calificacion_mayor)

seleccion_materia = df_calificaciones['Materia'] == 'Matemáticas' # Crea una máscara booleana para la materia 'Matemáticas'
print(df_calificaciones[seleccion_materia]) # Selecciona solo las filas donde la máscara es True

0       Ana
1       Bob
2       Eva
3    Carlos
4     Diana
5       Bob
6       Ana
7    Carlos
8     Diana
9       Eva
Name: Nombre, dtype: object
   Nombre  Calificacion
0     Ana           7.0
1     Bob           8.0
2     Eva           9.0
3  Carlos           6.0
4   Diana           5.0
5     Bob           8.0
6     Ana           9.0
7  Carlos           7.0
8   Diana           6.0
9     Eva           5.0
  Nombre      Materia  Calificacion
0    Ana  Matemáticas           7.0
1    Bob       Física           8.0
2    Eva      Química           9.0
   Nombre   Materia  Calificacion
2     Eva   Química           9.0
3  Carlos  Biología           6.0
4   Diana  Historia           5.0
            Materia  Calificacion
Nombre                           
Ana     Matemáticas           7.0
Ana          Física           9.0
         Materia  Calificacion
Nombre                        
Carlos  Biología           6.0
Carlos   Química           7.0
0    False
1     True
2     True
3    False
4   

### 4. Manipulación Básica:

* Usando `df_calificaciones`:
* Añade una nueva columna llamada 'Aprobado' que sea True si la 'Calificacion' es mayor o igual a 5, y False en caso contrario (usando `.assign()` o asignación directa).
* Elimina la columna 'Materia' del DataFrame (usando `.drop()`).
* Renombra la columna 'Calificacion' a 'Nota' (usando `.rename()`).
* Ordena el DataFrame por la columna 'Nombre' en orden alfabético ascendente, y luego por 'Nota' en orden descendente dentro de cada grupo de 'Nombre' (usando `.sort_values()`).


In [None]:
df_aprobados = df_calificaciones.assign(Aprobado=lambda df_calificaciones: df_calificaciones['Calificacion'] >= 5.0) # Añade una columna 'Aprobado' con True/False
print(df_aprobados)

df_sin_materias = df_calificaciones.drop(columns=['Materia']) # Elimina la columna 'Materia'
print(df_sin_materias)

df_renombrado = df_calificaciones.rename(columns={'Calificacion': 'Nota'}) # Renombra la columna 'Calificacion' a 'Nota'    
print(df_renombrado)

df_ordenado_multiple = df_renombrado.sort_values(by=['Nombre', 'Nota'], ascending=[True, False]) # Ordena por 'Nombre' (ascendente) y luego por 'Nota' (descendente)
print(df_ordenado_multiple)

### 5. Manejo de Valores Faltantes:

* Crea un DataFrame con algunos valores faltantes (`NaN`) en diferentes columnas.
* Detecta los valores faltantes en el DataFrame usando `.isnull()` y `.notnull()`.
* Elimina las filas que contengan al menos un valor faltante (usando `.dropna()`).
* Rellena los valores faltantes en la columna 'Calificacion' con la media de las calificaciones en esa columna (usando `.fillna()`).
* Rellena los valores faltantes en la columna de tipo cadena con la cadena 'Desconocido' (usando `.fillna()`).


In [49]:
data = {
    'Nombre': ['Ana', 'Bob', 'Eva', 'Carlos', 'Diana', 'Bob', 'Ana', np.nan, 'Diana', 'Eva'],
    'Materia': [np.nan, 'Física', 'Química', 'Biología', 'Historia', 'Matemáticas', 'Física', 'Química', 'Biología', 'Historia'],
    'Calificacion': [7., 8., np.nan, 6., 5., 8., 9., 7., np.nan, 5.]
}
df = pd.DataFrame(data)
print(df)

print(df.isnull()) # Detecta valores NaN (True donde hay NaN)
print(df.notnull()) # Detecta valores NO NaN (True donde NO hay NaN)

df_sin_na_filas = df.dropna() # Elimina filas con al menos un NaN (por defecto axis=0, filas)
print(df_sin_na_filas)

df_rellenado_calificacion_columna_media = df.fillna(df.mean(numeric_only=True)) # Rellena NaNs en columnas NUMÉRICAS con la media de CADA columna
print(df_rellenado_calificacion_columna_media)

df_rellenado_cadena = df.fillna({'Nombre': 'Desconocido', 'Materia': 'Desconocido'}) # Rellena NaNs con una cadena específica por columna
print(df_rellenado_cadena)




   Nombre      Materia  Calificacion
0     Ana          NaN           7.0
1     Bob       Física           8.0
2     Eva      Química           NaN
3  Carlos     Biología           6.0
4   Diana     Historia           5.0
5     Bob  Matemáticas           8.0
6     Ana       Física           9.0
7     NaN      Química           7.0
8   Diana     Biología           NaN
9     Eva     Historia           5.0
   Nombre  Materia  Calificacion
0   False     True         False
1   False    False         False
2   False    False          True
3   False    False         False
4   False    False         False
5   False    False         False
6   False    False         False
7    True    False         False
8   False    False          True
9   False    False         False
   Nombre  Materia  Calificacion
0    True    False          True
1    True     True          True
2    True     True         False
3    True     True          True
4    True     True          True
5    True     True          True

### 6. Agrupación y Agregación:

* Usando df_calificaciones:
* Agrupa el DataFrame por la columna 'Materia'.
* Calcula la media de las 'Calificaciones' para cada materia usando `.groupby()` y `.mean()`.
* Calcula el máximo, mínimo y desviación estándar de las 'Calificaciones' por materia usando `.groupby()` y `.agg()`.
* Cuenta el número de estudiantes en cada materia usando `.groupby()` y `.count()` (o `.size()`).


In [None]:
grupo_materia = df_calificaciones.groupby('Materia') # Agrupa por 'Materia' (retorna objeto GroupBy)

media_calificaciones = grupo_materia['Calificacion'].mean() # Calcula la media de 'Calificacion' por 'Materia'
print(media_calificaciones)

varia_medidas_calificaciones = grupo_materia['Calificacion'].agg(['max', 'min', 'std']) # Calcula máximo, mínimo y desviación estándar de 'Calificacion' por 'Materia'
print(varia_medidas_calificaciones)

numeros_estudiantes_materias = grupo_materia['Nombre'].count() # Cuenta el número de estudiantes por 'Materia'
print(numeros_estudiantes_materias)

Materia
Biología       6.0
Física         8.5
Historia       5.0
Matemáticas    7.5
Química        8.0
Name: Calificacion, dtype: float64
             max  min       std
Materia                        
Biología     6.0  6.0  0.000000
Física       9.0  8.0  0.707107
Historia     5.0  5.0  0.000000
Matemáticas  8.0  7.0  0.707107
Química      9.0  7.0  1.414214
Materia
Biología       2
Física         2
Historia       2
Matemáticas    2
Química        2
Name: Nombre, dtype: int64


### 7. Unión y Concatenación:

* Crea dos DataFrames diferentes que compartan al menos una columna en común (ej. 'ID_Estudiante').
* Realiza un **INNER JOIN** de los dos DataFrames basados en la columna común usando `pd.merge()`.
* Realiza un **LEFT JOIN** y un RIGHT JOIN de los mismos DataFrames y observa las diferencias.
* Realiza un **OUTER JOIN**.
* Crea dos DataFrames con las mismas columnas pero diferentes filas. Concatenalos verticalmente usando `pd.concat()`.
* Crea dos DataFrames con las mismas filas pero diferentes columnas. Concatenalos horizontalmente usando `pd.concat()`.


In [None]:
df_estudiantes_a = pd.DataFrame({
    'ID_Estudiantes': [1, 2, 3, 4, 5],
    'Nombre': ['Ana', 'Bob', 'Eva', 'Carlos', 'Diana',],
})
df_estudiantes_b = pd.DataFrame({
    'ID_Estudiantes': [6, 7, 8, 9, 10],
    'Nombre': ['Eduardo', 'Fernando', 'Gloria', 'Hector', 'Isabel'],
    })
df_materias = pd.DataFrame({
    'ID_Estudiantes': [1, 2, 3, 4, 5, 4, 1, 5, 3, 2],
    'Materia': ['Matemáticas', 'Física', 'Química', 'Biología', 'Historia', 'Geografía', 'Inglés', 'Filosofia', 'Deportes', 'Arte'],
    'Calificacion': [8, 7, 9, 7, 5, 4, 6, 8, 7, 9]
})
df_profesores = pd.DataFrame({
    'Profesor': ['Juan', 'Luis', 'María', 'Pedro', 'Rosa', 'Roberto', 'Sofía', 'Tomás', 'Ursula', 'Víctor']
})

df_unidos = pd.merge(df_estudiantes_a, df_materias, on='ID_Estudiantes') # Unir df_estudiantes_a y df_materias por 'ID_Estudiantes'
print(df_unidos)

df_concatenado_vertical = pd.concat([df_estudiantes_a, df_estudiantes_b]) # Concatenar verticalmente df_estudiantes_a y df_estudiantes_b
print(df_concatenado_vertical)

df_concatenado_horizontal = pd.concat([df_materias, df_profesores], axis=1) # Concatenar horizontalmente df_materias y df_profesores
print(df_concatenado_horizontal)

   ID_Estudiantes  Nombre      Materia  Calificacion
0               1     Ana  Matemáticas             8
1               1     Ana       Inglés             6
2               2     Bob       Física             7
3               2     Bob         Arte             9
4               3     Eva      Química             9
5               3     Eva     Deportes             7
6               4  Carlos     Biología             7
7               4  Carlos    Geografía             4
8               5   Diana     Historia             5
9               5   Diana    Filosofia             8
   ID_Estudiantes    Nombre
0               1       Ana
1               2       Bob
2               3       Eva
3               4    Carlos
4               5     Diana
0               6   Eduardo
1               7  Fernando
2               8    Gloria
3               9    Hector
4              10    Isabel
   ID_Estudiantes      Materia  Calificacion Profesor
0               1  Matemáticas             8     Juan
1


### 8. Aplicación de Funciones:

* Usando `df_calificaciones`:
* Crea una función que aumente la 'Calificacion' en 0.5 puntos. Aplica esta función a la columna 'Calificacion' usando `.apply()` (aplicación a una columna).
* Crea una función que determine si un estudiante 'Aprueba' o 'Suspende' basado en si su 'Calificacion' es mayor o igual a 5. Aplica esta función a cada fila del DataFrame (usando `.apply(axis=1)`) y crea una nueva columna 'Resultado' con el resultado ('Aprobado' o 'Suspenso').
* Crea una función que formatee las calificaciones como cadenas con dos decimales (ej. 7.85). Aplica esta función a cada elemento del DataFrame (usando `.map()`).

In [None]:
def aumentar_calificacion(serie): # Función para aumentar la calificación en 0.5
    return serie + 0.5

df_aumento = df_calificaciones['Calificacion'].apply(aumentar_calificacion) # Aplica 'aumentar_calificacion' a la columna 'Calificacion'
print(df_aumento)

def determinar_resultado(fila): # Función para determinar si un estudiante aprobó o suspendió
    if fila['Calificacion'] >= 7:
        return 'Aprobado'
    else:
        return 'Suspenso'

df_calificaciones['Resultado'] = df_calificaciones.apply(determinar_resultado, axis=1) # Añade una columna 'Resultado' con 'Aprobado' o 'Suspenso'
print(df_calificaciones)

def formatear_calificaciones(valor): # Función para formatear las calificaciones a dos decimales
    return f"{valor:.2f}"

df_calificaciones_formateadas = df_calificaciones.copy() # Crea una copia de la tabla de calificaciones
df_calificaciones_formateadas['Calificacion'] = df_calificaciones_formateadas['Calificacion'].map(formatear_calificaciones) # Formatea la columna 'Calificacion'
print(df_calificaciones_formateadas)
