# Clase de Pandas: Manipulación y Análisis de Datos

## Introducción a Pandas

Pandas es una biblioteca de Python especializada en el manejo y análisis de estructuras de datos. Define nuevas estructuras de datos basadas en los arrays de la biblioteca NumPy, pero con funcionalidades adicionales. Esto significa que puedes aprovechar las capacidades de NumPy y agregar funcionalidades específicas para el análisis de datos.

### ¿Por qué y para qué usar Pandas?

Pandas es la clave para organizar y dar forma a grandes conjuntos de datos. Nos permite:
*   **Explorar datos:** Cargar, examinar y obtener información básica de un conjunto de datos.
*   **Manipular datos:** Filtrar, seleccionar y transformar datos, lo cual es esencial para la preparación de datos.
*   **Preparar datos para el análisis:** Limpiar y estructurar datos adecuadamente.

### Ventajas clave de Pandas:
*   **Flexibilidad:** Maneja una amplia variedad de formatos de datos, desde hojas de cálculo hasta bases de datos.
*   **Eficiencia:** Realiza operaciones de datos a gran escala de manera eficiente, optimizada para grandes volúmenes de datos.
*   **Integración:** Se integra perfectamente con otras bibliotecas de análisis de datos y visualización como NumPy y Matplotlib.
*   **Sintaxis amigable:** Ofrece una sintaxis clara y coherente.

### Estructuras de Datos Principales en Pandas

Pandas introduce tres estructuras de datos principales:
1.  **Series:** Una estructura de datos unidimensional, similar a un array o una columna en una tabla. Cada elemento tiene un índice asociado.
2.  **DataFrame:** Una estructura de datos bidimensional similar a una tabla de una base de datos o una hoja de cálculo. Consiste en una colección de Series organizadas en columnas.
3.  **Panel:** Una estructura de datos tridimensional, menos común que las Series y los DataFrames.

Antes de empezar, necesitamos importar la librería Pandas:



In [1]:
# Importamos la librería pandas
import pandas as pd



## 1. Series en Pandas

Una Serie es una estructura de datos unidimensional en Pandas. Se puede pensar en ella como una columna en una tabla con etiquetas de índice.

### Características de las Series:
*   **Datos homogéneos:** Contiene datos de un solo tipo (integers, floats, strings, etc.).
*   **Índices etiquetados:** Cada elemento tiene una etiqueta de índice asociada. Los índices pueden ser personalizados o generados automáticamente, permitiendo un acceso más intuitivo.
*   **Funcionalidades adicionales:** Proporcionan numerosas funcionalidades para manipular y analizar datos eficientemente, como operaciones matemáticas, filtrado, agregación, ordenamiento, etc..

### Creación de Series

Podemos crear Series de diferentes formas: vacías, a partir de listas, o a partir de diccionarios.

#### Serie Vacía



In [2]:
# Creando una Serie vacía
serie_vacia = pd.Series()

print("Mi serie de pandas es:", serie_vacia) 
print("Los tipos de elementos que la componen son:", serie_vacia.dtype)

Mi serie de pandas es: Series([], dtype: object)
Los tipos de elementos que la componen son: object


In [3]:
type(serie_vacia)

pandas.core.series.Series

In [4]:
serie_vacia.dtype

dtype('O')

In [5]:
# Creando una Serie vacía
serie_vacia2 = pd.Series(dtype='int64')

print("Mi serie de pandas es:", serie_vacia2) 
print("Los tipos de elementos que la componen son:", serie_vacia2.dtype)

Mi serie de pandas es: Series([], dtype: int64)
Los tipos de elementos que la componen son: int64




#### Serie a partir de Listas

`pd.Series` genera automáticamente un índice numérico consecutivo empezando por 0. Sin embargo, podemos personalizar los índices usando el parámetro `index`. Los índices pueden ser de diferentes tipos (integer, cadenas, fechas, etc.) y no necesariamente tienen que estar en orden o ser consecutivos.



In [6]:
# Definimos una lista
lista = [3, 5, 7, 2, 4, 1, 5]

In [7]:
# Convertimos la lista en una Serie (índice automático)
serie_lista1 = pd.Series(lista) 
serie_lista1

0    3
1    5
2    7
3    2
4    4
5    1
6    5
dtype: int64

In [8]:
# Creamos una Serie con un índice personalizado (numérico)
serie_lista2 = pd.Series(lista, index=[5, 6, 7, 8, 9, 4, 3])
serie_lista2

5    3
6    5
7    7
8    2
9    4
4    1
3    5
dtype: int64

In [9]:
# Creamos una Serie con un índice personalizado (numérico)
serie_lista2 = pd.Series(lista, index=[5, 6, 7, 8, 9]) # El número de elementos tiene que coincidir!!
serie_lista2

ValueError: Length of values (7) does not match length of index (5)

In [10]:
# Creamos una Serie con índices de tipo string
serie_lista3 = pd.Series([1, 2, 3, 4, 5], index=["Lunes", "Martes", "Miercoles", "Jueves", "Viernes"])
serie_lista3

Lunes        1
Martes       2
Miercoles    3
Jueves       4
Viernes      5
dtype: int64



#### Series a partir de Diccionarios

Cuando se crea una Serie a partir de un diccionario, las claves del diccionario se convierten en los índices de la Serie y los valores del diccionario se convierten en los valores de la Serie.



In [11]:
# Definir un diccionario
dicc = {
    'lorena': 10,
    'marta': 20,
    'pilar': 30,
    'laura': 50,
    'ana': 86,
    'maria': 28
} 

In [12]:
# Crear una Serie nueva a partir del diccionario
serie_diccionario = pd.Series(dicc)
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64



### Propiedades de las Series

Las propiedades son atributos que proporcionan información sobre las características de una Serie.



In [13]:
# 1. .index: Devuelve los índices de la Serie
print(f"La propiedad '.index' nos devuelve los índices de la Serie: {serie_diccionario.index}")

La propiedad '.index' nos devuelve los índices de la Serie: Index(['lorena', 'marta', 'pilar', 'laura', 'ana', 'maria'], dtype='object')


In [None]:
type(serie_diccionario.index) # Podemos convertir index a lista: list(serie_diccionario.index)

pandas.core.indexes.base.Index

In [17]:
for i in serie_diccionario.index:
    print(i)

lorena
marta
pilar
laura
ana
maria


In [19]:
# 2. .values: Devuelve los valores de la Serie como un array NumPy
print(f"La propiedad '.values' nos devuelve los valores de la Serie: {serie_diccionario.values}")

La propiedad '.values' nos devuelve los valores de la Serie: [10 20 30 50 86 28]


In [22]:
serie_diccionario.values

array([10, 20, 30, 50, 86, 28])

In [21]:
type(serie_diccionario.values)

numpy.ndarray

In [24]:
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [23]:
# 3. .shape: Devuelve una tupla que representa la forma (dimensiones) de la Serie
print(f"La propiedad '.shape' nos devuelve la forma de la Serie: {serie_diccionario.shape}")

La propiedad '.shape' nos devuelve la forma de la Serie: (6,)


🔍 ¿Qué significa exactamente (6,)?
Es una tupla con un solo elemento: 6

Indica que el array tiene 1 dimensión, y esa dimensión tiene longitud 6

El uso de la coma ((6,)) es intencional para diferenciarlo de un número entre paréntesis como (6), que no es una tupla en Python

In [27]:
serie_diccionario.shape

(6,)

In [None]:
type(serie_diccionario.shape)

tuple

In [28]:
# 4. .size: Devuelve el número total de elementos en la Serie
print(f"La propiedad '.size' nos devuelve el número de elementos de la Serie: {serie_diccionario.size}")

La propiedad '.size' nos devuelve el número de elementos de la Serie: 6


In [29]:
serie_diccionario.size

6

In [32]:
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [30]:
# 5. .dtype: Devuelve el tipo de datos de los elementos en la Serie
print(f"La propiedad '.dtype' nos devuelve el tipo de datos de la Serie: {serie_diccionario.dtype}")

La propiedad '.dtype' nos devuelve el tipo de datos de la Serie: int64




### Indexación de las Series

La indexación permite acceder a los elementos de una Serie utilizando índices o etiquetas.

*   **Indexación por posición:** Acceder a elementos usando la posición numérica (como en las listas, empieza en 0).
*   **Indexación por etiqueta:** Acceder a elementos usando las etiquetas de índice.
*   **Indexación por rango:** Acceder a un rango de elementos.
*   **Indexación por lista de índices:** Acceder a varios elementos específicos mediante una lista.



In [33]:
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [34]:
# Indexación por posición
# Accedemos al primer elemento (valor 10)
serie_diccionario[0]

  serie_diccionario[0]


10

In [35]:
# Accedemos al tercer elemento (valor 30)
serie_diccionario[2]

  serie_diccionario[2]


30

In [36]:
# Indexación por etiqueta
# Accedemos al valor de la etiqueta "laura" (valor 50)
serie_diccionario["laura"]

50

In [37]:
# Accedemos al valor de la etiqueta "pilar" (valor 30)
serie_diccionario["pilar"]

30

In [38]:
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [39]:
# Indexación por rango
# Accedemos a los elementos desde el índice de posición 1 al 3 (incluido el 3)
# Esto incluye los valores en las posiciones 1, 2 y 3 (marta, pilar, laura)
serie_diccionario[1:4]

marta    20
pilar    30
laura    50
dtype: int64

In [40]:
# Indexación por lista de índices (posiciones)
# Acceder a los elementos con índices de posición 0, 2 y 3 (lorena, pilar, laura)
# Fijaos en los dos corchetes '[[...]]'
serie_diccionario[[0, 2, 3]]

  serie_diccionario[[0, 2, 3]]


lorena    10
pilar     30
laura     50
dtype: int64

### Acceder a elementos de una Series en Pandas con `.iloc` y `.loc`

En Pandas, es importante distinguir entre dos formas principales de acceder a los elementos de una `Series`:

#### 🔹 `.iloc[]` → Indexación por posición

Se usa para acceder a los elementos **según su posición numérica**, empezando desde 0.

✅ Útil cuando no conoces las etiquetas del índice y solo te importa el orden.


In [41]:
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [42]:
serie_diccionario.iloc[0]   # Primer elemento

10

In [44]:
serie_diccionario.iloc[2]   # Tercer elemento

30

In [45]:
serie_diccionario.iloc[2:5] # No incluye el último valor 

pilar    30
laura    50
ana      86
dtype: int64

In [46]:
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [50]:
serie_diccionario.iloc[::2] # Del primer : hasta el último : en pasos de 2

lorena    10
pilar     30
ana       86
dtype: int64

In [51]:
list(serie_diccionario.iloc[::2].values)

[10, 30, 86]

#### 🔹 `.loc[]` → Indexación por etiqueta

Se usa para acceder a los elementos **según la etiqueta del índice**, no la posición.

✅ Ideal cuando trabajas con datos con nombres, fechas u otras etiquetas como índice.


In [53]:
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [None]:
serie_diccionario.loc['laura']   # Accede al valor asociado a la etiqueta 'laura'

50

In [None]:
serie_diccionario.loc['pilar']   # Accede al valor asociado a la etiqueta 'pilar'

30

In [55]:
serie_diccionario.loc['pilar':'ana']   # Ojo!!! Incluye el último valor!!! -> Característica del loc

pilar    30
laura    50
ana      86
dtype: int64

In [56]:
serie_diccionario

lorena    10
marta     20
pilar     30
laura     50
ana       86
maria     28
dtype: int64

In [57]:
serie_diccionario.loc['lorena':'maria':3] # start:stop:step

lorena    10
laura     50
dtype: int64



## 2. DataFrames en Pandas

Un DataFrame es una estructura de datos bidimensional en forma de tabla, similar a una hoja de cálculo. Es una de las estructuras de datos más utilizadas en el análisis de datos con Pandas.

### Características de los DataFrames:
*   **Estructura tabular:** Organizados en filas y columnas, donde cada columna representa una variable y cada fila una observación.
*   **Flexibilidad:** Pueden contener datos de diferentes tipos (integers, floats, cadenas, fechas, bools, etc.). Las columnas y los índices pueden tener nombres personalizados.
*   **Operaciones eficientes:** Diseñados para realizar operaciones rápidas y eficientes en grandes conjuntos de datos.
*   **Facilidad de importación y exportación:** Pueden leer y escribir datos en diversos formatos como CSV, Excel, JSON, etc..
*   **Indexación flexible:** Permiten acceder y manipular datos utilizando diversas técnicas de indexación (por posición, por etiqueta, booleana).

### Creación de DataFrames

Podemos crear DataFrames a partir de diversas fuentes, incluyendo diccionarios de listas y listas de diccionarios.

#### DataFrame a partir de un Diccionario de Listas



In [59]:
# Definimos un diccionario de listas
data_diccionario = {
    'Nombre': ['Ana', 'Juan', 'María', 'Pedro'],
    'Edad': [23, 22, 20, 25],
    'Ciudad': ['Madrid', 'Barcelona', 'Valencia', 'Sevilla']
}

In [60]:
# Convertimos el diccionario en DataFrame usando pd.DataFrame()
df_diccionario = pd.DataFrame(data_diccionario)
df_diccionario

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Juan,22,Barcelona
2,María,20,Valencia
3,Pedro,25,Sevilla


In [61]:
type(df_diccionario)

pandas.core.frame.DataFrame

In [65]:
# Mostramos las primeras 3 filas (método .head())
df_diccionario.head(3) # Por defecto el head devuelve las 5 primeras filas

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Juan,22,Barcelona
2,María,20,Valencia


In [66]:
print(df_diccionario)

  Nombre  Edad     Ciudad
0    Ana    23     Madrid
1   Juan    22  Barcelona
2  María    20   Valencia
3  Pedro    25    Sevilla


In [67]:
display(df_diccionario)

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,23,Madrid
1,Juan,22,Barcelona
2,María,20,Valencia
3,Pedro,25,Sevilla


### Diferencia entre `display()` y `print()` en Pandas

- **`display(df)`**: Muestra el DataFrame con formato bonito en HTML (tablas con bordes, colores y scroll si es largo). Es ideal en entornos como **Jupyter Notebook**.

- **`print(df)`**: Muestra el DataFrame como texto plano. Es más básico y se usa en **consolas tradicionales o scripts**.

> ✅ Usa `display(df)` en notebooks para una visualización más clara y legible.

In [69]:
df_diccionario.shape

(4, 3)

In [68]:
print(f"El dataframe tiene {df_diccionario.shape[0]} filas y {df_diccionario.shape[1]} columnas")

El dataframe tiene 4 filas y 3 columnas


In [70]:
df_diccionario.size

12

In [71]:
df_diccionario.columns

Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')



#### DataFrame a partir de una Lista de Diccionarios



In [72]:
# Definimos una lista de diccionarios
data_lista = [
    {'Nombre': 'Ana', 'Edad': 25, 'Ciudad': 'Madrid'},
    {'Nombre': 'Juan', 'Edad': 30, 'Ciudad': 'Barcelona'},
    {'Nombre': 'María', 'Edad': 28, 'Ciudad': 'Valencia'},
    {'Nombre': 'Pedro', 'Edad': 35, 'Ciudad': 'Sevilla'}
]

In [73]:
# Usamos pd.DataFrame() para convertir la lista de diccionarios a DataFrame
df_lista = pd.DataFrame(data_lista)
df_lista

Unnamed: 0,Nombre,Edad,Ciudad
0,Ana,25,Madrid
1,Juan,30,Barcelona
2,María,28,Valencia
3,Pedro,35,Sevilla


In [None]:
# Mostramos las últimas 2 filas (método .tail())
df_lista.tail(2) # Por defecto el tail devuelve las 5 últimas filas

Unnamed: 0,Nombre,Edad,Ciudad
2,María,28,Valencia
3,Pedro,35,Sevilla




### Apertura de Ficheros en Pandas

Pandas ofrece varios métodos para leer diferentes tipos de archivos. Los más comunes son `pd.read_csv()`, `pd.read_excel()`, `pd.read_json()`, y `pd.read_pickle()`.

#### `pd.read_csv()`

Lee archivos CSV (Comma Separated Values). Un parámetro importante es `sep`, que permite especificar el separador si no es una coma (por ejemplo, punto y coma).



In [81]:
# Ejemplo de lectura de un CSV donde las columnas están separadas por comas
df_jobs = pd.read_csv("data/jobs.csv")
df_jobs.head(3)

  df_jobs = pd.read_csv("data/jobs.csv")


Unnamed: 0,id,title,country,location,company,date,description,company_link,experience,keywords
0,1,Frontend Developer,mexico,"Hacienda San Pablo, México, Mexico",Vox Feed,2019-08-18,Passion for building interfaces that bring the...,,2,web developer
1,2,Desarrollador Web Javascript Jr Zona Interlomas,mexico,"Atizapán de Zaragoza, México, Mexico",ALIA,2019-10-22,"Alia, Empresa Mexicana Enfocada En Brindar Ser...",https://mx.linkedin.com/company/alia?trk=publi...,2,web developer
2,3,Desarrollador web,mexico,"Tlalnepantla, México, Mexico",Empresa: ACCOFF MANUFACTURERA S.C.,2020-05-11,ODesarrollo de componentes nativos con Javascr...,,2,web developer


In [82]:
df_jobs.shape

(239465, 10)

In [85]:
# Ejemplo de lectura de un CSV donde las columnas están separadas por ';'
# Aquí es donde usamos el parámetro 'sep'
df_aire = pd.read_csv("data/aire.csv", sep=";")
df_aire.head()

Unnamed: 0,provincia,municipio,estacion,magnitud,punto_muestreo,ano,mes,dia,h01,v01,...,h20,v20,h21,v21,h22,v22,h23,v23,h24,v24
0,28,102,1,1,28102001_1_38,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N
1,28,102,1,6,28102001_6_48,2022,1,30,0.2,T,...,,N,,N,,N,,N,,N
2,28,102,1,7,28102001_7_8,2022,1,30,1.0,T,...,,N,,N,,N,,N,,N
3,28,102,1,8,28102001_8_8,2022,1,30,6.0,T,...,,N,,N,,N,,N,,N
4,28,102,1,10,28102001_10_49,2022,1,30,3.0,T,...,,N,,N,,N,,N,,N


In [84]:
df_aire.shape

(160, 56)

In [86]:
df_aire = pd.read_csv("data/aire.csv")
df_aire.head(2)

Unnamed: 0,provincia;municipio;estacion;magnitud;punto_muestreo;ano;mes;dia;h01;v01;h02;v02;h03;v03;h04;v04;h05;v05;h06;v06;h07;v07;h08;v08;h09;v09;h10;v10;h11;v11;h12;v12;h13;v13;h14;v14;h15;v15;h16;v16;h17;v17;h18;v18;h19;v19;h20;v20;h21;v21;h22;v22;h23;v23;h24;v24
0,28;102;1;1;28102001_1_38;2022;1;30;3;T;3;T;3;T...
1,28;102;1;6;28102001_6_48;2022;1;30;0.2;T;0.1;T...




#### `pd.read_excel()`

Lee archivos de Excel. Es común especificar la hoja de cálculo usando `sheet_name`. Puede requerir la instalación de la librería `openpyxl` (`pip install openpyxl`).



In [87]:
# Ejemplo de lectura de un archivo Excel
df_xlsx = pd.read_excel("data/espacios_protegidos.xlsx", sheet_name=0)
df_xlsx.head(2)

Unnamed: 0,espacio_prot_categoria,espacio_prot_figura,espacio_prot_nombre,espacio_prot_superficie_ha,espacio_prot_fecha_declaracion,espacio_prot_normativa,espacio_prot_informacion_web
0,Áreas protegidas por instrumentos internacionales,Reserva de la Biosfera,"Cuencas Altas de los ríos Manzanares, Lozoya y...",105655.0,1992-11-09,Normativa Áreas protegidas por instrumentos in...,Reserva de la Biosfera Cuencas Altas de los rí...
1,Áreas protegidas por instrumentos internacionales,Reserva de la Biosfera,Sierra del Rincón,15231.0,2005-06-29,Normativa Áreas protegidas por instrumentos in...,Reserva de la Biosfera Sierra del Rincón




#### `pd.read_json()`

Lee archivos JSON. Los archivos JSON pueden tener estructuras complejas, a veces anidadas.



In [88]:
# Ejemplo de lectura de un archivo JSON
df_residuos = pd.read_json("data/residuos.json")
df_residuos.head(2)

Unnamed: 0,data
0,"{'residuos_pelig_cantidad_ton': 23476.42, 'res..."
1,"{'residuos_pelig_cantidad_ton': 1927.25, 'resi..."


In [89]:
import json

# Abre el archivo y carga su contenido
with open("data/residuos.json", 'r', encoding='utf-8') as f:
    data = json.load(f)

In [None]:
data

In [None]:
data['data']

In [92]:
df_residuos_json = pd.DataFrame(data['data'])
df_residuos_json.head(3)

Unnamed: 0,residuos_pelig_cantidad_ton,residuos_pelig_año,residuos_pelig_opcion_gestion,residuos_pelig_tratamiento
0,23476.42,2012,Reciclado,Recuperación de disolventes
1,1927.25,2012,Reciclado,Recuperación de metales
2,25333.54,2012,Reciclado,Regeneración de aceite


In [93]:
# Si el JSON contiene diccionarios anidados, se puede aplanar usando .apply(pd.Series)
df_residuos2 = df_residuos['data'].apply(pd.Series)
df_residuos2.head(3)

Unnamed: 0,residuos_pelig_cantidad_ton,residuos_pelig_año,residuos_pelig_opcion_gestion,residuos_pelig_tratamiento
0,23476.42,2012,Reciclado,Recuperación de disolventes
1,1927.25,2012,Reciclado,Recuperación de metales
2,25333.54,2012,Reciclado,Regeneración de aceite




#### `pd.read_pickle()`

Lee archivos binarios de tipo "pickle". Un archivo pickle se utiliza para serializar (guardar) y deserializar (cargar) objetos de Python, permitiendo almacenar objetos digitales como datos, números, listas o diccionarios.



In [94]:
# Ejemplo de lectura de un archivo pickle
df_pkl = pd.read_pickle("data/paises_capitales.pkl")
df_pkl

{'Colombia': 'Bogotá', 'Ecuador': 'Quito', 'Argentina': 'Buenos'}

## 🧠 ¿Qué es un archivo `.pkl` (Pickle)?

Un archivo `.pkl` es un archivo **binario** que contiene un objeto de Python **serializado**, es decir, convertido en una secuencia de bytes para poder:

* Guardarlo en disco,
* Enviarlo por red,
* O almacenarlo para reutilizarlo luego.

Este proceso se conoce como:

* **Serialización**: convertir un objeto en bytes (`pickle.dump()` o `to_pickle()` en pandas)
* **Deserialización**: convertir esos bytes de vuelta en el objeto original (`pickle.load()` o `pd.read_pickle()`)

---

## 📦 ¿Qué se puede guardar en un `.pkl`?

Cualquier objeto de Python que sea *picklable*, como:

* Diccionarios
* Listas
* Números, strings, booleanos
* DataFrames y Series de Pandas
* Modelos entrenados en scikit-learn, por ejemplo

---

## ✅ Uso de `pd.read_pickle()`

```python
import pandas as pd

df = pd.read_pickle('archivo.pkl')
```

Este método:

* **Carga un DataFrame** guardado previamente con `to_pickle()`
* Es muy rápido, más que leer CSV o Excel
* Ideal para guardar versiones intermedias de datasets procesados

---

## ✅ Cómo guardar un DataFrame en `.pkl`

```python
df.to_pickle('archivo.pkl')
```

---

## ⚠️ Precaución con Pickle

* **No uses Pickle para cargar archivos de fuentes no confiables.**

  * Puede ejecutar código malicioso al deserializar.
* Está pensado para **uso interno en Python**, no para compartir datos entre lenguajes o sistemas.

---

## 📚 Comparativa rápida

| Formato | Velocidad | Peso  | Legible por humanos | Compartible con otros lenguajes |
| ------- | --------- | ----- | ------------------- | ------------------------------- |
| CSV     | Media     | Alto  | ✅ Sí                | ✅ Sí                            |
| JSON    | Media     | Medio | ✅ Sí                | ✅ Sí                            |
| Excel   | Lenta     | Medio | ✅ Parcial           | ✅ Sí                            |
| Pickle  | 🏎️ Alta  | Bajo  | ❌ No                | ❌ No (solo Python)              |

---




## 3. Indexación y Selección de Datos en DataFrames: `.loc` e `.iloc`

`loc` e `iloc` son métodos fundamentales para acceder y manipular datos en un DataFrame. Ambos se utilizan para la indexación, pero de maneras distintas:

*   **`.loc`**: Se utiliza para acceder a los datos **utilizando etiquetas** de fila y columna. Permite seleccionar filas y columnas basándose en sus nombres o etiquetas.
*   **`.iloc`**: Se utiliza para acceder a los datos **utilizando índices enteros** de fila y columna (posiciones numéricas), similar a cómo se trabaja con listas o arrays de NumPy.

**Diferencias clave:**
*   **Tipo de índice:** `loc` usa etiquetas (nombres), `iloc` usa posiciones enteras.
*   **Límite superior en rangos:** `loc` **incluye** el límite superior en los rangos de selección, mientras que `iloc` lo **excluye**.

Vamos a cargar un DataFrame de ejemplo para practicar:



In [95]:
# Cargamos el DataFrame 'data.csv'
df = pd.read_csv("data/data.csv")
df.head()

Unnamed: 0,Day,Weather,Temperature,Wind,Humidity
0,Mon,Sunny,12.79,13,30
1,Tue,Sunny,19.67,28,96
2,Wed,Sunny,17.51,16,20
3,Thu,Cloudy,14.44,11,22
4,Fri,Shower,10.51,26,79


In [96]:
# Cargamos el DataFrame 'data.csv' y establecemos 'Day' como índice
df = pd.read_csv("data/data.csv", index_col=["Day"])
df.head()

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79




### Selección a través de un único elemento



In [97]:
# Usando .loc: accedemos por los nombres de las filas y las columnas
# Queremos la humedad del martes ('Tue')
df.loc["Tue", "Humidity"]

96

In [98]:
# Usando .iloc: accedemos por los índices, que empiezan en 0
# 'Tue' es la fila con índice 1, 'Humidity' es la columna con índice 3
df.iloc[1, 3]

96



### Selección de una fila o una columna completa

Para seleccionar todas las filas o todas las columnas, usamos el símbolo `:`.



In [100]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [102]:
# Extraer toda la información climática del martes (toda la fila 'Tue')
# Usando .loc: df.loc[fila_deseada, :]
df.loc["Tue", :]

Weather        Sunny
Temperature    19.67
Wind              28
Humidity          96
Name: Tue, dtype: object

In [103]:
# Usando .iloc: df.iloc[indice_fila_deseada, :]
df.iloc[1, :]

Weather        Sunny
Temperature    19.67
Wind              28
Humidity          96
Name: Tue, dtype: object

In [104]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [105]:
# Extraer la información del viento durante toda la semana (toda la columna 'Wind')
# Usando .loc: df.loc[:, columna_deseada]
df.loc[:, "Wind"]

Day
Mon    13
Tue    28
Wed    16
Thu    11
Fri    26
Sat    27
Sun    20
Name: Wind, dtype: int64

In [106]:
# Usando .iloc: df.iloc[:, indice_columna_deseada]
df.iloc[:, 2]

Day
Mon    13
Tue    28
Wed    16
Thu    11
Fri    26
Sat    27
Sun    20
Name: Wind, dtype: int64



### Selección a través de una lista de valores

Para seleccionar múltiples filas o columnas no contiguas, se usa una lista de etiquetas o índices dentro de los corchetes.



In [107]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [108]:
# Extraer el viento del martes ('Tue') y el sábado ('Sat')
# Usando .loc: df.loc[[lista_filas], columna_deseada]
df.loc[["Tue", "Sat"], "Wind"]

Day
Tue    28
Sat    27
Name: Wind, dtype: int64

In [109]:
# Usando .iloc: df.iloc[[lista_indices_filas], indice_columna_deseada]
# 'Tue' es índice 1, 'Sat' es índice 5, 'Wind' es índice 2
df.iloc[[1, 5], 2]

Day
Tue    28
Sat    27
Name: Wind, dtype: int64

In [111]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [110]:
# Extraer el viento y la temperatura del martes y el sábado
# Usando .loc: df.loc[[lista_filas], [lista_columnas]]
df.loc[["Tue", "Sat"], ["Wind", "Temperature"]]

Unnamed: 0_level_0,Wind,Temperature
Day,Unnamed: 1_level_1,Unnamed: 2_level_1
Tue,28,19.67
Sat,27,11.07


In [112]:
# Usando .iloc: df.iloc[[lista_indices_filas], [lista_indices_columnas]]
# El viento y la temperatura que hizo el martes y el sabado usando .iloc
# 'Wind' es índice 2, 'Temperature' es índice 1
df.iloc[[1, 5],[2, 1]]

Unnamed: 0_level_0,Wind,Temperature
Day,Unnamed: 1_level_1,Unnamed: 2_level_1
Tue,28,19.67
Sat,27,11.07




### Selección de un rango de datos (Corte | Slicing)

Podemos usar la sintaxis de `[start:stop:step]` como en las listas.



In [113]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [114]:
# Extraer la temperatura, el viento y la humedad del jueves ('Thu') y el viernes ('Fri')
# Usando .loc: df.loc[[lista_filas], 'columna_inicio':'columna_fin']
df.loc[['Thu', 'Fri'], 'Temperature':'Humidity']

Unnamed: 0_level_0,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Thu,14.44,11,22
Fri,10.51,26,79


In [115]:
# Usando .iloc: df.iloc[[lista_indices_filas], indice_columna_inicio:indice_columna_fin]
# 'Thu' es índice 3, 'Fri' es índice 4. 'Temperature' es índice 1, 'Humidity' es índice 3 (el stop 4 es exclusivo)
df.iloc[[3, 4], 1:4]

Unnamed: 0_level_0,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Thu,14.44,11,22
Fri,10.51,26,79


In [116]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [117]:
# Extraer todas las condiciones climáticas del lunes, miércoles y viernes
# Usando .loc con step: df.loc['fila_inicio':'fila_fin':step, :]
df.loc['Mon':'Fri':2, :]

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Wed,Sunny,17.51,16,20
Fri,Shower,10.51,26,79


In [119]:
# Usando .iloc con step: df.iloc[indice_inicio:indice_fin:step, :]
# 'Mon' es índice 0, 'Fri' es índice 4. Queremos hasta el viernes (índice 4), pero el 5 es exclusivo, entonces 6 es el stop. El step es 2
df.iloc[:6:2, :]

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Wed,Sunny,17.51,16,20
Fri,Shower,10.51,26,79




### Seleccionar basado en una condición

Podemos filtrar datos usando operadores de comparación (`>`, `<`, `>=`, `<=`, `==`, `!=`).

Antes, veamos cómo acceder a una o varias columnas de manera sencilla:



In [120]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [121]:
# Acceder a una sola columna (devuelve una Serie)
df["Temperature"]

Day
Mon    12.79
Tue    19.67
Wed    17.51
Thu    14.44
Fri    10.51
Sat    11.07
Sun    17.50
Name: Temperature, dtype: float64

In [124]:
# Es equivalente a usar la notación de punto (si el nombre de la columna no tiene espacios ni caracteres especiales)
df.Temperature

Day
Mon    12.79
Tue    19.67
Wed    17.51
Thu    14.44
Fri    10.51
Sat    11.07
Sun    17.50
Name: Temperature, dtype: float64

In [125]:
# Acceder a varias columnas (devuelve un DataFrame)
# Requiere dos corchetes '[[...]]'
df[["Temperature", "Wind"]]

Unnamed: 0_level_0,Temperature,Wind
Day,Unnamed: 1_level_1,Unnamed: 2_level_1
Mon,12.79,13
Tue,19.67,28
Wed,17.51,16
Thu,14.44,11
Fri,10.51,26
Sat,11.07,27
Sun,17.5,20




Ahora, filtremos los datos:



In [126]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [127]:
# Filtrar filas donde la temperatura sea mayor que 12°C
# Sintaxis: df.loc[df["columna"] CONDICION] o df.loc[df.columna CONDICION]
df.loc[df.Temperature > 12, :] # Usando el punto

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Sun,Sunny,17.5,20,10


In [128]:
df.loc[df["Temperature"] > 12, :] # Usando corchetes

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Sun,Sunny,17.5,20,10


In [129]:
df.Temperature > 12

Day
Mon     True
Tue     True
Wed     True
Thu     True
Fri    False
Sat    False
Sun     True
Name: Temperature, dtype: bool

In [130]:
# Filtrar con .iloc: requiere convertir la Serie booleana a una lista
# Esto se debe a que iloc no acepta una Serie booleana directamente, solo una lista booleana.
df.iloc[list(df.Temperature > 12), :]

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Sun,Sunny,17.5,20,10




#### Múltiples condiciones

Para aplicar varias condiciones, usamos operadores booleanos `&` (AND) o `|` (OR), y las condiciones deben ir entre paréntesis.

*   `&`: Todas las condiciones deben cumplirse.
*   `|`: Al menos una de las condiciones debe cumplirse.



In [131]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [132]:
# Seleccionar filas donde el viento es mayor que 20 Y el tiempo es 'Sunny'
# Además, solo queremos las columnas 'Temperature' y 'Wind'

# Filtrar con .loc: (condicion1) & (condicion2), [columnas_deseadas]
df.loc[(df.Wind > 20) & (df.Weather == 'Sunny'), ['Temperature', 'Wind']]

Unnamed: 0_level_0,Temperature,Wind
Day,Unnamed: 1_level_1,Unnamed: 2_level_1
Tue,19.67,28


In [133]:
# Filtrar con .iloc: list((condicion1) & (condicion2)), [indices_columnas_deseadas]
# 'Temperature' es índice 1, 'Wind' es índice 2
df.iloc[list((df.Wind > 20) & (df.Weather == 'Sunny')),1:3]

Unnamed: 0_level_0,Temperature,Wind
Day,Unnamed: 1_level_1,Unnamed: 2_level_1
Tue,19.67,28




## 4. Transformación y Adición de Columnas

Como analistas de datos, a menudo necesitamos crear nuevas columnas para transformar, agregar, enriquecer, realizar ingeniería de características o facilitar el análisis y la visualización de los datos.

Existen varias formas importantes de crear nuevas columnas en Pandas:

### Asignación Directa

Permite asignar una nueva columna utilizando una operación o cálculo basado en las columnas existentes. Es la forma más sencilla.



In [134]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Mon,Sunny,12.79,13,30
Tue,Sunny,19.67,28,96
Wed,Sunny,17.51,16,20
Thu,Cloudy,14.44,11,22
Fri,Shower,10.51,26,79
Sat,Shower,11.07,27,62
Sun,Sunny,17.5,20,10


In [135]:
# Crear una nueva columna 'Farenheit' convirtiendo 'Temperature' de Celsius a Fahrenheit
# Fórmula: (Celsius * 9/5) + 32
df["Farenheit"] = (df["Temperature"] * 9/5) + 32

In [136]:
df

Unnamed: 0_level_0,Weather,Temperature,Wind,Humidity,Farenheit
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Mon,Sunny,12.79,13,30,55.022
Tue,Sunny,19.67,28,96,67.406
Wed,Sunny,17.51,16,20,63.518
Thu,Cloudy,14.44,11,22,57.992
Fri,Shower,10.51,26,79,50.918
Sat,Shower,11.07,27,62,51.926
Sun,Sunny,17.5,20,10,63.5




### `.insert()`

El método `insert()` permite insertar una nueva columna en un DataFrame en una **posición específica**. Requiere la posición numérica (`loc`), el nombre de la nueva columna (`column`), y los valores (`value`). El parámetro `allow_duplicates` por defecto es `False`, lo que significa que no puedes insertar dos columnas con el mismo nombre.



In [137]:
# En este ejemplo, creamos una columna nueva llamada "indice" en la primera posición (loc=0)
# con números del 1 al 7 (ya que nuestro DataFrame tiene 7 filas)
df.insert(0, "indice", range(1, 8))

In [138]:
df

Unnamed: 0_level_0,indice,Weather,Temperature,Wind,Humidity,Farenheit
Day,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Mon,1,Sunny,12.79,13,30,55.022
Tue,2,Sunny,19.67,28,96,67.406
Wed,3,Sunny,17.51,16,20,63.518
Thu,4,Cloudy,14.44,11,22,57.992
Fri,5,Shower,10.51,26,79,50.918
Sat,6,Shower,11.07,27,62,51.926
Sun,7,Sunny,17.5,20,10,63.5
