# Clase de Introducción a pandas

Este notebook presentará los conceptos fundamentales de pandas:
- Estructuras de datos: **Series** y **DataFrames**.
- Técnicas de indexación y selección de datos.

¡Recuerda ejecutar cada celda y observar los resultados!

---

## 1. Introducción a Pandas <a name="introduccion"></a>

Pandas es una biblioteca de Python especializada en la manipulación y el análisis de datos. Proporciona dos estructuras de datos principales:
- **Series**: parecidas a un array unidimensional con etiquetas en cada valor.
- **DataFrames**: tablas etiquetadas con filas y columnas, muy similares a una hoja de cálculo.

Antes de empezar, necesitamos importar la biblioteca **pandas** (generalmente se importa como `pd`).



In [2]:
import pandas as pd
import numpy as np  # También será útil para generar datos aleatorios o arrays


---

## 2. Series <a name="series"></a>

Las Series son la estructura de datos más simple en pandas. Piensa en ellas como un vector unidimensional de datos con un índice que identifica a cada elemento.

### 2.1 Creación de Series

Podemos crear una `Series` a partir de:
- Una lista de Python.
- Un array de NumPy.
- Un diccionario.


In [11]:
# 2.1 - Ejemplos de creación de Series

# 1) A partir de una lista
lista = [10, 20, 30, 40]
serie_desde_lista = pd.Series(lista)
print("Serie desde lista:")
print(serie_desde_lista)
print("\n")

# 2) A partir de un array de NumPy
array = np.array([5, 6, 7, 8])
serie_desde_array = pd.Series(array)
print("Serie desde array:")
print(serie_desde_array)
print("\n")

# 3) A partir de un diccionario
diccionario = {'a': 1, 'b': 2, 'c': 3}
serie_desde_diccionario = pd.Series(diccionario)
print("Serie desde diccionario:")
print(serie_desde_diccionario)


Serie desde lista:
0    10
1    20
2    30
3    40
dtype: int64


Serie desde array:
0    5
1    6
2    7
3    8
dtype: int32


Serie desde diccionario:
a    1
b    2
c    3
dtype: int64


### 2.2 Accediendo a datos en Series

Para acceder a los datos en una `Series` podemos usar:
- El índice numérico (similar a listas/arrays).
- El índice personalizado (si está disponible).
- Slice (rebanadas).


In [12]:
# 2.2 - Ejemplos de acceso a datos en Series

serie_ejemplo = pd.Series([10, 20, 30, 40], index=["x", "y", "z", "w"])

print("Serie ejemplo:")
print(serie_ejemplo)

print("\nAcceder a un valor por etiqueta ('y'):")
print(serie_ejemplo["y"])

print("\nAcceder a un valor por posición (2):")
print(serie_ejemplo[2])

print("\nRebanado de elementos (dos primeros):")
print(serie_ejemplo[:2])


Serie ejemplo:
x    10
y    20
z    30
w    40
dtype: int64

Acceder a un valor por etiqueta ('y'):
20

Acceder a un valor por posición (2):
30

Rebanado de elementos (dos primeros):
x    10
y    20
dtype: int64


  print(serie_ejemplo[2])


---

## 3. DataFrames <a name="dataframes"></a>

Un `DataFrame` es como una tabla con filas y columnas, cada columna es internamente una Serie independiente. Podemos crear un DataFrame de varias maneras:

### 3.1 Creación de DataFrames

- A partir de diccionarios de listas o de Series.
- A partir de archivos CSV, Excel, etc. (en esta clase, haremos un ejemplo sencillo con diccionarios).


In [13]:
# 3.1 - Ejemplos de creación de DataFrame

# 1) A partir de un diccionario de listas
datos = {
    "Nombre": ["Ana", "Bob", "Cecilia"],
    "Edad": [23, 35, 29],
    "Ciudad": ["Madrid", "Barcelona", "Valencia"]
}

df = pd.DataFrame(datos)
print("DataFrame a partir de diccionario de listas:")
print(df)
print("\n")

# 2) También se puede personalizar el índice
df_indexado = pd.DataFrame(datos, index=["ID1", "ID2", "ID3"])
print("DataFrame con índice personalizado:")
print(df_indexado)


DataFrame a partir de diccionario de listas:
    Nombre  Edad     Ciudad
0      Ana    23     Madrid
1      Bob    35  Barcelona
2  Cecilia    29   Valencia


DataFrame con índice personalizado:
      Nombre  Edad     Ciudad
ID1      Ana    23     Madrid
ID2      Bob    35  Barcelona
ID3  Cecilia    29   Valencia


### 3.2 Operaciones básicas con DataFrames

Algunas operaciones comunes en DataFrames:
- Ver las primeras filas: `.head()`
- Ver las últimas filas: `.tail()`
- Resumen de datos: `.info()`
- Descripción estadística: `.describe()`


In [14]:
# 3.2 - Operaciones básicas

print("Primeras filas del DataFrame:")
print(df.head())

print("\nInformación del DataFrame (columnas, tipos de datos, etc.):")
print(df.info())

print("\nDescripción estadística (solo columnas numéricas):")
print(df.describe())


Primeras filas del DataFrame:
    Nombre  Edad     Ciudad
0      Ana    23     Madrid
1      Bob    35  Barcelona
2  Cecilia    29   Valencia

Información del DataFrame (columnas, tipos de datos, etc.):
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Nombre  3 non-null      object
 1   Edad    3 non-null      int64 
 2   Ciudad  3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes
None

Descripción estadística (solo columnas numéricas):
       Edad
count   3.0
mean   29.0
std     6.0
min    23.0
25%    26.0
50%    29.0
75%    32.0
max    35.0


---

## 4. Indexación y Selección de datos <a name="indexacion"></a>

En pandas, seleccionar filas y columnas puede hacerse de distintas maneras. Veremos las más usadas.

### 4.1 Selección con `[]`

- `df["columna"]` permite seleccionar una única columna, devolviendo una Serie.
- `df[["columna1", "columna2"]]` permite seleccionar varias columnas, devolviendo otro DataFrame.
- `df[condicion]` permite filtrar filas según una condición booleana.


In [15]:
# 4.1 - Ejemplos de selección con []
df = pd.DataFrame({
    "A": [1, 2, 3, 4],
    "B": [10, 20, 30, 40],
    "C": ["rojo", "azul", "verde", "amarillo"]
})

print("DataFrame de ejemplo:")
print(df)

print("\nSeleccionar la columna 'A':")
print(df["A"])

print("\nSeleccionar columnas 'A' y 'B':")
print(df[["A", "B"]])

print("\nFiltrar filas donde 'A' sea mayor que 2:")
filtro = df["A"] > 2
print(df[filtro])


DataFrame de ejemplo:
   A   B         C
0  1  10      rojo
1  2  20      azul
2  3  30     verde
3  4  40  amarillo

Seleccionar la columna 'A':
0    1
1    2
2    3
3    4
Name: A, dtype: int64

Seleccionar columnas 'A' y 'B':
   A   B
0  1  10
1  2  20
2  3  30
3  4  40

Filtrar filas donde 'A' sea mayor que 2:
   A   B         C
2  3  30     verde
3  4  40  amarillo


### 4.2 Selección con `.loc[]` y `.iloc[]`

- `df.loc[fila, columna]`: selección basada en **etiquetas** (nombres de índice y columnas).
- `df.iloc[fila, columna]`: selección basada en **posiciones** (índices enteros).

**Nota**: el primer parámetro selecciona las filas y el segundo las columnas. Puedes usar rebanadas (slices) y listas/arrays para seleccionar múltiples filas o columnas.


In [16]:
# 4.2 - Ejemplos con .loc[] e .iloc[]

df2 = pd.DataFrame(
    data=np.arange(1, 17).reshape((4, 4)),
    index=["fila1", "fila2", "fila3", "fila4"],
    columns=["col1", "col2", "col3", "col4"]
)

print("DataFrame de ejemplo (df2):")
print(df2)

# loc usa las ETIQUETAS de filas y columnas
print("\nUsando loc para seleccionar fila2 y col2, col3:")
print(df2.loc["fila2", ["col2", "col3"]])

print("\nUsando loc con rebanado de filas y columnas:")
print(df2.loc["fila1":"fila3", "col2":"col4"])

# iloc usa los ÍNDICES enteros
print("\nUsando iloc para seleccionar fila 1 y columnas 1 a 3 (posiciones):")
print(df2.iloc[0, 1:3])

print("\nUsando iloc con rebanado en filas y columnas:")
print(df2.iloc[1:3, 2:4])


DataFrame de ejemplo (df2):
       col1  col2  col3  col4
fila1     1     2     3     4
fila2     5     6     7     8
fila3     9    10    11    12
fila4    13    14    15    16

Usando loc para seleccionar fila2 y col2, col3:
col2    6
col3    7
Name: fila2, dtype: int32

Usando loc con rebanado de filas y columnas:
       col2  col3  col4
fila1     2     3     4
fila2     6     7     8
fila3    10    11    12

Usando iloc para seleccionar fila 1 y columnas 1 a 3 (posiciones):
col2    2
col3    3
Name: fila1, dtype: int32

Usando iloc con rebanado en filas y columnas:
       col3  col4
fila2     7     8
fila3    11    12


### 4.3 Filtrado de datos

Cuando combinamos lo aprendido, podemos realizar filtrados condicionales más complejos:
- Combinación de condiciones con `&` (AND) y `|` (OR).
- Uso de paréntesis para agrupar expresiones.


In [17]:
# 4.3 - Ejemplo de filtrado de datos con múltiples condiciones
df_filtrado = pd.DataFrame({
    "Producto": ["Manzana", "Naranja", "Pera", "Manzana", "Naranja"],
    "Precio": [3, 2, 4, 5, 1],
    "Cantidad": [10, 12, 7, 5, 20]
})

print("DataFrame (df_filtrado):")
print(df_filtrado)

# Filtrar filas donde el producto sea "Manzana" y el precio sea mayor que 4
condicion = (df_filtrado["Producto"] == "Manzana") & (df_filtrado["Precio"] > 4)
print("\nFilas con Manzana y precio > 4:")
print(df_filtrado[condicion])

# Filtrar filas donde la cantidad sea > 10 o el precio sea <= 2
condicion_or = (df_filtrado["Cantidad"] > 10) | (df_filtrado["Precio"] <= 2)
print("\nFilas con cantidad > 10 o precio <= 2:")
print(df_filtrado[condicion_or])


DataFrame (df_filtrado):
  Producto  Precio  Cantidad
0  Manzana       3        10
1  Naranja       2        12
2     Pera       4         7
3  Manzana       5         5
4  Naranja       1        20

Filas con Manzana y precio > 4:
  Producto  Precio  Cantidad
3  Manzana       5         5

Filas con cantidad > 10 o precio <= 2:
  Producto  Precio  Cantidad
1  Naranja       2        12
4  Naranja       1        20


---

## 5. Conclusión <a name="conclusion"></a>

En esta clase aprendiste:
- A crear y manipular `Series` y `DataFrames`.
- A indexar y seleccionar datos de diferentes maneras.
- A realizar filtros condicionales sobre los datos.
