# CLASE 06 - Selecciones y filtros de datos

Las selecciones y filtros de datos son técnicas utilizadas para extraer  subconjuntos específicos de información de un conjunto de datos más grande.
Estas operaciones permiten a los analistas enfocarse en las dimensiones y métricas que son relevantes para su análisis.

* **Selecciones:** Se refieren a la elección de columnas o filas particulares de un DataFrame.
* **Filtros:** Implican aplicar condiciones para obtener sólo aquellos registros que cumplen ciertos criterios, permitiéndonos restringir la
visualización de datos.
* **Transformaciones:** Las transformaciones de datos son operaciones que modifican la estructura o el contenido de un conjunto de datos. Esto puede incluir la creación de nuevas columnas, la eliminación de información no relevante o la reestructuración de los datos para facilitar su análisis.

In [5]:
import pandas as pd

# Cargar el dataset
df = pd.read_csv("titanic_dataset.csv")


# 1) Obtener nombres de columnas:



In [9]:
# A) Index de columnas (objeto especial de Pandas)
# ESTA ES LA FORMA MAS USUAL Y LA QUE APARECE EN EL APUNTE
print(df.columns)

# B) Lista de cadenas (útil para loops o comparaciones)
nombres_columnas = df.columns.to_list()
print(nombres_columnas)

# C) Otra forma equivalente
print(list(df.columns))

# D) keys() es un alias común
print(df.keys())


Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


Podemos usar un bucle `for` para recorrer esa lista de nombres:

* `df.columns` es un objeto iterable con las etiquetas de las columnas en el **orden** en que aparecen en el DataFrame.
* `enumerate(...)` toma ese iterable y va generando pares `(i, col)`:

  * `i` es un entero con la **posición** (comienza en 0 por defecto).
  * `col` es la **etiqueta** de la columna (normalmente un string).
* `print(i, col)` muestra cada posición junto a su nombre, ideal para inspeccionar rápidamente o para referenciar columnas por índice.

Detalles útiles:

* Si queremos que la numeración empiece en 1: `enumerate(df.columns, start=1)`.


In [None]:
# Enumerar columnas con su posición (arranca en 0)
for i, col in enumerate(df.columns):
    print(i, col)

## ¿Qué es el **índice** en Pandas?

* Es la **etiqueta de cada fila** del DataFrame (el "nombre" de la fila).
* Por defecto, cuando cargamos un CSV sin indicar índice, Pandas crea un **RangeIndex**: 0, 1, 2, …, n-1.
* Pero no tiene por qué ser numérico ni consecutivo: puede ser una fecha, un código, un string, o incluso un **MultiIndex** (varios niveles).
* Sirve para **ubicar** filas con `.loc[...]`, para **alinear** datos en merges/joins y para **ordenar/reestructurar** con facilidad.
* Puede tener un **nombre** (`df.index.name`) y puede (o no) ser único.


### Mini tips

* Si queremos que el índice sea una columna especial (p. ej., un ID o una fecha): `df = df.set_index("PassengerId")`.
* Para volver al índice numérico estándar: `df = df.reset_index(drop=True)`.
* Para seleccionar por índice: `df.loc[etiqueta]` (por posición numérica, usá `df.iloc[posición]`).


In [11]:
# A) Ver el índice tal cual ...
# ESTA ES LA FORMA MAS USUAL, LA QUE ESTÁ EN EL APUNTE
print(df.index)


#--------------------------------------------------------------
# AMPLIAMOS CON ALGUNOS TRUCOS O FORMAS ALTERNATIVAS:


# B) Pasarlo a una lista "común y silvestre"
etiquetas_indice = df.index.to_list()
print(etiquetas_indice[:10])  # muestro las primeras

# print(df.iloc[2])
# df = df.set_index("PassengerId")
print(df.index.name)

RangeIndex(start=0, stop=891, step=1)
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
None


# 2) Obtener datos de una columna

TIP: La notación con punto `(df.Age)` solo funciona si el nombre es válido como atributo (sin espacios ni caracteres raros). La forma segura es siempre `df["Age"]`.

In [15]:
# Obtener datos de la columna 'Age'
# FORMA USUAL, LA DEL APUNTE
edades = df['Age']
print("Datos de la columna Age:\n", edades)


#--------------------------------------------------------------
# AMPLIAMOS CON ALGUNOS TRUCOS O FORMAS ALTERNATIVAS:

# Ver los nombres de columnas (exactos)
#print(df.columns.tolist())

# Convertir una columna a una serie:
serie_edad = df["Age"]
serie_sexo = df["Sex"]


# Convertir una columna a lista de Python (útil para loops o exportar)
#lista_sexos = df["Sex"].to_list()

# Explorar rápidamente una columna
# primeros_edad = df["Age"].head(10)
# ultimos_edad  = df["Age"].tail(10)

# Un valor puntual de una columna (por posición de fila)
# edad_fila0 = df["Age"].iloc[0]

# Valores únicos y frecuencias de una columna categórica
sexos_unicos = df["Sex"].unique()
frecuencia_edades = df["Age"].value_counts()

print(sexos_unicos)
print(frecuencia_edades)


Datos de la columna Age:
 0      22.0
1      38.0
2      26.0
3      35.0
4      35.0
       ... 
886    27.0
887    19.0
888     NaN
889    26.0
890    32.0
Name: Age, Length: 891, dtype: float64
['male' 'female']
Age
24.00    30
22.00    27
18.00    26
28.00    25
30.00    25
         ..
24.50     1
0.67      1
0.42      1
34.50     1
74.00     1
Name: count, Length: 88, dtype: int64


# 3) Obtener datos de una Fila


In [21]:

# Obtener datos de la fila con índice 1
# FORMA DEL APUNTE
fila_1 = df.loc[1]
# print("Datos de la fila 1:\n", fila_1)



#--------------------------------------------------------------
# AMPLIAMOS CON ALGUNOS TRUCOS O FORMAS ALTERNATIVAS:

# Fila por posición (0 = primera fila)
fila_0 = df.iloc[0]  # REVISAR
# print(fila_0)

# Si preferimos un DataFrame, pasamos una lista de posiciones
fila_0_df = df.iloc[[0,5,24]]
print(fila_0_df)

# Acceder a un valor puntual (celda)
#( fila por posición + columna por nombre)
edad_fila_0 = df.iloc[0]["Age"]
print("Edad (fila 0):", edad_fila_0)


    PassengerId  Survived  Pclass                           Name     Sex  \
0             1         0       3        Braund, Mr. Owen Harris    male   
5             6         0       3               Moran, Mr. James    male   
24           25         0       3  Palsson, Miss. Torborg Danira  female   

     Age  SibSp  Parch     Ticket     Fare Cabin Embarked  
0   22.0      1      0  A/5 21171   7.2500   NaN        S  
5    NaN      0      0     330877   8.4583   NaN        Q  
24   8.0      3      1     349909  21.0750   NaN        S  
Edad (fila 0): 22.0


# 4) Seleccionar 2 o mas columnas

In [22]:
# Seleccionar columnas 'Producto' y 'Ventas'
# FORMA DEL APUNTE

#1) Selección directa con una lista de nombres
# Es La forma más común y legible.
#Devuelve un DataFrame con solo esas columnas.

# Quedarme solo con Age y Sex
subset = df[["Age", "Sex"]]
print("Selección de columnas Age y Sex:\n", subset)


#--------------------------------------------------------------
# AMPLIAMOS CON ALGUNOS TRUCOS O FORMAS ALTERNATIVAS:


#2) Por rango de nombres (de A a B, ambas inclusive)
# Útil cuando las columnas están contiguas y
# queremos un bloque completo.

# Toma desde 'Name' hasta 'Age' inclusive
# (si existen y están en ese orden)
rango = df.loc[:, "Name":"Age"]
print(rango.head())

Selección de columnas Age y Sex:
       Age     Sex
0    22.0    male
1    38.0  female
2    26.0  female
3    35.0  female
4    35.0    male
..    ...     ...
886  27.0    male
887  19.0  female
888   NaN  female
889  26.0    male
890  32.0    male

[891 rows x 2 columns]
                                                Name     Sex   Age
0                            Braund, Mr. Owen Harris    male  22.0
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0
2                             Heikkinen, Miss. Laina  female  26.0
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0
4                           Allen, Mr. William Henry    male  35.0


# 5) Seleccionar un subconjunto de filas y columnas

In [24]:
# FORMA QUE APARECE EN EL APUNTE
# Objetivo: primeras 10 filas y 3 columnas por nombre
# filas 0..9 (inclusive en loc), columnas por nombre

sub1 = df.loc[0:9, ["Name", "Age", "Sex"]]
# print(sub1)


#--------------------------------------------------------------
# AMPLIAMOS CON ALGUNOS TRUCOS O FORMAS ALTERNATIVAS:

# Objetivo: filas 0..9 y columnas en posiciones
# 3, 4 y 5
sub2 = df.iloc[0:10, [3, 4, 5]]
print(sub2)

                                                Name     Sex   Age
0                            Braund, Mr. Owen Harris    male  22.0
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0
2                             Heikkinen, Miss. Laina  female  26.0
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0
4                           Allen, Mr. William Henry    male  35.0
5                                   Moran, Mr. James    male   NaN
6                            McCarthy, Mr. Timothy J    male  54.0
7                     Palsson, Master. Gosta Leonard    male   2.0
8  Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)  female  27.0
9                Nasser, Mrs. Nicholas (Adele Achem)  female  14.0


# 6/7) Selección Condicional y Búsqueda condicional

In [None]:
# Condición booleana (lo más común):
# Una máscara booleana para quedarnos
# solo con las filas que cumplen el criterio:

# Pasajeros con Age > 60 (todas las columnas)
sub = df.loc[df["Age"] > 60]

# Si queremos sólo algunas columnas
sub = df.loc[df["Age"] > 60, ["Name", "Sex", "Age"]]


In [None]:
# Varias condiciones con & (AND) y | (OR)
# Encadenamos condiciones; siempre con
# paréntesis alrededor de cada una.

# Mujeres en 1ra clase (AND), mostrando columnas clave
filtro = (df["Sex"] == "female") & (df["Pclass"] == 1)
sub = df.loc[filtro, ["Name", "Pclass", "Sex", "Age"]]

# OR: embarcados en 'S' **o** tarifa > 100
filtro2 = (df["Embarked"] == "S") | (df["Fare"] > 100)
sub2 = df.loc[filtro2, ["Name", "Fare", "Embarked"]]


In [None]:
# Condiciones isin, between, str.contains
# Atajos muy usados para pertenencia, rangos y texto.

# Pertenencia a un conjunto de valores
sub = df.loc[df["Embarked"].isin(["C", "Q"]), ["Name", "Embarked"]]

# Rango numérico inclusivo
sub = df.loc[df["Fare"].between(50, 100), ["Name", "Fare"]]

# Búsqueda de texto (case-insensitive) en 'Name'
# sin distinguir mayúsculas/minúsculas y NaN como no coinciden:
sub = df.loc[df["Name"].str.contains("smith", case=False, na=False), ["Name", "Age", "Sex"]]


In [None]:
# query: sintaxis legible tipo "SQL"
# Útil para leer condiciones complejas "de corrido".
#  (Ojo: los nombres con espacios o raros requieren `backticks`).

# Personas embarcadas en 'S' y tarifa > 50
sub = df.query("Embarked == 'S' and Fare > 50")[["Name", "Fare", "Embarked"]]

# Mujeres en 1ra o 2da clase, con edad entre 18 y 40
sub = df.query("Sex == 'female' and Pclass in [1, 2] and 18 <= Age <= 40")[["Name", "Pclass", "Age"]]


In [None]:
# Ejemplo condición numérica básica (mayores a un umbral)

# Pasajeros con tarifa (Fare) mayor a 100
# - Creamos una máscara booleana (True/False por fila)
# - Usamos .loc[mascara, columnas] para quedarnos con ciertas columnas
caros = df.loc[df["Fare"] > 100, ["Name", "Fare", "Pclass", "Embarked"]]
print(caros.head())

In [None]:
# Ejemplo de rango inclusivo con between
# Pasajeros con edad entre 18 y 40 (incluye 18 y 40)
adultos_jovenes = df.loc[df["Age"].between(18, 40), ["Name", "Age", "Sex"]]
print(adultos_jovenes.head())


In [None]:
# Otro ejemplo de pertenencia con isin:
# Pasajeros que embarcaron en Cherbourg (C) o Queenstown (Q)
puertos_cq = df.loc[df["Embarked"].isin(["C", "Q"]), ["Name", "Embarked", "Fare"]]
print(puertos_cq.head())


# 2) Transformaciones con Pandas

In [None]:
# Crear una nueva columna
# Crear una nueva columna llamada Fare_Ajustado que
# represente la tarifa original con un 10% de incremento
# (por ejemplo, un recargo hipotético).

# - Tomamos la columna numérica 'Fare'
# - Multiplicamos por 1.10 para aplicar un incremento del 10%
# - (Opcional) redondeamos a 2 decimales para presentación
df["Fare_Ajustado"] = (df["Fare"] * 1.10).round(2)

# Mostrar el resultado
display(
    "Tarifa original vs. tarifa ajustada (+10%):\n",
    df[["Name", "Fare", "Fare_Ajustado"]].head(10)
)

In [None]:
# Eliminar una columna

# por ejemplo Cabin (que además tiene muchos nulos)
# y devolver un NUEVO DataFrame (no modifica df original)

df_sin_cabin = df.drop(columns=["Cabin"])

display("DataFrame después de eliminar la columna 'Cabin':\n",
      df_sin_cabin.head())

In [None]:
# Eliminar una fila


# Eliminar la fila con índice 2
# (devuelve un NUEVO DataFrame; df original no se modifica)
df_sin_fila2 = df.drop(index=2)

display("DataFrame después de eliminar la fila con índice 2:\n",
      df_sin_fila2.head())

In [None]:
# Reindexar el DataFrame:
# - reset_index() crea un nuevo índice 0..n-1
# - drop=True descarta el índice anterior (no lo agrega como columna)
# es decir: perdemos la columna-indice original, PassangerId
df_reindexed = df.reset_index(drop=True)

print("DataFrame reindexado (índice 0..n-1):\n", df_reindexed.head())

In [None]:
# Transposición.

# - Las FILAS pasan a ser COLUMNAS y las COLUMNAS pasan a ser FILAS.
# - El índice actual se convierte en nombres de columnas del resultado.
df_transposed = df.transpose()   # equivalente a df.T

display("DataFrame transpuesto (muestra parcial):\n", df_transposed.iloc[:10, :5])

# TIP: Puede ser util recortar el dataframe antes de transponerlo