In [1]:
# --- Configuración de la Clase ---
import pandas as pd

# Volvemos a cargar el dataset por si acaso
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df_titanic = pd.read_csv(url)

# Para los ejemplos de .loc, vamos a crear un segundo DF
# donde el índice sea el nombre (Name)
df_titanic_con_indice = df_titanic.set_index('Name')

print("¡Datasets listos!")

¡Datasets listos!


In [7]:
# --- Ejemplo 1.1: Seleccionar UNA columna (devuelve una Serie) ---
# Usamos corchetes simples [] y el nombre de la columna
nombres = df_titanic['Name']

print("--- 1.1: Seleccionar UNA columna ('Name') ---")
print(type(nombres)) # <class 'pandas.core.series.Series'>
print(nombres.head(8))


# --- Ejemplo 1.2: Seleccionar MÚLTIPLES columnas (devuelve un DataFrame) ---
# ¡La clave son los DOBLES CORCHETES [[]]!
# El corchete externo es para "seleccionar".
# El corchete interno es una "lista" de las columnas que queremos.
columnas_interes = df_titanic[['Name', 'Age', 'Sex', 'Survived']]

print("\n--- 1.2: Seleccionar MÚLTIPLES columnas ---")
print(type(columnas_interes)) # <class 'pandas.core.frame.DataFrame'>
print(columnas_interes.head())


# --- Ejemplo 1.3: La "Notación Punto" (A EVITAR) ---
# Pandas permite esto, pero es una MALA PRÁCTICA.
# Falla si el nombre tiene espacios o es un método (ej. 'count')
edades = df_titanic.Age # <--- No recomendado
print("\n--- 1.3: Notación Punto (NO RECOMENDADA) ---")
print(type(edades)) # <class 'pandas.core.series.Series'>
print(edades.head())


--- 1.1: Seleccionar UNA columna ('Name') ---
<class 'pandas.core.series.Series'>
0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
5                                     Moran, Mr. James
6                              McCarthy, Mr. Timothy J
7                       Palsson, Master. Gosta Leonard
Name: Name, dtype: object

--- 1.2: Seleccionar MÚLTIPLES columnas ---
<class 'pandas.core.frame.DataFrame'>
                                                Name   Age     Sex  Survived
0                            Braund, Mr. Owen Harris  22.0    male         0
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  38.0  female         1
2                             Heikkinen, Miss. Laina  26.0  female         1
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  35.0  f

In [3]:
# --- Ejemplo 2.1: .iloc (Posición Numérica) ---
# Funciona igual que NumPy, ignora las etiquetas.

print("\n--- 2.1: .iloc (Posición) ---")
# Obtener la PRIMERA fila (posición 0)
print("\nPrimera fila (iloc[0]):")
print(df_titanic.iloc[0]) # Devuelve una Serie

# Obtener un elemento específico (fila 0, columna 1)
print(f"\nElemento en [0, 1]: {df_titanic.iloc[0, 1]}") # Output: 0

# Obtener las primeras 5 filas (un slice)
# (El 5 no se incluye, igual que en Python)
print("\nPrimeras 5 filas (iloc[0:5]):")
print(df_titanic.iloc[0:5])

# Obtener filas 0 y 2, y columnas 0, 3 y 4
print("\nFilas [0, 2] y Columnas [0, 3, 4]:")
print(df_titanic.iloc[[0, 2], [0, 3, 4]])


# --- Ejemplo 2.2: .loc (Etiqueta / Nombre) ---
# Funciona basado en los NOMBRES del índice y las columnas.

print("\n--- 2.2: .loc (Etiqueta) ---")

# En nuestro DF, el índice por defecto es 0, 1, 2...
# Así que .loc[0] funciona y da lo mismo que .iloc[0]
print("\nFila con etiqueta 0 (loc[0]):")
print(df_titanic.loc[0])

# ¡LA GRAN DIFERENCIA CON SLICING!
# .loc[0:5] SÍ INCLUYE la etiqueta '5'. Nos da 6 filas.
print("\nFilas con etiquetas 0 a 5 (loc[0:5]):")
print(df_titanic.loc[0:5])

# El poder de .loc: seleccionar por nombre de columna
print("\nFilas 0-5, pero solo columnas 'Name' y 'Age':")
print(df_titanic.loc[0:5, ['Name', 'Age']])

# .loc también permite "slices" de columnas
print("\nFilas 0-5, columnas DESDE 'Name' HASTA 'Ticket':")
print(df_titanic.loc[0:5, 'Name':'Ticket'])

# --- Ejemplo 2.3: .loc con un índice de texto ---
# Usemos el otro DataFrame que creamos (df_titanic_con_indice)
print("\n--- 2.3: .loc con índice de texto ---")
# Ahora podemos buscar a una persona por su nombre
nombre_pasajero = "Braund, Mr. Owen Harris"
print(f"\nDatos de '{nombre_pasajero}':")
print(df_titanic_con_indice.loc[nombre_pasajero])


--- 2.1: .iloc (Posición) ---

Primera fila (iloc[0]):
PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

Elemento en [0, 1]: 0

Primeras 5 filas (iloc[0:5]):
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradle

In [4]:
# --- Ejemplo 3.1: El Proceso en 2 Pasos ---

# Paso 1: "La Pregunta" (Crear la máscara booleana)
# ¿Qué pasajeros eran mujeres?
mascara_mujeres = df_titanic['Sex'] == 'female'

print("\n--- 3.1: La Máscara Booleana (solo True/False) ---")
print(mascara_mujeres.head())

# Paso 2: "El Filtro" (Aplicar la máscara al DataFrame)
# Le pasamos la máscara a los corchetes []
df_mujeres = df_titanic[mascara_mujeres]

print("\nDataFrame filtrado (solo mujeres):")
print(df_mujeres.head())


# --- Ejemplo 3.2: El "One-Liner" (Forma habitual) ---
# Combinamos los dos pasos en una sola línea.
# Se lee de adentro hacia afuera.
df_mayores_30 = df_titanic[df_titanic['Age'] > 30]

print("\n--- 3.2: Pasajeros mayores de 30 ---")
print(df_mayores_30.head())


# --- Ejemplo 3.3: .loc con condición (Más eficiente) ---
# También puedes poner la condición booleana dentro de .loc
# Esto es más rápido y preferible.
df_primera_clase = df_titanic.loc[df_titanic['Pclass'] == 1]
print("\n--- 3.3: Pasajeros de Primera Clase (usando .loc) ---")
print(df_primera_clase.head())


--- 3.1: La Máscara Booleana (solo True/False) ---
0    False
1     True
2     True
3     True
4    False
Name: Sex, dtype: bool

DataFrame filtrado (solo mujeres):
   PassengerId  Survived  Pclass  \
1            2         1       1   
2            3         1       3   
3            4         1       1   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
8  Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)  female  27.0      0   
9                Nasser, Mrs. Nicholas (Adele Achem)  female  14.0      1   

   Parch            Ticket     Fare Cabin Embarked  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN       

In [5]:
# --- Ejemplo 4.1: Condición AND (&) ---
# Queremos mujeres (Sex == 'female') Y que sobrevivieron (Survived == 1)

# Creamos las dos condiciones
condicion_1 = df_titanic['Sex'] == 'female'
condicion_2 = df_titanic['Survived'] == 1

# Las combinamos con &
df_mujeres_supervivientes = df_titanic[condicion_1 & condicion_2]

print("\n--- 4.1: Mujeres que sobrevivieron ---")
print(df_mujeres_supervivientes.head())


# --- Ejemplo 4.2: Condición OR (|) ---
# Queremos pasajeros que pagaron mucho (Fare > 300) O
# que eran de la tercera clase (Pclass == 3)

condicion_3 = df_titanic['Fare'] > 300
condicion_4 = df_titanic['Pclass'] == 3

df_ricos_o_tercera = df_titanic[condicion_3 | condicion_4]

print("\n--- 4.2: Pasajeros ricos O de tercera clase ---")
print(df_ricos_o_tercera.head())


# --- Ejemplo 4.3: .isin() (Forma limpia de hacer OR) ---
# Queremos pasajeros que embarcaron en 'C' (Cherbourg) O 'Q' (Queenstown)
# Forma Lenta: (df['Embarked'] == 'C') | (df['Embarked'] == 'Q')
# Forma Rápida:
lista_puertos = ['C', 'Q']
mascara_puertos = df_titanic['Embarked'].isin(lista_puertos)

print("\n--- 4.3: Pasajeros de 'C' o 'Q' (usando .isin) ---")
print(df_titanic[mascara_puertos].head())


--- 4.1: Mujeres que sobrevivieron ---
   PassengerId  Survived  Pclass  \
1            2         1       1   
2            3         1       3   
3            4         1       1   
8            9         1       3   
9           10         1       2   

                                                Name     Sex   Age  SibSp  \
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
8  Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)  female  27.0      0   
9                Nasser, Mrs. Nicholas (Adele Achem)  female  14.0      1   

   Parch            Ticket     Fare Cabin Embarked  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
8      2            347742  11.1333   NaN        S  
9      0       