
# üß© Titanic Dataset Exploration with pandas

üéØ **Goal:**  
In this notebook, you'll explore the Titanic dataset using **pandas**.  
You'll practice the most common pandas functions for data inspection, selection, filtering, cleaning, and analysis.

For each function in the list below:
1. Explain what it does (in your own words, in a Markdown cell).
2. Give at least **two examples** using the Titanic dataset.
3. Add a short comment about the output or why it‚Äôs useful.


In [None]:

import pandas as pd

# Load Titanic dataset
# (Make sure titanic.csv is in the same folder as this notebook)
df = pd.read_csv("titanic.csv")

# Show first few rows
df.head()



## üß† Step 1: Inspecting the Data

Functions to explore:
- df.head()
- df.tail()
- df.info()
- df.describe()
- df.shape
- df.columns


#### DF.HEAD()
- Sirve para visualizar las primeras filas de un DataFrame. Por defecto solo se ven las primeras 5 filas

In [None]:

# Ejemplo 1: df.head()
df.head() #muestra por defecto 5

# Ejemplo 2
df.head(10) #aqu√≠ me muestra 10 (del 0 al 9)


#### DF.TAIL()
- Muestra las √∫ltimas filas, como en el Head muestra 5 filas por defecto, pero si se le especifica puede mostrar m√°s

In [None]:
#Ejemplo de df.tail()
df.tail() # muestra las √∫ltimas 5 filas

#Ejemplo 2
df.tail(8) # muestra las √∫ltimas 8 filas

#### DF.INFO()
- Me da un resumen es decir, n√∫mero de entradas, tipos de datos de cada columna, uso de memoria

In [None]:
#Ejemplo de df.info()
df.info() # nos muestra la informaci√≥n

df[['Name', 'Sex', 'Age']].info() # muestra la informaci√≥n de solo esas 3 columnas

#### DF.DESCRIBE()
- Genera un resumen estad√≠stico de las columnas numericas

In [None]:
#Ejemplo 1
df[df['Survived'] == 1].describe() #  solo me muestra estadisticas del grupo  de sobrevivio

df[(df["Sex"] == "female") & (df["Survived"] == 1)].describe() # solo muestra las estadisicas si es mujer y sobrevivio


#### DF.SHAPE()
- Sabe cu√°ntas columnas y filas tiene la tabla. La salida es en tuplas (n¬∫ de filas, n¬∫ de columnas)

In [None]:
#Ejemplo 1
df[df["Sex"] == "male"].shape # me dice cuanta gente es hombre

# Ejemplo 2
df[df["Survived"] == 1].shape #esto dice cuanta gente sobrevivio


(342, 12)

#### DF.COLUMNS()
- Obtengo los nombres de todas las columnas

In [None]:
#Ejemplo 1
list(df.columns) #convierto en una lista todas las columnas

#Ejemplo 2
df.columns # me muestra las columnas tal cual



## üîç Step 2: Selecting Data

Functions to explore:
- df["column"]
- df[["col1", "col2"]]
- df.loc[]
- df.iloc[]


#### DF['COLUMN'] & DF['COL1', 'COL2']
- La primera solo selcciona una columna de la tabla y la otra dos o mas columnas

In [None]:
# Ejemplos con DF 

df['Name'].head() # me muestra el nombre de los 5 primeros
df["Age"].head()  # me muestra la edad de los 5 primeros 

# Ejemplos con df[col1,col2]: 

df[["Sex", "Age", "Survived"]].head() #me muestra los 5 primeros con su sexo, edady si sobrevivieron
df[['Name', 'Sex']].tail() # los ultimos 5 con su nombre y sexo


#### DF.LOC[]
- Selecciona filas y col por su *nombre* 

In [None]:
#Ejemplo 1
df.loc[12,'Age'] #muestra la edad del pasajero 12

#Ejemplo 2
df.loc[0:5, ["Sex", "Age", "Survived"]] #muestra del (0 al 5) y las col q pone


#### DF.ILOC()
- Selecciona filas y col por su *posici√≥n* 

In [None]:
#Ejemplo 1
df.iloc[0,3] # devuelve el valor de la fila 0 y la columna 3

#Ejemplo 2
df.iloc[0:5, 0:3] #coge filas (0-4) y col (0-2)



## üîé Step 3: Filtering Rows

Functions to explore:
- df[df["Age"] > 30]
- df.query("Sex == 'female' and Survived == 1")


#### DF[DF["Age"] > 30] y DF.QUERY
- Filtrar filas en base a una condici√≥n (solo devuelve las filas donde la condici√≥n es true)

In [None]:
#Ejemplo 1 
df[df["Age"] > 20].head() #muestra 5 pasajeros mayores de 20

#Ejemplo 2
df[(df["Sex"] == "female") & (df["Age"] > 20)].shape[0] # mujeres > 20, pero con shape veo el resultado de mujeres q hay
df.query("Sex == 'female' and Age > 20").shape[0] # lo mismo de arriba, pero usando query



In [None]:

# Example: Filtering data
df[df["Age"] > 50].head()
df.query("Sex == 'female' and Survived == 1").head()



## üßπ Step 4: Handling Missing Data

Functions to explore:
- df.isna()
- df.isna().sum()
- df.dropna()
- df.fillna()


#### DF.ISNA()
- Detecta los valores faltates (NAN o none)

In [None]:
#Ejemplo con isna
df[df["Age"].isna()] # muestra las filas donde falta la edad

df[df["Cabin"].isna()] # muestra las filas donde falta cabih




#### DF.ISNA().SUM()
- Te dice donde hay valores que faltan True -> falta un dato, False -> esta completo

In [55]:
# Ejemplo con sum
df.isna().sum() # cuantos valores faltantes hay en cada columa
df["Age"].isna().sum() # cuantos valores hay sin contestar en el sexo


np.int64(177)

#### DF.DROPNA()
- Elimina las filas que tienen valores faltantes


In [None]:
#Ejemplos con dropna()
df.dropna(subset=["Age"]) # elimina las filas donde age est√° vac√≠o

df.dropna(subset=["Cabin"]) # elimina las filas donde cabin est√° vac√≠o


#### DF.FILLNA()
- Rellena los valores faltantes con el valor que yo quiera

In [57]:
# Ejemplos con fillna()
df["Age"] = df["Age"].fillna(df["Age"].median()) # rellena los datos con la mediana donde sea NAN se rellena

df["Cabin"] = df["Cabin"].fillna("Desconocido")


In [None]:

# Example: Check missing values
df.isna().sum()

# Fill missing ages with median
df["Age"] = df["Age"].fillna(df["Age"].median())
df["Age"].head()



## üìä Step 5: Grouping and Aggregating

Functions to explore:
- df.groupby("Sex")["Survived"].mean()
- df["Fare"].mean()
- df["Age"].median()


#### DF.GROUPBY("Sex")["Survived"].mean()
- Agrupa y calcula estad√≠sitcas (sumas, promedio...). Es decir, separa la tabla en diferentes categorios y calcula dentro de cada grupo

In [None]:
#Ejemplo 1
df.groupby("Sex")["Survived"].mean()


#### DF["Fare"].mean()

In [None]:
#Ejemplo 1

#### DF["Age"].median()

In [None]:
#Ejemplo 1

In [None]:

# Example: Aggregation
df.groupby("Sex")["Survived"].mean()
df.groupby("Pclass")["Fare"].mean()



## üìà Step 6: Sorting and Counting

Functions to explore:
- df.sort_values("Age")
- df["Sex"].unique()
- df["Pclass"].value_counts()


In [None]:

# Example: Sorting and counting
df.sort_values("Age").head()
df["Pclass"].value_counts()



## ‚öôÔ∏è Step 7: Creating or Modifying Columns

Functions to explore:
- df.assign()
- df.apply()
- df["new_col"] = ...
- pd.concat()
- pd.merge()


In [None]:

# Example: Create new column
df["Fare_per_Age"] = df["Fare"] / df["Age"]
df[["Age", "Fare", "Fare_per_Age"]].head()



## üíæ Step 8: Exporting Data

Function to explore:
- df.to_csv("output.csv", index=False)


In [None]:

# Example: Save cleaned data
df.to_csv("titanic_cleaned.csv", index=False)



## üß© Step 9: Summary

Reflect on what you learned:
- Which functions were most useful?
- What insights did you gain from the Titanic dataset?
