
# üß© Titanic Dataset Exploration with pandas

üéØ **Goal:**  
In this notebook, you'll explore the Titanic dataset using **pandas**.  
You'll practice the most common pandas functions for data inspection, selection, filtering, cleaning, and analysis.

For each function in the list below:
1. Explain what it does (in your own words, in a Markdown cell).
2. Give at least **two examples** using the Titanic dataset.
3. Add a short comment about the output or why it‚Äôs useful.


In [1]:

import pandas as pd

# Load Titanic dataset
# (Make sure titanic.csv is in the same folder as this notebook)
df = pd.read_csv("titanic_dataset.csv")

# Show first few rows
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S



## üß† Step 1: Inspecting the Data

Functions to explore:
- df.head()
- df.tail()
- df.info()
- df.describe()
- df.shape
- df.columns


In [2]:

# df.head()
#Muestra las primeras 5 filas de la tabla

# df.head(10)
#Muestra N numero de filas que se le pasa por el metodo .head(N)

# df.tail()
#Muestra las 5 ultimas filas de la tabla

# df.tail(10)
#Muestra N numero de filas del final pasadas por el metodo .tail(N)

# df.info()
#Este metodo imrpime la informacion de la DataFrame tanto el indice que tenga, valores nulos y el uso de memoria que usa

# df.describe()
#Este metodo duelve el sumatorio, media, minimo, y los porcentajes de un 25%, 50%, 75% y el maximo

# df.shape
#Devuelve una tupla representnado las dimensiones del DataFrame

df.columns
#Devuelve un index con las tablas y el tipo que ser√≠a

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


## üîç Step 2: Selecting Data

Functions to explore:
- df["column"]
- df[["col1", "col2"]]
- df.loc[]
- df.iloc[]


In [None]:

# Example: Selecting columns
# df["Age"].head()
# df[["Sex", "Age", "Survived"]].head()

# df[["Age"]]
#Muetra solo los valores de la columna pasada pero con una indexsacion
#Si se deja dentro de una lista imprime tambien el encabezado

# df[["Age","Survived"]]
# Muetra solo los valores de la columna pasada pero con una indexsacion

# df.loc[:, 'PassengerId']
#Se le puede pasar tanto un arguemntos como 2(en tal caso cogeria filas y luego columnas), con 1 argumentos te pasa toda la fila correspondiente
#Pasando argumentos como nombre de la fila o columna
#Tambien devuleve el tipo que sea 

df.iloc[3, 3]
#Lo mismo que el loc, solo que en este caso solo usa indices tanto para filas como columnas 


'Futrelle, Mrs. Jacques Heath (Lily May Peel)'


## üîé Step 3: Filtering Rows

Functions to explore:
- df[df["Age"] > 30]
- df.query("Sex == 'female' and Survived == 1")


In [None]:

# Example: Filtering data
df[df["Age"] > 50].head()
df.query("Sex == 'female' and Survived == 1").head()



## üßπ Step 4: Handling Missing Data

Functions to explore:
- df.isna()
- df.isna().sum()
- df.dropna()
- df.fillna()


In [31]:

# Example: Check missing values
# df.isna().sum()

# Fill missing ages with median
# df["Age"] = df["Age"].fillna(df["Age"].median())
# df["Age"].head()

# df.isna()
#Devuelve True en la posicion de la tabla donde se encuentre un NaN

# df.isna().sum()
#Devuelve la cantidad de NaN que haya en cada columna

# df.fillna(0) # 'perro'
#Devuelve la tabla cambiando NaN por el argumentos que se le pase a al metodo, se le puede pasar un escalar o un dict no tupla

df.dropna()
#Devuelve la tabla sin las filas que tengan un NaN


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S



## üìä Step 5: Grouping and Aggregating

Functions to explore:
- df.groupby("Sex")["Survived"].mean()
- df["Fare"].mean()
- df["Age"].median()


In [None]:

# Example: Aggregation
# df.groupby("Sex")["Survived"].mean()
# El metodo groupBy agrupa por columnas, agrupa las filas segun el valor del argumento
# y la segunda, es una lista con los nombres de las columnas, y las selecciona el con la funcion que venga
# por ultimo se hace una media de esa columna dentro del groupBy

# df["Fare"].mean()
#Devuelve la media de la columna Fare asi como su tipo

df["Age"].median()
#Devuelve la mediana de la columna "Age" en este caso no devuleve el tipo



28.0


## üìà Step 6: Sorting and Counting

Functions to explore:
- df.sort_values("Age")
- df["Sex"].unique()
- df["Pclass"].value_counts()


In [None]:

# Example: Sorting and counting
df.sort_values("Age").head()
df["Pclass"].value_counts()



## ‚öôÔ∏è Step 7: Creating or Modifying Columns

Functions to explore:
- df.assign()
- df.apply()
- df["new_col"] = ...
- pd.concat()
- pd.merge()


In [None]:

# Example: Create new column
df["Fare_per_Age"] = df["Fare"] / df["Age"]
df[["Age", "Fare", "Fare_per_Age"]].head()



## üíæ Step 8: Exporting Data

Function to explore:
- df.to_csv("output.csv", index=False)


In [None]:

# Example: Save cleaned data
df.to_csv("titanic_cleaned.csv", index=False)



## üß© Step 9: Summary

Reflect on what you learned:
- Which functions were most useful?
- What insights did you gain from the Titanic dataset?
