
# üß© Titanic Dataset Exploration with pandas

üéØ **Goal:**  
In this notebook, you'll explore the Titanic dataset using **pandas**.  
You'll practice the most common pandas functions for data inspection, selection, filtering, cleaning, and analysis.

For each function in the list below:
1. Explain what it does (in your own words, in a Markdown cell).
2. Give at least **two examples** using the Titanic dataset.
3. Add a short comment about the output or why it‚Äôs useful.


In [4]:

import pandas as pd

# Load Titanic dataset
# (Make sure titanic.csv is in the same folder as this notebook)
df = pd.read_csv("titanic.csv")

# Show first few rows
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S



## üß† Step 1: Inspecting the Data

Functions to explore:
- df.head()
- df.tail()
- df.info()
- df.describe()
- df.shape
- df.columns


#### DF.HEAD()
- Sirve para visualizar las primeras filas de un DataFrame. Por defecto solo se ven las primeras 5 filas

In [None]:

# Ejemplo 1: df.head()
df.head() #muestra por defecto 5

# Ejemplo 2
df.head(10) #aqu√≠ me muestra 10 (del 0 al 9)


#### DF.TAIL()
- Muestra las √∫ltimas filas, como en el Head muestra 5 filas por defecto, pero si se le especifica puede mostrar m√°s

In [None]:
#Ejemplo de df.tail()
df.tail() # muestra las √∫ltimas 5 filas

#Ejemplo 2
df.tail(8) # muestra las √∫ltimas 8 filas

#### DF.INFO()
- Me da un resumen es decir, n√∫mero de entradas, tipos de datos de cada columna, uso de memoria

In [None]:
#Ejemplo de df.info()
df.info() # nos muestra la informaci√≥n

df[['Name', 'Sex', 'Age']].info() # muestra la informaci√≥n de solo esas 3 columnas

#### DF.DESCRIBE()
- Genera un resumen estad√≠stico de las columnas numericas

In [None]:
#Ejemplo 1
df[df['Survived'] == 1].describe() #  solo me muestra estadisticas del grupo  de sobrevivio

df[(df["Sex"] == "female") & (df["Survived"] == 1)].describe() # solo muestra las estadisicas si es mujer y sobrevivio


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,342.0,342.0,342.0,290.0,342.0,342.0,342.0
mean,444.368421,1.0,1.950292,28.34369,0.473684,0.464912,48.395408
std,252.35884,0.0,0.863321,14.950952,0.708688,0.771712,66.596998
min,2.0,1.0,1.0,0.42,0.0,0.0,0.0
25%,250.75,1.0,1.0,19.0,0.0,0.0,12.475
50%,439.5,1.0,2.0,28.0,0.0,0.0,26.0
75%,651.5,1.0,3.0,36.0,1.0,1.0,57.0
max,890.0,1.0,3.0,80.0,4.0,5.0,512.3292


#### DF.SHAPE()
- Sabe cu√°ntas columnas y filas tiene la tabla. La salida es en tuplas (n¬∫ de filas, n¬∫ de columnas)

In [None]:
#Ejemplo 1
df[df["Sex"] == "male"].shape # me dice cuanta gente es hombre

# Ejemplo 2
df[df["Survived"] == 1].shape #esto dice cuanta gente sobrevivio


(342, 12)

#### DF.COLUMNS()
- Obtengo los nombres de todas las columnas

In [None]:
#Ejemplo 1
list(df.columns) #convierto en una lista todas las columnas

#Ejemplo 2
df.columns # me muestra las columnas tal cual



## üîç Step 2: Selecting Data

Functions to explore:
- df["column"]
- df[["col1", "col2"]]
- df.loc[]
- df.iloc[]


#### DF['COLUMN'] & DF['COL1', 'COL2']
- La primera solo selcciona una columna de la tabla y la otra dos o mas columnas

In [None]:
# Ejemplos con DF 

df['Name'].head() # me muestra el nombre de los 5 primeros
df["Age"].head()  # me muestra la edad de los 5 primeros 

# Ejemplos con df[col1,col2]: 

df[["Sex", "Age", "Survived"]].head() #me muestra los 5 primeros con su sexo, edady si sobrevivieron
df[['Name', 'Sex']].tail() # los ultimos 5 con su nombre y sexo


#### DF.LOC[]
- Selecciona filas y col por su *nombre* 

In [None]:
#Ejemplo 1
df.loc[12,'Age'] #muestra la edad del pasajero 12

#Ejemplo 2
df.loc[0:5, ["Sex", "Age", "Survived"]] #muestra del (0 al 5) y las col q pone


#### DF.ILOC()
- Selecciona filas y col por su *posici√≥n* 

In [None]:
#Ejemplo 1
df.iloc[0,3] # devuelve el valor de la fila 0 y la columna 3

#Ejemplo 2
df.iloc[0:5, 0:3] #coge filas (0-4) y col (0-2)



## üîé Step 3: Filtering Rows

Functions to explore:
- df[df["Age"] > 30]
- df.query("Sex == 'female' and Survived == 1")


#### DF[DF["Age"] > 30] y DF.QUERY
- Filtrar filas en base a una condici√≥n (solo devuelve las filas donde la condici√≥n es true)

In [None]:
#Ejemplo 1 
df[df["Age"] > 20].head() #muestra 5 pasajeros mayores de 20

#Ejemplo 2
df[(df["Sex"] == "female") & (df["Age"] > 20)].shape[0] # mujeres > 20, pero con shape veo el resultado de mujeres q hay
df.query("Sex == 'female' and Age > 20").shape[0] # lo mismo de arriba, pero usando query



In [None]:

# Example: Filtering data
df[df["Age"] > 50].head()
df.query("Sex == 'female' and Survived == 1").head()



## üßπ Step 4: Handling Missing Data

Functions to explore:
- df.isna()
- df.isna().sum()
- df.dropna()
- df.fillna()


#### DF.ISNA()
- Detecta los valores faltates (NAN o none)

In [None]:
#Ejemplo con isna
df[df["Age"].isna()] # muestra las filas donde falta la edad

df[df["Cabin"].isna()] # muestra las filas donde falta cabih




#### DF.ISNA().SUM()
- Te dice donde hay valores que faltan True -> falta un dato, False -> esta completo

In [55]:
# Ejemplo con sum
df.isna().sum() # cuantos valores faltantes hay en cada columa
df["Age"].isna().sum() # cuantos valores hay sin contestar en el sexo


np.int64(177)

#### DF.DROPNA()
- Elimina las filas que tienen valores faltantes


In [None]:
#Ejemplos con dropna()
df.dropna(subset=["Age"]) # elimina las filas donde age est√° vac√≠o

df.dropna(subset=["Cabin"]) # elimina las filas donde cabin est√° vac√≠o


#### DF.FILLNA()
- Rellena los valores faltantes con el valor que yo quiera

In [57]:
# Ejemplos con fillna()
df["Age"] = df["Age"].fillna(df["Age"].median()) # rellena los datos con la mediana donde sea NAN se rellena

df["Cabin"] = df["Cabin"].fillna("Desconocido")


In [None]:

# Example: Check missing values
df.isna().sum()

# Fill missing ages with median
df["Age"] = df["Age"].fillna(df["Age"].median())
df["Age"].head()



## üìä Step 5: Grouping and Aggregating

Functions to explore:
- df.groupby("Sex")["Survived"].mean()
- df["Fare"].mean()
- df["Age"].median()


#### DF.GROUPBY("Sex")["Survived"].mean()
- Agrupa y calcula estad√≠sitcas (sumas, promedio...). Es decir, separa la tabla en diferentes categorios y calcula dentro de cada grupo

In [11]:
#Ejemplo 1
#Separa los hombres y mujeres, analiza si sobrevivieron y calcula el promedio
df.groupby("Sex")["Survived"].mean() 

#Ejemplo 2
df.groupby('Pclass')['Survived'].sum() #agrupo por clase y luego se cuantos sobrevivieron


Pclass
1    136
2     87
3    119
Name: Survived, dtype: int64

#### DF["Fare"].mean()
- Esto es para calcular la media

In [None]:
#Ejemplo 1
df["Fare"].mean() #precio medio de cada billete

#Ejemplo 2
df[df["Sex"] == "male"]['Age'].mean() #edad media de los hombres



np.float64(30.72664459161148)

#### DF["Age"].median()
- Esto es para calcular la mediana

In [None]:
#Ejemplo 1
df["Age"].median() # calcula la mediana de las edades (ordenada las edad de menor a mayor )
 
df['Fare'].median() #mediana de los precios del billete

np.float64(14.4542)

In [None]:

# Example: Aggregation
df.groupby("Sex")["Survived"].mean()
df.groupby("Pclass")["Fare"].mean()



## üìà Step 6: Sorting and Counting

Functions to explore:
- df.sort_values("Age")
- df["Sex"].unique()
- df["Pclass"].value_counts()


#### DF[].SORT()
- Lo que hace es ordenar todos los valores

In [None]:
#Ejemplo 1
df.sort_values('Age') #ordena las edades

#Ejemplo 2
df.sort_values('Name') #ordena los nombres


#### DF[].UNIQUE()
- Muestra una lista de los valores que hay en la columna

In [None]:
#Ejemplo 1
df["Sex"].unique() # me muestra una lista de los valores q hay(male, female)

#Ejemplo 2
df["Embarked"].unique() #los valores q hay en cabin



array(['S', 'C', 'Q', nan], dtype=object)

#### DF[].VALUE_COUNTS()
- Me dice cuantas veces se repite cada valor

In [21]:
#Ejemplo 1
df['Sex'].value_counts() #dice cuantas veces se repite male y female

#Ejemplo 2
df['Cabin'].value_counts()

Cabin
G6             4
C23 C25 C27    4
B96 B98        4
F2             3
D              3
              ..
E17            1
A24            1
C50            1
B42            1
C148           1
Name: count, Length: 147, dtype: int64

In [None]:

# Example: Sorting and counting
df.sort_values("Age").head()
df["Pclass"].value_counts()



## ‚öôÔ∏è Step 7: Creating or Modifying Columns

Functions to explore:
- df.assign()
- df.apply()
- df["new_col"] = ...
- pd.concat()
- pd.merge()


#### DF.ASSIGN() & DF['NEW_COL']
- A√±ade nuevas columnas

In [None]:
# Ejemplo 1
df = df.assign(Es_adulto = df['Age'] > 18) # creo la columna es_adulto (si tiene > 18 es adulto)

# Ejemplo 2
df["TipoClase"] = df["Pclass"].map({
    1: "Prioritario",
    2: "Semiprioritario",
    3: "No prioritario"
}) #creo tipoClase si es 1 pone q es prioritario 
df.head()

#### DF.APPLY()
- Aplica una funci√≥n a lo largo del eje. (recorre la columna fila por fila y ejecuta una funci√≥n sobre cada valor)

In [None]:
df["TipoEdad"] = df["Age"].apply(
    lambda x: "Ni√±o" if x < 18 else "Adulto"
)
df.head()

#### PD.CONCAT()
- Pega tablas (una debajo del otro, uno al lado del otro)

In [None]:
df1 = df.head(3)   # primeras 3 filas
df2 = df.tail(3)   # √∫ltimas 3 filas

df_combinado = pd.concat([df1, df2], axis=0)
df_combinado

#### PD.MERGE()
- junta dos tablas

In [None]:
df1 = df[["Name", "Sex", "Age"]]
df2 = df[["Name", "Sex", "Pclass", "Survived"]]  # junto las 2 tablas
df_merged = pd.merge(df1, df2, on=["Name", "Sex"])
df_merged

In [None]:

# Example: Create new column
df["Fare_per_Age"] = df["Fare"] / df["Age"]
df[["Age", "Fare", "Fare_per_Age"]].head()



## üíæ Step 8: Exporting Data

Function to explore:
- df.to_csv("output.csv", index=False)


#### DF.TO_CSV('OUTPUT.CSV', INDEX= FALSE)
- Guarda mi archivo en un CSV, para poder abirlo en excel... Lo de index= false es para no guardar la columna de indices

In [None]:
#Ejemplo 1
df.to_csv("titanic_sin_indices.csv", index=False) # creo la archivo y sin columnas de indices

#Ejemplo 2
df.to_csv("titanic_con_indices.csv", index=True) #a√±ade indices




## üß© Step 9: Summary

Reflect on what you learned:
- Which functions were most useful?
- What insights did you gain from the Titanic dataset?


- Las funciones que me pareces comodas son df.head(), df.tail(), info(), describe(), df.to_csv()...
- Obtuve varios conocimientos:
    -   Los de primera clase sobrevivieron m√°s que los de la tercera
    - Edad promedia.
    - Las mujeres sobrevivieron m√°s