
# üß© Titanic Dataset Exploration with pandas

üéØ **Goal:**  
In this notebook, you'll explore the Titanic dataset using **pandas**.  
You'll practice the most common pandas functions for data inspection, selection, filtering, cleaning, and analysis.

For each function in the list below:
1. Explain what it does (in your own words, in a Markdown cell).
2. Give at least **two examples** using the Titanic dataset.
3. Add a short comment about the output or why it‚Äôs useful.


In [43]:
import pandas as pd

# Load Titanic dataset
# (Make sure titanic.csv is in the same folder as this notebook)
df = pd.read_csv("titanic_dataset.csv")

# Show first few rows
df.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S



## üß† Step 1: Inspecting the Data

Functions to explore:
- df.head()
- df.tail()
- df.info()
- df.describe()
- df.shape
- df.columns


## df.head()

### 1. Descripci√≥n:  
Es una funci√≥n que por defecto devuelve las primeras 5 filas del dataframe.   
Si se pasa un int por par√°metro, devuelve las primeras n filas.   
Si se pasa un int negativo por par√°metro, devolver√° todas las filas excepto las n √∫ltimas.  

<br>

### 2. Ejemplos:

In [44]:
df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [45]:
df.head(-91)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
795,796,0,2,"Otter, Mr. Richard",male,39.0,0,0,28213,13.0000,,S
796,797,1,1,"Leader, Dr. Alice (Farnham)",female,49.0,0,0,17465,25.9292,D17,S
797,798,1,3,"Osman, Mrs. Mara",female,31.0,0,0,349244,8.6833,,S
798,799,0,3,"Ibrahim Shawah, Mr. Yousseff",male,30.0,0,0,2685,7.2292,,C


### 3. Utilidad

Permite de manera r√°pida ver la estructura de un DataFrame.  

Si se ordenan los datos, nos permite crear nuevos DataFrames filtrando por los n primeros registros.  

Por ejemplo, si los datos estuviesen ordenados por edad:

<br>

**50 pasajeros m√°s j√≥venes** 

```python
df_50_pasajeros_mas_jovenes = df. head(50)
``` 
<br>

**Todos los pasajeros salvo los 50 m√°s ancianos**

```python 
df_sin_50_mas_ancianos = df.head(-50)
```

---


## df.tail()

### 1. Descripci√≥n:  
Es una funci√≥n que por defecto devuelve las primeras 5 √∫ltimas filas del dataframe.   
Si se pasa un int por par√°metro, devuelve las √∫ltimas n filas.   
Si se pasa un int negativo por par√°metro, devolver√° todas las filas excepto las n primeras.  

<br>

### 2. Ejemplos:

In [46]:
df.tail(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [47]:
df.tail(-100)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
100,101,0,3,"Petranec, Miss. Matilda",female,28.0,0,0,349245,7.8958,,S
101,102,0,3,"Petroff, Mr. Pastcho (""Pentcho"")",male,,0,0,349215,7.8958,,S
102,103,0,1,"White, Mr. Richard Frasar",male,21.0,0,1,35281,77.2875,D26,S
103,104,0,3,"Johansson, Mr. Gustaf Joel",male,33.0,0,0,7540,8.6542,,S
104,105,0,3,"Gustafsson, Mr. Anders Vilhelm",male,37.0,2,0,3101276,7.9250,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### 3. Utilidad

Permite de manera r√°pida ver la estructura de un DataFrame.  

Si se ordenan los datos, nos permite crear nuevos DataFrames filtrando por los n √∫ltimos registros.  

Por ejemplo, si los datos estuviesen ordenados por edad:

<br>

**50 pasajeros m√°s ancianos** 

```python
df_50_pasajeros_mas_ancianos = df.tail(50)
``` 
<br>

**Todos los pasajeros salvo los 50 m√°s j√≥venes**

```python 
df_sin_50_mas_jovenes = df.tail(-50)
```

---

## df.info()

### 1. Descripci√≥n:  
Imprime un resumen conciso de un DataFrame. Incluyendo el √≠ndices, columnas, dtypes, cantidad de no nulos y uso de memoria.

<br>

### 2. Ejemplos:

In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


### 3. Utilidad

Permite ver de manera r√°pida la estructura de un DataFrame.

---

## df.describe()

### 1. Descripci√≥n:  
Genera estad√≠sticas descriptivas del DataFrame.

<br>

### 2. Ejemplos:

In [49]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [50]:
df.describe(include='object')

Unnamed: 0,Name,Sex,Ticket,Cabin,Embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Braund, Mr. Owen Harris",male,347082,G6,S
freq,1,577,7,4,644


### 3. Utilidad

La funci√≥n .describe() de pandas permite obtener un resumen estad√≠stico r√°pido de las columnas num√©ricas de un DataFrame.  
Identifica valores extremos, medias, medianas y percentiles.  
Tambi√©n puede aplicarse a columnas no num√©ricas con:
```python
df.describe(include='object')
```

Este incluir√°:   
count (cantidad de valores)  
unique (n√∫mero de valores √∫nicos),   
top (el valor m√°s frecuente)  
freq (la frecuencia del valor m√°s frecuente)  

---

## df.shape

### 1. Descripci√≥n:  
Devuelve una tupla que representa las dimesiones del DataFrame

<br>

### 2. Ejemplos:

In [51]:
df.shape

(891, 12)

### 3. Utilidad

Para el dataset de los pasajeros del Titanic indicar√≠a que se trata de una tabla de 13 columnas por 891 filas.

---

## df.columns()

### 1. Descripci√≥n:  
Devuelve todas las etiquetas de las columnas del DataFrame.

<br>

### 2. Ejemplos:

In [52]:
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

### 3.Utilidad

Podr√≠a ser util si obtenemos la lista de etiquetas para iterarla en alg√∫n bucle.

---


## üîç Step 2: Selecting Data

Functions to explore:
- df["column"]
- df[["col1", "col2"]]
- df.loc[]
- df.iloc[]


## df["column"]

### 1. Descripci√≥n:  
Devuelve los registros de la columna especificada en formato **Serie**.  


### 2. Ejemplos:


In [53]:
df["Age"].head()



0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

### 3.Utilidad

Para ver solo aquella o aquellas columnas en las que queramos trabajar.

---

## df["col1", "col2"]

### 1. Descripci√≥n:  
Devuelve los registros de las columnas especificadas en formato **DataFrame**.  


### 2. Ejemplos:


In [54]:
df[["Sex", "Age", "Survived"]].head()

Unnamed: 0,Sex,Age,Survived
0,male,22.0,0
1,female,38.0,1
2,female,26.0,1
3,female,35.0,1
4,male,35.0,0


### 3.Utilidad

Para crear un sub-DataFrame con varias columnas para an√°lisis o visualizaci√≥n.

---

## df.loc[]

### 1. Descripci√≥n:    

Accede a un grupo de filas y columnas a trav√©s de sus etiquetas.


### 2. Ejemplos:

In [55]:
df.loc[(df['Age'] < 18) & (df['Survived'] == 0), ['Name', 'Age']]

Unnamed: 0,Name,Age
7,"Palsson, Master. Gosta Leonard",2.0
14,"Vestrom, Miss. Hulda Amanda Adolfina",14.0
16,"Rice, Master. Eugene",2.0
24,"Palsson, Miss. Torborg Danira",8.0
50,"Panula, Master. Juha Niilo",7.0
59,"Goodwin, Master. William Frederick",11.0
63,"Skoog, Master. Harald",4.0
71,"Goodwin, Miss. Lillian Amy",16.0
86,"Ford, Mr. William Neal",16.0
111,"Zabour, Miss. Hileni",14.5


In [56]:
df.loc[df['Sex']=='female','Name']

1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
8      Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                    Nasser, Mrs. Nicholas (Adele Achem)
                             ...                        
880         Shelley, Mrs. William (Imanita Parrish Hall)
882                         Dahlberg, Miss. Gerda Ulrika
885                 Rice, Mrs. William (Margaret Norton)
887                         Graham, Miss. Margaret Edith
888             Johnston, Miss. Catherine Helen "Carrie"
Name: Name, Length: 314, dtype: object

### 3.Utilidad

En el primer ejemplo calculo un dataframe con los pasajeros fallecidos menores de edad, en las filas paso las condiciones y en las columnas imprimo nombre y edad, al imprimir varias columnas me devuelve un DataFrame.

En el segundo ejemplo imprimo los nombres de todas las mujeres del barco, al imprimir solo una columna me devuelve una Serie.

---

## df.iloc[]

### 1. Descripci√≥n:  
Permite localizar registros bas√°ndonos en los √≠ndices del DataFrame.


### 2. Ejemplos:


In [57]:
df.loc[0:150, :]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
146,147,1,3,"Andersson, Mr. August Edvard (""Wennerstrom"")",male,27.0,0,0,350043,7.7958,,S
147,148,0,3,"Ford, Miss. Robina Maggie ""Ruby""",female,9.0,2,2,W./C. 6608,34.3750,,S
148,149,0,2,"Navratil, Mr. Michel (""Louis M Hoffman"")",male,36.5,0,2,230080,26.0000,F2,S
149,150,0,2,"Byles, Rev. Thomas Roussel Davids",male,42.0,0,0,244310,13.0000,,S


In [58]:
df.iloc[:,0::2]

Unnamed: 0,PassengerId,Pclass,Sex,SibSp,Ticket,Cabin
0,1,3,male,1,A/5 21171,
1,2,1,female,1,PC 17599,C85
2,3,3,female,0,STON/O2. 3101282,
3,4,1,female,1,113803,C123
4,5,3,male,0,373450,
...,...,...,...,...,...,...
886,887,2,male,0,211536,
887,888,1,female,0,112053,B42
888,889,3,female,1,W./C. 6607,
889,890,1,male,0,111369,C148


### 3.Utilidad
En la primera llamada cojo los primeros 150 registros mostrando todas las columnas del DataFrame.

En la segunda llamada cojo todos los registros mostrando las columnas impares

---


## üîé Step 3: Filtering Rows

Functions to explore:
- df[df["Age"] > 30]
- df.query("Sex == 'female' and Survived == 1")


In [59]:
#La funci√≥n muestra el dataframe con todos los pasajeros que cumplan la condici√≥n de que tengan m√°s de 30 a√±os.
df[df["Age"] > 30]



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
873,874,0,3,"Vander Cruyssen, Mr. Victor",male,47.0,0,0,345765,9.0000,,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
881,882,0,3,"Markun, Mr. Johann",male,33.0,0,0,349257,7.8958,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.1250,,Q


In [60]:
#La funci√≥n muestra los 5 primeros registros de aquellas mujeres que hayan sobrevivido al accidente del Titanic.
#La funci√≥n query funciona pas√°ndole una expresi√≥n booleana y devuelve aquellos registros que cumplan la condici√≥n.
#Puede recibir varias condiciones booleanas y un par√°metro inplace:bool que sirve para modificar el dataframe en vez de crear uno nuevo.
df.query("Sex == 'female' and Survived == 1").head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C



## üßπ Step 4: Handling Missing Data

Functions to explore:
- df.isna()
- df.isna().sum()
- df.dropna()
- df.fillna()


In [61]:

# Example: Check missing values
df.isna().sum()

# Fill missing ages with median
df["Age"] = df["Age"].fillna(df["Age"].median())
df["Age"].head()


0    22.0
1    38.0
2    26.0
3    35.0
4    35.0
Name: Age, dtype: float64

## df.isna()

### 1. Descripci√≥n:    

Funci√≥n que detecta valores faltantes.
Devuelve un objeto con el mismo tama√±o indicando si los valores son NA (None o nunpy.Nan) y los mapea a True, mientras que todo lo dem√°s lo mapea a False.

### 2. Ejemplos:

In [62]:
df.isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
886,False,False,False,False,False,False,False,False,False,False,True,False
887,False,False,False,False,False,False,False,False,False,False,False,False
888,False,False,False,False,False,False,False,False,False,False,True,False
889,False,False,False,False,False,False,False,False,False,False,False,False


In [63]:
df.iloc[0:100, :].isna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,False,False,False,False,False,False,False,False,False,False,True,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False,False,False,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
95,False,False,False,False,False,False,False,False,False,False,True,False
96,False,False,False,False,False,False,False,False,False,False,False,False
97,False,False,False,False,False,False,False,False,False,False,False,False
98,False,False,False,False,False,False,False,False,False,False,True,False


### 3.Utilidad

Una manera muy simple de detectar valores nulos.  
Podemos combinarlo con otros m√©todos para afinar m√°s el DataFrame a evaluar.

---

## df.isna().sum

### 1. Descripci√≥n:    

Funci√≥n que devuelve la suma de los valores nulos de cada columna de la tabla.

### 2. Ejemplos:

In [64]:
df.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### 3.Utilidad

Nos permite hacer un Count de manera muy simple de los valores nulos por cada columna del DataFrame.

---

## df.dropna()

### 1. Descripci√≥n:    

Funci√≥n que remueve los valores faltantes. Puede recibir varios par√°metros.  
<br>
**axis**: 0 para remover filas que contengan valores faltantes, 1 para remover columnas con valores faltantes.  

**how**: any, si hay al menos un valor dropea, all, solo dropea si todos los valores son Na.  

**thresh**: int (opt), alternativa a how, se le pasa cuantos valores Na ha de tener para dropear.  

**subset**: se le pasa uno o varios labels que dropear√°n si se dropea algo de lo anterior.

**inplace**: bool, si modifica o crea uno nuevo (False default)
### 2. Ejemplos:

In [65]:
df.dropna()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss. Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss. Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


In [66]:
df.dropna(axis='columns')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500
...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000


### 3.Utilidad

Nos permite borrar aquello que est√© afectado por nulos, tanto por filas, columnas, subsets...  

En la segunda funci√≥n, al llamar al eje columnas desaparecen las columnas que conten√≠an valores nulos.

---

## df.fillna()

### 1. Descripci√≥n:    

Rellena aquellos valors NA/NaN y los reemplaza por el valor indicado. Puede recibir varios par√°metros para elegir la forma en que se rellenar√°n los datos.

**value:** ser√° el valor por el que se sustituir√°n todos los NA/NaN. 

**method**: ffill propaga el √∫ltimo valor v√°lido hacia el siguiente, bfill usa el siguiente valor v√°lido para cubrir el que falta.

**axis**: permite seleccionar el eje sobre el que cubrir los valores faltantes. Por defecto es 0 (filas)

**inplace**: modifica (True) o crea (False, por defecto) un nuevo dataframe.

**limit**: se utiliza junto con method, el m√°ximo n√∫mero de valores a rellenar. Si se sobrepasa el n√∫mero deja de rellenar valores.



### 2. Ejemplos:

In [67]:
df.fillna('No data available')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,No data available,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,No data available,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,No data available,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,No data available,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,No data available,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [68]:
df.fillna(method='bfill')

  df.fillna(method='bfill')


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,C85,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,C123,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,E46,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,B42,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,C148,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [69]:
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,C85,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,C123,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,C50,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23.4500,B42,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### 3.Utilidad

Permite rellenar valores nulos de manera c√≥moda y por diferentes m√©todos de propagaci√≥n.

---


## üìä Step 5: Grouping and Aggregating

Functions to explore:
- df.groupby("Sex")["Survived"].mean()
- df["Fare"].mean()
- df["Age"].median()


In [70]:
#La funci√≥n groupby precisa que se le pase una o m√°s columnas para realizar la agrupaci√≥n, es lo que va entre par√©ntesis, 
#Se pueden hacer operaciones sobre una columna con m√©todos que contiene la funci√≥n como media, suma, etc
#Esta funci√≥n calcula la media de supervivientes por sexo.
df.groupby("Sex")["Survived"].mean()

Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64

In [71]:
#Esta funci√≥n aplica el precio medio pagado seg√∫n la clase del billete.
df.groupby("Pclass")["Fare"].mean()

Pclass
1    84.154687
2    20.662183
3    13.675550
Name: Fare, dtype: float64

In [72]:
#La media de lo que se ha pagado por billete
df["Fare"].mean()

np.float64(32.204207968574636)

In [73]:
#Calcula la edad mediana, es decir, 28 (el resultado), si ordenamos todos las edades por cada pasajero, ser√≠a la que est√° en el medio de todas ellas.
df["Age"].median()

28.0


## üìà Step 6: Sorting and Counting

Functions to explore:
- df.sort_values("Age")
- df["Sex"].unique()
- df["Pclass"].value_counts()


In [74]:
#Ordena los valores de la columna que se le pase de menor a mayor
#Se le puede pasar ascending=False para ordenar de mayor a menor.
#Con na_position = first/last los NaNs ir√°n al principio o al final
df.sort_values("Age").head()



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S


In [75]:
#Pasa una lista con los valores que no se repiten de la columna especificada
df["Sex"].unique()

array(['male', 'female'], dtype=object)

In [76]:
#Devuelve una Serie con la frecuencia con la que se repite cada valor
#En este caso indica cuantos pasajeros hubo de casa clase

df["Pclass"].value_counts()

Pclass
3    491
1    216
2    184
Name: count, dtype: int64

In [77]:
#Se puede pasar por par√°metro normalize=True para que devuelva la proporci√≥n en vez de frecuencias.
#Tambi√©n que cuente los nulos si los hubiese con dropna="False" y ordenar los valores con ascending=True/False
df["Pclass"].value_counts(normalize=True, ascending=True)

Pclass
2    0.206510
1    0.242424
3    0.551066
Name: proportion, dtype: float64


## ‚öôÔ∏è Step 7: Creating or Modifying Columns

Functions to explore:
- df.assign()
- df.apply()
- df["new_col"] = ...
- pd.concat()
- pd.merge()


## df.assign()

### 1. Descripci√≥n:    

Asigna una nueva columna al dataframe


### 2. Ejemplos:

In [78]:
df.assign(family_size = df['SibSp'] + df['Parch'] +1).head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,family_size
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,2
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,2
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,1
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,2
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,1


### 3.Utilidad

Permite de una manera siencilla crear columnas calculadas. En el ejemplo calculamos con cu√°ntos familiares viaja cada pasajero, incluy√©ndose a si mismo.

---

## df.apply()

### 1. Descripci√≥n:    

Aplica una funci√≥n a lo largo de todo un eje del DataFrame.

Recibe una funci√≥n como par√°metro.

**axis**: 0 o "index" para aplicar la funcion a cada columna; 1 o "columns" la aplica a cada fila

**raw**: False (por defecto, pasa las columnas o filas como Series a la funci√≥n), True (la funci√≥n recibe ndaray objetos, √∫til para aplicar NumPy reduction)

### 2. Ejemplos:

In [79]:
df["Age"].apply(lambda x: x*2)

0      44.0
1      76.0
2      52.0
3      70.0
4      70.0
       ... 
886    54.0
887    38.0
888    56.0
889    52.0
890    64.0
Name: Age, Length: 891, dtype: float64

### 3.Utilidad

Pertmite aplicar funciones de manera simple por fila o columna. Funciona bien con Numpy


---

## df['new_col'] =...

### 1. Descripci√≥n:    

Crea una nueva columna o reemplaza una existente definiendo los nuevos valores


### 2. Ejemplos:

In [80]:

# Example: Create new column
df["Fare_per_Age"] = df["Fare"] / df["Age"]
df[["Age", "Fare", "Fare_per_Age"]].head()


Unnamed: 0,Age,Fare,Fare_per_Age
0,22.0,7.25,0.329545
1,38.0,71.2833,1.875876
2,26.0,7.925,0.304808
3,35.0,53.1,1.517143
4,35.0,8.05,0.23


### 3.Utilidad

Simple y directo.  

En el ejemplo se crea una nueva columna con los valores de Fare/Age de cada fila.


---

## pd.concat

### 1. Descripci√≥n:    

Concatena objetos de panda sobre un eje en particular, debe recibir comom par√°metros DataFrames o Series.

axis= 0 concatena por filas (defecto), 1 concatena por columnas

join = 'outer' (defecto) se toma la uni√≥n de √≠ndices/columnas, 'inner' toma la interseecci√≥n de √≠ndices/ columnas

ignore_index = True reinicia √≠ndices, False (defecto) conserva √≠ndices originales.




### 2. Ejemplos:

In [81]:
df1 = df[['Name', 'Age']].head(5)
df2 = df[['Survived', 'Pclass']].head(5)

df_concat = pd.concat([df1, df2], axis=0, ignore_index=True)
df_concat

Unnamed: 0,Name,Age,Survived,Pclass
0,"Braund, Mr. Owen Harris",22.0,,
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,,
2,"Heikkinen, Miss. Laina",26.0,,
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,,
4,"Allen, Mr. William Henry",35.0,,
5,,,0.0,3.0
6,,,1.0,1.0
7,,,1.0,3.0
8,,,1.0,1.0
9,,,0.0,3.0


In [82]:
df1 = df[['Name', 'Age']].head(5)
df2 = df[['Survived', 'Pclass']].head(3)

df_concat = pd.concat([df1, df2], axis=1)
df_concat

Unnamed: 0,Name,Age,Survived,Pclass
0,"Braund, Mr. Owen Harris",22.0,0.0,3.0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1.0,1.0
2,"Heikkinen, Miss. Laina",26.0,1.0,3.0
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,,
4,"Allen, Mr. William Henry",35.0,,


### 3.Utilidad

Apila DataFrames de forma vertical u horizontal. Si no coincide alguna columna completa con NaN.



---

## pd.merge

### 1. Descripci√≥n:    

Mergea Dataframes o Series al estilo sql


### 2. Ejemplos:

In [84]:
df_passengers = df[['PassengerId', 'Name', 'Pclass']].head(5)
df_survival = df[['PassengerId', 'Survived']].head(5)
print(df_passengers)
print(df_survival)


   PassengerId                                               Name  Pclass
0            1                            Braund, Mr. Owen Harris       3
1            2  Cumings, Mrs. John Bradley (Florence Briggs Th...       1
2            3                             Heikkinen, Miss. Laina       3
3            4       Futrelle, Mrs. Jacques Heath (Lily May Peel)       1
4            5                           Allen, Mr. William Henry       3
   PassengerId  Survived
0            1         0
1            2         1
2            3         1
3            4         1
4            5         0


In [85]:
df_merged = pd.merge(df_passengers, df_survival, on='PassengerId', how='inner')
df_merged

Unnamed: 0,PassengerId,Name,Pclass,Survived
0,1,"Braund, Mr. Owen Harris",3,0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1,1
2,3,"Heikkinen, Miss. Laina",3,1
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",1,1
4,5,"Allen, Mr. William Henry",3,0


In [86]:
df1 = df[['PassengerId', 'Name']].head(5)
df2 = df[['PassengerId', 'Survived']].head(3)  # solo 3 filas

print(df1)
print(df2)  

   PassengerId                                               Name
0            1                            Braund, Mr. Owen Harris
1            2  Cumings, Mrs. John Bradley (Florence Briggs Th...
2            3                             Heikkinen, Miss. Laina
3            4       Futrelle, Mrs. Jacques Heath (Lily May Peel)
4            5                           Allen, Mr. William Henry
   PassengerId  Survived
0            1         0
1            2         1
2            3         1


In [87]:
df_merged_outer = pd.merge(df1, df2, on='PassengerId', how='outer')
df_merged_outer

Unnamed: 0,PassengerId,Name,Survived
0,1,"Braund, Mr. Owen Harris",0.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",1.0
2,3,"Heikkinen, Miss. Laina",1.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",
4,5,"Allen, Mr. William Henry",


### 3.Utilidad

Te traes las funcionalidades de los joins de SQL de manera muy sencilla.  
Permite combinar informaci√≥n relacionada de diferentes fuentes de datos.


---


## üíæ Step 8: Exporting Data

Function to explore:
- df.to_csv("output.csv", index=False)


In [None]:

#Una vez realizadas las operaciones con el Dataframe y las funciones de Pandas, se guarda el Dataframe resultante en un archivo CSV.
#Index=False para no escribir los √≠nidces en el archivo
#Este ejemplo devuelve el DataFrame original m√°s la columna a√±adida en el apartado anterior con el ejemplo de df[newcol]=...

df.to_csv("titanic_cleaned.csv", index=False)



## üß© Step 9: Summary

Reflect on what you learned:
- Which functions were most useful?
- What insights did you gain from the Titanic dataset?
