# 1. Introducción
## Qué es pandas? 

En el mundo de la programación y la ciencia de datos, Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar. Es particularmente popular por su capacidad para manejar y manipular datos tabulares, similar a las hojas de cálculo de Excel, pero con la potencia de Python. 

Primero instala los paquetes necesarios ejecutando
```
pip install numpy pandas streamlit 
``` 

In [2]:
# Importando la libreria 
import pandas as pd

Pandas trabaja con **DataFrames** estos son un tipo de tabla que se compone por filas y columnas, estos se pueden importar o crear. Creemos un **DataFrame** para guardar los datos de los estudiantes de la materia estructura de datos

In [3]:
df = pd.DataFrame(
    {
        "Name":[
            "Jesús Alcalá",
            "Sebastián Armas",
        ], 
        "Age": [19,20],
        "Sex":["M","M"]
    }
)
print(df)

              Name  Age Sex
0     Jesús Alcalá   19   M
1  Sebastián Armas   20   M


Como se puede observar el **DataFrame** es una tabla ordenada en la cual cada fila tiene un índice el cual las diferencia de las otras. En pocas palabras es como un archivo de excel.

Cuando se crea un **DataFrame** en pandas se le pasa a la función como parametro un diccionario en python en el que cada una de las llaves del diccionario serán utilizadas como las cabeceras de cada columna (de ahora en adelante nos referiremos a ellas **como Series**) para identificarlas, mientras que los datos serán los elementos que tenga cada una de las llaves. Estas estructura de datos de dos dimensiones puede guardar información de diferentes tipos como por ejemplo enteros, flotantes, cadenas, caracteres, arreglos, entre otros. 

In [4]:
# Si solo necesitamos la serie de las edades escribimos
print(df['Age'])

0    19
1    20
Name: Age, dtype: int64


In [5]:
# Así como los dataframes también podemos crear Series solas
ages = pd.Series([22,64,10],name="Age")
print(ages)

0    22
1    64
2    10
Name: Age, dtype: int64


Cuando se crea una **Serie** en pandas es simplemente una columna de un dataframe que esta por separado.

## Hagamos algo de análisis

Si nosotros queremos saber cual es la edad maxima de los estudiantes del dataframe usamos ``max()`` 

In [6]:
# Con un  DataFrame
print(df['Age'].max())
# Con una Serie
print(ages.max())

20
64


Según lo ilustrado puedes observar que con pandas cada método aplicable a un dataframe es aplicable a una serie ¡por supuesto no te olvides de los parentesis! 

Otro método que es interesante es ``describe()`` esto se debe a que nos provee de los datos estadísticos más simples de nuestros datos

In [7]:
# Con un  DataFrame
print(df.describe())


             Age
count   2.000000
mean   19.500000
std     0.707107
min    19.000000
25%    19.250000
50%    19.500000
75%    19.750000
max    20.000000


## Como leo y escribo datos en tablas

Desde cualquier software de hojas de calculo podemos exportar las tablas en distintos formatos los cuales pandas puede comprender y analizar, en este caso exportaremos la tabla de los datos del titanic como un archivo .cvs (también sporta .json, parquet, sql, excel). 

Para leer el archivo usaremos ``read_cvs()``

In [8]:
titanic = pd.read_csv("titanic.csv")
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Con esto podemos observar todos los datos que contiene el archivo que son los siguientes: 

- PassengerId: Identificador de cada pasajero (llave primaria)

- Survived: Indica si el pasajero sobrevivio o no, 1 si sobrevivio y 0 si no lo hizo.

- Pclass: Clase a la que pertenecia el pasajero (1, 2 o 3).

- Name: Nombre del pasajero

- Sex: Género del pasajero.

- Age: Edad del pasajero en años.

- SibSp: Número de hermanos o esposas abordo.

- Parch: Número de padres o niños abordo.

- Ticket: Número del boleto.

- Fare: Tarifa del boleto.

- Cabin: Número de cabina del pasajero.

- Embarked: Puerto de embarcación.


In [9]:
# Muestra los primeros 8 datos de la tabla
titanic.head(8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
7,8,0,3,"Palsson, Master Gosta Leonard",male,2.0,3,1,349909,21.075,,S


In [10]:
# Muestra los ultimos 8 elementos de la tabla 
titanic.tail(8)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
883,884,0,2,"Banfield, Mr. Frederick James",male,28.0,0,0,C.A./SOTON 34068,10.5,,S
884,885,0,3,"Sutehall, Mr. Henry Jr",male,25.0,0,0,SOTON/OQ 392076,7.05,,S
885,886,0,3,"Rice, Mrs. William (Margaret Norton)",female,39.0,0,5,382652,29.125,,Q
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0,,S
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0,B42,S
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.45,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0,C148,C
890,891,0,3,"Dooley, Mr. Patrick",male,32.0,0,0,370376,7.75,,Q


In [11]:
# Muestra los tipos de datos de cada serie 
titanic.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Ahora supongamos que ya el analisís ya fue realizado y queremos exportar la tabla y pasarla a un excel, para eso podemos usar ``to_excel()`` y para leerlo lo podemos hacer con ``read_excel()``

In [1]:
titanic.to_excel("titanic.xlsx", sheet_name="passengers", index=False)

# 2. Operaciones Básicas de Pandas 
 **Objetivo:** Aprender a manipular y realizar operaciones comunes en un DataFrame utilizando la base de datos del Titanic como ejemplo.
#### 2.1 Selección de datos con ``loc`` y ``iloc``

``loc`` permite seleccionar filas y columnas utilizando etiquetas (nombres).
``iloc`` permite seleccionar filas y columnas utilizando índices numéricos.


In [4]:
import pandas as pd
titanic = pd.read_csv("titanic.csv")

# Selecciona la primera fila del dataframe y devuelve sus datos
titanic.iloc[0]

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [5]:
# Selecciona una fila también pero este solo devuelve el campo indicado
titanic.loc[0,'Name'] 

'Braund, Mr. Owen Harris'

Ahora por el contrario si se quiere seleccionar más de una fila con más campos se puede hacer lo siguiente, recomendamos que para esta parte repase arreglos en python.

In [6]:
# :4 indica que se van a seleccionar desde la fila 0 hasta las 4 
# y el arreglo del lado indica los campos
titanic.loc[:4,['Name', 'Age', 'Survived']]

Unnamed: 0,Name,Age,Survived
0,"Braund, Mr. Owen Harris",22.0,0
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",38.0,1
2,"Heikkinen, Miss Laina",26.0,1
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",35.0,1
4,"Allen, Mr. William Henry",35.0,0


### Ejercicio: 

- 1. Use ``loc`` para seleccionar todos los datos de la columna Sex
- 2. Use ``iloc`` para seleccionar los datos de las primeras 10 filas y de las primeras 3 columnas

In [11]:
# Parte 1


0        male
1      female
2      female
3      female
4        male
        ...  
886      male
887    female
888    female
889      male
890      male
Name: Sex, Length: 891, dtype: object

In [16]:
# Parte 2
titanic.iloc[:9,2]

0    3
1    1
2    3
3    1
4    3
5    3
6    1
7    3
8    3
Name: Pclass, dtype: int64

#### 2.2 Filtrado y Selección Condicional

Pandas te permite filtrar los datos bsándose en condiciones, por ejemplo para obtener los que sobrevieron 

In [17]:
survived = titanic[titanic['Survived'] == 1]
survived.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
8,9,1,3,"Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)",female,27.0,0,2,347742,11.1333,,S
9,10,1,2,"Nasser, Mrs. Nicholas (Adele Achem)",female,14.0,1,0,237736,30.0708,,C


In [18]:
# o tal vez solo quieres los pasajeros de primera clase
first_class = titanic[titanic['Pclass'] == 1]
first_class.head(5)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
11,12,1,1,"Bonnell, Miss Elizabeth",female,58.0,0,0,113783,26.55,C103,S
23,24,1,1,"Sloper, Mr. William Thompson",male,28.0,0,0,113788,35.5,A6,S


### Ejercicio: 

- 1. Filtra todos los pasajeros que tienen menos de 18 años (``Age < 18``) 
- 2. Filtra los pasajeros que pertenecen a la clase 3 (``Pclass == 3``) y son mujeres (``Sex = 'female'``).

In [19]:
# Parte 1


In [24]:
# Parte 2


#### 2.3 Operaciones de Agregar y Eliminar Columnas/Filas

Agregar una nueva columna al DataFrame es simple, solo necesitas asignar valores.
Por ejemplo, agregar una columna FamilySize basada en SibSp (número de hermanos/esposos a bordo) y Parch (número de padres/hijos a bordo):

In [26]:
# Para agregar una columna
titanic['FamilySize'] = titanic['SibSp'] + titanic['Parch']
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0


In [30]:
# Para eliminar una columna
df = titanic.drop(columns='FamilySize')
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


### Ejercicio: 

- 1. Crea una columna Alone que indique si el pasajero estaba solo o no (es decir, ``FamilySize igual a 0)`` 
- 2. Elimina la columna Ticket del DataFrame.

In [None]:
# Parte 1


In [31]:
# Parte 2


#### 2.4 Renombrar y cambiar indices

Pandas permite renombrar columnas y configurar índices personalizados.

In [33]:
# Cambiando el nombre de la columna Pclass a PasserngerClass
titanic2 = titanic.rename(columns={'Pclass':'PassengerClass'})
titanic2

Unnamed: 0,PassengerId,Survived,PassengerClass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,FamilySize
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S,1
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,1
2,3,1,3,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S,0
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S,1
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,0
888,889,0,3,"Johnston, Miss Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,3
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,0


In [38]:
# Para cambiar el índice de una columna PassengerID
titanic2 = titanic2.set_index('PassengerId')
titanic2.head(2)

### Ejercicio: 

- 1. Renombra la columna Survived a SurvivalStatus. 
- 2. Configura Name como índice del DataFrame.

In [39]:
# Parte 1


In [40]:
# Parte 2


# 3. Limpieza y Preparación de Datos
 **Objetivo:** Comprender la importancia de limpiar y preparar los datos para el análisis, abordando técnicas para manejar valores nulos, detectar duplicados, ajustar tipos de datos y transformar datos categóricos.


#### 3.1 Manejo de valores Nulos

Los valores nulos representan datos faltantes y pueden afectar el análisis si no se manejan adecuadamente. Pandas ofrece métodos para identificar y gestionar estos valores.


``isnull()`` devuelve un dataframe de todos los elementos nulos del dataframe pero para saber cuantos hay podemos usar ``sum()`` 


In [2]:
import pandas as pd
titanic = pd.read_csv("titanic.csv")

titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Como podemos notar tenemos 687 valores en la columna Cabin (cabina o número de cuarto) nulos por lo que para hacer un estudio deberiamos eliminar esos valores que son atipicos. Sin embargo con la conlumna del puerto de embarcación si se podria hacer un estudio más comple puesto que hay más datos y menos datos nulos.

ahora debemos limpiar nuestro dataframe eliminando esos datos incompletos para que no  afecten a nuestro estudio.

In [3]:
# Eliminar filas con valores nulos
titanic_dropped_rows = titanic.dropna()

# Eliminar columnas con valores nulos
titanic_dropped_columns = titanic.dropna(axis=1)

titanic_dropped_rows

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S
10,11,1,3,"Sandstrom, Miss Marguerite Rut",female,4.0,1,1,PP 9549,16.7000,G6,S
11,12,1,1,"Bonnell, Miss Elizabeth",female,58.0,0,0,113783,26.5500,C103,S
...,...,...,...,...,...,...,...,...,...,...,...,...
871,872,1,1,"Beckwith, Mrs. Richard Leonard (Sallie Monypeny)",female,47.0,1,1,11751,52.5542,D35,S
872,873,0,1,"Carlsson, Mr. Frans Olof",male,33.0,0,0,695,5.0000,B51 B53 B55,S
879,880,1,1,"Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)",female,56.0,0,1,11767,83.1583,C50,C
887,888,1,1,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S


Como podemos ver podemos directamente eliminar las filas que tengan un valor nulo lo que evita que nuestro dataframe este corrupto para hacer nuestro análisis. Aunque también podemos eliminar columnas completas si encontramos valores nulos (esto valores nulos también los puedes sustituir usando los filtros que vimos anteriormente)

#### 3.2 Relleno de valores nulos 
Se pueden rellenar valores nulos con valores específicos, como el promedio o la mediana de la columna.

In [4]:
# Rellenar valores nulos en la columna 'Age' con la mediana
titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())

Aunque esto es bastante util para cuando hay pocos datos incompletos, si ves el estudio después de sustituir los valores nulos con la mediana la mayoria de los datos estan entre 22 y 28 años lo que indica que nuestro estudio podría tener un sesgo algo grande por lo que sería mejor eliminarlo como hicimos anteriormente.

## Ejercicio:

- 1. Elimina todas las filas que tengan valores nulos en cualquier columna.
- 2. Rellena los valores nulos en la columna Embarked con el valor que más se repite en la columna.

In [12]:
# Parte 1


In [13]:
# Parte 2


#### 3.2 Detección y manejo de duplicados

Los valores duplicados pueden sesgar el análisis si no se manejan adecuadamente. Pandas ofrece métodos para identificar y gestionar estos valores para manejarlos de manera adecuada.


``duplicated()`` nos permite saber cuando hay filas o valores repetidos  


In [5]:
# Aunque en este caso no existen duplicados
titanic.duplicated().sum()

np.int64(0)

#### 3.3 Conversión de Tipos de Datos

Pandas permite cambiar el tipo de datos de una columna, lo cual puede mejorar el rendimiento y facilitar el análisis.

- 1. Convertir columnas a tipo categórico Las columnas como Sex y Embarked se pueden convertir en tipos categóricos para ahorrar espacio y facilitar el análisis.


In [None]:
# Convertir 'Sex' y 'Embarked' a categorías
titanic['Sex'] = titanic['Sex'].astype('category')
titanic['Embarked'] = titanic['Embarked'].astype('category')

0      S
1      C
2      S
3      S
4      S
      ..
886    S
887    S
888    S
889    C
890    Q
Name: Embarked, Length: 891, dtype: category
Categories (3, object): ['C', 'Q', 'S']

- 2. Conversión de números enteros o decimales En algunas situaciones, puede ser útil convertir columnas como Age o Fare a tipos enteros para simplificar el análisis.

In [None]:
# Convertir 'Fare' a un tipo entero
titanic['Fare'] = titanic['Fare'].astype(int)

0       7
1      71
2       7
3      53
4       8
       ..
886    13
887    30
888    23
889    30
890     7
Name: Fare, Length: 891, dtype: int64

## Ejercicio:

- 1. Convierte Pclass a tipo categórico.
- 2. Convierte Fare a tipo entero, asegurándote de que el proceso no afecte significativamente el análisis.

In [10]:
# Parte 1


In [None]:
# Parte 2


#### 3.4 Conversión de Tipos de Datos

Las columnas categóricas pueden ser difíciles de usar en algunos modelos de Machine Learning, por lo que es útil transformarlas en variables numéricas.

- 1. Codificación de variables categóricas (One-Hot Encoding) Convierte cada categoría en una columna separada con valores binarios (0 o 1), que indican si una fila pertenece a esa categoría.


In [None]:
# Aplicar One-Hot Encoding a la columna 'Embarked'
titanic = pd.get_dummies(titanic, columns=['Embarked'])


- 2. Codificación de variables ordinales Si los valores en una columna categórica tienen un orden lógico (por ejemplo, clases 1, 2, 3), puedes mapearlos directamente.




In [12]:
# Mapear valores de 'Pclass' para que sean ordinales
titanic['Pclass'] = titanic['Pclass'].map({1: "First", 2: "Second", 3: "Third"}).astype('category')
titanic

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,Third,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7,,S
1,2,1,First,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71,C85,C
2,3,1,Third,"Heikkinen, Miss Laina",female,26.0,0,0,STON/O2. 3101282,7,,S
3,4,1,First,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53,C123,S
4,5,0,Third,"Allen, Mr. William Henry",male,35.0,0,0,373450,8,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,Second,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13,,S
887,888,1,First,"Graham, Miss Margaret Edith",female,19.0,0,0,112053,30,B42,S
888,889,0,Third,"Johnston, Miss Catherine Helen ""Carrie""",female,28.0,1,2,W./C. 6607,23,,S
889,890,1,First,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30,C148,C


## Ejercicio:

- 1. Aplica pd.get_dummies para la columna Sex.
- 2. Convierte Pclass nuevamente a valores numéricos ordenados si ya fueron categorizados en palabras.