# Transformación de datos

## 1.Bibliotecas
### Data wrangling
La biblioteca por excelencia para el data wrangling es Pandas y se complementa perfectamente con NumPy que es una biblioteca especializada en el cálculo vectorial y sobre la cual está construida pandas.

In [2]:
import pandas as pd

## 2. Los datos

Los datos se han dividido en dos grupos:
- Conjunto de entrenamiento (train.csv)
- Conjunto de prueba (test.csv)

El conjunto de entrenamiento debe usarse para construir tus modelos de aprendizaje automático. Para el conjunto de entrenamiento, proporcionamos el resultado (también conocido como “la verdad conocida”) para cada pasajero. Tu modelo se basará en “características” como el género y la clase de los pasajeros. También puedes utilizar la ingeniería de características para crear nuevas características.

El conjunto de prueba debe usarse para ver qué tan bien se desempeña tu modelo con datos no vistos. Para el conjunto de prueba, no proporcionamos la verdad conocida para cada pasajero. Es tu tarea predecir estos resultados. Para cada pasajero en el conjunto de prueba, usa el modelo que entrenaste para predecir si sobrevivió o no al hundimiento del Titanic.

También incluimos gender_submission.csv, un conjunto de predicciones que asume que todos y solo los pasajeros femeninos sobreviven, como ejemplo de cómo debería ser un archivo de envío.

**Diccionario de Datos**

Variable | Definición | Clave
---------|------------|-------
survival | Supervivencia | 0 = No, 1 = Sí
pclass | Clase del billete | 1 = 1ª, 2 = 2ª, 3 = 3ª
sex | Sexo | 
Age | Edad en años | 
sibsp | Número de hermanos / cónyuges a bordo del Titanic |  
parch | Número de padres / hijos a bordo del Titanic | 
ticket | Número del billete | 
fare | Tarifa del pasajero | 
cabin | Número de la cabina | 
embarked | Puerto de Embarque | C = Cherburgo, Q = Queenstown, S = Southampton

**Notas sobre las Variables**

- **pclass**: Un indicador del estatus socioeconómico (SES)
    - **1ª** = Superior
    - **2ª** = Medio
    - **3ª** = Inferior
- **age**: La edad es fraccionaria si es menor de 1. Si la edad se estima, está en la forma de xx.5
- **sibsp**: El conjunto de datos define las relaciones familiares de esta manera:
    - **Hermano** = hermano, hermana, medio hermano, media hermana
    - **Cónyuge** = esposo, esposa (se ignoraron las amantes y prometidos)
- **parch**: El conjunto de datos define las relaciones familiares de esta manera:
    - **Padre** = madre, padre
    - **Niño** = hija, hijo, hijastra, hijastro
    - Algunos niños viajaron solo con una niñera, por lo tanto **parch=0** para ellos.

----

# El proceso

## Lectura y carga del dataset

Para ello se hace uso de la función ***read_csv*** de **pandas** y se lee el archivo previamente descargado y almacenado en la carpeta **data**

In [3]:
df_original = pd.read_csv('data/train.csv')

In [11]:
df = df_original.copy()


## Inspección inicial de los datos
Es importante examinar el conjunto de datos antes de hacer cualquier transformación. Esto incluye verificar los tipos de datos, la presencia de valores nulos y las estadísticas descriptivas.

In [12]:
df.describe()


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


## Transformaciones

### Eliminación de columnas innecesarias para el proceso

Se eliminan primero las columnas que no aportan al proceso, las cuales son:
- **PassengerId**: Columna que solo contiene un id incremental que no nos aporta información para el proceso de análisis

In [13]:
# Existen varias formas de eliminar una columna
# 1 - Con la palabra reservada `del`
# del df['PassengerId']
# 2 - Con la propiedad drop y se toma el axis=1 porque corresponde a las columnas
df = df.drop('PassengerId', axis=1)

### Normalización de los datos

En este punto vamos a dejar todos los datos de una misma forma, todos los nombres en minúscula para evitar tener valores como *Braund, BRAUND, braund*, etc.

In [14]:
# Todos los valores los dejamos en minúscula
# df['Name'] = df['Name'].str.lower()

# Hacemos lo mismo con los valores de sex
# df['Sex'] = df['Sex'].str.lower()

# Otra forma para simplicar el código es usar un for, de la siguiente forma
COLUMNS_TO_NORMALIZE = (
    'Name',
    'Sex',
)
for column in COLUMNS_TO_NORMALIZE:
    df[column] = df[column].str.lower()

df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,3,"braund, mr. owen harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,1,1,"cumings, mrs. john bradley (florence briggs th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,1,3,"heikkinen, miss. laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,1,1,"futrelle, mrs. jacques heath (lily may peel)",female,35.0,1,0,113803,53.1000,C123,S
4,0,3,"allen, mr. william henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,"montvila, rev. juozas",male,27.0,0,0,211536,13.0000,,S
887,1,1,"graham, miss. margaret edith",female,19.0,0,0,112053,30.0000,B42,S
888,0,3,"johnston, miss. catherine helen ""carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,1,1,"behr, mr. karl howell",male,26.0,0,0,111369,30.0000,C148,C


### Sustitución de valores

En este punto vamos a sustituir unos valores por otros, como puede ser **male** y **female** por **M** y **F** respectivamente.

In [15]:
# Haciendo uso de las buenas prácticas vamos a crear un diccionario para ello
# dónde K es el nombre de la columna y V es un dict con los valores a sustituir
# en el que su K es el valor actual y V el nuevo valor

COLUMN_VALUES_TO_REPLACE = {
    'Sex': {
        'male': 'M',
        'female': 'F',
    }
}

df = df.replace(COLUMN_VALUES_TO_REPLACE)
df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,3,"braund, mr. owen harris",M,22.0,1,0,A/5 21171,7.2500,,S
1,1,1,"cumings, mrs. john bradley (florence briggs th...",F,38.0,1,0,PC 17599,71.2833,C85,C
2,1,3,"heikkinen, miss. laina",F,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,1,1,"futrelle, mrs. jacques heath (lily may peel)",F,35.0,1,0,113803,53.1000,C123,S
4,0,3,"allen, mr. william henry",M,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,"montvila, rev. juozas",M,27.0,0,0,211536,13.0000,,S
887,1,1,"graham, miss. margaret edith",F,19.0,0,0,112053,30.0000,B42,S
888,0,3,"johnston, miss. catherine helen ""carrie""",F,,1,2,W./C. 6607,23.4500,,S
889,1,1,"behr, mr. karl howell",M,26.0,0,0,111369,30.0000,C148,C


### Dividir una columna

Ahora, basado en los datos que tenemos, vamos a dividir la columna **Name** por la `,`

In [16]:
# Este split es igual que el split de un str en python, por lo que tenemos
# que tomar los valores por sus respectivos índices
df['Name'].str.split(',')

0                             [braund,  mr. owen harris]
1      [cumings,  mrs. john bradley (florence briggs ...
2                              [heikkinen,  miss. laina]
3        [futrelle,  mrs. jacques heath (lily may peel)]
4                            [allen,  mr. william henry]
                             ...                        
886                             [montvila,  rev. juozas]
887                      [graham,  miss. margaret edith]
888          [johnston,  miss. catherine helen "carrie"]
889                             [behr,  mr. karl howell]
890                               [dooley,  mr. patrick]
Name: Name, Length: 891, dtype: object

In [17]:
df['Name'].str.split(',').str.get(0) # identificamos que su apellido es el primer valor

0         braund
1        cumings
2      heikkinen
3       futrelle
4          allen
         ...    
886     montvila
887       graham
888     johnston
889         behr
890       dooley
Name: Name, Length: 891, dtype: object

In [18]:
df['last_name'] = df['Name'].str.split(',').str.get(0) # Asignamos sel apellido en una columna nueva llamada `last_name`
df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,last_name
0,0,3,"braund, mr. owen harris",M,22.0,1,0,A/5 21171,7.2500,,S,braund
1,1,1,"cumings, mrs. john bradley (florence briggs th...",F,38.0,1,0,PC 17599,71.2833,C85,C,cumings
2,1,3,"heikkinen, miss. laina",F,26.0,0,0,STON/O2. 3101282,7.9250,,S,heikkinen
3,1,1,"futrelle, mrs. jacques heath (lily may peel)",F,35.0,1,0,113803,53.1000,C123,S,futrelle
4,0,3,"allen, mr. william henry",M,35.0,0,0,373450,8.0500,,S,allen
...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,"montvila, rev. juozas",M,27.0,0,0,211536,13.0000,,S,montvila
887,1,1,"graham, miss. margaret edith",F,19.0,0,0,112053,30.0000,B42,S,graham
888,0,3,"johnston, miss. catherine helen ""carrie""",F,,1,2,W./C. 6607,23.4500,,S,johnston
889,1,1,"behr, mr. karl howell",M,26.0,0,0,111369,30.0000,C148,C,behr


In [19]:
# ahora necesitamos dejar en una columna nueva su nombre
df['first_name'] = df['Name'].str.split(',').str[1:] # de esta forma estamos es generando un arreglo
df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,last_name,first_name
0,0,3,"braund, mr. owen harris",M,22.0,1,0,A/5 21171,7.2500,,S,braund,[ mr. owen harris]
1,1,1,"cumings, mrs. john bradley (florence briggs th...",F,38.0,1,0,PC 17599,71.2833,C85,C,cumings,[ mrs. john bradley (florence briggs thayer)]
2,1,3,"heikkinen, miss. laina",F,26.0,0,0,STON/O2. 3101282,7.9250,,S,heikkinen,[ miss. laina]
3,1,1,"futrelle, mrs. jacques heath (lily may peel)",F,35.0,1,0,113803,53.1000,C123,S,futrelle,[ mrs. jacques heath (lily may peel)]
4,0,3,"allen, mr. william henry",M,35.0,0,0,373450,8.0500,,S,allen,[ mr. william henry]
...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,"montvila, rev. juozas",M,27.0,0,0,211536,13.0000,,S,montvila,[ rev. juozas]
887,1,1,"graham, miss. margaret edith",F,19.0,0,0,112053,30.0000,B42,S,graham,[ miss. margaret edith]
888,0,3,"johnston, miss. catherine helen ""carrie""",F,,1,2,W./C. 6607,23.4500,,S,johnston,"[ miss. catherine helen ""carrie""]"
889,1,1,"behr, mr. karl howell",M,26.0,0,0,111369,30.0000,C148,C,behr,[ mr. karl howell]


In [20]:
# Para solucionarlo vamos a concatener los valores
df['first_name'] = df['Name'].str.split(',').str[1:].str.join(' ')

In [21]:
# ahora vemos el status o titulo se encuentra en al inicio del first name, vamos
# a dejarlo en otra columna aparte y lo vamos a quitar del first name
split_column_by_dot = df['first_name'].str.split('.') # este paso es para simplificar

df['status'] = split_column_by_dot.str.get(0)
df['first_name'] = split_column_by_dot.str[1:].str.join(' ')
df

Unnamed: 0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,last_name,first_name,status
0,0,3,"braund, mr. owen harris",M,22.0,1,0,A/5 21171,7.2500,,S,braund,owen harris,mr
1,1,1,"cumings, mrs. john bradley (florence briggs th...",F,38.0,1,0,PC 17599,71.2833,C85,C,cumings,john bradley (florence briggs thayer),mrs
2,1,3,"heikkinen, miss. laina",F,26.0,0,0,STON/O2. 3101282,7.9250,,S,heikkinen,laina,miss
3,1,1,"futrelle, mrs. jacques heath (lily may peel)",F,35.0,1,0,113803,53.1000,C123,S,futrelle,jacques heath (lily may peel),mrs
4,0,3,"allen, mr. william henry",M,35.0,0,0,373450,8.0500,,S,allen,william henry,mr
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,"montvila, rev. juozas",M,27.0,0,0,211536,13.0000,,S,montvila,juozas,rev
887,1,1,"graham, miss. margaret edith",F,19.0,0,0,112053,30.0000,B42,S,graham,margaret edith,miss
888,0,3,"johnston, miss. catherine helen ""carrie""",F,,1,2,W./C. 6607,23.4500,,S,johnston,"catherine helen ""carrie""",miss
889,1,1,"behr, mr. karl howell",M,26.0,0,0,111369,30.0000,C148,C,behr,karl howell,mr


### Renombrando columnas

Ahora lo que vamos a hacer es renombrar unas columnas, simplemente para que se pueda entender mejor, como por ejemplo `Name`, la vamos a dejar como `Full Name`

- **Name**: Full Name
- **fist_name**: First Name
- **last_name**: Last Name
- **status**: Status

In [22]:
COLUMNS_TO_RENAME = {
    'Name': 'Full Name',
    'last_name': 'Last Name',
    'first_name': 'First Name',
    'status': 'Status',
}

df = df.rename(columns=COLUMNS_TO_RENAME)


# Análisis post-transformaciones

Revisamos los ***status*** de las personas

Primero se revisan todos los `Status` que se tienen

In [23]:
df['Status'].unique()

array([' mr', ' mrs', ' miss', ' master', ' don', ' rev', ' dr', ' mme',
       ' ms', ' major', ' lady', ' sir', ' mlle', ' col', ' capt',
       ' the countess', ' jonkheer'], dtype=object)

Ahora se hace un conteo por cada uno para entender mejor los datos

In [24]:
df['Status'].value_counts()

Status
mr              517
miss            182
mrs             125
master           40
dr                7
rev               6
col               2
mlle              2
major             2
ms                1
mme               1
don               1
lady              1
sir               1
capt              1
the countess      1
jonkheer          1
Name: count, dtype: int64

Podemos hacer lo mismo para otras columnas como `First Name`

In [25]:
df['First Name'].value_counts()

First Name
john                         9
james                        7
william                      6
mary                         6
william henry                4
                            ..
william (margaret norton)    1
juozas                       1
margaret edith               1
catherine helen "carrie"     1
fatima                       1
Name: count, Length: 799, dtype: int64

## Análisis por agrupaciones

Este código se utiliza para filtrar los datos de un DataFrame en base a ciertas condiciones, y luego seleccionar solo las columnas de interés. Se puede dividir en dos partes principales:

- **Filtrado de filas**: `df[ df['Last Name'] == 'andersson' ]`
- **Selección de columnas**: `[ ['Status', 'Sex', 'Pclass'] ]`

Veamos cada parte con más detalle:


#### 1. Filtrado de filas: `df[ df['Last Name'] == 'andersson' ]`
Esta es la primera parte del código, que se encarga de filtrar las filas de acuerdo a una condición específica.

***Desglose***:

- `df['Last Name']`: Esto accede a la columna `Last Name` dentro del DataFrame df.

- `df['Last Name'] == 'andersson'`: Aquí estamos creando una condición booleana que verifica si cada valor de la columna `Last Name` es igual a `andersson`. El resultado de esta comparación es una **serie** de valores True y False. Por ejemplo, si en una fila el apellido es `andersson`, el valor será True, y si no lo es, será False.

- `df[ df['Last Name'] == 'andersson' ]`: Esta es una indexación booleana. Usamos la condición booleana que se generó en el paso anterior para seleccionar solo las filas donde el valor de la columna `Last Name` es igual a `andersson`. El resultado es un nuevo DataFrame que solo contiene las filas que cumplen con esta condición.

#### 2. Selección de columnas: `[['Status', 'Sex', 'Pclass']]`
Una vez que hemos filtrado las filas que cumplen con la condición, ahora seleccionamos las columnas que nos interesan.

***Desglose***:
- `[['Status', 'Sex', 'Pclass']]`: Este es un subconjunto de columnas. En pandas, podemos seleccionar varias columnas especificando los nombres de las columnas dentro de una lista. En este caso, estamos seleccionando tres columnas: `Status`, `Sex` y `Pclass`.

Esto significa que después de filtrar las filas con el apellido `andersson`, vamos a mostrar solo las columnas `Status`, `Sex` y `Pclass` de esas filas.

In [26]:
df[ df['Last Name'] == 'andersson' ][ ['Status', 'Sex', 'Pclass'] ]

Unnamed: 0,Status,Sex,Pclass
13,mr,M,3
68,miss,F,3
119,miss,F,3
146,mr,M,3
541,miss,F,3
542,miss,F,3
610,mrs,F,3
813,miss,F,3
850,master,M,3


Este paso usa la misma lógica que el anterior, pero con la diferencia que ahora ordena los valores en el orden que se le indique, para este caso esta ordenando primero por el `Sex` y luego por el `Fisrt Name`

In [27]:
df[df['Last Name'] == 'andersson'][['First Name','Status', 'Sex', 'Pclass']].sort_values(['Sex', 'First Name'])

Unnamed: 0,First Name,Status,Sex,Pclass
610,anders johan (alfrida konstantia brogren),mrs,F,3
813,ebba iris alfrida,miss,F,3
119,ellis anna maria,miss,F,3
68,erna alexandra,miss,F,3
541,ingeborg constanzia,miss,F,3
542,sigrid elisabeth,miss,F,3
13,anders johan,mr,M,3
146,"august edvard (""wennerstrom"")",mr,M,3
850,sigvard harald elias,master,M,3


# Guardar la información

Ahora, suponiendo que se ha finalizado con las transformaciones, se procede a guardar el dataframe resultante en un csv.

In [28]:
df.to_csv('titanic_transformado.csv') # esto nos guarda el DataFrame en un archivo csv

In [29]:
# Ahora si lo queremos guardar con las columnas en un orden especifico
COLUMNS_ORDER = [
    'Survived',
    'Pclass',
    'Full Name',
    'First Name',
    'Last Name',
    'Status',
    'Sex',
    'Age',
    'SibSp',
    'Parch',
    'Ticket',
    'Fare',
    'Cabin',
    'Embarked',
]

df = df.loc[:, COLUMNS_ORDER]
df.to_csv('titanic_transformado_ordenado.csv') 