## EDA Exploratory Data Analysis  

## Descripción del Dataset del Titanic

### Diccionario de Datos
| Variable   | Definición                    | Clave                                     |
|------------|-------------------------------|-------------------------------------------|
| survival   | Supervivencia                 | 0 = No, 1 = Sí                            |
| pclass     | Clase del ticket              | 1 = 1ª clase, 2 = 2ª clase, 3 = 3ª clase  |
| sex        | Sexo                          |                                           |
| Age        | Edad en años                  |                                           |
| sibsp      | Nº de hermanos/esposos a bordo|                                           |
| parch      | Nº de padres/hijos a bordo    |                                           |
| ticket     | Número de ticket              |                                           |
| fare       | Tarifa del pasajero           |                                           |
| cabin      | Número de cabina              |                                           |
| embarked   | Puerto de embarque            | C = Cherburgo, Q = Queenstown, S = Southampton |

### Notas sobre las Variables
- **pclass**: Una aproximación al estatus socioeconómico (SES)
  - 1ª clase = Alta
  - 2ª clase = Media
  - 3ª clase = Baja
- **age**: 
  - Fraccional si es menor de 1 año.
  - Las edades estimadas están en el formato `xx.5`.
- **sibsp**: Define relaciones familiares como:
  - Hermano = hermano, hermana, hermanastro, hermanastra.
  - Cónyuge = esposo, esposa (se ignoran amantes y prometidos).
- **parch**: Define relaciones familiares como:
  - Padre/madre = madre, padre.
  - Hijo = hija, hijo, hijastra, hijastro.
  - Nota: Algunos niños viajaron únicamente con una niñera, por lo que `parch=0` en esos casos.



In [1]:
# importaciones 

import pandas as pd
import sys
sys.path.append('../src') 
from utils import columnas_a_minusculas


In [2]:
# importaciones 

import pandas as pd

# Importo CSV Train y Test
# Train
path_train = 'C:\\Users\\dalarroy\\OneDrive - NTT DATA EMEAL\\Escritorio\\Titanic_project\\data\\raw\\train.csv'
df_train = pd.read_csv(path_train)

# Test
path_test = 'C:\\Users\\dalarroy\\OneDrive - NTT DATA EMEAL\\Escritorio\\Titanic_project\\data\\raw\\test.csv'
df_test =pd.read_csv(path_test)

print(f'El df train es: \n {df_train.head(5)} \n El df test es: \n  {df_test.head(5)}')

# Renombro el df_train para que sea más facil trabajarlo
df = df_train

El df train es: 
    PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500  

In [3]:
# Paso todas las columnas a minuscula
df = columnas_a_minusculas(df)

In [4]:
# print inicial
df.head(5)

Unnamed: 0,passengerid,survived,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
# Forma y estructura del df "(891, 12)"
df.shape

(891, 12)

### Nulos

In [13]:
# Contar nulos
df.isna().sum()

passengerid      0
survived         0
pclass           0
name             0
sex              0
age              0
sibsp            0
parch            0
ticket           0
fare             0
cabin          687
embarked         2
dtype: int64

In [15]:
# Ver que tan significativo es
df.isna().mean()

passengerid    0.000000
survived       0.000000
pclass         0.000000
name           0.000000
sex            0.000000
age            0.000000
sibsp          0.000000
parch          0.000000
ticket         0.000000
fare           0.000000
cabin          0.771044
embarked       0.000000
dtype: float64

Cabin tiene 77% de nulos, hay que decidir que hacer al respecto

Opcion 1 - Eliminar
Opcion 2 - Rellenarlo de alguna manera
Opcion 3 - Predecir cuanto seria

In [19]:
# Elimino la columna cabin 
df.drop('cabin', axis = 1, inplace = True)

In [14]:
# Rellenar valores faltantes en 'embarked' con el valor más frecuente "moda"
df['embarked'].fillna(df['embarked'].mode()[0], inplace=True) # Inplace guarda sobre "si mismo" los cambios

In [11]:
# Relleno valores nulos de 'age' 
df['age'].fillna(df['age'].median(), inplace=True) # Inplace guarda sobre "si mismo" los cambios

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['age'].fillna(df['age'].median(), inplace=True) # Inplace guarda sobre "si mismo" los cambios


### Resumen estadistico

In [20]:
# #resumen estadístico para columnas numericas
df.describe()

Unnamed: 0,passengerid,survived,pclass,age,sibsp,parch,fare
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.361582,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,13.019697,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


- survived:
En promedio se salvaron 38% de las personas

- age: 
El promedio de edad fue de 29,69 años
La persona mas grande tenía 80 años y la más joven 4 meses

- fare:
La tarifa en promedio era de 32,204 
La tarifa más costosa era de 512,329 y la más barata (gratis, seguramente gente que trabajaba en el barco)

In [None]:
#resumen estadístico para las columnas de tipo object (cadenas de texto o categóricas) 
df.describe(include="O")

Unnamed: 0,name,sex,ticket,cabin,embarked
count,891,891,891,204,889
unique,891,2,681,147,3
top,"Dooley, Mr. Patrick",male,347082,G6,S
freq,1,577,7,4,644


- Tickets: 
Hay 681 y son 891 personas. Hay 210 tickets repetidos.
El ticket más repetido fue el 347082 y se repitió 7 veces (Familia numerosa?)

- Embarked:
Hay 3 lugares de embarque
El embarque más repetido fue "S"

- Sexo:
Había más hombres que mujeres (577)


### Tamaño de las familias y sus probabilidades

In [None]:
# Cuantificar la cantidad de personas por familia (Sumar pasajero + sibsp + parch)
# Lo sumo a df train = df y a df_test

df['family_size'] = df['parch'] + df['sibsp'] + 1
df_test['family_size'] = df['parch'] + df['sibsp'] + 1


In [None]:
df.describe()

Unnamed: 0,passengerid,survived,pclass,age,sibsp,parch,fare,family_size
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208,1.904602
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429,1.613459
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0,1.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104,1.0
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542,1.0
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0,2.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292,11.0


- Family Size: 
En promedio todos fueron con 1 persona más aproximadamente. La familia que más personas tenía eran 11 

In [None]:
# Veo valores unicos de family size
df["family_size"].unique()

array([ 2,  1,  5,  3,  7,  6,  4,  8, 11])

Creo 3 grupos
- Solo 1
- Familia chica 2 - 3 
- Familia mediana 3 a 5 
- Familia grande > 6

In [None]:
import pandas as pd

# Crear una nueva columna 'family_size_group' con los rangos de tamaño de familia

# Modificar los rangos para incluir la categoría 'Solo' (1 persona)
bins = [0, 1, 2, 5, float('inf')]  # Los límites para los rangos
labels = ['solo', 'pequeña', 'mediana', 'grande']  # Las categorías

# Crear la nueva columna con las categorías correspondientes
df['family_size_group'] = pd.cut(df['family_size'], bins=bins, labels=labels, right=True)


In [None]:
# Calcular la tasa de supervivencia promedio para cada grupo de tamaño de familia
df.groupby('family_size_group')['survived'].mean()


family_size_group
solo       0.303538
pequeña    0.552795
mediana    0.568493
grande     0.148936
Name: survived, dtype: float64

- family size group:  Pareciera que las familias más numerosas tenian menos probabilidades de sobrevivir, las familias menos numerosas también y las medianas de 3 a 5 personas fueron las que mas probabilidad a sobrevivir tenian.

### GroupBy

In [None]:
# Calcular si las 5 familias más numerosas sobrevivieorn o no
df.groupby('family_size', as_index=False) ['survived'].mean()


Unnamed: 0,family_size,survived
0,1,0.303538
1,2,0.552795
2,3,0.578431
3,4,0.724138
4,5,0.2
5,6,0.136364
6,7,0.333333
7,8,0.0
8,11,0.0


* Si estabas solo en el barco: Estabas justo por debajo de la media (Probabilidad de sobrevivir)
* Familias de 2 a 4 personas: Mucha probabilidad de sobrevivir!
* A partir de 5 personas: Disminuye nuevamente la probabilidad a sobrevivir

In [None]:
# Calcular si quienes viajaban solos tuvieron mas chances de sobrevivir o no
df[df['family_size'] == 1]['survived'].mean()

np.float64(0.30353817504655495)

In [None]:
# Ver si la persona mas vieja se salvo y la mas joven

In [None]:
# Ver si el ticket mas repetido se salvo

In [None]:
# Agrupar survived por sexo

In [None]:
# Agrupar survived por clase

In [None]:
# Agrupar survived por t