# An√°lisis de datos "Tit√°nic"

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as mtl

In [2]:
df_gs = pd.read_csv('./titanic/gender_submission.csv')
dF_train = pd.read_csv('./titanic/train.csv')
df_test= pd.read_csv('./titanic/test.csv')

df_gs_copia = df_gs.copy()
df_train_copy = dF_train.copy()
df_test_copy =  df_test.copy()

## Tareas a realizar 

### üß© Checklist de tareas ‚Äî An√°lisis intermedio (Titanic)
1Ô∏è‚É£ Revisi√≥n inicial del dataset

Analizar dimensiones del dataset.

Identificar tipos de variables (num√©ricas, categ√≥ricas, ordinales).

Verificar consistencia de los tipos de datos.

Detectar valores faltantes por columna.

Verificar existencia de registros duplicados.

2Ô∏è‚É£ Calidad de datos y valores faltantes

Evaluar el impacto de los valores nulos en cada variable.

Definir un criterio de tratamiento para:

Edad

Puerto de embarque

Cabina

Justificar cada decisi√≥n de imputaci√≥n, eliminaci√≥n o transformaci√≥n.

3Ô∏è‚É£ Consistencia y estandarizaci√≥n

Revisar inconsistencias en variables categ√≥ricas.

Unificar formatos de texto.

Validar rangos l√≥gicos en variables num√©ricas (edad, tarifa, familiares).

Identificar valores imposibles o sospechosos.

4Ô∏è‚É£ An√°lisis de duplicados

Detectar duplicados exactos.

Evaluar duplicados parciales (mismo nombre, edad, clase).

Definir criterios para conservar o eliminar registros.

5Ô∏è‚É£ An√°lisis de outliers

Detectar valores at√≠picos en variables num√©ricas relevantes.

Evaluar si los outliers son errores o casos v√°lidos.

Decidir el tratamiento adecuado (mantener, limitar o excluir).

Justificar la decisi√≥n tomada.

6Ô∏è‚É£ Transformaci√≥n de variables

Convertir variables a tipos de datos adecuados.

Reorganizar columnas para facilitar el an√°lisis.

Renombrar variables para mayor claridad.

7Ô∏è‚É£ Feature engineering

Crear nuevas variables que aporten informaci√≥n relevante.

Agrupar edades en rangos significativos.

Construir variables derivadas del n√∫cleo familiar.

Generar indicadores binarios √∫tiles para an√°lisis posteriores.

8Ô∏è‚É£ An√°lisis exploratorio dirigido

Analizar la relaci√≥n entre supervivencia y variables clave.

Comparar m√©tricas entre grupos relevantes.

Detectar patrones y tendencias significativas.

Identificar variables con mayor poder explicativo.

9Ô∏è‚É£ Validaci√≥n del dataset final

Verificar ausencia de valores nulos cr√≠ticos.

Confirmar coherencia entre variables relacionadas.

Revisar que el dataset sea apto para visualizaci√≥n.

Documentar todas las transformaciones realizadas.

üîü Preparaci√≥n para Power BI

Definir qu√© m√©tricas y dimensiones ser√°n utilizadas.

Validar estructura adecuada para segmentadores.

Exportar dataset final en formato compatible.

Verificar integridad de los datos exportados.

## Resoluci√≥n del an√°lisis

#### 1Ô∏è‚É£ Revisi√≥n inicial del dataset

##### Analizar dimensiones del dataset.

In [3]:
df_train_copy.shape

(891, 12)

##### Identificar tipos de variables (num√©ricas, categ√≥ricas, ordinales).


In [4]:
df_train_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


##### Verificar consistencia de los tipos de datos.

###### La unica columna la cual podriamos modificar es "Age" , ya que figura de tipo FLOAT y deberia de ser INT

##### Detectar valores faltantes por columna.

In [5]:
df_train_copy.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

##### Verificar existencia de registros duplicados.

In [6]:
df_train_copy.apply(lambda col: col.duplicated().sum())

PassengerId      0
Survived       889
Pclass         888
Name             0
Sex            889
Age            802
SibSp          884
Parch          884
Ticket         210
Fare           643
Cabin          743
Embarked       887
dtype: int64

#### Conclusi√≥n:
La base de datos Train contiene 12 columnas y 891 filas.

Al iniciar el an√°lisis, se revisaron los tipos de variables de las distintas columnas y se detect√≥ una inconsistencia en la variable ‚Äúage‚Äù, la cual ser√° considerada para su correcci√≥n.

Al verificar las columnas con datos faltantes, se observ√≥ que solo tres presentan valores ausentes; para el desarrollo del an√°lisis se trabajar√° √∫nicamente con la variable ‚Äúage‚Äù.

Por √∫ltimo, se analizaron los datos duplicados y se identific√≥ que algunas columnas contienen valores num√©ricos que en realidad corresponden a variables categ√≥ricas. Si bien esto no afecta directamente el an√°lisis, se tendr√° en cuenta para evitar posibles inconsistencias.

#### 2Ô∏è‚É£ Calidad de datos y valores faltantes

##### 
Visualizamos variables nulas en tres columnas; la m√°s importante con la cual deber√≠amos comenzar a trabajar es la variable ‚ÄúAge‚Äù. Para trabajar sobre la misma, considero que se deber√≠a calcular la media del total de las filas de la variable reci√©n nombrada, con el fin de rellenar esos espacios faltantes y poder trabajar correctamente con ella. Respecto a la variable "Embarked" solo tiene dos variables faltantes, podriamos trabajar en ella e intentar completar estas mismas, respecto a la variable cabin , su numero de datos faltantes es muy alto, y la importancia de la misma es poca, decidiria eliminar dicha columna para que no rompa en si nuestro analisis

In [7]:
df_train_copy.groupby('Sex')['Age'].size()

Sex
female    314
male      577
Name: Age, dtype: int64

In [8]:
df_train_copy[df_train_copy['Sex']=='female']['Age'].median()

27.0

In [9]:
df_train_copy[df_train_copy['Sex']=='male']['Age'].median()

29.0

In [10]:
df_train_copy.loc[df_train_copy['Sex'] == 'female','Age'] = df_train_copy.loc[df_train_copy['Sex'] == 'female','Age'].fillna(df_train_copy.loc[df_train_copy['Sex']=='female']['Age'].median())

In [11]:
df_train_copy.loc[df_train_copy['Sex'] == 'male','Age'] = df_train_copy.loc[df_train_copy['Sex'] == 'male','Age'].fillna(df_train_copy[df_train_copy['Sex'] == 'male']['Age'].median())

In [12]:
df_train_copy['Age'] = df_train_copy['Age'].astype(int)

In [13]:
df_train_copy.groupby('Embarked')['Fare'].agg(['min','max'])

Unnamed: 0_level_0,min,max
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,4.0125,512.3292
Q,6.75,90.0
S,0.0,263.0


In [14]:
df_train_copy['FamilySize'] = df_train_copy['SibSp'] + df_train_copy['Parch'] + 1
df_train_copy['FareForPerson'] = df_train_copy['Fare'] / df_train_copy['FamilySize']

In [15]:
df_train_copy.groupby('Embarked')['FareForPerson'].agg(['max','min'])

Unnamed: 0_level_0,max,min
Embarked,Unnamed: 1_level_1,Unnamed: 2_level_1
C,512.3292,2.409733
Q,45.0,2.583333
S,221.7792,0.0


In [16]:
df_train_copy.groupby('Embarked')['PassengerId'].size()

Embarked
C    168
Q     77
S    644
Name: PassengerId, dtype: int64

In [17]:
df_train_copy['Embarked'] = df_train_copy['Embarked'].fillna('S')

In [18]:
df_train_copy = df_train_copy.drop(columns = ['Cabin'])

In [19]:
df_train_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   PassengerId    891 non-null    int64  
 1   Survived       891 non-null    int64  
 2   Pclass         891 non-null    int64  
 3   Name           891 non-null    object 
 4   Sex            891 non-null    object 
 5   Age            891 non-null    int64  
 6   SibSp          891 non-null    int64  
 7   Parch          891 non-null    int64  
 8   Ticket         891 non-null    object 
 9   Fare           891 non-null    float64
 10  Embarked       891 non-null    object 
 11  FamilySize     891 non-null    int64  
 12  FareForPerson  891 non-null    float64
dtypes: float64(2), int64(7), object(4)
memory usage: 90.6+ KB


#### Conclusi√≥n:
En relaci√≥n con la variable Age, se decidi√≥ imputar los valores faltantes utilizando la mediana calculada de forma separada seg√∫n el g√©nero, diferenciando entre pasajeros femeninos y masculinos. Esta decisi√≥n se tom√≥ con el objetivo de preservar posibles diferencias en la distribuci√≥n de edades entre ambos grupos y reducir el impacto de valores at√≠picos. Posteriormente, se transform√≥ el tipo de dato de la variable a entero (INT), dado que la edad es una variable num√©rica discreta.

Respecto a la variable Embarked, se observ√≥ que presenta √∫nicamente dos valores faltantes sobre un total de 891 registros. Dado su car√°cter categ√≥rico, se analiz√≥ la moda de la variable y se identific√≥ que el valor ‚ÄúS‚Äù es el m√°s frecuente, representando aproximadamente el 67,18 % de los registros. En funci√≥n de esto, se decidi√≥ imputar los valores nulos con dicho valor.

En cuanto a la variable Cabin, se determin√≥ su eliminaci√≥n del an√°lisis, ya que presenta un alto porcentaje de valores faltantes (cercano al 70 %), lo que limita su utilidad anal√≠tica y podr√≠a introducir sesgos en etapas posteriores del an√°lisis

#### 3Ô∏è‚É£ Consistencia y estandarizaci√≥n

In [20]:
df_train_copy.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare,FamilySize,FareForPerson
count,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.425365,0.523008,0.381594,32.204208,1.904602,19.916375
std,257.353842,0.486592,0.836071,13.02736,1.102743,0.806057,49.693429,1.613459,35.841257
min,1.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0
25%,223.5,0.0,2.0,22.0,0.0,0.0,7.9104,1.0,7.25
50%,446.0,0.0,3.0,29.0,0.0,0.0,14.4542,1.0,8.3
75%,668.5,1.0,3.0,35.0,1.0,0.0,31.0,2.0,23.666667
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292,11.0,512.3292


In [21]:
df_train_copy.nunique()

PassengerId      891
Survived           2
Pclass             3
Name             891
Sex                2
Age               71
SibSp              7
Parch              7
Ticket           681
Fare             248
Embarked           3
FamilySize         9
FareForPerson    289
dtype: int64

#### Conclusi√≥n:
Durante esta etapa se verific√≥ la consistencia de los datos y la estandarizaci√≥n de las variables categ√≥ricas. No se identificaron valores il√≥gicos ni diferencias en los formatos de escritura, por lo que no fue necesario realizar correcciones.

#### 4Ô∏è‚É£ An√°lisis de duplicados

In [22]:
df_train_copy.apply(lambda col: col.duplicated().sum())

PassengerId        0
Survived         889
Pclass           888
Name               0
Sex              889
Age              820
SibSp            884
Parch            884
Ticket           210
Fare             643
Embarked         888
FamilySize       882
FareForPerson    602
dtype: int64

In [23]:
df_train_copy[df_train_copy.duplicated()]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,FamilySize,FareForPerson


#### Conclusion : 
El an√°lisis de valores duplicados mostr√≥ repeticiones esperables en variables categ√≥ricas y discretas. Estas repeticiones no representan errores en los datos, sino un comportamiento normal del dataset, por lo que no fue necesario aplicar correcciones.

#### 5Ô∏è‚É£ An√°lisis de outliers

In [24]:
df_train_copy[df_train_copy['Fare'] == 0]

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked,FamilySize,FareForPerson
179,180,0,3,"Leonard, Mr. Lionel",male,36,0,0,LINE,0.0,S,1,0.0
263,264,0,1,"Harrison, Mr. William",male,40,0,0,112059,0.0,S,1,0.0
271,272,1,3,"Tornquist, Mr. William Henry",male,25,0,0,LINE,0.0,S,1,0.0
277,278,0,2,"Parkes, Mr. Francis ""Frank""",male,29,0,0,239853,0.0,S,1,0.0
302,303,0,3,"Johnson, Mr. William Cahoone Jr",male,19,0,0,LINE,0.0,S,1,0.0
413,414,0,2,"Cunningham, Mr. Alfred Fleming",male,29,0,0,239853,0.0,S,1,0.0
466,467,0,2,"Campbell, Mr. William",male,29,0,0,239853,0.0,S,1,0.0
481,482,0,2,"Frost, Mr. Anthony Wood ""Archie""",male,29,0,0,239854,0.0,S,1,0.0
597,598,0,3,"Johnson, Mr. Alfred",male,49,0,0,LINE,0.0,S,1,0.0
633,634,0,1,"Parr, Mr. William Henry Marsh",male,29,0,0,112052,0.0,S,1,0.0


#### Conclusi√≥n :
No se visualizaron valores at√≠picos relevantes en el conjunto de datos, por lo que no fue necesario aplicar correcciones adicionales

#### 6Ô∏è‚É£ Transformaci√≥n de variables

In [25]:
df_train_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 13 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   PassengerId    891 non-null    int64  
 1   Survived       891 non-null    int64  
 2   Pclass         891 non-null    int64  
 3   Name           891 non-null    object 
 4   Sex            891 non-null    object 
 5   Age            891 non-null    int64  
 6   SibSp          891 non-null    int64  
 7   Parch          891 non-null    int64  
 8   Ticket         891 non-null    object 
 9   Fare           891 non-null    float64
 10  Embarked       891 non-null    object 
 11  FamilySize     891 non-null    int64  
 12  FareForPerson  891 non-null    float64
dtypes: float64(2), int64(7), object(4)
memory usage: 90.6+ KB


#### Conclusi√≥n :
En la etapa de transformaci√≥n de variables, se realiz√≥ la conversi√≥n del tipo de dato de la variable ‚ÄúAge‚Äù, pasando de float a int, con el objetivo de mantener coherencia con su naturaleza num√©rica. No se identific√≥ la necesidad de aplicar transformaciones adicionales en el resto de las variables

#### 7Ô∏è‚É£ Feature engineering

#### Conclusi√≥n :
Durante la etapa de feature engineering se crearon variables derivadas relacionadas con el n√∫cleo familiar y el costo por persona, con el objetivo de enriquecer el an√°lisis. Estas nuevas variables permiten una mejor interpretaci√≥n del comportamiento de los pasajeros.

#### 8Ô∏è‚É£ An√°lisis exploratorio dirigido

In [26]:
df_train_copy.groupby('Sex')['Survived'].mean()*100

Sex
female    74.203822
male      18.890815
Name: Survived, dtype: float64

##### Podemos visualizar que el 74,20% de las mujeres , y el 18,89% de los hombres sobrevivi√≥

In [27]:
df_train_copy.groupby(['Sex','Pclass'])['Survived'].mean().unstack()

Pclass,1,2,3
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,0.968085,0.921053,0.5
male,0.368852,0.157407,0.135447


bins = [0,15,30,45,100]
labels = ['0-15','15-30','30-45','45+']

(df_train_copy.groupby([pd.cut(df_train_copy['Age'],bins = bins , labels = labels, right = False),'Sex'])['Survived'].mean()*100).round(1)

#### Concluci√≥n :
El an√°lisis muestra que la supervivencia estuvo fuertemente influenciada por el g√©nero. Si bien en el grupo de ni√±os las tasas son similares entre hombres y mujeres, en los rangos de edad mayores las mujeres presentan consistentemente mayores probabilidades de supervivencia, evidenciando una clara prioridad hacia este grupo.

#### Sistema de guardado e importacion

In [28]:
import os
os.chdir(r"C:\Users\ASUS\Desktop")

In [29]:
os.listdir()

['anaconda-navigator.exe - Acceso directo.lnk',
 'Block notas Necesarias',
 'DBeaver.lnk',
 'desktop.ini',
 'Docker Desktop.lnk',
 'EspinozaRodrigo-TP.docx',
 'GitHub Desktop.lnk',
 'Google Chrome.lnk',
 'Isa',
 'Microsoft Edge.lnk',
 'MSSQL16.SQLEXPRESS01',
 'MySQL Workbench 8.0 CE.lnk',
 'Python 3.13 (64-bit).lnk',
 'python nuevo',
 'respaldo.reg',
 'Roblox Player.lnk',
 'Rodrigo_Espinoza_CV.pdf',
 'Software Fix.lnk',
 'titulos ontenidos',
 'UTN',
 'Visual Studio Code.lnk']

In [30]:
print(os.listdir("C://Users"))

['.kaggle', 'All Users', 'ASUS', 'Default', 'Default User', 'desktop.ini', 'Public']


In [33]:
df_train_copy.to_csv('titanic_limpiezaCompleta.csv', index=False)

In [34]:
import os
os.listdir()

['anaconda-navigator.exe - Acceso directo.lnk',
 'Block notas Necesarias',
 'DBeaver.lnk',
 'desktop.ini',
 'Docker Desktop.lnk',
 'EspinozaRodrigo-TP.docx',
 'GitHub Desktop.lnk',
 'Google Chrome.lnk',
 'Isa',
 'Microsoft Edge.lnk',
 'MSSQL16.SQLEXPRESS01',
 'MySQL Workbench 8.0 CE.lnk',
 'Python 3.13 (64-bit).lnk',
 'python nuevo',
 'respaldo.reg',
 'Roblox Player.lnk',
 'Rodrigo_Espinoza_CV.pdf',
 'Software Fix.lnk',
 'titanic_limpiezaCompleta.csv',
 'titulos ontenidos',
 'UTN',
 'Visual Studio Code.lnk']

In [35]:
import os
os.getcwd()

'C:\\Users\\ASUS\\Desktop'