# Análisis de datos sobre el Titanic

La funte de datos es un csv sobre el Titanic y viene desde (https://raw.githubusercontent.com/datasciencedojo/datasets/refs/heads/master/titanic.csv)

## Librerías

In [44]:
import numpy as np
import pandas as pd

### Carga de datos

In [45]:
titanic = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/refs/heads/master/titanic.csv")
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [46]:
df = titanic.copy()

## Diccionario de variabales (features o columnas)

|Feature|Descripción |tipo de dato |clasificación de dato |tratamiento |
|---|--- |---- |--- |--- |
|``PassengerId``|  identificador único del pasajero. |int |indice |Nada |
|``Survived``| si el pasajero sobrevivió al naufragio, codificada como 0 (no) y 1 (si). |int |binary/bool | |
|``Pclass``| clase a la que pertenecía el pasajero: 1, 2 o 3. |int |cualitativo ordinal | |
|``Name``| nombre del pasajero |string |cualitativo nominal | |
|``Sex``| sexo del pasajero. |string |binario | |
|``Age``| edad del pasajero. |float |cuantitativo discreto |Transformar a int |
|``SibSp``|número de hermanos, hermanas, hermanastros o hermanastras en el barco. |int |cuantitativo discreto | |
|``Parch``|número de padres e hijos en el barco.|int |cuantitativo discreto | |
|``Ticket``|  identificador del billete. |string |--- | |
|``Fare``| precio pagado por el billete. |float |cuantitativo continuo | |
|``Cabin``| identificador del camarote asignado al pasajero. |string |--- |eliminarla |
|``Embarked``| puerto en el que embarcó el pasajero. |string |cualitativo nominal |imputarlo a la moda |

## Analisis técnico

In [47]:
df.shape

(891, 12)

In [48]:
# Tipo de datos por columna
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


In [49]:
# Cantidad de nulos por columna
#df.isnull().sum()
(df.isnull().sum()/len(df))*100 # Porcentaje de nulos en cada columna, es mejor hacerlo así

PassengerId     0.000000
Survived        0.000000
Pclass          0.000000
Name            0.000000
Sex             0.000000
Age            19.865320
SibSp           0.000000
Parch           0.000000
Ticket          0.000000
Fare            0.000000
Cabin          77.104377
Embarked        0.224467
dtype: float64

In [50]:
# Valores unicos de una columna del dataframe
for col in df:
    print(f"La cantidad de unicos en la variable {col} son: {round((len (df[col].unique())/len(df))*100,2)}")

La cantidad de unicos en la variable PassengerId son: 100.0
La cantidad de unicos en la variable Survived son: 0.22
La cantidad de unicos en la variable Pclass son: 0.34
La cantidad de unicos en la variable Name son: 100.0
La cantidad de unicos en la variable Sex son: 0.22
La cantidad de unicos en la variable Age son: 9.99
La cantidad de unicos en la variable SibSp son: 0.79
La cantidad de unicos en la variable Parch son: 0.79
La cantidad de unicos en la variable Ticket son: 76.43
La cantidad de unicos en la variable Fare son: 27.83
La cantidad de unicos en la variable Cabin son: 16.61
La cantidad de unicos en la variable Embarked son: 0.45


In [51]:
# Frecuencias de categoría
df['Survived'].value_counts() # Frecuencia absoluta

Survived
0    549
1    342
Name: count, dtype: int64

In [52]:
df['Survived'].value_counts(normalize=True) # Frecuencia relativa

Survived
0    0.616162
1    0.383838
Name: proportion, dtype: float64

In [53]:
# Frecuencias de categoría
for col in ['Survived','Pclass', 'Sex','Embarked']:
    print(df[col].value_counts(normalize=True))
    print('-----------------------------')

Survived
0    0.616162
1    0.383838
Name: proportion, dtype: float64
-----------------------------
Pclass
3    0.551066
1    0.242424
2    0.206510
Name: proportion, dtype: float64
-----------------------------
Sex
male      0.647587
female    0.352413
Name: proportion, dtype: float64
-----------------------------
Embarked
S    0.724409
C    0.188976
Q    0.086614
Name: proportion, dtype: float64
-----------------------------


In [54]:
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [55]:
df['Age'].describe() # No puede dar como minimo 0,42 años no tiene sentido

count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

In [56]:
df[df['Age']<1] # Muestrame los niños menores de un año

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
78,79,1,2,"Caldwell, Master. Alden Gates",male,0.83,0,2,248738,29.0,,S
305,306,1,1,"Allison, Master. Hudson Trevor",male,0.92,1,2,113781,151.55,C22 C26,S
469,470,1,3,"Baclini, Miss. Helene Barbara",female,0.75,2,1,2666,19.2583,,C
644,645,1,3,"Baclini, Miss. Eugenie",female,0.75,2,1,2666,19.2583,,C
755,756,1,2,"Hamalainen, Master. Viljo",male,0.67,1,1,250649,14.5,,S
803,804,1,3,"Thomas, Master. Assad Alexander",male,0.42,0,1,2625,8.5167,,C
831,832,1,2,"Richards, Master. George Sibley",male,0.83,1,1,29106,18.75,,S


In [57]:
df[df['Age']<1]['Age'] # Muestrame los numeros menores de un año

78     0.83
305    0.92
469    0.75
644    0.75
755    0.67
803    0.42
831    0.83
Name: Age, dtype: float64

In [58]:
# Reemplazamos todas las edades menores que un año con el 1 (hay tres formas)
df['Age'] = df['Age'].apply(lambda row: 1 if row<1 else row) # Esta es más de programación 
#df['Age'] = np.where(df['Age']<1,1, df['Age']) # esta es más rapida
#df.loc[df['Age']<1, 'Age'] = 1 #

In [59]:
df['Age'].describe()

count    714.000000
mean      29.701681
std       14.521395
min        1.000000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

In [None]:
# También se puede reemplazar con el replace pero cunao es un unico valor no una columa entera
#df[df['Age'] == 1]['Age'].replace(1,0) # Devuelve una serie

78     0.0
164    0.0
172    0.0
183    0.0
305    0.0
381    0.0
386    0.0
469    0.0
644    0.0
755    0.0
788    0.0
803    0.0
827    0.0
831    0.0
Name: Age, dtype: float64

###### Manera de hacerlo en el trabajo:

In [60]:
df['Age'] = df['Age'].apply(lambda row: int(str(row).split('.')[0]) if '.'in str(row) else row)

In [61]:
df['Age'].unique()

array([22., 38., 26., 35., nan, 54.,  2., 27., 14.,  4., 58., 20., 39.,
       55., 31., 34., 15., 28.,  8., 19., 40., 66., 42., 21., 18.,  3.,
        7., 49., 29., 65.,  5., 11., 45., 17., 32., 16., 25.,  1., 30.,
       33., 23., 24., 46., 59., 71., 37., 47., 70., 12.,  9., 36., 51.,
       44., 61., 56., 50., 62., 41., 52., 63., 43., 60., 10., 64., 13.,
       48., 53., 57., 80.,  6., 74.])

###### Manera de hacerlo en en bodcamp

In [39]:
df['Age'] = df['Age'].fillna(0)

In [40]:
df['Age'] = df['Age'].astype(int)

In [41]:
df['Age'].replace(0, np.nan)

0      1.0
1      1.0
2      1.0
3      1.0
4      1.0
      ... 
886    1.0
887    1.0
888    NaN
889    1.0
890    1.0
Name: Age, Length: 891, dtype: float64

In [None]:
# Otra manera de quitar los decimales (se quedan flotantes ,0 pero esta es la más fácil)
df['Age'] = df['Age'].apply(lambda x: (x*10)//10)
df['Age']

0      1
1      1
2      1
3      1
4      1
      ..
886    1
887    1
888    0
889    1
890    1
Name: Age, Length: 891, dtype: int64

In [None]:
# Evaluación de ganularidad (¿Por fila?(fina) o ¿por conjunto de datos?(gruesa))  explicar cual vas a utilizar y por qué
