# Trabajo en Clase N° 1
## Tema: Manipulación de datos en Python con pandas

**Estudiante:** Jhandry Santiago Chimbo Rivera

In [2]:
# 1. Importar las librerías necesarias
import pandas as pd
import numpy as np

In [3]:
# 2. Cargar el dataset Titanic
data = pd.read_csv('titanic.csv')

In [4]:
# 3. Exploración inicial del conjunto de datos
data.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [5]:
# ¿Cuántas filas y columnas tiene el dataset?
print(f"Filas: {data.shape[0]}, Columnas: {data.shape[1]}")

Filas: 891, Columnas: 12


In [6]:
# ¿Qué tipo de datos contiene cada columna?
print(data.dtypes)

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object


In [7]:
# 4. Limpieza de datos
# Eliminar las columnas que no son relevantes
data_cleaned = data.drop(columns=['PassengerId', 'Name', 'Ticket', 'Cabin'])
data_cleaned.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,male,22.0,1,0,7.25,S
1,1,1,female,38.0,1,0,71.2833,C
2,1,3,female,26.0,0,0,7.925,S
3,1,1,female,35.0,1,0,53.1,S
4,0,3,male,35.0,0,0,8.05,S


In [8]:
# Reemplazar valores nulos de Age con la mediana
age_nulls_before = data_cleaned['Age'].isnull().sum()
print(f"Valores nulos en 'Age' antes de rellenar: {age_nulls_before}")

Valores nulos en 'Age' antes de rellenar: 177


In [9]:
median_age = data_cleaned['Age'].median()
data_cleaned['Age'] = data_cleaned['Age'].fillna(median_age)

In [10]:
# Llenar valores faltantes de Embarked con la moda
mode_embarked = data_cleaned['Embarked'].mode()[0]
print(f"Moda de 'Embarked': {mode_embarked}")
data_cleaned['Embarked'] = data_cleaned['Embarked'].fillna(mode_embarked)

Moda de 'Embarked': S


In [11]:
# 5. Transformaciones y filtrado
# Crear nueva columna FamilySize
data_cleaned['Family_Size'] = data_cleaned['SibSp'] + data_cleaned['Parch']


In [12]:
# Filtrar pasajeros menores de 18 años
minors = data_cleaned[data_cleaned['Age'] < 18]
print(f"Cantidad de menores de edad: {len(minors)}")

Cantidad de menores de edad: 113


In [13]:
# Convertir 'Sex' a valores numéricos (male=1, female=0)
data_cleaned['Sex'] = data_cleaned['Sex'].map({'male': 1, 'female': 0})

In [14]:
# Contar pasajeros que viajaban solos (FamilySize == 0)
solo_passengers = data_cleaned[data_cleaned['Family_Size'] == 0]
print(f"Cantidad de pasajeros que viajaban solos: {len(solo_passengers)}")

Cantidad de pasajeros que viajaban solos: 537


In [15]:
# 6. Agrupamientos y estadísticas
# Edad promedio por clase y sexo
mean_age = data_cleaned.groupby(['Pclass', 'Sex'])['Age'].mean()
print("\nEdad promedio por clase y sexo:")
print(mean_age)


Edad promedio por clase y sexo:
Pclass  Sex
1       0      33.978723
        1      38.995246
2       0      28.703947
        1      30.512315
3       0      23.572917
        1      26.911873
Name: Age, dtype: float64


In [16]:
# Tasa de supervivencia por puerto de embarque
survival_rate_embarked = data_cleaned.groupby('Embarked')['Survived'].mean()
print("\nTasa de supervivencia por puerto de embarque:")
print(survival_rate_embarked)


Tasa de supervivencia por puerto de embarque:
Embarked
C    0.553571
Q    0.389610
S    0.339009
Name: Survived, dtype: float64


In [17]:
# Tasa de supervivencia por grupos de edad
# Crear una nueva columna para categorizar edades
def age_group(Age):
    if Age < 18:
        return 'menor'
    elif 18 <= Age <= 50:
        return 'adulto'
    else:
        return 'mayor'

In [18]:
# Aplicar categoría
data_cleaned['Age_Group'] = data_cleaned['Age'].apply(age_group)

survival_rate_agegroup = data_cleaned.groupby('Age_Group')['Survived'].mean()
print("\nTasa de supervivencia por grupo de edad:")
print(survival_rate_agegroup)


Tasa de supervivencia por grupo de edad:
Age_Group
adulto    0.362745
mayor     0.343750
menor     0.539823
Name: Survived, dtype: float64


In [19]:
# Respuestas de las preguntas:
# ¿Qué clase y sexo tenía mayor edad promedio?
max_mean_age = mean_age.idxmax()
print(f"\nClase y sexo con mayor edad promedio: Clase {max_mean_age[0]}, Sexo {'Male' if max_mean_age[1]==1 else 'Female'}")


Clase y sexo con mayor edad promedio: Clase 1, Sexo Male


In [20]:
# ¿Desde qué puerto embarcaron más sobrevivientes?
max_survival_port = survival_rate_embarked.idxmax()
print(f"\nPuerto de embarque con más sobrevivientes: {max_survival_port}")


Puerto de embarque con más sobrevivientes: C
