# Taller Data Cleaning - Big Data y Análisis de Datos

Este taller pretende que aplique los conceptos enseñados de Data Cleaning

Puede hacerlo en grupos de máximo 3 personas, asegúrese de dejar en la entrega los nombres de todos los integrantes del grupo.

## Contexto

Va a trabajar con la base de datos entregada `TitanicDataset.csv`, esta contiene información sobre los pasajeros que abordaron el Titatic, tiene las siguientes variables:
 
- `PassengerId`: ID del pasajero
- `Survived`: Sobrevivio, 0 = No, 1 = Si
- `Pclass`: Clase del tiquete, 1 = Primera, 2 = Segunda, 3 = Tercera
- `Name`: Nombre
- `Sex`: Sexo
- `Age`: Edad en años
- `SibSp`: Número de hermanos / esposo(a) abordo del Titanic
- `Parch`: Número de padres / hijos abordo del Titanic
- `Ticket`: Número del ticket
- `Fare`: Tarifa pagada
- `Cabin`: Número de cabina
- `Embarked`: Puerto de embarque, C = Cherbourg, Q = Queenstown, S = Southampton

# Paso 1: Importar las librerías y cargar los datos

    Importa las siguientes librerías: pandas, numpy.
    Carga el archivo `TitanicDataset.csv` en un DataFrame.

Pregunta:

    ¿Cuántas filas y columnas tiene el conjunto de datos?

In [None]:
# INTEGRANTES: LUIS HUMBERTO CRUZ GUZMAN Y PAOLA ANDREA SANTANA MARTINEZ

# Importar librerías necesarias
import pandas as pd
import numpy as np

# Cargar el dataset con el delimitador adecuado
df = pd.read_csv(r"C:\Users\WINDOWS 10\Desktop\PAOLA\FULL\20251\BIGDATA\BIGDATA\TitanicDataset.csv", sep=';')

# Verificar que se cargó correctamente
print(f"El dataset tiene {df.shape[0]} filas y {df.shape[1]} columnas")
print(df.columns.tolist())
print(df.head())


El dataset tiene 891 filas y 12 columnas
['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund| Mr. Owen Harris    male  22.0      1   
1  Cumings| Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen| Miss. Laina  female  26.0      0   
3       Futrelle| Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen| Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171     7.25   NaN        S  
1      0          PC 17599  712.833   C85        C  
2  

Paso 2: Inspección inicial de los datos

    Observa las primeras filas del DataFrame usando head().
    Usa info() y describe() para obtener un resumen del conjunto de datos.

Preguntas:

    ¿Cuáles columnas tienen valores nulos?
    ¿Cuáles columnas son numéricas y cuáles son categóricas?

In [33]:
# Ver las primeras filas
print("Primeras filas del dataset:")
print(df.head())

# Información general del dataset
print("\nInformación del dataset:")
print(df.info())

# Estadísticas descriptivas
print("\nEstadísticas descriptivas:")
print(df.describe())

# Verificar valores nulos por columna
print("\nValores nulos por columna:")
print(df.isnull().sum())

# Identificar columnas numéricas y categóricas
numericas = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
categoricas = df.select_dtypes(include=['object']).columns.tolist()

print("\nColumnas numéricas:", numericas)
print("Columnas categóricas:", categoricas)



Primeras filas del dataset:
  PassengerId|Survived|Pclass|Name|Sex|Age|SibSp|Parch|Ticket|Fare|Cabin|Embarked
0  1|0|3|"Braund| Mr. Owen Harris"|male|22|1|0|A/...                             
1  2|1|1|"Cumings| Mrs. John Bradley (Florence Br...                             
2  3|1|3|"Heikkinen| Miss. Laina"|female|26|0|0|S...                             
3  4|1|1|"Futrelle| Mrs. Jacques Heath (Lily May ...                             
4  5|0|3|"Allen| Mr. William Henry"|male|35|0|0|3...                             

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 1 columns):
 #   Column                                                                           Non-Null Count  Dtype 
---  ------                                                                           --------------  ----- 
 0   PassengerId|Survived|Pclass|Name|Sex|Age|SibSp|Parch|Ticket|Fare|Cabin|Embarked  891 non-null    object
dtypes: object(1)
memor

Paso 3: Identificación y manejo de valores nulos

    Observa el número de valores nulos por columna usando isnull().sum().
    Decide cómo manejar los valores nulos en las columnas más importantes (Age, Cabin, Embarked):
        Columna Age: Imputa la media o la mediana de la edad.
        Columna Cabin: Decide si deseas eliminarla o mantenerla (justifica tu decisión).
        Columna Embarked: Imputa el valor más común.

Ejercicio:

    Elimina cualquier fila o columna con más del 50% de valores nulos si consideras que es necesario.

In [None]:
# Contar valores nulos por columna
print("Valores nulos por columna:")
print(df.isnull().sum())

# Calcular porcentaje de valores nulos por columna
print("\nPorcentaje de valores nulos por columna:")
print(df.isnull().mean() * 100)

# Para Age, imputar con la mediana
print(f"\nMediana de Age antes de imputación: {df['Age'].median()}")
df['Age'] = df['Age'].fillna(df['Age'].median())

# Para Embarked, imputar con el valor más común
valor_comun_embarked = df['Embarked'].mode()[0]
print(f"\nValor más común en Embarked: {valor_comun_embarked}")
df['Embarked'] = df['Embarked'].fillna(valor_comun_embarked)


# Verificar el porcentaje de nulos en Cabin
cabin_nulos_porcentaje = df['Cabin'].isnull().mean() * 100
print(f"\nPorcentaje de nulos en Cabin: {cabin_nulos_porcentaje:.2f}%")

# Estrategia para Cabin: crear una variable binaria (1 si tiene cabina, 0 si no)
df['HasCabin'] = df['Cabin'].notna().astype(int)
print("Se creó la columna HasCabin con valores binarios")

# Si queremos eliminar la columna original Cabin:
df = df.drop('Cabin', axis=1)
print("Se eliminó la columna original Cabin")

# Verificar valores nulos restantes
print("\nValores nulos después de imputación:")
print(df.isnull().sum())

Valores nulos por columna:
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Porcentaje de valores nulos por columna:
PassengerId     0.000000
Survived        0.000000
Pclass          0.000000
Name            0.000000
Sex             0.000000
Age            19.865320
SibSp           0.000000
Parch           0.000000
Ticket          0.000000
Fare            0.000000
Cabin          77.104377
Embarked        0.224467
dtype: float64

Mediana de Age antes de imputación: 28.0

Valor más común en Embarked: S

Porcentaje de nulos en Cabin: 77.10%
Se creó la columna HasCabin con valores binarios
Se eliminó la columna original Cabin

Valores nulos después de imputación:
PassengerId    0
Survived       0
Pclass         0
Name           0
Sex            0
Age            0
SibSp          0
Parch          0
Tic

Paso 4: Detección y eliminación de duplicados

    Verifica si existen filas duplicadas.
    Si las encuentras, elimínalas usando el método adecuado de pandas.

Pregunta:

    ¿Cuántas filas duplicadas eliminaste, si había alguna?

In [78]:
# Verificar duplicados
duplicados = df.duplicated().sum()
print(f"Número de filas duplicadas: {duplicados}")

# Eliminar duplicados si existen
if duplicados > 0:
    df = df.drop_duplicates()
    print(f"Se eliminaron {duplicados} filas duplicadas")
    print(f"Nuevo tamaño del dataset: {df.shape[0]} filas")
else:
    print("No se encontraron filas duplicadas")

Número de filas duplicadas: 0
No se encontraron filas duplicadas


Paso 5: Transformación de tipos de datos

    Convierte la columna Survived en tipo de datos categórico.
    Para la columna Sex, convierte los valores de "male" a 0 y "female" a 1.
    Convierte Embarked a valores numéricos, donde "S" sea 0, "C" sea 1, y "Q" sea 2.

In [80]:
# Convertir Survived a categórico
df['Survived'] = df['Survived'].astype('category')
print("Columna Survived convertida a categórica")

# Convertir Sex a numérico (0=male, 1=female)
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
print("Columna Sex convertida a numérico (0=male, 1=female)")

# Convertir Embarked a numérico (S=0, C=1, Q=2)
df['Embarked'] = df['Embarked'].map({'S': 0, 'C': 1, 'Q': 2})
print("Columna Embarked convertida a numérico (S=0, C=1, Q=2)")

# Verificar los cambios
print("\nPrimeras filas después de las transformaciones:")
print(df.head())
print("\nInformación actualizada del dataset:")
print(df.info())

Columna Survived convertida a categórica
Columna Sex convertida a numérico (0=male, 1=female)
Columna Embarked convertida a numérico (S=0, C=1, Q=2)

Primeras filas después de las transformaciones:
   PassengerId Survived  Pclass  \
0            1        0       3   
1            2        1       1   
2            3        1       3   
3            4        1       1   
4            5        0       3   

                                                Name  Sex   Age  SibSp  Parch  \
0                            Braund| Mr. Owen Harris    0  22.0      1      0   
1  Cumings| Mrs. John Bradley (Florence Briggs Th...    1  38.0      1      0   
2                             Heikkinen| Miss. Laina    1  26.0      0      0   
3       Futrelle| Mrs. Jacques Heath (Lily May Peel)    1  35.0      1      0   
4                           Allen| Mr. William Henry    0  35.0      0      0   

             Ticket     Fare  Embarked  HasCabin  
0         A/5 21171     7.25         0         0  
1 

Paso 6: Validación de cambios y guardado del DataFrame limpio

    Revisa el DataFrame final para asegurarte de que no haya valores nulos y que las transformaciones sean correctas.
    Guarda el DataFrame limpio como un nuevo archivo CSV (titanic_cleaned.csv).
    
En la entrega del taller se debe adjuntar el archivo `titanic_cleaned.csv` trabajado, junto con el cuaderno con el código

In [82]:
# Verificar valores nulos finales
nulos_finales = df.isnull().sum().sum()
print(f"Valores nulos en el dataset final: {nulos_finales}")

if nulos_finales > 0:
    print("Columnas con valores nulos:")
    print(df.isnull().sum()[df.isnull().sum() > 0])
else:
    print("No hay valores nulos en el dataset final")

# Guardar el DataFrame limpio
df.to_csv('titanic_cleaned.csv', index=False)
print("Dataset limpio guardado como 'titanic_cleaned.csv'")

Valores nulos en el dataset final: 0
No hay valores nulos en el dataset final
Dataset limpio guardado como 'titanic_cleaned.csv'
