# Análisis exploratorio de los datos del Titanic

# Actividad Práctica: Análisis Exploratorio de Datos del Titanic

En esta actividad práctica, que forma parte de la primera semana del módulo de Data Mining, nos adentraremos en el emocionante mundo de la extracción de información a partir de datos. El objetivo principal es introducir a los estudiantes en las herramientas y técnicas necesarias para analizar y visualizar datos, y así poder obtener información valiosa.

## Objetivos de la actividad

Durante esta actividad, nos enfocaremos en dos objetivos principales:

1. Comprobar la teoría de que existe una correlación entre los sobrevivientes y la clase en la que viajaban. Para ello, analizaremos los datos del famoso naufragio del Titanic y exploraremos si la clase en la que viajaban los pasajeros tiene alguna influencia en su supervivencia.

2. Descubrir si murieron más hombres que mujeres en el naufragio. Mediante el análisis de los datos, buscaremos determinar si existe alguna diferencia significativa en la tasa de supervivencia entre hombres y mujeres.

## Pasos a seguir

A continuación, se detallan los pasos necesarios para llevar a cabo esta actividad:

1. Importar el dataset: Comenzaremos importando el conjunto de datos del Titanic, el cual se encuentra en formato CSV. Utilizaremos la biblioteca pandas para cargar los datos en un DataFrame y así poder manipularlos y analizarlos.

2. Análisis exploratorio de datos: Una vez que hayamos importado los datos, realizaremos un análisis exploratorio para comprender mejor la estructura y características del conjunto de datos. Esto incluirá la visualización de estadísticas descriptivas, la identificación de valores faltantes y la exploración de las variables relevantes para nuestros objetivos.

3. Visualización de datos: Para hacer el análisis más didáctico y comprensible, utilizaremos herramientas de visualización para representar gráficamente los datos. Esto incluirá la creación de gráficos de barras, diagramas de dispersión y cualquier otra visualización que nos ayude a analizar la correlación entre las variables y a responder nuestras preguntas de investigación.

4. Interpretación de resultados: Finalmente, interpretaremos los resultados obtenidos a partir del análisis y visualización de los datos. Discutiremos las conclusiones alcanzadas y reflexionaremos sobre la importancia de estas herramientas en el campo del Data Mining.

¡Comencemos esta emocionante actividad práctica y exploremos los datos del Titanic para descubrir información oculta!


In [2]:
# Instalamos las librerías necesarias
!pip install pandas



In [None]:
!pip install numpy
!pip install matplotlib
!pip install seaborn

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

ModuleNotFoundError: No module named 'pandas'

In [None]:

# Importamos la base de datos
titanic = pd.read_csv('titanic.csv')

# Mostramos las primeras 5 filas de la base de datos
print(titanic.head())

In [None]:


# Mostramos la información de la base de datos
print(titanic.info())

# Mostramos la cantidad de valores nulos en la base de datos
print(titanic.isnull().sum())

# Eliminamos las columnas que no necesitamos
titanic.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)

# Mostramos las primeras 5 filas de la base de datos
print(titanic.head())

# Mostramos la cantidad de valores nulos en la base de datos
print(titanic.isnull().sum())

# Eliminamos las filas con valores nulos
titanic.dropna(inplace=True)

# Mostramos la cantidad de valores nulos en la base de datos
print(titanic.isnull().sum())

# Mostramos la cantidad de valores únicos en la columna 'Pclass'
print(titanic['Pclass'].value_counts())

# Mostramos la cantidad de valores únicos en la columna 'Sex'
print(titanic['Sex'].value_counts())

# Mostramos la cantidad de valores únicos en la columna 'SibSp'
print(titanic['SibSp'].value_counts())

# Mostramos la cantidad de valores únicos en la columna 'Parch'
print(titanic['Parch'].value_counts())

# Mostramos la cantidad de valores únicos en la columna 'Cabin'
print(titanic['Cabin'].value_counts())

# Mostramos la cantidad de valores únicos en la columna 'Embarked'
print(titanic['Embarked'].value_counts())

# Mostramos la cantidad de valores únicos en la columna 'Survived'
print(titanic['Survived'].value_counts())

# Mostramos la cantidad de valores únicos en la columna 'Age'
print(titanic['Age'].value_counts())

# Mostramos la cantidad de valores únicos en la columna 'Fare'
print(titanic['Fare'].value_counts())