# Tutorial de Análisis de Datos con Pandas 📊

En este tutorial aprenderás:
- Introducción a pandas y análisis de datos
- Cargar y explorar datasets
- Limpieza y preprocesamiento de datos
- Análisis exploratorio de datos (EDA)
- Agrupaciones y estadísticas descriptivas
- Manipulación avanzada de dataframes
- Casos de uso prácticos con datos reales

**Dataset a usar**: Usaremos datos del Titanic, un clásico dataset para aprender análisis de datos.

**Objetivos de aprendizaje**:
1. 🔍 **Exploración**: Entender la estructura y calidad de los datos
2. 🧹 **Limpieza**: Manejar valores faltantes y datos inconsistentes  
3. 📈 **Análisis**: Encontrar patrones y insights interesantes
4. 🎯 **Insights**: Responder preguntas específicas sobre los datos

In [1]:
# Instalación e importación de librerías

# Para instalar las librerías necesarias, ejecuta en terminal:
# pip install pandas numpy requests

import pandas as pd
import numpy as np
import requests
from io import StringIO
import warnings
warnings.filterwarnings('ignore')

print("✅ Librerías importadas correctamente")
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

✅ Librerías importadas correctamente
Pandas version: 2.3.2
NumPy version: 2.3.2


In [2]:
# Carga del Dataset del Titanic

def cargar_dataset_titanic():
    """
    Carga el dataset del Titanic desde una fuente online.
    Si falla, crea un dataset de ejemplo.
    """
    try:
        # URL del dataset del Titanic
        url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
        
        print("📥 Descargando dataset del Titanic...")
        df = pd.read_csv(url)
        print("✅ Dataset cargado exitosamente desde internet")
        return df
        
    except Exception as e:
        print(f"❌ No se pudo cargar desde internet: {e}")
        print("📝 Creando dataset de ejemplo...")
        
        # Dataset de ejemplo si no se puede descargar
        datos_ejemplo = {
            'PassengerId': range(1, 891),
            'Survived': np.random.choice([0, 1], 890, p=[0.62, 0.38]),
            'Pclass': np.random.choice([1, 2, 3], 890, p=[0.24, 0.21, 0.55]),
            'Name': [f'Passenger_{i}' for i in range(1, 891)],
            'Sex': np.random.choice(['male', 'female'], 890, p=[0.65, 0.35]),
            'Age': np.random.normal(29, 14, 890).round(1),
            'SibSp': np.random.choice(range(9), 890, p=[0.68, 0.23, 0.05, 0.02, 0.01, 0.005, 0.003, 0.001, 0.001]),
            'Parch': np.random.choice(range(7), 890, p=[0.76, 0.13, 0.08, 0.015, 0.012, 0.002, 0.001]),
            'Fare': np.random.lognormal(3, 1, 890).round(2),
            'Embarked': np.random.choice(['S', 'C', 'Q'], 890, p=[0.72, 0.19, 0.09])
        }
        
        df = pd.DataFrame(datos_ejemplo)
        # Introducir algunos valores faltantes para hacer más realista
        df.loc[np.random.choice(df.index, 177), 'Age'] = np.nan
        df.loc[np.random.choice(df.index, 2), 'Embarked'] = np.nan
        
        print("✅ Dataset de ejemplo creado")
        return df

# Cargar el dataset
df_titanic = cargar_dataset_titanic()

# Información básica del dataset
print(f"\n📋 Información básica del dataset:")
print(f"   Forma: {df_titanic.shape} (filas, columnas)")
print(f"   Columnas: {list(df_titanic.columns)}")

# Mostrar las primeras filas
print(f"\n🔍 Primeras 5 filas del dataset:")
print(df_titanic.head())

📥 Descargando dataset del Titanic...
✅ Dataset cargado exitosamente desde internet

📋 Información básica del dataset:
   Forma: (891, 12) (filas, columnas)
   Columnas: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

🔍 Primeras 5 filas del dataset:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

 

In [3]:
# Exploración Inicial del Dataset

print("=== EXPLORACIÓN INICIAL DEL DATASET ===\n")

# 1. Información general sobre el dataset
print("🔍 1. INFORMACIÓN GENERAL")
print("-" * 30)
print(f"Número de filas: {df_titanic.shape[0]}")
print(f"Número de columnas: {df_titanic.shape[1]}")
print(f"Tamaño total: {df_titanic.size} celdas")

# 2. Tipos de datos
print(f"\n📊 2. TIPOS DE DATOS")
print("-" * 30)
print(df_titanic.dtypes)

# 3. Información detallada
print(f"\n📋 3. INFORMACIÓN DETALLADA")
print("-" * 30)
print(df_titanic.info())

# 4. Estadísticas descriptivas para columnas numéricas
print(f"\n📈 4. ESTADÍSTICAS DESCRIPTIVAS (Columnas Numéricas)")
print("-" * 50)
print(df_titanic.describe())

# 5. Estadísticas para columnas categóricas
print(f"\n📝 5. ESTADÍSTICAS DESCRIPTIVAS (Columnas Categóricas)")
print("-" * 50)
columnas_categoricas = df_titanic.select_dtypes(include=['object']).columns
if len(columnas_categoricas) > 0:
    print(df_titanic[columnas_categoricas].describe())
else:
    print("No hay columnas categóricas")

# 6. Valores faltantes
print(f"\n❓ 6. VALORES FALTANTES")
print("-" * 30)
valores_faltantes = df_titanic.isnull().sum()
porcentaje_faltantes = (valores_faltantes / len(df_titanic)) * 100

df_faltantes = pd.DataFrame({
    'Columna': valores_faltantes.index,
    'Valores_Faltantes': valores_faltantes.values,
    'Porcentaje': porcentaje_faltantes.values
}).sort_values('Valores_Faltantes', ascending=False)

print(df_faltantes[df_faltantes['Valores_Faltantes'] > 0])

# 7. Valores únicos en cada columna
print(f"\n🆔 7. VALORES ÚNICOS POR COLUMNA")
print("-" * 35)
for columna in df_titanic.columns:
    n_unicos = df_titanic[columna].nunique()
    print(f"{columna:<15}: {n_unicos:>6} valores únicos")

# 8. Resumen rápido de columnas importantes
print(f"\n🎯 8. RESUMEN DE COLUMNAS CLAVE")
print("-" * 35)

if 'Survived' in df_titanic.columns:
    supervivencia = df_titanic['Survived'].value_counts()
    print(f"Supervivencia:")
    print(f"  No sobrevivió (0): {supervivencia.get(0, 0)} ({supervivencia.get(0, 0)/len(df_titanic)*100:.1f}%)")
    print(f"  Sobrevivió (1): {supervivencia.get(1, 0)} ({supervivencia.get(1, 0)/len(df_titanic)*100:.1f}%)")

if 'Sex' in df_titanic.columns:
    sexo = df_titanic['Sex'].value_counts()
    print(f"\nDistribución por sexo:")
    for categoria, cantidad in sexo.items():
        print(f"  {categoria}: {cantidad} ({cantidad/len(df_titanic)*100:.1f}%)")

if 'Pclass' in df_titanic.columns:
    clase = df_titanic['Pclass'].value_counts().sort_index()
    print(f"\nDistribución por clase:")
    for categoria, cantidad in clase.items():
        print(f"  Clase {categoria}: {cantidad} ({cantidad/len(df_titanic)*100:.1f}%)")

=== EXPLORACIÓN INICIAL DEL DATASET ===

🔍 1. INFORMACIÓN GENERAL
------------------------------
Número de filas: 891
Número de columnas: 12
Tamaño total: 10692 celdas

📊 2. TIPOS DE DATOS
------------------------------
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

📋 3. INFORMACIÓN DETALLADA
------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null  

## Funciones Útiles de Pandas 🛠️

### Funciones de Exploración:
- `df.head(n)` / `df.tail(n)` - Primeras/últimas n filas
- `df.info()` - Información general del dataset  
- `df.describe()` - Estadísticas descriptivas
- `df.shape` - Dimensiones del DataFrame
- `df.columns` - Nombres de las columnas
- `df.dtypes` - Tipos de datos por columna

### Funciones de Limpieza:
- `df.isnull()` / `df.isna()` - Detectar valores faltantes
- `df.dropna()` - Eliminar filas con valores faltantes
- `df.fillna()` - Rellenar valores faltantes
- `df.drop_duplicates()` - Eliminar duplicados
- `df.rename()` - Renombrar columnas

### Funciones de Filtrado y Selección:
- `df[columna]` - Seleccionar una columna
- `df[['col1', 'col2']]` - Seleccionar múltiples columnas
- `df[df['columna'] > valor]` - Filtrar por condición
- `df.query()` - Filtrar usando expresiones string
- `df.loc[]` / `df.iloc[]` - Selección por etiqueta/posición

### Funciones de Agrupación:
- `df.groupby()` - Agrupar datos
- `df.value_counts()` - Contar valores únicos
- `df.pivot_table()` - Crear tablas dinámicas
- `df.agg()` - Aplicar múltiples funciones de agregación

In [None]:
# Análisis Exploratorio Detallado

print("=== ANÁLISIS EXPLORATORIO DETALLADO ===\n")

# 1. Análisis de supervivencia por diferentes variables
def analizar_supervivencia(df, variable):
    """
    Analiza la tasa de supervivencia por una variable categórica.
    """
    print(f"📊 SUPERVIVENCIA POR {variable.upper()}")
    print("-" * 40)
    
    # Crear tabla cruzada
    tabla_cruzada = pd.crosstab(df[variable], df['Survived'], margins=True)
    
    # Calcular porcentajes
    porcentajes = pd.crosstab(df[variable], df['Survived'], normalize='index') * 100
    
    print("Números absolutos:")
    print(tabla_cruzada)
    print(f"\nPorcentajes de supervivencia:")
    print(porcentajes.round(2))
    
    # Calcular tasa de supervivencia por categoría
    print(f"\nTasas de supervivencia:")
    for categoria in df[variable].unique():
        if pd.notna(categoria):
            subset = df[df[variable] == categoria]
            tasa = subset['Survived'].mean() * 100
            print(f"  {categoria}: {tasa:.1f}%")
    
    print("\n" + "="*50 + "\n")

# Análisis por sexo
analizar_supervivencia(df_titanic, 'Sex')

# Análisis por clase
analizar_supervivencia(df_titanic, 'Pclass')

# 2. Análisis de edad
print("👶 ANÁLISIS DE EDAD")
print("-" * 25)

# Estadísticas básicas de edad
edad_stats = df_titanic['Age'].describe()
print("Estadísticas de edad:")
print(edad_stats)

# Crear grupos de edad
def categorizar_edad(edad):
    if pd.isna(edad):
        return 'Desconocida'
    elif edad < 18:
        return 'Niño/Adolescente'
    elif edad < 35:
        return 'Joven Adulto'
    elif edad < 60:
        return 'Adulto'
    else:
        return 'Mayor'

df_titanic['Grupo_Edad'] = df_titanic['Age'].apply(categorizar_edad)

print(f"\nDistribución por grupos de edad:")
distribucion_edad = df_titanic['Grupo_Edad'].value_counts()
for grupo, cantidad in distribucion_edad.items():
    porcentaje = (cantidad / len(df_titanic)) * 100
    print(f"  {grupo}: {cantidad} ({porcentaje:.1f}%)")

# Supervivencia por grupo de edad
print(f"\nSupervivencia por grupo de edad:")
supervivencia_edad = df_titanic.groupby('Grupo_Edad')['Survived'].agg(['count', 'sum', 'mean'])
supervivencia_edad.columns = ['Total', 'Supervivientes', 'Tasa_Supervivencia']
supervivencia_edad['Tasa_Supervivencia'] = supervivencia_edad['Tasa_Supervivencia'] * 100
print(supervivencia_edad.round(2))

print("\n" + "="*50 + "\n")

# 3. Análisis económico - Tarifas
print("💰 ANÁLISIS ECONÓMICO")
print("-" * 25)

fare_stats = df_titanic['Fare'].describe()
print("Estadísticas de tarifas:")
print(fare_stats)

# Crear categorías de tarifa
def categorizar_tarifa(fare):
    if pd.isna(fare):
        return 'Desconocida'
    elif fare < 15:
        return 'Económica'
    elif fare < 50:
        return 'Estándar'
    elif fare < 100:
        return 'Premium'
    else:
        return 'Lujo'

df_titanic['Categoria_Tarifa'] = df_titanic['Fare'].apply(categorizar_tarifa)

# Análisis de supervivencia por categoría de tarifa
supervivencia_tarifa = df_titanic.groupby('Categoria_Tarifa')['Survived'].agg(['count', 'mean'])
supervivencia_tarifa.columns = ['Total_Pasajeros', 'Tasa_Supervivencia']
supervivencia_tarifa['Tasa_Supervivencia'] = supervivencia_tarifa['Tasa_Supervivencia'] * 100

print(f"\nSupervivencia por categoría de tarifa:")
print(supervivencia_tarifa.round(2))

# 4. Análisis de familia - Combinando SibSp y Parch
print("\n" + "="*50 + "\n")
print("👨‍👩‍👧‍👦 ANÁLISIS DE FAMILIA")
print("-" * 28)

# Crear variable de tamaño de familia
df_titanic['Tamaño_Familia'] = df_titanic['SibSp'] + df_titanic['Parch'] + 1

def categorizar_familia(tamaño):
    if tamaño == 1:
        return 'Solo'
    elif tamaño <= 4:
        return 'Pequeña'
    else:
        return 'Grande'

df_titanic['Tipo_Familia'] = df_titanic['Tamaño_Familia'].apply(categorizar_familia)

# Análisis de supervivencia por tamaño de familia
supervivencia_familia = df_titanic.groupby('Tipo_Familia')['Survived'].agg(['count', 'mean'])
supervivencia_familia.columns = ['Total_Pasajeros', 'Tasa_Supervivencia']
supervivencia_familia['Tasa_Supervivencia'] = supervivencia_familia['Tasa_Supervivencia'] * 100

print("Supervivencia por tipo de familia:")
print(supervivencia_familia.round(2))

# 5. Análisis multivariable
print("\n" + "="*50 + "\n")
print("🔬 ANÁLISIS MULTIVARIABLE")
print("-" * 30)

# Supervivencia por sexo y clase
tabla_sexo_clase = pd.crosstab([df_titanic['Sex'], df_titanic['Pclass']], 
                               df_titanic['Survived'], margins=True)
print("Supervivencia por Sexo y Clase (números absolutos):")
print(tabla_sexo_clase)

# Porcentajes
porcentajes_sexo_clase = pd.crosstab([df_titanic['Sex'], df_titanic['Pclass']], 
                                    df_titanic['Survived'], normalize='index') * 100
print(f"\nTasas de supervivencia por Sexo y Clase:")
print(porcentajes_sexo_clase.round(2))

print("\n" + "="*70)