# Tutorial de An√°lisis de Datos con Pandas üìä

En este tutorial aprender√°s:
- Introducci√≥n a pandas y an√°lisis de datos
- Cargar y explorar datasets
- Limpieza y preprocesamiento de datos
- An√°lisis exploratorio de datos (EDA)
- Agrupaciones y estad√≠sticas descriptivas
- Manipulaci√≥n avanzada de dataframes
- Casos de uso pr√°cticos con datos reales

**Dataset a usar**: Usaremos datos del Titanic, un cl√°sico dataset para aprender an√°lisis de datos.

**Objetivos de aprendizaje**:
1. üîç **Exploraci√≥n**: Entender la estructura y calidad de los datos
2. üßπ **Limpieza**: Manejar valores faltantes y datos inconsistentes  
3. üìà **An√°lisis**: Encontrar patrones y insights interesantes
4. üéØ **Insights**: Responder preguntas espec√≠ficas sobre los datos

In [1]:
# Instalaci√≥n e importaci√≥n de librer√≠as

# Para instalar las librer√≠as necesarias, ejecuta en terminal:
# pip install pandas numpy requests

import pandas as pd
import numpy as np
import requests
from io import StringIO
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Librer√≠as importadas correctamente")
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

‚úÖ Librer√≠as importadas correctamente
Pandas version: 2.3.2
NumPy version: 2.3.2


In [2]:
# Carga del Dataset del Titanic

def cargar_dataset_titanic():
    """
    Carga el dataset del Titanic desde una fuente online.
    Si falla, crea un dataset de ejemplo.
    """
    try:
        # URL del dataset del Titanic
        url = "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv"
        
        print("üì• Descargando dataset del Titanic...")
        df = pd.read_csv(url)
        print("‚úÖ Dataset cargado exitosamente desde internet")
        return df
        
    except Exception as e:
        print(f"‚ùå No se pudo cargar desde internet: {e}")
        print("üìù Creando dataset de ejemplo...")
        
        # Dataset de ejemplo si no se puede descargar
        datos_ejemplo = {
            'PassengerId': range(1, 891),
            'Survived': np.random.choice([0, 1], 890, p=[0.62, 0.38]),
            'Pclass': np.random.choice([1, 2, 3], 890, p=[0.24, 0.21, 0.55]),
            'Name': [f'Passenger_{i}' for i in range(1, 891)],
            'Sex': np.random.choice(['male', 'female'], 890, p=[0.65, 0.35]),
            'Age': np.random.normal(29, 14, 890).round(1),
            'SibSp': np.random.choice(range(9), 890, p=[0.68, 0.23, 0.05, 0.02, 0.01, 0.005, 0.003, 0.001, 0.001]),
            'Parch': np.random.choice(range(7), 890, p=[0.76, 0.13, 0.08, 0.015, 0.012, 0.002, 0.001]),
            'Fare': np.random.lognormal(3, 1, 890).round(2),
            'Embarked': np.random.choice(['S', 'C', 'Q'], 890, p=[0.72, 0.19, 0.09])
        }
        
        df = pd.DataFrame(datos_ejemplo)
        # Introducir algunos valores faltantes para hacer m√°s realista
        df.loc[np.random.choice(df.index, 177), 'Age'] = np.nan
        df.loc[np.random.choice(df.index, 2), 'Embarked'] = np.nan
        
        print("‚úÖ Dataset de ejemplo creado")
        return df

# Cargar el dataset
df_titanic = cargar_dataset_titanic()

# Informaci√≥n b√°sica del dataset
print(f"\nüìã Informaci√≥n b√°sica del dataset:")
print(f"   Forma: {df_titanic.shape} (filas, columnas)")
print(f"   Columnas: {list(df_titanic.columns)}")

# Mostrar las primeras filas
print(f"\nüîç Primeras 5 filas del dataset:")
print(df_titanic.head())

üì• Descargando dataset del Titanic...
‚úÖ Dataset cargado exitosamente desde internet

üìã Informaci√≥n b√°sica del dataset:
   Forma: (891, 12) (filas, columnas)
   Columnas: ['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']

üîç Primeras 5 filas del dataset:
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0

In [3]:
# Exploraci√≥n Inicial del Dataset

print("=== EXPLORACI√ìN INICIAL DEL DATASET ===\n")

# 1. Informaci√≥n general sobre el dataset
print("üîç 1. INFORMACI√ìN GENERAL")
print("-" * 30)
print(f"N√∫mero de filas: {df_titanic.shape[0]}")
print(f"N√∫mero de columnas: {df_titanic.shape[1]}")
print(f"Tama√±o total: {df_titanic.size} celdas")

# 2. Tipos de datos
print(f"\nüìä 2. TIPOS DE DATOS")
print("-" * 30)
print(df_titanic.dtypes)

# 3. Informaci√≥n detallada
print(f"\nüìã 3. INFORMACI√ìN DETALLADA")
print("-" * 30)
print(df_titanic.info())

# 4. Estad√≠sticas descriptivas para columnas num√©ricas
print(f"\nüìà 4. ESTAD√çSTICAS DESCRIPTIVAS (Columnas Num√©ricas)")
print("-" * 50)
print(df_titanic.describe())

# 5. Estad√≠sticas para columnas categ√≥ricas
print(f"\nüìù 5. ESTAD√çSTICAS DESCRIPTIVAS (Columnas Categ√≥ricas)")
print("-" * 50)
columnas_categoricas = df_titanic.select_dtypes(include=['object']).columns
if len(columnas_categoricas) > 0:
    print(df_titanic[columnas_categoricas].describe())
else:
    print("No hay columnas categ√≥ricas")

# 6. Valores faltantes
print(f"\n‚ùì 6. VALORES FALTANTES")
print("-" * 30)
valores_faltantes = df_titanic.isnull().sum()
porcentaje_faltantes = (valores_faltantes / len(df_titanic)) * 100

df_faltantes = pd.DataFrame({
    'Columna': valores_faltantes.index,
    'Valores_Faltantes': valores_faltantes.values,
    'Porcentaje': porcentaje_faltantes.values
}).sort_values('Valores_Faltantes', ascending=False)

print(df_faltantes[df_faltantes['Valores_Faltantes'] > 0])

# 7. Valores √∫nicos en cada columna
print(f"\nüÜî 7. VALORES √öNICOS POR COLUMNA")
print("-" * 35)
for columna in df_titanic.columns:
    n_unicos = df_titanic[columna].nunique()
    print(f"{columna:<15}: {n_unicos:>6} valores √∫nicos")

# 8. Resumen r√°pido de columnas importantes
print(f"\nüéØ 8. RESUMEN DE COLUMNAS CLAVE")
print("-" * 35)

if 'Survived' in df_titanic.columns:
    supervivencia = df_titanic['Survived'].value_counts()
    print(f"Supervivencia:")
    print(f"  No sobrevivi√≥ (0): {supervivencia.get(0, 0)} ({supervivencia.get(0, 0)/len(df_titanic)*100:.1f}%)")
    print(f"  Sobrevivi√≥ (1): {supervivencia.get(1, 0)} ({supervivencia.get(1, 0)/len(df_titanic)*100:.1f}%)")

if 'Sex' in df_titanic.columns:
    sexo = df_titanic['Sex'].value_counts()
    print(f"\nDistribuci√≥n por sexo:")
    for categoria, cantidad in sexo.items():
        print(f"  {categoria}: {cantidad} ({cantidad/len(df_titanic)*100:.1f}%)")

if 'Pclass' in df_titanic.columns:
    clase = df_titanic['Pclass'].value_counts().sort_index()
    print(f"\nDistribuci√≥n por clase:")
    for categoria, cantidad in clase.items():
        print(f"  Clase {categoria}: {cantidad} ({cantidad/len(df_titanic)*100:.1f}%)")

=== EXPLORACI√ìN INICIAL DEL DATASET ===

üîç 1. INFORMACI√ìN GENERAL
------------------------------
N√∫mero de filas: 891
N√∫mero de columnas: 12
Tama√±o total: 10692 celdas

üìä 2. TIPOS DE DATOS
------------------------------
PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

üìã 3. INFORMACI√ìN DETALLADA
------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age         

## Funciones √ötiles de Pandas üõ†Ô∏è

### Funciones de Exploraci√≥n:
- `df.head(n)` / `df.tail(n)` - Primeras/√∫ltimas n filas
- `df.info()` - Informaci√≥n general del dataset  
- `df.describe()` - Estad√≠sticas descriptivas
- `df.shape` - Dimensiones del DataFrame
- `df.columns` - Nombres de las columnas
- `df.dtypes` - Tipos de datos por columna

### Funciones de Limpieza:
- `df.isnull()` / `df.isna()` - Detectar valores faltantes
- `df.dropna()` - Eliminar filas con valores faltantes
- `df.fillna()` - Rellenar valores faltantes
- `df.drop_duplicates()` - Eliminar duplicados
- `df.rename()` - Renombrar columnas

### Funciones de Filtrado y Selecci√≥n:
- `df[columna]` - Seleccionar una columna
- `df[['col1', 'col2']]` - Seleccionar m√∫ltiples columnas
- `df[df['columna'] > valor]` - Filtrar por condici√≥n
- `df.query()` - Filtrar usando expresiones string
- `df.loc[]` / `df.iloc[]` - Selecci√≥n por etiqueta/posici√≥n

### Funciones de Agrupaci√≥n:
- `df.groupby()` - Agrupar datos
- `df.value_counts()` - Contar valores √∫nicos
- `df.pivot_table()` - Crear tablas din√°micas
- `df.agg()` - Aplicar m√∫ltiples funciones de agregaci√≥n

In [None]:
# An√°lisis Exploratorio Detallado

print("=== AN√ÅLISIS EXPLORATORIO DETALLADO ===\n")

# 1. An√°lisis de supervivencia por diferentes variables
def analizar_supervivencia(df, variable):
    """
    Analiza la tasa de supervivencia por una variable categ√≥rica.
    """
    print(f"üìä SUPERVIVENCIA POR {variable.upper()}")
    print("-" * 40)
    
    # Crear tabla cruzada
    tabla_cruzada = pd.crosstab(df[variable], df['Survived'], margins=True)
    
    # Calcular porcentajes
    porcentajes = pd.crosstab(df[variable], df['Survived'], normalize='index') * 100
    
    print("N√∫meros absolutos:")
    print(tabla_cruzada)
    print(f"\nPorcentajes de supervivencia:")
    print(porcentajes.round(2))
    
    # Calcular tasa de supervivencia por categor√≠a
    print(f"\nTasas de supervivencia:")
    for categoria in df[variable].unique():
        if pd.notna(categoria):
            subset = df[df[variable] == categoria]
            tasa = subset['Survived'].mean() * 100
            print(f"  {categoria}: {tasa:.1f}%")
    
    print("\n" + "="*50 + "\n")

# An√°lisis por sexo
analizar_supervivencia(df_titanic, 'Sex')

# An√°lisis por clase
analizar_supervivencia(df_titanic, 'Pclass')

# 2. An√°lisis de edad
print("üë∂ AN√ÅLISIS DE EDAD")
print("-" * 25)

# Estad√≠sticas b√°sicas de edad
edad_stats = df_titanic['Age'].describe()
print("Estad√≠sticas de edad:")
print(edad_stats)

# Crear grupos de edad
def categorizar_edad(edad):
    if pd.isna(edad):
        return 'Desconocida'
    elif edad < 18:
        return 'Ni√±o/Adolescente'
    elif edad < 35:
        return 'Joven Adulto'
    elif edad < 60:
        return 'Adulto'
    else:
        return 'Mayor'

df_titanic['Grupo_Edad'] = df_titanic['Age'].apply(categorizar_edad)

print(f"\nDistribuci√≥n por grupos de edad:")
distribucion_edad = df_titanic['Grupo_Edad'].value_counts()
for grupo, cantidad in distribucion_edad.items():
    porcentaje = (cantidad / len(df_titanic)) * 100
    print(f"  {grupo}: {cantidad} ({porcentaje:.1f}%)")

# Supervivencia por grupo de edad
print(f"\nSupervivencia por grupo de edad:")
supervivencia_edad = df_titanic.groupby('Grupo_Edad')['Survived'].agg(['count', 'sum', 'mean'])
supervivencia_edad.columns = ['Total', 'Supervivientes', 'Tasa_Supervivencia']
supervivencia_edad['Tasa_Supervivencia'] = supervivencia_edad['Tasa_Supervivencia'] * 100
print(supervivencia_edad.round(2))

print("\n" + "="*50 + "\n")

# 3. An√°lisis econ√≥mico - Tarifas
print("üí∞ AN√ÅLISIS ECON√ìMICO")
print("-" * 25)

fare_stats = df_titanic['Fare'].describe()
print("Estad√≠sticas de tarifas:")
print(fare_stats)

# Crear categor√≠as de tarifa
def categorizar_tarifa(fare):
    if pd.isna(fare):
        return 'Desconocida'
    elif fare < 15:
        return 'Econ√≥mica'
    elif fare < 50:
        return 'Est√°ndar'
    elif fare < 100:
        return 'Premium'
    else:
        return 'Lujo'

df_titanic['Categoria_Tarifa'] = df_titanic['Fare'].apply(categorizar_tarifa)

# An√°lisis de supervivencia por categor√≠a de tarifa
supervivencia_tarifa = df_titanic.groupby('Categoria_Tarifa')['Survived'].agg(['count', 'mean'])
supervivencia_tarifa.columns = ['Total_Pasajeros', 'Tasa_Supervivencia']
supervivencia_tarifa['Tasa_Supervivencia'] = supervivencia_tarifa['Tasa_Supervivencia'] * 100

print(f"\nSupervivencia por categor√≠a de tarifa:")
print(supervivencia_tarifa.round(2))

# 4. An√°lisis de familia - Combinando SibSp y Parch
print("\n" + "="*50 + "\n")
print("üë®‚Äçüë©‚Äçüëß‚Äçüë¶ AN√ÅLISIS DE FAMILIA")
print("-" * 28)

# Crear variable de tama√±o de familia
df_titanic['Tama√±o_Familia'] = df_titanic['SibSp'] + df_titanic['Parch'] + 1

def categorizar_familia(tama√±o):
    if tama√±o == 1:
        return 'Solo'
    elif tama√±o <= 4:
        return 'Peque√±a'
    else:
        return 'Grande'

df_titanic['Tipo_Familia'] = df_titanic['Tama√±o_Familia'].apply(categorizar_familia)

# An√°lisis de supervivencia por tama√±o de familia
supervivencia_familia = df_titanic.groupby('Tipo_Familia')['Survived'].agg(['count', 'mean'])
supervivencia_familia.columns = ['Total_Pasajeros', 'Tasa_Supervivencia']
supervivencia_familia['Tasa_Supervivencia'] = supervivencia_familia['Tasa_Supervivencia'] * 100

print("Supervivencia por tipo de familia:")
print(supervivencia_familia.round(2))

# 5. An√°lisis multivariable
print("\n" + "="*50 + "\n")
print("üî¨ AN√ÅLISIS MULTIVARIABLE")
print("-" * 30)

# Supervivencia por sexo y clase
tabla_sexo_clase = pd.crosstab([df_titanic['Sex'], df_titanic['Pclass']], 
                               df_titanic['Survived'], margins=True)
print("Supervivencia por Sexo y Clase (n√∫meros absolutos):")
print(tabla_sexo_clase)

# Porcentajes
porcentajes_sexo_clase = pd.crosstab([df_titanic['Sex'], df_titanic['Pclass']], 
                                    df_titanic['Survived'], normalize='index') * 100
print(f"\nTasas de supervivencia por Sexo y Clase:")
print(porcentajes_sexo_clase.round(2))

print("\n" + "="*70)