# 🐼📊 Guía Completa de Pandas y NumPy
### *Manipulación y Análisis de Datos con Python*

---

¡Bienvenido a esta guía interactiva donde aprenderás a dominar las librerías más importantes para ciencia de datos en Python! 🚀

**Autor:** Tu Nombre  
**Fecha:** 2024  
**Nivel:** Principiante - Intermedio  

## 📋 Índice de Contenidos

### 🔧 [1. Configuración Inicial](#1-configuracion-inicial)
- Instalación de librerías
- Importación de módulos

### 🏗️ [2. Creación de DataFrames](#2-creacion-de-dataframes)
- **2.1** [📊 Usando Arrays de NumPy](#21-usando-arrays-de-numpy)
  - Opción 1: Arrays NumPy
  - Opción 2: Listas Python
- **2.2** [📚 Usando Diccionarios](#22-usando-diccionarios)
- **2.3** [📁 Desde Archivos CSV](#23-desde-archivos-csv)

### 🔍 [3. Exploración de Datos](#3-exploracion-de-datos)
- Información básica del DataFrame
- Estadísticas descriptivas
- Primeras y últimas filas

### 🛠️ [4. Operaciones Básicas](#4-operaciones-basicas)
- Selección de columnas
- Filtrado de datos
- Operaciones matemáticas

### 📈 [5. Análisis Avanzado](#5-analisis-avanzado)
- Agrupaciones
- Correlaciones
- Visualizaciones básicas

---

## 1. 🔧 Configuración Inicial

Antes de comenzar, necesitamos instalar e importar las librerías necesarias.

In [None]:
# 📦 Instalación de paquetes (descomenta si es necesario)
# !pip install pandas
# !pip install numpy
# !pip install matplotlib
# !pip install seaborn

In [None]:
# 📚 Importación de librerías esenciales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# 🎨 Configuración para gráficos más atractivos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("✅ ¡Librerías importadas exitosamente!")
print(f"🐼 Pandas versión: {pd.__version__}")
print(f"🔢 NumPy versión: {np.__version__}")

## 2. 🏗️ Creación de DataFrames

Los DataFrames son la estructura de datos fundamental en Pandas. Aprenderemos diferentes formas de crearlos.

### 2.1 📊 Usando Arrays de NumPy

NumPy nos proporciona arrays eficientes que podemos convertir fácilmente en DataFrames.

#### 🔸 Opción 1: Arrays NumPy Puros

In [None]:
# 🔢 Creando un array de datos con NumPy
data = np.array([[1, 4], [2, 5], [3, 4]])

print("📊 Array NumPy creado:")
print(data)
print(f"📏 Forma del array: {data.shape}")
print(f"🔍 Tipo de datos: {data.dtype}")

In [None]:
# 🐼 Creando un DataFrame desde el array NumPy
df_numpy = pd.DataFrame(
    data, 
    index=["fila_1", "fila_2", "fila_3"], 
    columns=["columna_A", "columna_B"]
)

print("🎉 ¡DataFrame creado exitosamente!")
df_numpy

#### 🔸 Opción 2: Listas Python

In [None]:
# 📝 Creando datos usando listas de Python
data_list = [[1, 4], [2, 5], [3, 4]]

print("📋 Lista de datos creada:")
print(data_list)

In [None]:
# 🐼 Creando DataFrame desde listas
df_list = pd.DataFrame(
    data_list, 
    index=["fila_1", "fila_2", "fila_3"], 
    columns=["columna_A", "columna_B"]
)

print("✨ DataFrame desde listas:")
df_list

### 2.2 📚 Usando Diccionarios

Los diccionarios son una forma muy intuitiva de crear DataFrames, especialmente cuando tenemos datos etiquetados.

In [None]:
# 🗺️ Datos de estados estadounidenses
states = ["California", "Texas", "Florida", "New York"]
population = [39538223, 29145505, 21538187, 20201249]
area_km2 = [423970, 695662, 170312, 141297]  # Área en km²

print("🏛️ Estados:", states)
print("👥 Población:", population)
print("📐 Área (km²):", area_km2)

In [None]:
# 📖 Creando diccionario con los datos
dict_states = {
    "Estado": states,
    "Población": population,
    "Área_km2": area_km2
}

print("📚 Diccionario creado:")
for key, value in dict_states.items():
    print(f"  {key}: {value}")

In [None]:
# 🐼 Creando DataFrame desde diccionario
df_population = pd.DataFrame(dict_states)

# 🧮 Calculando densidad poblacional
df_population['Densidad_hab_km2'] = df_population['Población'] / df_population['Área_km2']
df_population['Densidad_hab_km2'] = df_population['Densidad_hab_km2'].round(2)

print("🌟 DataFrame de estados con densidad poblacional:")
df_population

### 2.3 📁 Desde Archivos CSV

La forma más común de trabajar con datos reales es cargándolos desde archivos CSV.

In [None]:
# 📂 Cargando datos desde archivo CSV
try:
    df_exams = pd.read_csv("StudentsPerformance.csv")
    print("✅ ¡Archivo CSV cargado exitosamente!")
    print(f"📊 Dimensiones del dataset: {df_exams.shape}")
    print(f"📋 Columnas: {list(df_exams.columns)}")
except FileNotFoundError:
    print("❌ Error: No se encontró el archivo 'StudentsPerformance.csv'")
    print("💡 Asegúrate de que el archivo esté en el directorio correcto")

In [None]:
# 👀 Visualizando el DataFrame completo
if 'df_exams' in locals():
    print("📚 Dataset de Rendimiento Estudiantil:")
    df_exams
else:
    print("⚠️ El DataFrame no está disponible")

## 3. 🔍 Exploración de Datos

Una vez que tenemos nuestros datos cargados, es fundamental explorarlos para entender su estructura y contenido.

In [None]:
# 📊 Información básica del DataFrame
if 'df_exams' in locals():
    print("🔍 INFORMACIÓN GENERAL DEL DATASET")
    print("=" * 40)
    print(f"📏 Forma (filas, columnas): {df_exams.shape}")
    print(f"📋 Número de columnas: {len(df_exams.columns)}")
    print(f"📊 Número de filas: {len(df_exams)}")
    print(f"💾 Memoria utilizada: {df_exams.memory_usage(deep=True).sum() / 1024:.2f} KB")
    
    print("\n📝 INFORMACIÓN DETALLADA:")
    df_exams.info()

In [None]:
# 👀 Primeras y últimas filas
if 'df_exams' in locals():
    print("🔝 PRIMERAS 5 FILAS:")
    display(df_exams.head())
    
    print("\n🔚 ÚLTIMAS 5 FILAS:")
    display(df_exams.tail())

In [None]:
# 📈 Estadísticas descriptivas
if 'df_exams' in locals():
    print("📊 ESTADÍSTICAS DESCRIPTIVAS:")
    display(df_exams.describe())
    
    print("\n🔢 ESTADÍSTICAS DE COLUMNAS CATEGÓRICAS:")
    categorical_cols = df_exams.select_dtypes(include=['object']).columns
    for col in categorical_cols:
        print(f"\n📋 {col}:")
        print(df_exams[col].value_counts())

## 4. 🛠️ Operaciones Básicas

Aprendamos las operaciones fundamentales para manipular y analizar nuestros datos.

In [None]:
# 🎯 Selección de columnas específicas
if 'df_exams' in locals():
    print("🎯 SELECCIÓN DE COLUMNAS DE PUNTUACIONES:")
    scores_df = df_exams[['math score', 'reading score', 'writing score']]
    display(scores_df.head())
    
    print("\n📊 ESTADÍSTICAS DE PUNTUACIONES:")
    display(scores_df.describe())

In [None]:
# 🔍 Filtrado de datos
if 'df_exams' in locals():
    print("🏆 ESTUDIANTES CON PUNTUACIÓN ALTA EN MATEMÁTICAS (>= 80):")
    high_math = df_exams[df_exams['math score'] >= 80]
    print(f"📊 Número de estudiantes: {len(high_math)}")
    display(high_math.head())
    
    print("\n👩‍🎓 ESTUDIANTES FEMENINAS CON PREPARACIÓN COMPLETA:")
    female_prepared = df_exams[
        (df_exams['gender'] == 'female') & 
        (df_exams['test preparation course'] == 'completed')
    ]
    print(f"📊 Número de estudiantes: {len(female_prepared)}")
    display(female_prepared.head())

In [None]:
# 🧮 Operaciones matemáticas
if 'df_exams' in locals():
    print("🧮 CREANDO NUEVAS COLUMNAS CON OPERACIONES:")
    
    # Promedio de puntuaciones
    df_exams['average_score'] = (
        df_exams['math score'] + 
        df_exams['reading score'] + 
        df_exams['writing score']
    ) / 3
    
    # Puntuación total
    df_exams['total_score'] = (
        df_exams['math score'] + 
        df_exams['reading score'] + 
        df_exams['writing score']
    )
    
    # Clasificación de rendimiento
    df_exams['performance_level'] = pd.cut(
        df_exams['average_score'],
        bins=[0, 60, 75, 85, 100],
        labels=['Bajo', 'Medio', 'Alto', 'Excelente']
    )
    
    print("✅ Nuevas columnas creadas:")
    print("  • average_score: Promedio de las tres puntuaciones")
    print("  • total_score: Suma total de puntuaciones")
    print("  • performance_level: Clasificación de rendimiento")
    
    display(df_exams[['math score', 'reading score', 'writing score', 
                     'average_score', 'total_score', 'performance_level']].head())

## 5. 📈 Análisis Avanzado

Profundicemos en análisis más sofisticados para extraer insights valiosos de nuestros datos.

In [None]:
# 👥 Análisis por grupos
if 'df_exams' in locals():
    print("👥 ANÁLISIS POR GÉNERO:")
    gender_analysis = df_exams.groupby('gender')[['math score', 'reading score', 'writing score']].agg({
        'math score': ['mean', 'std', 'min', 'max'],
        'reading score': ['mean', 'std', 'min', 'max'],
        'writing score': ['mean', 'std', 'min', 'max']
    }).round(2)
    
    display(gender_analysis)
    
    print("\n🎓 ANÁLISIS POR NIVEL DE PREPARACIÓN:")
    prep_analysis = df_exams.groupby('test preparation course')['average_score'].agg([
        'count', 'mean', 'std', 'min', 'max'
    ]).round(2)
    
    display(prep_analysis)

In [None]:
# 🔗 Análisis de correlaciones
if 'df_exams' in locals():
    print("🔗 MATRIZ DE CORRELACIÓN ENTRE PUNTUACIONES:")
    
    correlation_matrix = df_exams[['math score', 'reading score', 'writing score', 'average_score']].corr()
    
    # Crear visualización de la matriz de correlación
    plt.figure(figsize=(10, 8))
    sns.heatmap(correlation_matrix, 
                annot=True, 
                cmap='coolwarm', 
                center=0,
                square=True,
                fmt='.3f')
    plt.title('🔗 Matriz de Correlación - Puntuaciones de Estudiantes', fontsize=16, pad=20)
    plt.tight_layout()
    plt.show()
    
    print("\n📊 CORRELACIONES MÁS FUERTES:")
    # Encontrar las correlaciones más altas (excluyendo la diagonal)
    corr_pairs = []
    for i in range(len(correlation_matrix.columns)):
        for j in range(i+1, len(correlation_matrix.columns)):
            corr_pairs.append((
                correlation_matrix.columns[i],
                correlation_matrix.columns[j],
                correlation_matrix.iloc[i, j]
            ))
    
    corr_pairs.sort(key=lambda x: abs(x[2]), reverse=True)
    
    for var1, var2, corr in corr_pairs[:3]:
        print(f"  • {var1} ↔ {var2}: {corr:.3f}")

In [None]:
# 📊 Distribución de rendimiento
if 'df_exams' in locals():
    print("📊 DISTRIBUCIÓN DE NIVELES DE RENDIMIENTO:")
    
    performance_counts = df_exams['performance_level'].value_counts()
    performance_pct = df_exams['performance_level'].value_counts(normalize=True) * 100
    
    # Crear gráfico de barras
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
    
    # Gráfico de conteo
    performance_counts.plot(kind='bar', ax=ax1, color=['#ff6b6b', '#4ecdc4', '#45b7d1', '#96ceb4'])
    ax1.set_title('📊 Distribución de Niveles de Rendimiento (Conteo)', fontsize=14)
    ax1.set_xlabel('Nivel de Rendimiento')
    ax1.set_ylabel('Número de Estudiantes')
    ax1.tick_params(axis='x', rotation=45)
    
    # Gráfico circular
    performance_pct.plot(kind='pie', ax=ax2, autopct='%1.1f%%', 
                        colors=['#ff6b6b', '#4ecdc4', '#45b7d1', '#96ceb4'])
    ax2.set_title('🥧 Distribución de Niveles de Rendimiento (%)', fontsize=14)
    ax2.set_ylabel('')
    
    plt.tight_layout()
    plt.show()
    
    print("\n📈 RESUMEN DE RENDIMIENTO:")
    for level in performance_counts.index:
        count = performance_counts[level]
        pct = performance_pct[level]
        print(f"  • {level}: {count} estudiantes ({pct:.1f}%)")

In [None]:
# 📊 Comparación de puntuaciones por género
if 'df_exams' in locals():
    print("👫 COMPARACIÓN DE PUNTUACIONES POR GÉNERO:")
    
    fig, axes = plt.subplots(2, 2, figsize=(15, 12))
    
    # Boxplot para cada materia
    subjects = ['math score', 'reading score', 'writing score']
    colors = ['#ff6b6b', '#4ecdc4', '#45b7d1']
    
    for i, (subject, color) in enumerate(zip(subjects, colors)):
        row = i // 2
        col = i % 2
        
        sns.boxplot(data=df_exams, x='gender', y=subject, ax=axes[row, col], palette=[color, color])
        axes[row, col].set_title(f'📊 {subject.title()} por Género', fontsize=12)
        axes[row, col].set_xlabel('Género')
        axes[row, col].set_ylabel('Puntuación')
    
    # Gráfico de promedio general
    sns.boxplot(data=df_exams, x='gender', y='average_score', ax=axes[1, 1], palette=['#96ceb4', '#96ceb4'])
    axes[1, 1].set_title('📊 Promedio General por Género', fontsize=12)
    axes[1, 1].set_xlabel('Género')
    axes[1, 1].set_ylabel('Puntuación Promedio')
    
    plt.tight_layout()
    plt.show()

## 🎯 Conclusiones y Próximos Pasos

### 🏆 Lo que hemos aprendido:

1. **🔧 Configuración**: Cómo instalar e importar las librerías esenciales
2. **🏗️ Creación de DataFrames**: Múltiples métodos para crear estructuras de datos
3. **🔍 Exploración**: Técnicas para entender nuestros datos
4. **🛠️ Manipulación**: Operaciones básicas y filtrado de datos
5. **📈 Análisis**: Técnicas avanzadas de análisis y visualización

### 🚀 Próximos pasos recomendados:

- 📚 **Profundizar en visualizaciones** con Matplotlib y Seaborn
- 🤖 **Explorar machine learning** con Scikit-learn
- 🌐 **Trabajar con APIs** para obtener datos en tiempo real
- 📊 **Crear dashboards interactivos** con Plotly y Dash
- 🗄️ **Conectar con bases de datos** SQL

### 💡 Recursos adicionales:

- [📖 Documentación oficial de Pandas](https://pandas.pydata.org/docs/)
- [🔢 Documentación oficial de NumPy](https://numpy.org/doc/)
- [📊 Galería de Seaborn](https://seaborn.pydata.org/examples/index.html)
- [🎨 Matplotlib Tutorials](https://matplotlib.org/stable/tutorials/index.html)

---

### 🙏 ¡Gracias por seguir esta guía!

¿Tienes preguntas o sugerencias? ¡No dudes en experimentar con el código y crear tus propios análisis! 🚀✨