In [9]:
# --- Conceptos Base: Importación y Creación de Series ---
import pandas as pd
import numpy as np

# --- Ejemplo 1.1: Serie desde una lista (índice por defecto) ---
#! Si solo pasamos una lista, Pandas crea un índice numérico
#! automático (RangeIndex), que empieza en 0.
ventas = pd.Series([150, 200, 180])

print("--- 1.1: Serie con índice por defecto ---")
print(ventas)
#! Una Serie se compone de dos partes: valores e índice
# Los .values son un array de NumPy
print(f"\nValores: {ventas.values}")
# El .index es un objeto de tipo RangeIndex
print(f"Índice: {ventas.index}")


# --- Ejemplo 1.2: Serie con índice personalizado ---
#? ¡Aquí está el poder! Podemos definir nuestras propias etiquetas
# usando el argumento 'index'.
ventas_sucursal = pd.Series(
    [150, 200, 180],
    index=['Sucursal A', 'Sucursal B', 'Sucursal C']
)

print("\n--- 1.2: Serie con índice personalizado ---")
print(ventas_sucursal)


# --- Ejemplo 1.3: Acceso por etiqueta y posición ---
#? Ahora podemos acceder a los datos de dos maneras:
# 1. Por etiqueta (como en un diccionario)
print(f"\nVenta en 'Sucursal B': {ventas_sucursal['Sucursal B']}")

# 2. Por posición (como en una lista/array, usando .iloc)
print(f"Venta en la posición 0: {ventas_sucursal.iloc[0]}")


# --- Ejemplo 1.4: Serie desde un diccionario ---
# Pandas es inteligente: si creas una Serie desde un dict,
# las 'claves' se vuelven el ÍNDICE y los 'valores' se vuelven los DATOS.
poblacion_dict = {'California': 39.5, 'Texas': 29.1, 'Florida': 21.5}
poblacion = pd.Series(poblacion_dict)

print("\n--- 1.4: Serie desde un Diccionario ---")
print(poblacion)


# --- Ejemplo 1.5: Vectorización en Series ---
# Al estar basado en NumPy, Pandas mantiene la vectorización.
# No necesitamos bucles 'for' para hacer matemáticas.
# Ej: Convertir la población de millones a personas
print("\n--- 1.5: Vectorización (Serie * 1,000,000) ---")
print(poblacion * 1000000)

--- 1.1: Serie con índice por defecto ---
0    150
1    200
2    180
dtype: int64

Valores: [150 200 180]
Índice: RangeIndex(start=0, stop=3, step=1)

--- 1.2: Serie con índice personalizado ---
Sucursal A    150
Sucursal B    200
Sucursal C    180
dtype: int64

Venta en 'Sucursal B': 200
Venta en la posición 0: 150

--- 1.4: Serie desde un Diccionario ---
California    39.5
Texas         29.1
Florida       21.5
dtype: float64

--- 1.5: Vectorización (Serie * 1,000,000) ---
California    39500000.0
Texas         29100000.0
Florida       21500000.0
dtype: float64


In [10]:
# --- Ejemplo 2.1: Desde un diccionario de listas (EL MÁS COMÚN) ---
# Esta es la forma más usada para crear un DataFrame a mano.
# Las 'claves' del dict -> Nombres de COLUMNA
# Los 'valores' (listas) -> Datos de la COLUMNA
data = {
    'Nombre': ['Ana', 'Luis', 'Carlos', 'Marta'],
    'Edad': [28, 34, 29, 42],
    'Ciudad': ['Lima', 'Bogotá', 'Madrid', 'Buenos Aires']
}

df_usuarios = pd.DataFrame(data)

print("--- 2.1: DataFrame desde Diccionario de Listas ---")
print(df_usuarios)


# --- Ejemplo 2.2: Atributos .index y .columns ---
# Un DataFrame tiene dos índices: uno para filas y otro para columnas
print(f"\nÍndice de Filas: {df_usuarios.index}")
print(f"Índice de Columnas: {df_usuarios.columns}")


# --- Ejemplo 2.3: Desde una lista de diccionarios ---
# Otra forma común: una lista, donde cada dict es una FILA.
# Pandas infiere las columnas de las claves de los dicts.
data_lista = [
    {'id': 101, 'producto': 'Manzana', 'precio': 1.2},
    {'id': 102, 'producto': 'Naranja', 'precio': 0.8},
    {'id': 103, 'producto': 'Plátano'} # Fíjate que falta el precio
]

df_productos = pd.DataFrame(data_lista)

print("\n--- 2.3: DataFrame desde Lista de Diccionarios ---")
print(df_productos)
# Nota: Pandas automáticamente pone 'NaN' (Not a Number) donde faltaba un valor.


# --- Ejemplo 2.4: Asignando el índice después de crear ---
# A menudo, una columna (como 'id') debe ser el índice de filas.
# Usamos el método .set_index()
print("\n--- 2.4: DataFrame con .set_index('id') ---")
# 'inplace=True' modifica el df_productos original.
# Sin él, solo nos mostraría el resultado pero no lo guardaría.
df_productos.set_index('id', inplace=True)
print(df_productos)

--- 2.1: DataFrame desde Diccionario de Listas ---
   Nombre  Edad        Ciudad
0     Ana    28          Lima
1    Luis    34        Bogotá
2  Carlos    29        Madrid
3   Marta    42  Buenos Aires

Índice de Filas: RangeIndex(start=0, stop=4, step=1)
Índice de Columnas: Index(['Nombre', 'Edad', 'Ciudad'], dtype='object')

--- 2.3: DataFrame desde Lista de Diccionarios ---
    id producto  precio
0  101  Manzana     1.2
1  102  Naranja     0.8
2  103  Plátano     NaN

--- 2.4: DataFrame con .set_index('id') ---
    producto  precio
id                  
101  Manzana     1.2
102  Naranja     0.8
103  Plátano     NaN


In [2]:
%%writefile alumnos.csv
id,nombre,carrera,semestre,promedio
101,Juan,Sistemas,5,8.5
102,Ana,Derecho,3,9.2
103,Pedro,Medicina,8,9.5
104,Maria,Sistemas,3,8.8
105,Luis,2,7.9

Overwriting alumnos.csv


In [15]:

# --- Ejemplo 3.1: Crear un archivo CSV de ejemplo ---
# Usamos un "comando mágico" de Jupyter (%%writefile)
# Esto crea un archivo llamado 'alumnos.csv' en nuestra carpeta
# (No es código de Python, solo funciona en Jupyter/VS Code notebooks)


# --- Ejemplo 3.2: Leer el archivo CSV local ---
# Ahora leemos el archivo que acabamos de crear
df_alumnos = pd.read_csv('alumnos.csv')

print("--- 3.2: DataFrame cargado desde 'alumnos.csv' ---")
print(df_alumnos)


--- 3.2: DataFrame cargado desde 'alumnos.csv' ---
    id nombre   carrera  semestre  promedio
0  101   Juan  Sistemas       5.0       8.5
1  102    Ana   Derecho       3.0       9.2
2  103  Pedro  Medicina       8.0       9.5
3  104  Maria  Sistemas       3.0       8.8
4  105   Luis         2       7.9       NaN


In [12]:
# --- Ejemplo 3.3: Leer un CSV desde una URL ---
# ¡Pandas puede leer archivos directamente de internet!
# Usaremos un dataset famoso: el Titanic.
# --- 1. Importar ---
import pandas as pd
print("Paso 1: Pandas importado.")

# --- 2. Crear la variable
try:
    url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
    df_titanic = pd.read_csv(url)
    print("Paso 2: DataFrame 'df_titanic' CREADO exitosamente.")
except Exception as e:
    print(f"Paso 2: ¡ERROR AL CREAR! El problema es: {e}")

# --- 3. Usar la variable
try:
    print("\n--- 4.1: .head() ---")
    print(df_titanic.head())
    print("Paso 3: ¡Éxito! La celda pudo usar 'df_titanic'.")
except NameError:
    print("\n--- ERROR EN PASO 3 ---")
    print("El 'NameError' persiste. Esto significa que el Paso 2 falló.")

Paso 1: Pandas importado.


Paso 2: DataFrame 'df_titanic' CREADO exitosamente.

--- 4.1: .head() ---
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.100

In [13]:
# --- Ejemplo 4.1: .head() - El primer vistazo ---
# Muestra las primeras 5 filas por defecto
print("--- 4.1: .head() ---")
print(df_titanic.head())


# --- Ejemplo 4.2: .tail() - El último vistazo ---
# Muestra las últimas 5 filas. Podemos pasarle un número.
print("\n--- 4.2: .tail(3) ---")
print(df_titanic.tail(3))


# --- Ejemplo 4.3: .shape (Atributo) - Qué tan grande es ---
# (filas, columnas) -> ¡Sin paréntesis!
print("\n--- 4.3: .shape ---")
print(f"Forma del DataFrame: {df_titanic.shape}")
print(f"Esto significa {df_titanic.shape[0]} filas (pasajeros) y {df_titanic.shape[1]} columnas (variables).")


# --- Ejemplo 4.4: .info() - La Radiografía (¡El más importante!) ---
# Nos da el resumen de columnas, tipos de dato (Dtype) y valores nulos.
print("\n--- 4.4: .info() ---")
df_titanic.info()

# --- Cómo leer .info() ---
# 1. Total de 891 filas (entries).
# 2. 'Age' (Edad) solo tiene 714 valores no-nulos. (891 - 714 = 177 nulos)
# 3. 'Cabin' solo tiene 204 valores no-nulos. (¡Está casi vacía!)
# 4. 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked' son 'object' (texto).
# 5. 'Pclass', 'Age', 'Fare', etc., son numéricos (int64, float64).


# --- Ejemplo 4.5: .describe() - El Resumen Estadístico ---
# Automáticamente toma SOLO las columnas NUMÉRICAS
# y nos da sus estadísticas descriptivas.
print("\n--- 4.5: .describe() ---")
print(df_titanic.describe())

# --- Cómo leer .describe() ---
# - Vemos que el promedio ('mean') de edad ('Age') fue 29.7 años.
# - La persona de mayor edad ('max') tenía 80 años.
# - La tarifa ('Fare') más cara ('max') fue de 512.


# --- Ejemplo 4.6: .columns (Atributo) - Ver solo las columnas ---
# A veces solo quieres una lista de los nombres de las columnas.
print("\n--- 4.6: .columns ---")
print(df_titanic.columns)

--- 4.1: .head() ---
   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.050